Comment en finir avec Excel ?

Excel est un merveilleux outil pour travailler avec des données. Il peut pratiquement tout faire. C'est bien le problème.

La presque totalité de nos ordinateurs de bureau et nos laptops sont équipés de Microsoft Excel.

La première version de ce célèbre tableur a été codée au début des années 80. Il succédait à Multiplan (sorti en 1982), qui reprenait les principes du pionnier Visicalc.

Donc, depuis environ 40 ans, on utilise un tableur pour gérer des données. Cette longévité est incroyable, surtout à l'échelle de temps du logiciel dans lequel tout est vite périmé.

Et si les concepts d'Excel résistent aussi bien à l'épreuve du temps, il y a des raisons :

  • Dans Excel, je vois mes données. Elles sont à portée de main. Je peux emmener mes données avec moi, les sauvegarder, ou créer une copie.

  • On peut facilement les manipuler : trier, filtrer, calculer, analyser les données. Et rien n'est plus simple que d'ajouter ou d’enlever une donnée, de l'enrichir (+1 colonne) ou de créer des données calculées.

Et je passe sur tout l'écosystème des graphiques, des tableaux croisés dynamiques, des macro VBA.

On peut pratiquement faire n'importe quelle application avec Excel. Et tout le monde apprend à un moment ou un autre à utiliser l'outil, à l'école ou dans son entreprise.

J'ai vu des applications incroyables développées intégralement avec Excel, jouant parfois un rôle majeur dans le fonctionnement des entreprises.

Jusqu'au jour ou il faut partager les données entre plusieurs personnes...

Lorsque l'entreprise commence à répartir les données dans plusieurs fichiers partagés sur le réseau bureautique interne ou échangés par mail, les limitations d'Excel deviennent concrètes !

Il s'en suit un laborieux travail de maintien de la cohérence pour recopier les données, traiter les ajouts de colonnes et autres fusions de cellules.

Les entreprises qui font face à ces difficultés engagent alors une migration vers une base de données :

  • qui centralise les données en un endroit, "source unique de vérité",

  • et qui gère les accès multiples et concurrents.

Il n'est pas compliqué d'installer une base de données. Ca se fait même en une seule ligne de commande avec Docker. Et c'est souvent gratuit (Postgresql, MySQL, MariaDB, MongoDB, ...).

Ce qui est plus compliqué, c'est d'y organiser ses données de façon à ce qu'elles nous facilitent la vie et répondent à nos questions.

De la donnée à la sagesse

J'aime beaucoup ce schéma publié dans la newsletter "Veille data" de Jonathan Del Hoyo. Il résume bien le chemin parcouru par les entreprises qui sortent d'Excel :

  • "data" : au début on a des données brutes. Des chiffres, des noms de produits, des références, des emails, ...

  • "information" : on classe les données dans des colonnes pour leur donner une signification.

  • "knowledge" : on sait relier les données entre elles. Par exemple :

    • un client a passé des commandes (lien 1) comportant des produits (lien 2) stockés dans des entrepôts (lien 3).

    • Puis : chaque commande génère une facture (lien 4) et correspond à un encaissement sur mon compte bancaire (lien 5).

    • Et encore : chaque produit commandé provient d'un fournisseur (lien 6) auprès de qui il faut demander un approvisionnement (lien 7) qui sera livré dans un entrepôt (lien 8) par un transporteur (lien 9).

A cette étape, on comprend que les liens entre les données comptent autant que les données elles-mêmes.

On atteint la marche à franchir pour laquelle Excel part en vrille.

En basculant vers une base de données, on explicite les liens entre les données. En contrepartie, le moteur de base de données va préserver la cohérence en refusant de casser les liens lorsqu’une modification survient (Non, impossible de supprimer ce client, car il y a encore un contrat en cours avec lui).

Une fois ces liens établis, il devient possible de répondre à des questions plus complexes. Les portes des étapes "insight" et "wisdom" s'ouvrent :

  • Quel est le transporteur à l'origine de la majorité des ruptures de stock ?

  • Peut-on quantifier la saisonnalité de certaines catégories de produits ? L'efficacité d'une campagne de publicité ?

Et là il sera temps ... de retourner sur Excel. Mais cette fois-ci en l'utilisant là où il est le meilleur : pour explorer les données dans la base, et les visualiser sans douter de leur validité.

Et peut être verrez-vous alors apparaître le dessin d’une licorne 🤫

Bonne semaine !

— Hervé

PS : pour les lecteurs Data scientists, le lien vers la newsletter Veille data : http://newsletter.datasama.com/


Si vous aimez cette newsletter et que quelqu’un dans votre entourage pourrait lui aussi l’apprécier, vous pouvez lui partager 👇

Partager

Si vous êtes tombés par hasard sur cette newsletter et que le contenu vous intéresse :