DATA SCIENTISTS, STATISTICIENS, MATHÉMATICIENS… QUELS SONT LES BESOINS, ET POUR QUELS OBJECTIFS ?

Samya BARKAOUI,
Head of data, TOUCAN TOCO

Benoît BINACHON,
Managing Partner, UMAN PARTNERS

Juvénal CHOKOGOUE,
Auteur & Consultant Big Data

Paris, les 12 et 13 mars 2018 au Palais des congrès de Paris

José DIZ précise que la table ronde portera notamment sur les Data Scientists. Ceux-ci se trouvent parfois affublés d’un titre sans savoir ce que la fonction recoupe. Il s’agit donc de savoir quelle est la réalité du métier, pourquoi il est apparu, quel est son futur, etc. Les échanges avec les intervenants permettront de clarifier les formations existantes pour accéder à de tels postes et les besoins au sein des entreprises.

Samya BARKAOUI se présente. Toucan Toco est une solution de data visualisation et de reporting qui œuvre à la démocratisation de l’accès à la donnée.

Juvénal CHOKOGOUE se présente également. Il est consultant Big Data et auteur de l’ouvrage Hadoop : devenez opérationnel dans le monde du Big Data.

Benoît BINACHON est le cofondateur d’un cabinet de recrutement pour les métiers liés à la data. Auparavant, Benoît BINACHON était le cofondateur de Business Effiscience, vendu à Bearing Point et qui s’appelle désormais Hyper Cube.

José DIZ souhaite expliquer d’abord contexte dans lequel le Big Data est apparu et les compétences qui lui sont attachées.

Juvénal CHOKOGOUE estime que le Big Data n’est pas un phénomène en soi, mais l’expression d’une transition de l’ère industrielle vers l’ère numérique. Ce qui pousse aujourd’hui à la création de nouveaux métiers est le fait que la donnée est le carburant de l’ère numérique.

Samya BARKAOUI convient que de nombreux profils ont vu le jour. Les données sont énormes. Il s’agit de savoir les utiliser. La distinction entre les métiers liés à la date est née.

Benoît BINACHON juge que certains métiers, sciences et technologies existent depuis un certain temps. Jusqu’aux années 2000, il manquait les puissances de calcul permettant de traiter les algorithmes nés dans les années 70. Avec le Big Data, de nouveaux métiers sont apparus en plus grand nombre que par le passé. Le phénomène, apparu il y a un moins de 10 ans, constitue une démocratisation du Big Data au sein des grands groupes dans un premier temps et dans un écosystème afférent dans un second temps.

José DIZ note la démocratisation des métiers liés à la data. Quelle est la différence entre un datamart et le Big Data ?

Juvénal CHOKOGOUE y voit un changement de paradigme. Autrement dit, l’approche conceptuelle utilisée pour appréhender la date n’est plus la même. La question du traitement de la donnée reste, elle, la même. Mais l’approche a changé. Dans les datamarts, les données étaient stockées dans un SGDBR. Ces deniers ne sont pas scalables. Les SGDBR devaient aussi répondre aux demandes des utilisateurs, ce qui créait un goulet d’étranglement. Aujourd’hui, le stockage et le traitement des données sont distribués auprès de plusieurs clusters. Hadoop s’inscrit dans cette logique.

Samya BARKAOUI estime qu’il faut voir les outils et architectures permettant de répondre aux questions et besoins précis. Aujourd’hui, la solution la plus commune est celle d’un cube de données permettant d’effectuer des requêtes de données.

José DIZ souligne que la data doit permettre d’être une aide à la décision. Différents profils existent: data engineer, Data Scientists, mathématiciens, statisticiens, data analysts…

Benoît BINACHON convient de la multiplication des expertises et spécialités. Le sujet de la data implique également le data architect afin de définir les infrastructures. Il existe 3 ou 4 grandes catégories de métiers. Il s’agit par exemple des orchestrateurs de la transformation (ceux capables de parler le langage technique et scientifique d’une part et de comprendre et formuler les besoins des décideurs d’autre part afin de formuler les solutions possibles) ou des experts techniques (qui doivent aussi être capables de communiquer au sein des organisations). Un ensemble de métiers existent donc autour de la donnée. Certains présentent moins d’avenir compte tenu de l’automatisation. Il s’agit par exemple des métiers en lien avec la préparation des données.

Samya BARKAOUI estime que les postes peuvent être vus de manière linéaire. Le data engineer récolte les données, les stocke et les distribue. Le data analyst les récupère, les analyse et en fait des reportings. Le Data Scientist cherche à répondre à des problèmes par des solutions innovantes. Tous sont essentiels. Le data analyst doit avoir le temps de se consacrer sur les problèmes de fond et l’apport de valeur via le traitement des données.

José DIZ s’enquiert du rapprochement avec les métiers. Les collaborateurs de l’infrastructure et de l’applicatif doivent obligatoirement communiquer avec les métiers, ce qui peut poser des problèmes de compréhension et de communication.

Juvénal CHOKOGOUE juge que le débat sur les appellations de postes et leur organisation ne doivent pas faire perdre de vue l’essentiel : les entreprises ont besoin d’avoir un point unique d’accès à l’information et à leurs données. Il peut s’agit d’un datalake ou d’un EDH. Par ailleurs, l’industrialisation de l’analytique est en cours afin de faire parler les données. Ceci permet de suivre la performance des entreprises et d’avoir des éléments supportant la prise de décision. Le data engineer était, par le passé, celui capable de tout faire. Aujourd’hui, il est plus réaliste de former des collaborateurs spécialisés (data engineer, data analyst, etc.) dans une logique d’équipe transdisciplinaire. La communication est parfois négligée au sein des équipes de développement. L’esprit d’équipe est nécessaire afin que cette dernière soit fonctionnelle. Tous les membres de l’équipe doivent pouvoir communiquer entre eux et se comprendre. La dernière compétence clé à maîtriser est le SQL, tout comme la programmation (fonctionnelle ou déclarative).

José DIZ s’enquiert du besoin du rapprochement des équipes informatiques avec les activités des métiers sous l’angle du Big Data.

Benoît BINACHON précise que des mouvements se sont opérés. Jusque 2015, la data était au ban de l’informatique. Aujourd’hui, les équipes informatiques et data se rapprochent dans une nécessaire logique. Les deux se complètent effectivement. Il s’agit toutefois de trouver un vocabulaire commun et définir la mise en boucle des équipes. Pour ce faire, les équipes doivent être réunies dans les mêmes espaces ou être fortement connectées.

José DIZ note que SQL reste un terme technique. Il s’agit de savoir comment le Big Data facilite le quotidien des utilisateurs, tout comme le langage naturel.

Samya BARKAOUI note que plusieurs outils permettent l’utilisation du langage naturel. Il est possible d’accéder à l’information via des visuels et des outils simples.

José DIZ précise que les profils de statisticiens et de mathématiciens n’ont pas été abordés. Quel est leur rôle ?

Benoît BINACHON explique que les Data Scientists ont des origines professionnelles variées. Ils sont parfois d’anciens statisticiens ou mathématiciens. Certains formalismes mathématiques ont profondément changé l’analyse des données. Les mathématiciens et statisticiens ont des compétences pertinentes pour devenir Data Scientists, à condition de savoir se faire comprendre.

José DIZ aborde la CAO.

Benoît BINACHON répond que le rythme de mise en production des concepts s’est accéléré. Le métier du Data Scientist change. La science revient dans les laboratoires des grands groupes et à l’université. Afin de faire fonctionner des solutions « packagées », il est nécessaire de s’appuyer sur des Data Scientists. Ces derniers ne créent plus l’outil, mais connaissent ses modalités de fonctionnement.

José DIZ souhaite savoir si les statisticiens et mathématiciens ont une utilité dans les grandes entreprises à l’heure actuelle.

Juvénal CHOKOGOUE répond qu’il ne fait pas de différences entre statisticiens, mathématiciens, Data Scientists, data analysts, etc. La visée finale est d’obtenir une information pertinente et aiguillant la prise de décision. Les mathématiques et les statistiques sont des supports de valorisation de la donnée. Les mathématiciens ont toute leur place dans les entreprises aujourd’hui, d’autant plus que la période est à la transition. Certaines entreprises sont aujourd’hui dans des modes d’expérimentation et se tournent vers l’avenir. Elles regroupent des équipes multidisciplinaires qui travaillent autour d’un seul objectif commun. Les Data Scientists utilisent les modèles définis par les mathématiciens et les Data Scientists.

Samya BARKAOUI explique que les mathématiciens et statisticiens ont tendance à maîtriser parfaitement un seul langage, R ou Python par exemple. Les Data Scientists jouent avec différents modèles.

José DIZ souhaite savoir si les entreprises doivent recruter, former en interner ou encore faire appel à des prestataires externes pour bénéficier des compétences en Big Data.

Benoît BINACHON juge que la réponse diffère selon la taille et les ambitions de l’entreprise. Les grands groupes cherchent à s’approprier les compétences par du recrutement et par du rachat de start-ups. Pour autant, ils font aussi appel à des compétences externes. Les PME connaissent des difficultés à assumer le coût lié à l’internalisation d’une équipe dédiée. Il s’agit donc d’un créneau pour les entrepreneurs. Le grand groupe recrutant un seul ou deux Data Scientists « juste pour essayer » connaîtra un échec. Il convient de disposer d’une masse critique de Data Scientists afin d’obtenir des résultats probants.

Juvénal CHOKOGOUE constate une tendance au recours au prestataire externe qui vient compléter une équipe interne. Les entreprises connaissent une forme de peur quant au fait de former leurs équipes internes. En effet, ces profils peuvent avoir tendance à quitter l’entreprise une fois formés. Elles recourent donc à des cabinets pour recruter des collaborateurs déjà formés. Les entreprises doivent veiller à ce que leurs équipes maîtrisent les compétences de base pour pouvoir régulièrement actualiser leurs connaissances.

Samya BARKAOUI souligne que toute grande entreprise doit posséder un socle « data ». Outre le fait d’avoir une équipe interne conséquente, il est possible de faire appel à des cabinets de conseil. Ces derniers disposent en effet d’une rapidité d’exécution incomparable.

Un membre de l’assistance s’enquiert de la place des collaborateurs liés à la data dans les entreprises. Une guerre entre les équipes projets et la DSI peut avoir lieu.

Samya BARKAOUI estime que le data engineer est souvent rattaché à la DSI. Les data analyst et les Data Scientists travaillent plutôt avec des équipes projets.

Benoît BINACHON juge que la réponse dépend encore une fois de la taille de l’entreprise. Par ailleurs, il est constaté un rapprochement entre les équipes informatiques et les équipes engineering/data.

Juvénal CHOKOGOUE estime que les équipes projets et data science se rapprocheront nécessairement à terme. Les équipes data peuvent être rattachées aux équipes projets ou à l’équipe informatique.

Partagez cet article