Comment IBM veut s'imposer dans les plateformes cloud de data science

Avec Data Science Experience, Big Blue propose un environnement taillé pour expérimenter des modèles de machine learning et les déployer. Il cible data scientists et experts métier.

"Entrez dans la tête d'un data scientist", c'est la promesse que veut tenir IBM avec sa solution Data Science Experience. Lancée en juin 2016, cette plateforme a pour vocation de réunir tous les outils nécessaires pour expérimenter des projets de data science, bâtir des modèles de machine learning puis les déployer. Entre autres solutions open source, Data Science Experience, ou DSX pour les intimes, embarque le framework de calcul Apache Spark et ses bibliothèques d'apprentissage, la plateforme de modélisation H2O, l'environnement de développement intégré (IDE) RStudio et l'outil de travail collaboratif Jupyter Notebooks.

DSX supporte les langages R, Python ou Scala et les librairies associées. Pour s'alimenter en données, la plateforme prend en charge une très grande variété de bases de données qu'elles viennent du monde IBM (DB2, Informix, Netezza, dashDB, Watson Analytics), de l'open source (Hive, Cloudera Impala, MySQL, PostgreSQL) ou de la concurrence (Amazon Redshift, Microsoft Azure et SQL Server, Oracle, Salesforce, Sybase).

Accompagner l'adoption de la data science

La plateforme ne se contente pas de fédérer en un lieu unique des technologies open source. Elle comprend aussi différents outils maison (Cognos, Ilog CPLEX…) de collaboration, de modélisation et de visualisation. "C'est un vrai élément différenciant", estime Zied Abidi, data scientist et data architect senior chez IBM. "Avec DSX, nous répondons au besoin des entreprises de recourir à des technologies open source tout en s'appuyant sur une plateforme qui assure une mise en production." En cela, Big Blue proposerait un environnement capable de s'adapter à différents niveaux de maturité en matière de data science. "Au départ, des collaborateurs expérimentent dans leur coin quelques modèles de machine learning en recourant aux solutions open source puis l'équipe grandit. Des experts métier rejoignent les data scientists. Ils ont besoin d'un cadre pour collaborer, partager des ressources. C'est dans ce contexte que notre plateforme trouve toute sa place", argue Zied Abidi.

"DSX répond à la volonté des entreprises de recourir à des technologies open source tout en s'appuyant sur une plateforme qui assure la mise en production"

DSX a pour but de répondre à deux objectifs principaux. L'environnement est d'abord dessiné pour faciliter le travail quotidien des data scientists dans la préparation des données, la création et le déploiement des modèles, en éliminant les tâches répétitives. "Par exemple, le module Data Refinery prépare la donnée et la transforme, puis Data Catalog gère la gouvernance en attribuant des droits d'accès, en assurant la traçabilité", détaille Zied Abidi. Pour mettre en musique ces processus, DSX fournit un fonds documentaire, composé d'articles et de tutoriels régulièrement mis à jour. La seconde vocation de DSX ? "C'est d'être une plateforme d'entreprise à même de fournir le dimensionnement nécessaire pour passer à l'échelle sur de forte volumétrie", ajoute Zied Abidi.

Le déploiement de Data Science Experience s'effectue sur le cloud public (avec à la clé une version Entreprise proposée à partir de 4 439 euros HT par instance et par mois) ou sur un cloud privé, hébergé sur la propre infrastructure du client. Dans cette seconde configuration dite "Local", sortie en avril 2017, DSX s'appuie sur l'orchestrateur Kubernetes pour gérer les grosses configurations réparties sur plusieurs serveurs.

Des data scientists aux experts métier

DSX offre plusieurs points d'accès. Les data scientists vont y entrer par le code et les experts métier via la construction graphique de modèles par glisser-déposer. Ces derniers n'ont pas besoin de compétences avancées en statistiques ou en langages de programmation. "Il leur suffit de sélectionner un jeu de données et la plateforme choisit le meilleur modèle à appliquer", explique Zied Abidi.

Pour le data scientist d'IBM, les cas d'usage sont sans limite, de la statistique simple jusqu'au deep learning et, ce, dans tous les secteurs d'activité, de la banque au monde de la distribution. "La data science ne se limite pas à l'analyse prédictive. Il y a aussi l'analyse sous contraintes. Les métiers chercheront par exemple à optimiser un process, obtenir une planification optimale dans la supply chain ou pendre les meilleures décisions commerciales possibles", souligne Zied Abidi.

La data science étant en perpétuelle évolution, IBM entend enrichir sa plateforme en permanence. Un volet "tableau de bord" qui permettra de visualiser les résultats en cours de phase d'apprentissage du modèle est par exemple en cours d'intégration. IBM a aussi annoncé en juin dernier le support de DSX par Hortonworks Data Platform (HDP), ce qui lui ouvrira la voie du monde Hadoop.

La concurrence d'Azure ML

Une évolutivité indispensable car Big Blue affronte une vive concurrence sur ce marché des plateformes de data science en mode cloud. De par son approche et ses capacités, Azure Machine Learning (Azure ML) de Microsoft se présente comme son rival le plus sérieux. Lancé deux ans plus tôt, Azure ML entend, lui aussi, démocratiser l'accès à la data science. Son studio permet là encore de développer (sans code) des modèles d'apprentissage machine en associant visuellement, par glisser-déposer, algorithmes et jeux de données. Pour donner davantage d'intelligence au modèle, l'utilisateur peut faire appel à un ensemble d'APIs d'apprentissage automatique répertoriées dans la Cortana Intelligence Gallery (de la traduction automatique à la reconnaissance faciale).

Via cette vision généraliste, Azure ML semble avoir moins de profondeur que DSX. Prenant en charge les langages R et Python, l'environnement combine l'infrastructure Apache Spark, le moteur d'apprentissage TensorFlow et le framework de développement Caffe.

Dernier quadrant magic du Gartner sur les plateformes de data science. © Gartner

Dans son dernier quadrant magique sur les plateformes cloud de data science, Gartner classe IBM parmi les leaders et non Microsoft. Le cabinet d'études salue l'engagement et le soutien d'IBM envers les technologies open source, l'accès qu'il fournit à un large éventail de bases de données et la qualité de ses outils de modélisation. Les clients d'IBM ont, en revanche, exprimé leur insatisfaction à l'égard du support technique. Du côté de Microsoft, Gartner salue la flexibilité et l'évolutivité d'Azure ML, sa capacité à intégrer des sources de données dans le cloud ou en local, le rythme fréquent de ses mises à niveau. En revanche, l'absence de version on-premise et les options de livraison le pénaliseraient. En dépit de l'ancienneté de l'offre de Microsoft, le cabinet pointe un manque de maturité et dénonce l'absence de certains algorithmes et composants.