Dotés d’une mémoire, les réseaux de neurones artificiels renaissent

A la fin des années 1980, l’ambiance est plutôt bonne dans les laboratoires qui s’intéressent à une nouvelle manière de rendre les programmes informatiques intelligents. Aux Etats-Unis, en France, en Suisse ou au Japon, on s’enthousiasme des prouesses et perspectives des réseaux de neurones artificiels, inventés quarante ans plus tôt.

« On publiait rapidement, ce qui est le charme des sujets émergents », se rappelle Gérard Dreyfus, aujourd’hui professeur émérite à l’ESPCI ParisTech, qui avait déjà connu une telle excitation lorsqu’il s’intéressait à des composants électroniques miniatures quelques années plus tôt. Il sera l’un des leaders des deux équipes françaises pionnières dans le domaine.

« C’était riche de discuter avec des physiciens, des neuroscientifiques, des statisticiens, des mathématiciens, des informaticiens… », complète Patrick Gallinari, professeur à Sorbonne Université, à Paris, membre de l’équipe française concurrente, dirigée par Françoise Soulié-Fogelman.

« L’équipe aux Bell Labs était fabuleuse. Je me retrouvais entre les mathématiques pures, incarnées par Vladimir Vapnik, et la physique à la main de John Denker, qui avait un côté Richard Feynman », ajoute Léon Bottou, formé en France mais recruté rapidement par le célèbre laboratoire américain. Entré à l’Ecole polytechnique en 1984, Léon Bottou fait ses premières armes de programmeur sur l’ordinateur VAX 8600 de 48 Mo de mémoire de l’école d’ingénieurs. Il s’essaie à la reconnaissance d’écriture par réseaux de neurones en dessinant lui-même à la souris des centaines de lettres pour se constituer une base de données d’apprentissage. Le système ajuste ses paramètres à partir d’exemples avant d’être appliqué à des situations nouvelles.

« Ils nous ont piqué les meilleurs ! »

En 1987, pour son stage de fin d’année, Léon Bottou pousse la porte du laboratoire dans lequel l’une des futures vedettes du domaine, Yann LeCun, vient d’arriver auprès de Françoise Soulié-Fogelman. Ils ont pour point commun de programmer sur la même machine, un Amiga 1000, sorti en 1985 avec 256 Ko de mémoire. Qui plus est dans le langage LISP, inventé par John McCarthy, qui fut l’un des pionniers de l’intelligence artificielle première version. Celle qui effacera durant les années 1960-1970 les réseaux de neurones…

Il entame sa thèse avec Françoise Soulié-Fogelman. Sans trop y croire au début, la petite équipe, complétée de Patrick Gallinari, demande des financements européens et en obtient trois ! « Quand on a déménagé sur le campus d’Orsay, nous avions, grâce à ces contrats, plus de puissance de calcul que tout le campus ! », se souvient Léon Bottou. Il suit alors Yann LeCun à Toronto pour un stage pendant l’été 1988 avant de finir sa thèse et de rejoindre son collègue, cette fois aux Bell Labs, recruté par le physicien Larry Jackel, qui avait fait de même avec Yann LeCun un an plus tôt. « Ils nous ont piqué les meilleurs ! », s’amuse Françoise Soulié-Fogelman, qui avait elle-même des vues sur un brillant Russe, Vladimir Vapnik, pris par Larry Jackel…

« L’ambiance intellectuelle à Bell Labs était incroyable, les ambitions scientifiques sans limites, les moyens matériels immenses. J’avais un ordinateur Sun4 pour moi tout seul, identique à celui de l’université de Toronto, où j’avais fait mon post-doc, qui était partagé par 30 personnes ! », ajoute Yann LeCun, qui avait suivi le même parcours en éclaireur et qui est aujourd’hui à la fois professeur à l’université de New York et directeur du laboratoire d’intelligence artificielle de Facebook.

Défis techniques

Il n’est pas le seul de ce groupe fondé par le physicien Larry Jackel à avoir eu un tel succès. Facebook accueillera, outre Yann LeCun, Léon Bottou et Vladimir Vapnik. La Française Isabelle Guyon deviendra célèbre, outre ses apports à l’apprentissage machine, pour son implication dans l’organisation de défis techniques autour desquels s’affronteront les meilleures équipes du monde.

Quant au chercheur Yoshua Bengio, que nous retrouverons plus loin dans cette histoire, il restera dans le monde académique pour diriger, à Montréal, la plus grande concentration mondiale de chercheurs et contribuer à développer l’écosystème québécois. D’autres iront chez Microsoft…

C’est aussi le temps des premières conférences, signe de l’émergence d’une nouvelle communauté qui commence à grossir et à faire connaissance.

Larry Jackel est revenu impressionné de son séjour, en mars 1985, à l’Ecole de physique des Houches (Haute-Savoie). Il importe ce concept aux Etats-Unis dès l’année suivante, dans la station de ski de Snowbird (Utah), avec exposés le matin, ski l’après-midi et nouvelles discussions le soir. De ces échanges passionnés émergera l’idée des conférences NIPS pour Neural Information Processing Systems, dès 1987 à Denver (Colorado). Terry Sejnowski, qui était de la première réunion à Snowbird, en sera le président pendant trente ans et aura vu grossir l’audience de la centaine de personnes à plus de 8 000 en décembre 2017 (dont près de 10 % d’employés de Google !).

Fonctionnement du cerveau humain

Mais, juste avant la première NIPS, la société savante en ingénierie, IEEE (Institute of Electrical and Electronics Engineers), avait organisé à San Diego (Californie), en juin 1987, un congrès international des réseaux de neurones. « Il y avait mille personnes, ce qui est déjà énorme ! », se souvient Patrick Gallinari présent à cet événement précurseur. Même à Paris, c’est l’effervescence : « En 1988, on a fait la première conférence sur le sujet à l’ESPCI. Il y avait tant de monde, plus de 150 personnes, qu’on a dû retransmettre les exposés dans une autre salle », se souvient Gérard Dreyfus.

Les découvertes, avec autant d’esprits brillants et motivés, vont alors s’enchaîner.

Pour rappel, le système de base que tous ces chercheurs étudient évoque le fonctionnement du cerveau humain. C’est un réseau de neurones artificiels, actifs ou passifs selon qu’ils ont été suffisamment stimulés par leurs voisins. Chaque unité fait la somme pondérée des stimuli reçus et s’active si cette somme dépasse un certain seuil. L’enjeu est d’apprendre ces valeurs en entraînant le réseau sur des exemples et en corrigeant ces réponses si besoin est. C’est ce que faisait la première version du Perceptron, à la fin des années 1950.

Pour aller plus loin, plusieurs chercheurs ont eu l’idée d’utiliser plusieurs couches de neurones afin de monter en complexité, les sorties d’une couche devenant l’entrée d’une autre et ainsi de suite. Problème, comment faire apprendre à ces couches la manière dont elles doivent se connecter entre elles ?

« Corrections historiques »

Une des idées-clés est la rétropropagation du gradient, dont les racines se perdent dans les méandres de la bibliographie. Jürgen Schmidhuber, l’un des pionniers et piliers de l’apprentissage automatique, adepte des « corrections historiques », le fait remonter à un Finlandais, Seppo Linnainmaa, dans les années 1970, puis à l’Américain Paul Werbos en 1984. Le gradient est une manière de mesurer un écart, en l’occurrence celui entre le bon résultat et celui fourni par la machine. La rétropropagation consiste à revenir en arrière pour modifier les paramètres, recalculer le résultat et voir son écart par rapport à la valeur cible et ainsi de suite. Cette exploration de l’espace inconnu des paramètres s’apparente à une randonnée brumeuse en montagne vers une vallée : on avance à tâtons en suivant la pente descendante et on s’arrête si ça remonte. Le risque est de tomber sur une « fausse vallée », qui se comporterait comme un fond de relief, mais ne serait pas le point le plus bas.

« Au début des années 1980, David Rumelhart avait essayé et ça ne marchait pas. Selon moi, c’était dû à un bug informatique, explique Yann LeCun. Geoffrey Hinton avait alors convaincu Rumelhart de ne pas persévérer. » Mais Hinton, un des « anciens » du domaine, a changé d’avis lorsque, avec Terry Sejnowski, il a mis au point un autre type de réseaux de neurones qui n’avait pas ce risque de blocage. En outre, Yann LeCun, pour sa thèse de 1987, avait développé son propre algorithme de correction d’erreurs et donc d’apprentissage des poids, dont il avait pu faire la démonstration au duo Hinton-Sejnowski lors de leur contact à l’Ecole des Houches en 1984.

L’un des verrous de l’apprentissage était levé. En 1988, Terry Sejnowski publie son premier réseau de neurones capables de lire à haute voix de l’anglais. En 1989, Dean Pomerleau, à l’université Carnegie Mellon (Pennsylvanie), fait rouler une première voiture autonome sur route.

Apprentissage par renforcement

Simultanément, désormais aux Bell Labs, Yann LeCun fait une autre percée, elle aussi inspirée de la biologie et du système visuel. Pour la reconnaissance d’images, il devient vite coûteux en temps de calcul de prendre chaque valeur du pixel d’une image en entrée du réseau de neurones. Il utilise donc une procédure mathématique, la convolution, qui « filtre » l’image et réduit le nombre d’entrées. Mais cela suffit pour que chaque couche compose sa propre représentation de l’image, de plus en plus abstraite lorsqu’on s’enfonce dans ce réseau. C’est ainsi que, à la fin des années 1980, les réseaux LeNet1, LeNet2… jusqu’à LeNet5 sont entraînés à reconnaître les chiffres manuscrits.

L’autre innovation décisive pour les applications futures viendra dix ans plus tard de Suisse, en 1997. Dans leur havre de Lugano, Juergen Schmidhuber et son étudiant Sepp Hochreiter inventent un nouveau type de réseau qu’ils publient dans un article qui deviendra l’un des plus cités dans le domaine. Ils dotent un réseau de neurones d’une mémoire, en plus de ses capacités de calcul. Dans un réseau de neurones classique, des stimuli sont envoyés à une couche de neurones, qui elle-même s’active et émet de nouveaux stimuli vers la couche suivante et ainsi de suite jusqu’à la dernière couche. Mais lorsqu’on recommence l’opération avec d’autres stimuli, les neurones ont « oublié » ce qu’ils ont vu précédemment. Quand on montre une image de chat, puis une image de chien, le réseau n’a que faire de l’animal qu’il a vu précédemment pour répondre.

Une nouvelle technique, elle aussi inspirée de la biologie, consiste à traduire en équations ce qu’un humain fait souvent : apprendre de ses erreurs

L’invention des deux Allemands consiste à dire que l’état des neurones dépend non seulement des stimuli reçus mais aussi de ceux des étapes précédentes. Des connexions « retour » sont possibles. C’est évidemment bien plus proche du fonctionnement de notre cerveau. Facile à concevoir, pas forcément à réaliser. Mais Sepp Hochreiter a réussi à éviter des écueils mathématiques et à faire apprendre à son réseau baptisé LSTM, pour Long Short Term Memory. Les LSTM sont notamment à la base des systèmes de reconnaissance vocale ou de traduction puisque, pour bâtir des phrases correctes, il vaut mieux avoir la mémoire de ce qui précède… « 30 % de la puissance de calcul de Google sert à alimenter des LSTM », aime à dire Juergen Schmidhuber.

Enfin, un autre groupe met au point la technique qui sera à l’origine du succès, trente ans plus tard, de la victoire du programme AlphaGo vainqueur d’un champion du monde de go en 2016 : l’apprentissage par renforcement. Elle est, elle aussi, inspirée par la biologie et consiste à traduire en équations ce qu’un humain fait souvent, apprendre de ses erreurs. Au lieu de trouver les variables du réseau de neurones en minimisant une erreur de prédiction, on « récompense » ou « punit » le système en fonction de la réponse. Ses promoteurs, cités en référence dans l’article de DeepMind (filiale de Google) détaillant les secrets d’AlphaGo, sont notamment Richard Sutton, Satinder Singh et David McAllester. Ils étaient tous les trois membres d’un second groupe d’apprentissage machine aux Bell Labs, installé 50 kilomètres au nord de celui de Larry Jackel, Yann LeCun et Léon Bottou.

Les Bell Labs sont décidément un endroit-clé dans cette histoire. C’est aussi là que naîtra une autre technique qui ne sera pas pour rien dans un nouvel hiver pour le domaine, dix ans à peine après l’arrivée de ce printemps.

Par David Larousserie