31 mai 2020 Cette fonctionnalité a été initialement publiée en janvier 2019.
Vous seriez pardonné de supposer que la technologie d'intelligence artificielle de DeepMind a déjà fait ses preuves.
En 2016, le célèbre laboratoire informatique a regardé l'un de ses programmes d'intelligence artificielle faire l'impensable et gagner une partie de Go contre le champion du monde d'alors – et l'être humain – Lee Sedol. La maîtrise de l'ancien jeu de société chinois n'était qu'un exemple de l'apprentissage automatique que DeepMind espère pouvoir éventuellement utiliser pour révolutionner des secteurs comme la science, les soins de santé et l'énergie.
Pour la prochaine étape de ce voyage, DeepMind a tourné son attention vers StarCraft II. La RTS, âgée de sept ans, peut encore être une sensation d'esport, mais ce n'est pas une étape évidente par rapport à Go. Après tout – et avec des excuses à Blizzard – le jeu de stratégie abstrait vieux de 2500 ans est considéré comme représentant un summum de conception de jeu, de profondeur stratégique et de complexité élégante. Mais la chose à propos de Go – et de cet autre grand partenaire d'entraînement de l'IA, les échecs – est qu'il est précisément ordonné et étroitement structuré. Malgré les combinaisons intimidantes de mouvements possibles que ces jeux offrent, leur profondeur n'est pas nécessairement complétée par l'ampleur.
Un RTS multijoueur, en revanche, est un peu plus chaotique. Les meilleurs joueurs professionnels de StarCraft II peuvent atteindre plus de 800 actions significatives de la souris et du clavier par minute. C'est un jeu de stratégie dynamique et erratique joué à la vitesse d'un shmup d'enfer de balles, où une myriade de systèmes d'interaction se bousculent dans un enchevêtrement déconcertant. StarCraft II exige que ses joueurs gèrent l'incertitude et donnent un sens aux environnements spatiaux nuancés. Tout cela représente tout un défi pour une IA.
En tant que tel, DeepMind a construit un programme d'IA nommé AlphaStar, avec un seul but dans la vie: maîtriser le multijoueur compétitif de StarCraft II. En fait, c'est déjà allé en tête-à-tête avec certains des meilleurs joueurs du monde.
C’est pourquoi je me retrouve dans un studio de télévision ad hoc installé au siège de Google au Royaume-Uni. Au cours des dernières semaines, DeepMind – qui appartient à l'alphabet parent de Google – a envoyé AlphaStar se battre contre les estimés pros de Team Liquid, Dario ‘TLO’ Wünsch et Grzegorz ‘MaNa’ Komincz. Maintenant, la société est prête à partager les jeux préenregistrés, et des commentateurs qui n'ont jamais vu les jeux auparavant ont été recrutés pour apporter de l'énergie. Une scène très lisse est mise.
Ce qu'ils sont sur le point de révéler semble important. Il ne s'agit pas seulement de l'IA face à une paire de coéquipiers d'esports. AlphaStar remet en question la notion de compétence dans le jeu. Les ramifications pourraient changer la façon dont les joueurs professionnels humains jouent, comment les futurs titres sont développés et, bien sûr, comment l'IA augmente les capacités humaines dans le monde entier.
DeepMind a commencé par construire un joueur artificiel StarCraft II sans aucun sens du jeu. En effet, le premier programme AI StarCraft II – ou «agent» qu'ils ont conçu ne pouvait même pas comprendre une souris et un clavier, encore moins comprendre des règles ou des stratégies. Mais il a continué à se brancher, à regarder un demi-million de jeux StarCraft humains, à apprendre tout le temps. AlphaStar a imité, expérimenté, échoué et appris. C’est le processus combiné d’apprentissage en profondeur et d’apprentissage par renforcement au cœur de l’offre de DeepMind.
Par BlizzCon 2018 début novembre, AlphaStar avait saisi les règles de la RTS et maîtrisé certaines stratégies de base basées sur des macros. Le 10 décembre, après avoir joué de nombreux matchs contre différentes versions d'elle-même, l'IA avait battu le joueur humain StarCraft le plus accompli de l'équipe DeepMind. Il était temps de remonter le niveau.
Neuf jours plus tard, le manager de Team Liquid, TLO, s'est envolé pour le Royaume-Uni. En tant que joueur professionnel de StarCraft II, il a aligné toutes les différentes races du jeu, mais il est connu comme un joueur Zerg extrêmement compétent. AlphaStar, cependant, s'était concentré sur Protoss vs Protoss pour garder son apprentissage cohérent. Un match contre Protos uniquement contre TLO serait donc un premier test parfait et doux – lancer l'agent de DeepMind contre un expert hors de sa zone de confort.
Voitures sans conducteur: Voici comment Codemasters apprend à l'IA à conduire
Alors que le flux démarre, AlphaStar bat TLO lors du premier match en utilisant un style de jeu tranquillement non conventionnel – refusant de cloisonner une rampe d'étranglement, une approche bien établie compte tenu de la carte sélectionnée. Hors de la porte, l'IA a pris les devants sur les humains et ne semble pas trop soucieuse de danser au rythme de la convention. Pour toute la théorie que les joueurs de StarCraft obsèdent, AlphaStar fait déjà les choses différemment.
L'agent DeepMind doit cependant être aussi humain que possible. Il y a des limites à la vitesse à laquelle il peut interagir, et des concessions pour s'assurer que son approche n'est pas si les jeux abstraits sont rendus injouables. En effet, TLO a fait plus d '«actions par minute» qu'AlphaStar lors de leur premier affrontement, prouvant qu'il n'y a guère de raison de soutenir qu'un avantage de vitesse injuste prévaut.
« J'ai commencé ce match avec beaucoup de confiance », raconte TLO à propos de sa défaite, arborant un sourire confus. Ensuite, le joueur de Team Liquid affirme qu'il a appris de l'expérience, et se sent prêt à battre AlphaStar dans les prochains jeux.
Mais les choses se passent un peu différemment. À chaque tour, AlphaStar change de stratégie. L'IA est toujours implacable, toujours efficace – mais jamais prévisible. TLO est battu 5-0.
DeepMind ne s'était clairement pas retenu. AlphaStar combine en fait cinq agents différents – quelque chose comme une propagation de différentes versions de lui-même. De plus, DeepMind dit qu'AlphaStar a joué environ 200 ans de jeu, un fait que TLO a clairement pris du réconfort. Mais en fait, c'est plus comparable à l'apprentissage humain que vous ne le pensez.
Ces 200 ans incluent tout chaque version d'AlphaStar a appris à se jouer. De même, un joueur StarCraft II avec 500 heures de jeu derrière lui hérite également de l'apprentissage collectif des joueurs qui les ont précédés et de ceux avec lesquels ils se sont battus. Nous sommes tous plus que notre propre expérience; des centaines d'années de plus.
Quoi qu'il en soit, il était temps de relever le défi. MaNa est à la fois un talent et un joueur confiant concentré sur Protoss. Assurément, maintenant AlphaStar rencontrerait son match?
Après cinq défaites consécutives aux mains d'AlphaStar, MaNa semble être à parts égales exaspéré, ravi et fasciné. Comme TLO, il a clairement été pris par surprise. Alors qu'AlphaStar suit les règles du jeu à la lettre, il ne respectera tout simplement pas les stratégies de jeu établies que les joueurs de StarCraft II ont développées collectivement.
Conversation en temps réel: le meilleurs jeux RTS sur PC
Cette fois, MaNa gagne et est clairement extrêmement soulagée.
Bouge: Cannon précipite les meilleurs jeux de stratégie sur PC