Actualités / Jeux

Un examen plus approfondi de DeepMind, l'IA Google qui maîtrise StarCraft 2

31 mai 2020 Cette fonctionnalité a été initialement publiée en janvier 2019.

Vous seriez pardonné de supposer que la technologie d'intelligence artificielle de DeepMind a déjà fait ses preuves.

En 2016, le célèbre laboratoire informatique a regardé l'un de ses programmes d'intelligence artificielle faire l'impensable et gagner une partie de Go contre le champion du monde d'alors – et l'être humain – Lee Sedol. La maîtrise de l'ancien jeu de société chinois n'était qu'un exemple de l'apprentissage automatique que DeepMind espère pouvoir éventuellement utiliser pour révolutionner des secteurs comme la science, les soins de santé et l'énergie.

Pour la prochaine étape de ce voyage, DeepMind a tourné son attention vers StarCraft II. La RTS, âgée de sept ans, peut encore être une sensation d'esport, mais ce n'est pas une étape évidente par rapport à Go. Après tout – et avec des excuses à Blizzard – le jeu de stratégie abstrait vieux de 2500 ans est considéré comme représentant un summum de conception de jeu, de profondeur stratégique et de complexité élégante. Mais la chose à propos de Go – et de cet autre grand partenaire d'entraînement de l'IA, les échecs – est qu'il est précisément ordonné et étroitement structuré. Malgré les combinaisons intimidantes de mouvements possibles que ces jeux offrent, leur profondeur n'est pas nécessairement complétée par l'ampleur.

Un RTS multijoueur, en revanche, est un peu plus chaotique. Les meilleurs joueurs professionnels de StarCraft II peuvent atteindre plus de 800 actions significatives de la souris et du clavier par minute. C'est un jeu de stratégie dynamique et erratique joué à la vitesse d'un shmup d'enfer de balles, où une myriade de systèmes d'interaction se bousculent dans un enchevêtrement déconcertant. StarCraft II exige que ses joueurs gèrent l'incertitude et donnent un sens aux environnements spatiaux nuancés. Tout cela représente tout un défi pour une IA.

Vignette YouTube

En tant que tel, DeepMind a construit un programme d'IA nommé AlphaStar, avec un seul but dans la vie: maîtriser le multijoueur compétitif de StarCraft II. En fait, c'est déjà allé en tête-à-tête avec certains des meilleurs joueurs du monde.

C’est pourquoi je me retrouve dans un studio de télévision ad hoc installé au siège de Google au Royaume-Uni. Au cours des dernières semaines, DeepMind – qui appartient à l'alphabet parent de Google – a envoyé AlphaStar se battre contre les estimés pros de Team Liquid, Dario ‘TLO’ Wünsch et Grzegorz ‘MaNa’ Komincz. Maintenant, la société est prête à partager les jeux préenregistrés, et des commentateurs qui n'ont jamais vu les jeux auparavant ont été recrutés pour apporter de l'énergie. Une scène très lisse est mise.

Ce qu'ils sont sur le point de révéler semble important. Il ne s'agit pas seulement de l'IA face à une paire de coéquipiers d'esports. AlphaStar remet en question la notion de compétence dans le jeu. Les ramifications pourraient changer la façon dont les joueurs professionnels humains jouent, comment les futurs titres sont développés et, bien sûr, comment l'IA augmente les capacités humaines dans le monde entier.

DeepMind a commencé par construire un joueur artificiel StarCraft II sans aucun sens du jeu. En effet, le premier programme AI StarCraft II – ou «agent» qu'ils ont conçu ne pouvait même pas comprendre une souris et un clavier, encore moins comprendre des règles ou des stratégies. Mais il a continué à se brancher, à regarder un demi-million de jeux StarCraft humains, à apprendre tout le temps. AlphaStar a imité, expérimenté, échoué et appris. C’est le processus combiné d’apprentissage en profondeur et d’apprentissage par renforcement au cœur de l’offre de DeepMind.

Par BlizzCon 2018 début novembre, AlphaStar avait saisi les règles de la RTS et maîtrisé certaines stratégies de base basées sur des macros. Le 10 décembre, après avoir joué de nombreux matchs contre différentes versions d'elle-même, l'IA avait battu le joueur humain StarCraft le plus accompli de l'équipe DeepMind. Il était temps de remonter le niveau.

Neuf jours plus tard, le manager de Team Liquid, TLO, s'est envolé pour le Royaume-Uni. En tant que joueur professionnel de StarCraft II, il a aligné toutes les différentes races du jeu, mais il est connu comme un joueur Zerg extrêmement compétent. AlphaStar, cependant, s'était concentré sur Protoss vs Protoss pour garder son apprentissage cohérent. Un match contre Protos uniquement contre TLO serait donc un premier test parfait et doux – lancer l'agent de DeepMind contre un expert hors de sa zone de confort.

Voitures sans conducteur: Voici comment Codemasters apprend à l'IA à conduire

Alors que le flux démarre, AlphaStar bat TLO lors du premier match en utilisant un style de jeu tranquillement non conventionnel – refusant de cloisonner une rampe d'étranglement, une approche bien établie compte tenu de la carte sélectionnée. Hors de la porte, l'IA a pris les devants sur les humains et ne semble pas trop soucieuse de danser au rythme de la convention. Pour toute la théorie que les joueurs de StarCraft obsèdent, AlphaStar fait déjà les choses différemment.

Vignette YouTube

L'agent DeepMind doit cependant être aussi humain que possible. Il y a des limites à la vitesse à laquelle il peut interagir, et des concessions pour s'assurer que son approche n'est pas si les jeux abstraits sont rendus injouables. En effet, TLO a fait plus d '«actions par minute» qu'AlphaStar lors de leur premier affrontement, prouvant qu'il n'y a guère de raison de soutenir qu'un avantage de vitesse injuste prévaut.

« J'ai commencé ce match avec beaucoup de confiance », raconte TLO à propos de sa défaite, arborant un sourire confus. Ensuite, le joueur de Team Liquid affirme qu'il a appris de l'expérience, et se sent prêt à battre AlphaStar dans les prochains jeux.

Mais les choses se passent un peu différemment. À chaque tour, AlphaStar change de stratégie. L'IA est toujours implacable, toujours efficace – mais jamais prévisible. TLO est battu 5-0.

DeepMind ne s'était clairement pas retenu. AlphaStar combine en fait cinq agents différents – quelque chose comme une propagation de différentes versions de lui-même. De plus, DeepMind dit qu'AlphaStar a joué environ 200 ans de jeu, un fait que TLO a clairement pris du réconfort. Mais en fait, c'est plus comparable à l'apprentissage humain que vous ne le pensez.

Ces 200 ans incluent tout chaque version d'AlphaStar a appris à se jouer. De même, un joueur StarCraft II avec 500 heures de jeu derrière lui hérite également de l'apprentissage collectif des joueurs qui les ont précédés et de ceux avec lesquels ils se sont battus. Nous sommes tous plus que notre propre expérience; des centaines d'années de plus.

Quoi qu'il en soit, il était temps de relever le défi. MaNa est à la fois un talent et un joueur confiant concentré sur Protoss. Assurément, maintenant AlphaStar rencontrerait son match?

Après cinq défaites consécutives aux mains d'AlphaStar, MaNa semble être à parts égales exaspéré, ravi et fasciné. Comme TLO, il a clairement été pris par surprise. Alors qu'AlphaStar suit les règles du jeu à la lettre, il ne respectera tout simplement pas les stratégies de jeu établies que les joueurs de StarCraft II ont développées collectivement.

Conversation en temps réel: le meilleurs jeux RTS sur PC

MaNa obtient, au moins, une grâce salvatrice pour lui-même, ainsi que pour le public en ce qui concerne l'esport et peut-être l'humanité en général. DeepMind héberge un jeu en direct dans le studio, diffusé des verrues et tout. Et il apparaît que c'est le premier match contre un pro où l'IA de DeepMind a été verrouillée pour utiliser la caméra du joueur. AlphaStar ne voit pas le jeu en tant que tel, mais a déjà été en mesure de comprendre une zone de match entière, plutôt que de le vivre à travers une vue de caméra.

Cette fois, MaNa gagne et est clairement extrêmement soulagée.

Avec les caméras éteintes, il y a un sentiment collectif d’illumination dans le studio temporaire de DeepMind. AlphaStar a peut-être perdu sa dernière bataille, mais un score final de 11-1 en faveur de l'IA a fait trembler les esprits. Et les joueurs professionnels se sentent optimistes et réfléchis.

TLO nous dit que MaNa a déjà pris une tactique qu'il a vue déployer AlphaStar et l'a utilisée dans des jeux du monde réel. Si AlphaStar peut continuer à changer son style de jeu de façon imprévisible, peut-être que les humains peuvent en apprendre de nouvelles approches, tout comme l'IA apprend en observant les humains. Nous pouvons voir surgir de nouvelles théories de jeu perturbatrices dans les esports compétitifs qui n'étaient pas initialement conçus par des organismes biologiques.

Pendant ce temps, l'équipe DeepMind discute avec enthousiasme des implications des joueurs IA hautement compétents sur le développement de jeux. Ils peuvent éventuellement espérer voir leur technologie améliorer les chaînes d'approvisionnement mondiales, les secours en cas de catastrophe et le travail des professionnels de la santé, mais pour l'instant, la notion d'intelligence artificielle à l'échelle humaine joue à tous les jeux. Que pourrait signifier AlphaStar pour les tests de jeu? Ses capacités pourraient-elles non seulement évaluer la validité de conception d'un jeu donné, mais également alimenter le processus créatif? L'IA pourrait-elle réussir à créer des jeux parfaitement équilibrés, sans interférence humaine?

Bouge: Cannon précipite les meilleurs jeux de stratégie sur PC

Peut-être, TLO réfléchit. Mais il souligne qu'un jeu parfaitement équilibré pourrait ne pas être intrinsèquement un bon jeu. Ce sont des imperfections minuscules dans l’équilibrage, après tout, qui ont permis aux joueurs de StarCraft II de construire une bibliothèque si dense de théorie des jeux autour de leur RTS bien-aimé. C'est de là que vient la capacité de flair individuel et de tournures dramatiques du destin.

L'IA pourrait déjà nous améliorer, mais cela ne signifie pas que la perfection est parfaite pour les jeux.