Внутри магии машинного обучения, которая управляет ИИ врагов в Arc Raiders

Arc Raiders — один из самых громких хитов последних лет, и сегодняшнее обновление Flashpoint обещает сделать игру ещё лучше. И всё это было сделано при меньшем бюджете, чем можно было бы подумать изначально, по сравнению с самыми крупными блокбастерами на рынке.

Даже беглого взгляда достаточно, чтобы увидеть: враги в Arc Raiders фундаментально отличаются от традиционных игровых ИИ. Они не следуют жёстким шаблонам или прописанному поведению, а вместо этого динамически реагируют на окружающую среду, восстанавливаются после сбоев и иногда оказываются в местах, о которых даже разработчики не подозревали. Это ощущение непредсказуемости — не просто дизайнерский выбор, а результат многолетних исследований в области робототехники, физического моделирования и машинного обучения.

В Embark Studios команда подошла к дизайну врагов с точки зрения системности, рассматривая врагов не столько как анимированных персонажей, сколько как физические сущности, которые должны ориентироваться и выживать в динамическом мире. Это решение привело их непосредственно к исследованиям в области робототехники и обучения с подкреплением, заимствованию методов управления реальными машинами и адаптации их к игровой среде.

Вместо того чтобы полагаться исключительно на традиционные системы ИИ, Arc Raiders сочетает изученное передвижение с деревьями поведения, создавая многоуровневый подход, где само движение становится частью интеллекта.

Мы поговорили с Мартином Сингхом-Бломом, руководителем отдела исследований машинного обучения в Embark Studios, о том, как работают эти системы, о трудностях их внедрения в производство и о том, почему ИИ, управляемый физикой, фундаментально меняет взаимодействие игроков с врагами. Ниже представлена слегка отредактированная расшифровка этого интервью.

Inside the Magic of Machine Learning That Powers Enemy AI in Arc Raiders — изображение 1

Представьтесь и кратко расскажите, о чём был ваш доклад на GDC?

Мартин Сингх-Блом: Меня зовут Мартин Сингх-Блом. Я присоединился примерно в январе или феврале 2019 года, то есть через пару месяцев после основания студии.

Основная идея доклада заключается в том, что физика — очень важная часть Arc Raiders. Когда вы стреляете в дронов или врагов, они реагируют правильно, и большая часть игрового процесса основана на возникающих взаимодействиях. Например, вы можете выстрелить во врага в стену, и он получит дополнительный урон и взорвётся от столкновения со стеной, а не от вашего дробовика.

Мы с самого начала знали, что хотим такого игрового процесса, потому что он обеспечивает высокую реиграбельность. Мы также хотели, чтобы врагами были четвероногие роботы, большие роботы, которые ходят и физически взаимодействуют с миром.

Если вы хотите этого, вы столкнётесь с теми же проблемами, что и в робототехнике. Даже если ваш робот смоделирован, это всё равно физический робот, который должен двигаться и балансировать. Поэтому нам пришлось обратиться к литературе по робототехнике и взять их методы управления реальными роботами, внедрить их в нашу игру и заставить работать на нас.

Большая часть доклада была посвящена тому, с какими проблемами мы столкнулись, в чём они схожи с робототехникой, а в чём отличаются. Например, роботы могут использовать камеры, но мы не можем этого сделать, потому что это потребует рендеринга на сервере, что слишком дорого. В то же время мы можем использовать читы — настоящие роботы не могут использовать магические силы, которые поднимают их, когда они начинают падать, но мы можем.

И большая часть доклада посвящена обучению с подкреплением, которое является методом глубокого обучения, используемым в робототехнике. Так что часть доклада была посвящена знакомству с этим методом, а часть — о трудностях его применения в игре.

Что делает врагов в Arc Raiders такими непохожими на традиционных ИИ?

Мартин Сингх-Блом: Я думаю, что не всё это напрямую связано с работой в области робототехники, но почти всё вытекает из решения сделать всё физическим.

В традиционной системе анимации вы всегда знаете, где находится враг. Нет гибкости. Если вы столкнётесь с ним, он не отреагирует, потому что просто воспроизводит анимацию. Но поскольку мы решили использовать физику, мы не всегда знаем, где будет находиться враг. Если вы бросите в него что-нибудь, его может сбить с пути, и он окажется в другом месте.

Это заставляет нас проектировать все системы гораздо более гибкими. Строгий поиск пути, который вы могли бы использовать в других играх, больше не работает.

Так что игроки воспринимают интеллект как частично основанный на том, что враги действуют в реальном мире с теми же степенями свободы, что и реальные объекты, и частично на том, что они с самого начала спроектированы так, чтобы корректировать себя и приспосабливаться к этой среде.

Всё остальное, честно говоря, менее волшебно, чем кажется. У нас есть действительно сильная команда ИИ, использующая такие вещи, как утилитарный ИИ, и они потратили много времени на настройку поведения, чтобы оно было последовательным и наказывающим.

Мы не проектируем врагов по шаблонам. Вместо этого мы думаем о том, какие принципы руководят действиями врага и почему. Это заставляет их казаться целеустремлёнными. Это переводит игру от запоминания шаблонов к пониманию поведения.

Inside the Magic of Machine Learning That Powers Enemy AI in Arc Raiders - изображение 2

Почему игра не полагается на традиционные шаблоны врагов или сценарии встреч?

Мартин Сингх-Блом: Мы не можем этого делать из-за физики.

Мы пробовали создавать более традиционные системы поведения, но как только происходит что-то неожиданное, например, врага толкают, эти шаблоны нарушаются.

Всё сводится к физике. Физика добавляет уровень непредсказуемости, который проникает в основы дизайна. Поэтому нам пришлось полностью отказаться от этого подхода.

Как машинное обучение вписывается в общую систему ИИ?

Мартин Сингх-Блом: Часть, связанная с машинным обучением, на самом деле более ограничена, чем думают люди. Она строго для локомоции, например, как робот ставит ноги и движется. Это очень сложная задача, и традиционные методы плохо работают для шагающих роботов, поэтому нам пришлось пойти в область исследований и использовать обучение с подкреплением.

Для дронов это не нужно, поскольку мы можем использовать традиционные системы управления, как в реальных дронах. Но для шагающих роботов мы не нашли другого работающего способа.

Как только вы переходите к решениям более высокого уровня, например, куда пойти или что делать, это обрабатывается более традиционными системами, такими как деревья поведения.

Есть граница между ними. Например, если перед роботом стоит коробка, дерево поведения может решить, что он хочет двигаться вперёд, но система локомоции решает, как туда добраться, обойти коробку или перелезть через неё.

По мере улучшения моделей мы можем перенести больше принятия решений на сторону машинного обучения. Вот где это становится интересным, потому что робот может начать принимать собственные решения, например, протиснуться в пространство или перепрыгнуть через что-то, и это создаёт более неожиданные ситуации для игроков.

Можете рассказать о примерах эмерджентного поведения и неожиданных результатах, которые вы видели?

Мартин Сингх-Блом: Мы видели ситуации, когда враги оказывались в местах, которых мы совсем не ожидали.

Был ролик внутри компании, где кто-то показал прыгуна внутри купола, а мы даже не знали, что он туда может попасть. Мы понятия не имеем, как он туда попал. Может быть, его туда толкнули взрывом, может быть, он протиснулся; трудно сказать.

Но когда у вас миллионы игроков, события один на миллион случаются постоянно. И эти моменты действительно забавны для нас, потому что они показывают, что система демонстрирует поведение, которое мы не проектировали явно.

В сети было много разговоров о том, насколько умными и изощрёнными являются враги, и многие игроки предполагают, что они буквально учатся и развиваются, адаптируясь к привычкам игроков с течением времени. Это правда?

Мартин Сингх-Блом: Абсолютно верно, что они кажутся умнее и разрабатывают новые тактики, но механизм не тот, о котором думают люди.

Мы не занимаемся онлайн-обучением или чем-то подобным. На самом деле происходит то, что мы видим что-то интересное, возможно, в видео на YouTube, и тогда мы решаем, что хотим большего такого поведения.

Поэтому мы создаём контролируемые сценарии обучения, которые поощряют это. Вместо того чтобы тренироваться на одной фиксированной установке, мы рандомизируем такие вещи, как размещение объектов, чтобы поведение стало более надёжным.

Если бы мы тренировались только на реальных игровых данных, поведение могло бы нарушиться, если бы что-то изменилось на уровне. Контролируя среду обучения, мы делаем её более стабильной и более обобщаемой.

Почему такой подход раньше не получил широкого распространения в играх?

Мартин Сингх-Блом: Потому что это чрезвычайно сложно.

Вы работаете на переднем крае исследований в области робототехники, и это занимает годы. Мы почти несколько раз вырезали систему, потому что она не соответствовала нашему уровню качества. Было много дискуссий о том, стоит ли её оставить. Анимация в некоторых моментах выглядела недостаточно хорошо, и это было настоящим риском.

То, что поддерживало жизнь игры, — это ценность возникающего геймплея. Геймдизайнеры действительно верили в него. В конце концов, мы внедрили метод, называемый adversarial motion priors, и это значительно улучшило качество. Именно тогда мы почувствовали уверенность в том, что будем продолжать работу над этим.

Но всё равно потребовалась команда из пяти-десяти человек, работавших годами, чтобы довести её до этого уровня.

Какие области вы больше всего хотите исследовать дальше?

Мартин Сингх-Блом: Одна интересная область — это восприятие.

Раньше у нас была система видения, которая не могла работать в помещениях. Это была в основном сетка над роботом, которая измеряла высоту поверхности, что работало на открытом воздухе, но ломалось в помещении.

Когда мы улучшили её, враги внезапно получили возможность перемещаться по внутренним пространствам, что изменило их поведение и открыло новые возможности. Также есть большой потенциал в расширении возможностей существующих врагов. Маленькие и быстрые враги, такие как прыгуны, особенно интересны, потому что их движение — это большая часть их поведения.

А ещё есть долгосрочная идея объединить это с системами разрушения. Мы экспериментировали с этим, и это работает, но это потребует серьёзных изменений в игре, поэтому в настоящее время это не в дорожной карте.

Inside the Magic of Machine Learning That Powers Enemy AI in Arc Raiders - изображение 3

Мартин Сингх-Блом, руководитель исследований в области машинного обучения в Embark Studios

Интервью проведено Дэвидом Джагно

Вы поклонник того, что мы делаем здесь, в 80 Level? Тогда обязательно установите нас в качестве предпочтительного источника в Google чтобы видеть больше нашего контента в вашей ленте.