Голосовая трансформация в реальном времени и будущее идентичности игроков в онлайн-играх
Воицемод рассказывает о голосовой обработке на основе NPU на устройстве, дизайне, ориентированном на конфиденциальность, и объясняет, почему настраиваемые голоса вскоре могут стать такими же важными для цифровой идентичности, как аватары, скины и имена пользователей.

На протяжении десятилетий игроки настраивали свой облик в виртуальных мирах с помощью аватаров, создателей персонажей, косметики и скинов. Следующим рубежом может стать то, как они будут звучать.
Достижения в области голосовых технологий на базе искусственного интеллекта быстро превращают голос из простого инструмента общения в новый уровень онлайн-идентичности. Будь то ролевые игры в многопользовательских играх, создание образа для прямых трансляций, улучшение доступности или просто выражение индивидуальности, трансформация голоса в реальном времени становится всё более важной частью того, как люди представляют себя в цифровом пространстве.
В центре этих изменений стоят такие компании, как Voicemod, которые превратились из традиционного программного обеспечения для изменения голоса в платформы, ориентированные на работу с голосом на базе искусственного интеллекта, работающие непосредственно на потребительском оборудовании. В этом интервью генеральный директор Voicemod Хайме Босх обсуждает технические основы, лежащие в основе современной трансформации голоса с помощью искусственного интеллекта, растущее значение локальной обработки искусственного интеллекта и то, как партнёрство с такими компаниями, как Qualcomm, помогает трансформировать сложные голосовые модели.

Voicemod часто описывают как платформу для работы с голосом в реальном времени. С технической точки зрения, как на самом деле достигаются эти преобразования голоса? Какую роль играет искусственный интеллект по сравнению с более традиционной обработкой звука?
Хайме Босх, генеральный директор Voicemod: Наш путь начался с цифровой обработки сигналов (DSP), которая очень эффективна для применения фильтров и модификации существующего голоса в реальном времени. ИИ позволяет нам пойти гораздо дальше, изменяя тембр, основной характер или «ДНК» голоса, а не просто накладывая на него эффекты. Это даёт пользователям гораздо больше контроля над их аудиоидентичностью. DSP по-прежнему играет важную роль в нашем слое звукового дизайна, поскольку он лёгкий, надёжный и хорошо подходит для многих случаев использования в реальном времени.
Вы подчёркивали запуск преобразования голоса непосредственно на NPUs и локальном оборудовании. Для разработчиков, которые могут быть незнакомы, что на практике означает «искусственный интеллект на устройстве» и чем он отличается от облачной обработки голоса?
Хайме Босх: Искусственный интеллект на устройстве означает, что все выводы выполняются локально на компьютере пользователя, а не отправляются в облако. На практике это устраняет задержку при обмене данными туда и обратно, позволяет избежать зависимости от подключения и сохраняет конфиденциальность голосовых данных. Для систем реального времени, таких как голос, эти различия имеют решающее значение, поскольку даже небольшие задержки или скачки производительности нарушают работу.
Трансформация голоса в реальном времени вводит строгие ограничения, связанные с задержкой и производительностью. Как система поддерживает низкую задержку, сохраняя при этом выразительные, высококачественные изменения голоса?
Хайме Босх: Мы проектируем весь конвейер с учётом ограничений реального времени, от архитектуры модели до буферизации и обработки звука. Модели оптимизированы для работы с очень маленькими аудиофрагментами со строгими временными бюджетами. В результате преобразования происходят мгновенно, сохраняя при этом чёткость и выразительность.
Благодаря партнёрству с такими компаниями, как Qualcomm, как вы используете NPUs? Какие рабочие нагрузки там разгружаются и как это меняет ситуацию по сравнению с обработкой на CPU или GPU?
Хайме Босх: NPUs особенно хорошо подходят для рабочих нагрузок, связанных с выводом на основе искусственного интеллекта. Запуская эти модели на NPU, мы можем сосредоточить CPU и GPU на игровом процессе и потоковой передаче, сохраняя при этом стабильную производительность. Это позволяет нам запускать более требовательные модели искусственного интеллекта без ущерба для качества, что особенно важно в игровых средах, где важны задержка и системные накладные расходы. Со временем это делает высококачественный голосовой опыт с использованием искусственного интеллекта более практичным на основных потребительских устройствах.
Благодаря недавней интеграции в Elgato Wave Link в качестве встроенных эффектов VST, Voicemod приближается к основному аудиоканалу, а не выступает в качестве отдельного приложения. Что означает этот сдвиг с точки зрения технических возможностей и удобства использования?
Хайме Босх: Приближение к встроенному аудиоканалу важно, потому что это делает трансформацию голоса более естественной внутри инструментов, которые создатели уже используют. С технической точки зрения это упрощает маршрутизацию и делает работу более прямой. С точки зрения пользователя это означает, что создатели могут получить доступ к голосовым эффектам как части своего существующего рабочего процесса, вместо того чтобы рассматривать голос как нечто отдельное, которым им приходится управлять дополнительно.

Исторически такие инструменты, как Voicemod, требовали маршрутизации аудио между несколькими приложениями, но теперь эффекты могут работать изначально в существующих конвейерах. Насколько важно снижение этого трения для более широкого внедрения?
Хайме Босх: Снижение трения — один из наиболее важных факторов более широкого внедрения, потому что люди хотят, чтобы эти возможности были естественными для того места, где они уже общаются. Для стримеров это означает меньше настроек в их рабочем процессе. В более широком смысле это указывает на будущее, где голосовые трансформации могут существовать прямо внутри игрового голосового чата и везде, где происходит онлайн-общение. Именно поэтому мы создали наш SDK — чтобы голос мог существовать внутри платформ и сред, где люди уже общаются.
Для разработчиков игр, что потребуется для интеграции голосовых трансформаций в реальном времени непосредственно в игры или движки? Идём ли мы к тому, что голос станет родной системой игрового процесса?
Хайме Босх: Сейчас мы находимся на том этапе, когда Voicemod интегрируется непосредственно в игры через наш SDK, что является важным сдвигом. Это означает, что разработчики могут начать рассматривать голосовые трансформации как часть естественного игрового процесса, а не как внешний слой. Со временем я думаю, что голос станет более естественной частью систем игрового процесса, особенно в социальных и многопользовательских средах, где общение уже занимает центральное место во взаимодействии игроков.
Видели ли вы новые варианты использования, когда игроки используют голосовые трансформации способами, которые вы изначально не предполагали?
Хайме Босх: Одна из самых интересных тенденций — это то, как игроки используют голос для формирования идентичности и социальной динамики, а не только для развлечения. Мы видим, как люди используют его, чтобы чувствовать себя увереннее, глубже вживаться в роль или участвовать в сообществах, где они могли бы иначе колебаться. У нас даже был один пользователь, который сказал, что использовал Voicemod для восстановления своего голоса после серьёзного заболевания, что говорит о том, насколько личным может быть этот слой. Он стал инструментом присутствия и участия, а не просто эффектов.

Технология искусственного интеллекта для голоса неизбежно вызывает опасения по поводу конфиденциальности, выдачи себя за другое лицо и неправомерного использования. Как Voicemod решает эти проблемы, особенно когда обработка происходит локально на устройстве?
Хайме Босх: Мы подходим к этому с технической и этической точек зрения. Локальная обработка снижает риск раскрытия конфиденциальных голосовых данных, что является важным базовым уровнем для конфиденциальности. Не менее важно то, что все наши модели искусственного интеллекта созданы с использованием данных с разрешения, и Voicemod гордится тем, что получил сертификацию Fairly Trained для своих моделей речи и пения с помощью искусственного интеллекта. Мы считаем, что творческие голосовые технологии должны расширять возможности выражения, уважая при этом права людей, чьи голоса делают эти технологии возможными.
Обработка на устройстве меняет модель конфиденциальности по сравнению с облачными системами искусственного интеллекта? Какие данные, если таковые имеются, покидают машину пользователя?
Хайме Босх: Обработка на устройстве действительно меняет модель конфиденциальности, поскольку в нашем случае трансформация голоса в реальном времени не требует отправки живого аудио в облако для вывода. Это даёт пользователям больше контроля и снижает риски, связанные с централизованной обработкой данных. В то же время я бы не сказал, что обработка на устройстве автоматически лучше в каждой ситуации. И на устройстве, и в облаке системы могут быть подходящими, если они разработаны ответственно и с реальным уважением к конфиденциальности пользователей.
В Voicemod это означает, что нужно чётко понимать, что делает продукт, а что нет. Приложение получает доступ к микрофону для применения голосовых эффектов, выбранных пользователем, и мы не прослушиваем разговоры пользователей. У нас также есть программа улучшения сервиса, которая работает строго на основе согласия. В этих случаях передаются только очень короткие клипы, а не полные разговоры, и этот звук не используется для обучения наших моделей. Для нас принцип прост: пользователи должны понимать, что происходит, сохранять контроль и быть уверенными, что с их данными обращаются ответственно.

По мере развития этой области, какая ответственность ложится на платформы вроде Voicemod в формировании этических стандартов для голосового ИИ в играх?
Хайме Босх: Такие компании, как Voicemod, несут реальную ответственность — не только перед нашими пользователями, но и перед всеми в цепочке создания стоимости ИИ: художниками, разработчиками, более широкой экосистемой. Эта ответственность становится особенно острой с передовыми технологиями, когда законодательство неизбежно появляется позже, чем сама технология. Когда компании с самого начала действуют обдуманно — защищая пользователей, уважая художников, разрабатывая с учётом доверия — они не просто соблюдают будущие правила. Они формируют то, как эти правила будут выглядеть, и устанавливают стандарт, который пользователи и регуляторы в конечном итоге признают в качестве базового ожидания.
В Voicemod эта философия началась с осознанного выбора, когда мы начали обучать наши модели голосового ИИ: вместо того, чтобы собирать данные из интернета, как это делают многие другие, мы наняли голосовых исполнителей и получили лицензионные данные. Это решение сделало нас первой моделью голосового ИИ такого рода, получившей сертификацию Fairly Trained — признание того, что наши обучающие данные соответствуют высочайшим этическим стандартам согласия и компенсации.
Но стандарт не ограничивается тем, как была построена модель. Он охватывает всё, что мы делаем: как мы проектируем наши инструменты, как мы подходим к защите конфиденциальности, как мы думаем об опыте каждого пользователя. Цель проста — люди должны иметь возможность усилить свой голос, создать слой своей идентичности в онлайн-пространствах и получать от этого удовольствие, не задумываясь о том, что мы делаем с их биологическим голосом. Это доверие — не функция. Это основа.
Если смотреть в будущее, как вы видите развитие искусственного интеллекта в области голоса в ближайшие 3–5 лет, особенно с учётом того, что аппаратные средства искусственного интеллекта на устройствах становятся всё более мощными?
Хайме Бош: Голос станет стандартным слоем цифровой идентичности в играх и на интерактивных платформах. По мере совершенствования аппаратного обеспечения преобразования будут более естественными, персонализированными и всегда доступными в режиме реального времени. Со временем управление звучанием станет таким же стандартным, как выбор аватара или скина.

Voicemod CEO Хайме Бош
Автор: Voicemod