Генерация и оценка игр с участием множества агентов с использованием аудиовизуальных записей
Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings
August 1, 2025
Авторы: Alexia Jolicoeur-Martineau
cs.AI
Аннотация
Хотя ИИ преуспевает в генерации текста, аудио, изображений и видео, создание интерактивного аудиовизуального контента, такого как видеоигры, остается сложной задачей. Современные языковые модели (LLM) могут генерировать игры и анимации на JavaScript, но им не хватает автоматизированных метрик оценки, и они испытывают трудности с созданием сложного контента, который обычно требует работы команд людей в течение многих месяцев (многошаговые, многоагентные процессы) с использованием ресурсов, созданных художниками. Для решения этих проблем мы разработали новую метрику и многоагентную систему.
Мы предлагаем AVR-Eval — относительную метрику качества мультимедийного контента, использующую аудиовизуальные записи (AVR). Омни-модальная модель (обрабатывающая текст, видео и аудио) сравнивает AVR двух контентов, а текстовая модель анализирует оценки, чтобы определить превосходство. Мы показываем, что AVR-Eval корректно отличает качественный контент от нерабочего или несогласованного.
Мы создали AVR-Agent — многоагентную систему, генерирующую код на JavaScript из базы мультимедийных ресурсов (аудио, изображения, 3D-модели). Кодирующий агент выбирает подходящие ресурсы, генерирует несколько начальных версий кода, использует AVR-Eval для определения лучшей версии и итеративно улучшает её с помощью омни-модальной обратной связи от AVR.
Мы провели эксперименты с играми и анимациями, используя AVR-Eval (процент побед контента A против B). Мы обнаружили, что контент, созданный AVR-Agent, имеет значительно более высокий процент побед по сравнению с контентом, сгенерированным в одношаговом режиме. Однако модели испытывают трудности с эффективным использованием пользовательских ресурсов и обратной связи от AVR, не показывая более высокого процента побед. Это выявляет критический пробел: хотя люди извлекают пользу из высококачественных ресурсов и аудиовизуальной обратной связи, текущие модели кодирования, похоже, не используют эти ресурсы столь же эффективно, что подчеркивает фундаментальные различия между подходами к созданию контента у людей и машин.
English
While AI excels at generating text, audio, images, and videos, creating
interactive audio-visual content such as video games remains challenging.
Current LLMs can generate JavaScript games and animations, but lack automated
evaluation metrics and struggle with complex content that normally requires
teams of humans working for many months (multi-shot, multi-agents) using assets
made by artists. To tackle these issues, we built a new metric and a
multi-agent system.
We propose AVR-Eval, a relative metric for multimedia content quality using
Audio-Visual Recordings (AVRs). An omni-modal model (processing text, video,
and audio) compares the AVRs of two contents, with a text model reviewing
evaluations to determine superiority. We show that AVR-Eval properly identifies
good from broken or mismatched content.
We built AVR-Agent, a multi-agent system generating JavaScript code from a
bank of multimedia assets (audio, images, 3D models). The coding agent selects
relevant assets, generates multiple initial codes, uses AVR-Eval to identify
the best version, and iteratively improves it through omni-modal agent feedback
from the AVR.
We run experiments on games and animations with AVR-Eval (win rate of content
A against B). We find that content generated by AVR-Agent has a significantly
higher win rate against content made through one-shot generation. However,
models struggle to leverage custom assets and AVR feedback effectively, showing
no higher win rate. This reveals a critical gap: while humans benefit from
high-quality assets and audio-visual feedback, current coding models do not
seem to utilize these resources as effectively, highlighting fundamental
differences between human and machine content creation approaches.