Geração e Avaliação de Jogos Multiagente por meio de Gravações Áudio-Visuais
Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings
August 1, 2025
Autores: Alexia Jolicoeur-Martineau
cs.AI
Resumo
Embora a IA se destaque na geração de texto, áudio, imagens e vídeos, a criação de conteúdo audiovisual interativo, como videogames, ainda é um desafio. Os LLMs atuais podem gerar jogos e animações em JavaScript, mas carecem de métricas de avaliação automatizadas e enfrentam dificuldades com conteúdo complexo que normalmente exige equipes humanas trabalhando por muitos meses (multi-shot, multi-agentes) utilizando recursos criados por artistas. Para abordar essas questões, desenvolvemos uma nova métrica e um sistema multi-agente.
Propomos o AVR-Eval, uma métrica relativa para a qualidade de conteúdo multimídia utilizando Gravações Áudio-Visuais (AVRs). Um modelo omni-modal (que processa texto, vídeo e áudio) compara as AVRs de dois conteúdos, com um modelo de texto revisando as avaliações para determinar a superioridade. Mostramos que o AVR-Eval identifica corretamente o conteúdo bom em relação ao quebrado ou desalinhado.
Construímos o AVR-Agent, um sistema multi-agente que gera código JavaScript a partir de um banco de recursos multimídia (áudio, imagens, modelos 3D). O agente de codificação seleciona os recursos relevantes, gera múltiplos códigos iniciais, usa o AVR-Eval para identificar a melhor versão e a melhora iterativamente por meio de feedback omni-modal do agente a partir da AVR.
Realizamos experimentos com jogos e animações utilizando o AVR-Eval (taxa de vitória do conteúdo A contra B). Descobrimos que o conteúdo gerado pelo AVR-Agent tem uma taxa de vitória significativamente maior em comparação com o conteúdo gerado por geração one-shot. No entanto, os modelos têm dificuldade em aproveitar efetivamente recursos personalizados e feedback AVR, não mostrando uma taxa de vitória maior. Isso revela uma lacuna crítica: enquanto os humanos se beneficiam de recursos de alta qualidade e feedback audiovisual, os modelos de codificação atuais não parecem utilizar esses recursos de forma tão eficaz, destacando diferenças fundamentais entre as abordagens de criação de conteúdo humano e máquina.
English
While AI excels at generating text, audio, images, and videos, creating
interactive audio-visual content such as video games remains challenging.
Current LLMs can generate JavaScript games and animations, but lack automated
evaluation metrics and struggle with complex content that normally requires
teams of humans working for many months (multi-shot, multi-agents) using assets
made by artists. To tackle these issues, we built a new metric and a
multi-agent system.
We propose AVR-Eval, a relative metric for multimedia content quality using
Audio-Visual Recordings (AVRs). An omni-modal model (processing text, video,
and audio) compares the AVRs of two contents, with a text model reviewing
evaluations to determine superiority. We show that AVR-Eval properly identifies
good from broken or mismatched content.
We built AVR-Agent, a multi-agent system generating JavaScript code from a
bank of multimedia assets (audio, images, 3D models). The coding agent selects
relevant assets, generates multiple initial codes, uses AVR-Eval to identify
the best version, and iteratively improves it through omni-modal agent feedback
from the AVR.
We run experiments on games and animations with AVR-Eval (win rate of content
A against B). We find that content generated by AVR-Agent has a significantly
higher win rate against content made through one-shot generation. However,
models struggle to leverage custom assets and AVR feedback effectively, showing
no higher win rate. This reveals a critical gap: while humans benefit from
high-quality assets and audio-visual feedback, current coding models do not
seem to utilize these resources as effectively, highlighting fundamental
differences between human and machine content creation approaches.