Generación y Evaluación de Juegos Multiagente mediante Grabaciones Audiovisuales
Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings
August 1, 2025
Autores: Alexia Jolicoeur-Martineau
cs.AI
Resumen
Si bien la IA sobresale en la generación de texto, audio, imágenes y videos, la creación de contenido audiovisual interactivo, como videojuegos, sigue siendo un desafío. Los modelos de lenguaje actuales (LLMs) pueden generar juegos y animaciones en JavaScript, pero carecen de métricas de evaluación automatizadas y tienen dificultades con contenido complejo que normalmente requiere equipos humanos trabajando durante muchos meses (multi-shot, multi-agentes) utilizando recursos creados por artistas. Para abordar estos problemas, desarrollamos una nueva métrica y un sistema multi-agente.
Proponemos AVR-Eval, una métrica relativa para evaluar la calidad de contenido multimedia utilizando grabaciones audiovisuales (AVRs). Un modelo omni-modal (que procesa texto, video y audio) compara las AVRs de dos contenidos, con un modelo de texto revisando las evaluaciones para determinar cuál es superior. Demostramos que AVR-Eval identifica correctamente el contenido bueno frente al contenido defectuoso o desajustado.
Construimos AVR-Agent, un sistema multi-agente que genera código JavaScript a partir de un banco de recursos multimedia (audio, imágenes, modelos 3D). El agente de codificación selecciona los recursos relevantes, genera múltiples versiones iniciales del código, utiliza AVR-Eval para identificar la mejor versión y la mejora iterativamente mediante retroalimentación omni-modal del agente basada en la AVR.
Realizamos experimentos en juegos y animaciones con AVR-Eval (tasa de victoria del contenido A frente a B). Encontramos que el contenido generado por AVR-Agent tiene una tasa de victoria significativamente mayor frente al contenido creado mediante generación en una sola pasada. Sin embargo, los modelos tienen dificultades para aprovechar eficazmente los recursos personalizados y la retroalimentación de AVR, mostrando una tasa de victoria no mayor. Esto revela una brecha crítica: mientras que los humanos se benefician de recursos de alta calidad y retroalimentación audiovisual, los modelos de codificación actuales no parecen utilizar estos recursos de manera tan efectiva, destacando diferencias fundamentales entre los enfoques de creación de contenido humano y automático.
English
While AI excels at generating text, audio, images, and videos, creating
interactive audio-visual content such as video games remains challenging.
Current LLMs can generate JavaScript games and animations, but lack automated
evaluation metrics and struggle with complex content that normally requires
teams of humans working for many months (multi-shot, multi-agents) using assets
made by artists. To tackle these issues, we built a new metric and a
multi-agent system.
We propose AVR-Eval, a relative metric for multimedia content quality using
Audio-Visual Recordings (AVRs). An omni-modal model (processing text, video,
and audio) compares the AVRs of two contents, with a text model reviewing
evaluations to determine superiority. We show that AVR-Eval properly identifies
good from broken or mismatched content.
We built AVR-Agent, a multi-agent system generating JavaScript code from a
bank of multimedia assets (audio, images, 3D models). The coding agent selects
relevant assets, generates multiple initial codes, uses AVR-Eval to identify
the best version, and iteratively improves it through omni-modal agent feedback
from the AVR.
We run experiments on games and animations with AVR-Eval (win rate of content
A against B). We find that content generated by AVR-Agent has a significantly
higher win rate against content made through one-shot generation. However,
models struggle to leverage custom assets and AVR feedback effectively, showing
no higher win rate. This reveals a critical gap: while humans benefit from
high-quality assets and audio-visual feedback, current coding models do not
seem to utilize these resources as effectively, highlighting fundamental
differences between human and machine content creation approaches.