Generazione e Valutazione di Giochi Multi-Agente tramite Registrazioni Audio-Visive
Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings
August 1, 2025
Autori: Alexia Jolicoeur-Martineau
cs.AI
Abstract
Mentre l'IA eccelle nella generazione di testo, audio, immagini e video, la creazione di contenuti audiovisivi interattivi come i videogiochi rimane una sfida. Gli attuali LLM possono generare giochi e animazioni in JavaScript, ma mancano di metriche di valutazione automatizzate e faticano con contenuti complessi che normalmente richiedono team di esseri umani che lavorano per molti mesi (multi-shot, multi-agenti) utilizzando asset creati da artisti. Per affrontare questi problemi, abbiamo sviluppato una nuova metrica e un sistema multi-agente.
Proponiamo AVR-Eval, una metrica relativa per la qualità dei contenuti multimediali che utilizza registrazioni audiovisive (AVR). Un modello omni-modale (che elabora testo, video e audio) confronta le AVR di due contenuti, con un modello di testo che revisiona le valutazioni per determinare la superiorità. Dimostriamo che AVR-Eval identifica correttamente i contenuti buoni da quelli rotti o non corrispondenti.
Abbiamo costruito AVR-Agent, un sistema multi-agente che genera codice JavaScript da una banca di asset multimediali (audio, immagini, modelli 3D). L'agente di codifica seleziona gli asset rilevanti, genera più codici iniziali, utilizza AVR-Eval per identificare la versione migliore e la migliora iterativamente attraverso il feedback omni-modale dell'agente basato sull'AVR.
Abbiamo condotto esperimenti su giochi e animazioni con AVR-Eval (tasso di vittoria del contenuto A contro B). Scopriamo che i contenuti generati da AVR-Agent hanno un tasso di vittoria significativamente più alto rispetto ai contenuti creati attraverso la generazione one-shot. Tuttavia, i modelli faticano a sfruttare efficacemente asset personalizzati e feedback AVR, mostrando nessun aumento del tasso di vittoria. Ciò rivela un divario critico: mentre gli esseri umani beneficiano di asset di alta qualità e feedback audiovisivi, gli attuali modelli di codifica non sembrano utilizzare queste risorse in modo altrettanto efficace, evidenziando differenze fondamentali tra gli approcci di creazione di contenuti umani e macchina.
English
While AI excels at generating text, audio, images, and videos, creating
interactive audio-visual content such as video games remains challenging.
Current LLMs can generate JavaScript games and animations, but lack automated
evaluation metrics and struggle with complex content that normally requires
teams of humans working for many months (multi-shot, multi-agents) using assets
made by artists. To tackle these issues, we built a new metric and a
multi-agent system.
We propose AVR-Eval, a relative metric for multimedia content quality using
Audio-Visual Recordings (AVRs). An omni-modal model (processing text, video,
and audio) compares the AVRs of two contents, with a text model reviewing
evaluations to determine superiority. We show that AVR-Eval properly identifies
good from broken or mismatched content.
We built AVR-Agent, a multi-agent system generating JavaScript code from a
bank of multimedia assets (audio, images, 3D models). The coding agent selects
relevant assets, generates multiple initial codes, uses AVR-Eval to identify
the best version, and iteratively improves it through omni-modal agent feedback
from the AVR.
We run experiments on games and animations with AVR-Eval (win rate of content
A against B). We find that content generated by AVR-Agent has a significantly
higher win rate against content made through one-shot generation. However,
models struggle to leverage custom assets and AVR feedback effectively, showing
no higher win rate. This reveals a critical gap: while humans benefit from
high-quality assets and audio-visual feedback, current coding models do not
seem to utilize these resources as effectively, highlighting fundamental
differences between human and machine content creation approaches.