Multi-Agent Spelgeneratie en Evaluatie via Audio-Visuele Opnames
Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings
August 1, 2025
Auteurs: Alexia Jolicoeur-Martineau
cs.AI
Samenvatting
Hoewel AI uitblinkt in het genereren van tekst, audio, afbeeldingen en video's, blijft het creëren van interactieve audiovisuele content zoals videogames een uitdaging. Huidige LLM's kunnen JavaScript-games en animaties genereren, maar hebben gebrek aan geautomatiseerde evaluatiemetrics en worstelen met complexe content die normaal gesproken teams van mensen vereist die maandenlang werken (multi-shot, multi-agents) met assets die door kunstenaars zijn gemaakt. Om deze problemen aan te pakken, hebben we een nieuwe metric en een multi-agent systeem ontwikkeld.
Wij stellen AVR-Eval voor, een relatieve metric voor de kwaliteit van multimedia-content met behulp van Audio-Visuele Opnames (AVR's). Een omni-modale model (dat tekst, video en audio verwerkt) vergelijkt de AVR's van twee contentstukken, waarbij een tekstmodel de evaluaties beoordeelt om de superioriteit te bepalen. We tonen aan dat AVR-Eval correct onderscheid maakt tussen goede en gebroken of niet-overeenkomende content.
We hebben AVR-Agent gebouwd, een multi-agent systeem dat JavaScript-code genereert vanuit een bank van multimedia-assets (audio, afbeeldingen, 3D-modellen). De coderende agent selecteert relevante assets, genereert meerdere initiële codes, gebruikt AVR-Eval om de beste versie te identificeren en verbetert deze iteratief via omni-modale agentfeedback vanuit de AVR.
We voeren experimenten uit met games en animaties met AVR-Eval (win-rate van content A tegenover B). We ontdekken dat content gegenereerd door AVR-Agent een significant hogere win-rate heeft tegenover content die via one-shot generatie is gemaakt. Echter, modellen hebben moeite om aangepaste assets en AVR-feedback effectief te benutten, wat resulteert in geen hogere win-rate. Dit onthult een kritieke kloof: terwijl mensen profiteren van hoogwaardige assets en audiovisuele feedback, lijken huidige coderingsmodellen deze bronnen niet zo effectief te gebruiken, wat fundamentele verschillen tussen menselijke en machine-gebaseerde contentcreatie benadrukt.
English
While AI excels at generating text, audio, images, and videos, creating
interactive audio-visual content such as video games remains challenging.
Current LLMs can generate JavaScript games and animations, but lack automated
evaluation metrics and struggle with complex content that normally requires
teams of humans working for many months (multi-shot, multi-agents) using assets
made by artists. To tackle these issues, we built a new metric and a
multi-agent system.
We propose AVR-Eval, a relative metric for multimedia content quality using
Audio-Visual Recordings (AVRs). An omni-modal model (processing text, video,
and audio) compares the AVRs of two contents, with a text model reviewing
evaluations to determine superiority. We show that AVR-Eval properly identifies
good from broken or mismatched content.
We built AVR-Agent, a multi-agent system generating JavaScript code from a
bank of multimedia assets (audio, images, 3D models). The coding agent selects
relevant assets, generates multiple initial codes, uses AVR-Eval to identify
the best version, and iteratively improves it through omni-modal agent feedback
from the AVR.
We run experiments on games and animations with AVR-Eval (win rate of content
A against B). We find that content generated by AVR-Agent has a significantly
higher win rate against content made through one-shot generation. However,
models struggle to leverage custom assets and AVR feedback effectively, showing
no higher win rate. This reveals a critical gap: while humans benefit from
high-quality assets and audio-visual feedback, current coding models do not
seem to utilize these resources as effectively, highlighting fundamental
differences between human and machine content creation approaches.