Multi-Agent-Spielgenerierung und -Bewertung mittels Audio-Visueller Aufzeichnungen
Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings
August 1, 2025
papers.authors: Alexia Jolicoeur-Martineau
cs.AI
papers.abstract
Während KI hervorragend darin ist, Text, Audio, Bilder und Videos zu generieren, bleibt die Erstellung interaktiver audiovisueller Inhalte wie Videospiele eine Herausforderung. Aktuelle LLMs können JavaScript-Spiele und Animationen erzeugen, aber es fehlen automatisierte Bewertungsmetriken, und sie haben Schwierigkeiten mit komplexen Inhalten, die normalerweise Teams von Menschen über viele Monate hinweg (Multi-Shot, Multi-Agenten) unter Verwendung von Assets, die von Künstlern erstellt wurden, erfordern. Um diese Probleme zu lösen, haben wir eine neue Metrik und ein Multi-Agenten-System entwickelt.
Wir schlagen AVR-Eval vor, eine relative Metrik für die Qualität von Multimedia-Inhalten unter Verwendung von Audio-Visual Recordings (AVRs). Ein omni-modales Modell (verarbeitet Text, Video und Audio) vergleicht die AVRs zweier Inhalte, wobei ein Textmodell die Bewertungen überprüft, um die Überlegenheit zu bestimmen. Wir zeigen, dass AVR-Eval korrekt zwischen gutem und fehlerhaftem oder nicht übereinstimmendem Inhalt unterscheidet.
Wir haben AVR-Agent entwickelt, ein Multi-Agenten-System, das JavaScript-Code aus einer Sammlung von Multimedia-Assets (Audio, Bilder, 3D-Modelle) generiert. Der Codierungs-Agent wählt relevante Assets aus, erzeugt mehrere initiale Codes, verwendet AVR-Eval, um die beste Version zu identifizieren, und verbessert sie iterativ durch omni-modales Agenten-Feedback aus den AVRs.
Wir führen Experimente mit Spielen und Animationen durch, bei denen AVR-Eval (Gewinnrate von Inhalt A gegen B) eingesetzt wird. Wir stellen fest, dass Inhalte, die von AVR-Agent generiert wurden, eine signifikant höhere Gewinnrate gegenüber Inhalten haben, die durch One-Shot-Generierung erstellt wurden. Allerdings haben Modelle Schwierigkeiten, benutzerdefinierte Assets und AVR-Feedback effektiv zu nutzen, was sich in keiner höheren Gewinnrate zeigt. Dies offenbart eine kritische Lücke: Während Menschen von hochwertigen Assets und audiovisuellem Feedback profitieren, scheinen aktuelle Codierungsmodelle diese Ressourcen nicht so effektiv zu nutzen, was grundlegende Unterschiede zwischen menschlichen und maschinellen Ansätzen zur Inhaltserstellung aufzeigt.
English
While AI excels at generating text, audio, images, and videos, creating
interactive audio-visual content such as video games remains challenging.
Current LLMs can generate JavaScript games and animations, but lack automated
evaluation metrics and struggle with complex content that normally requires
teams of humans working for many months (multi-shot, multi-agents) using assets
made by artists. To tackle these issues, we built a new metric and a
multi-agent system.
We propose AVR-Eval, a relative metric for multimedia content quality using
Audio-Visual Recordings (AVRs). An omni-modal model (processing text, video,
and audio) compares the AVRs of two contents, with a text model reviewing
evaluations to determine superiority. We show that AVR-Eval properly identifies
good from broken or mismatched content.
We built AVR-Agent, a multi-agent system generating JavaScript code from a
bank of multimedia assets (audio, images, 3D models). The coding agent selects
relevant assets, generates multiple initial codes, uses AVR-Eval to identify
the best version, and iteratively improves it through omni-modal agent feedback
from the AVR.
We run experiments on games and animations with AVR-Eval (win rate of content
A against B). We find that content generated by AVR-Agent has a significantly
higher win rate against content made through one-shot generation. However,
models struggle to leverage custom assets and AVR feedback effectively, showing
no higher win rate. This reveals a critical gap: while humans benefit from
high-quality assets and audio-visual feedback, current coding models do not
seem to utilize these resources as effectively, highlighting fundamental
differences between human and machine content creation approaches.