Multi-Agent-Spielgenerierung und -Bewertung mittels Audio-Visueller Aufzeichnungen

papers.abstract

Während KI hervorragend darin ist, Text, Audio, Bilder und Videos zu generieren, bleibt die Erstellung interaktiver audiovisueller Inhalte wie Videospiele eine Herausforderung. Aktuelle LLMs können JavaScript-Spiele und Animationen erzeugen, aber es fehlen automatisierte Bewertungsmetriken, und sie haben Schwierigkeiten mit komplexen Inhalten, die normalerweise Teams von Menschen über viele Monate hinweg (Multi-Shot, Multi-Agenten) unter Verwendung von Assets, die von Künstlern erstellt wurden, erfordern. Um diese Probleme zu lösen, haben wir eine neue Metrik und ein Multi-Agenten-System entwickelt. Wir schlagen AVR-Eval vor, eine relative Metrik für die Qualität von Multimedia-Inhalten unter Verwendung von Audio-Visual Recordings (AVRs). Ein omni-modales Modell (verarbeitet Text, Video und Audio) vergleicht die AVRs zweier Inhalte, wobei ein Textmodell die Bewertungen überprüft, um die Überlegenheit zu bestimmen. Wir zeigen, dass AVR-Eval korrekt zwischen gutem und fehlerhaftem oder nicht übereinstimmendem Inhalt unterscheidet. Wir haben AVR-Agent entwickelt, ein Multi-Agenten-System, das JavaScript-Code aus einer Sammlung von Multimedia-Assets (Audio, Bilder, 3D-Modelle) generiert. Der Codierungs-Agent wählt relevante Assets aus, erzeugt mehrere initiale Codes, verwendet AVR-Eval, um die beste Version zu identifizieren, und verbessert sie iterativ durch omni-modales Agenten-Feedback aus den AVRs. Wir führen Experimente mit Spielen und Animationen durch, bei denen AVR-Eval (Gewinnrate von Inhalt A gegen B) eingesetzt wird. Wir stellen fest, dass Inhalte, die von AVR-Agent generiert wurden, eine signifikant höhere Gewinnrate gegenüber Inhalten haben, die durch One-Shot-Generierung erstellt wurden. Allerdings haben Modelle Schwierigkeiten, benutzerdefinierte Assets und AVR-Feedback effektiv zu nutzen, was sich in keiner höheren Gewinnrate zeigt. Dies offenbart eine kritische Lücke: Während Menschen von hochwertigen Assets und audiovisuellem Feedback profitieren, scheinen aktuelle Codierungsmodelle diese Ressourcen nicht so effektiv zu nutzen, was grundlegende Unterschiede zwischen menschlichen und maschinellen Ansätzen zur Inhaltserstellung aufzeigt.

English

While AI excels at generating text, audio, images, and videos, creating interactive audio-visual content such as video games remains challenging. Current LLMs can generate JavaScript games and animations, but lack automated evaluation metrics and struggle with complex content that normally requires teams of humans working for many months (multi-shot, multi-agents) using assets made by artists. To tackle these issues, we built a new metric and a multi-agent system. We propose AVR-Eval, a relative metric for multimedia content quality using Audio-Visual Recordings (AVRs). An omni-modal model (processing text, video, and audio) compares the AVRs of two contents, with a text model reviewing evaluations to determine superiority. We show that AVR-Eval properly identifies good from broken or mismatched content. We built AVR-Agent, a multi-agent system generating JavaScript code from a bank of multimedia assets (audio, images, 3D models). The coding agent selects relevant assets, generates multiple initial codes, uses AVR-Eval to identify the best version, and iteratively improves it through omni-modal agent feedback from the AVR. We run experiments on games and animations with AVR-Eval (win rate of content A against B). We find that content generated by AVR-Agent has a significantly higher win rate against content made through one-shot generation. However, models struggle to leverage custom assets and AVR feedback effectively, showing no higher win rate. This reveals a critical gap: while humans benefit from high-quality assets and audio-visual feedback, current coding models do not seem to utilize these resources as effectively, highlighting fundamental differences between human and machine content creation approaches.

Multi-Agent-Spielgenerierung und -Bewertung mittels Audio-Visueller Aufzeichnungen

Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings

papers.abstract

Support