ChatPaper.aiChatPaper

Génération et Évaluation de Jeux Multi-Agents via des Enregistrements Audio-Visuels

Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings

August 1, 2025
papers.authors: Alexia Jolicoeur-Martineau
cs.AI

papers.abstract

Si l'IA excelle dans la génération de texte, d'audio, d'images et de vidéos, la création de contenus audio-visuels interactifs tels que les jeux vidéo reste un défi. Les modèles de langage actuels (LLMs) peuvent générer des jeux et animations en JavaScript, mais ils manquent de métriques d'évaluation automatisées et peinent à produire des contenus complexes qui nécessitent normalement des équipes humaines travaillant pendant plusieurs mois (multi-shots, multi-agents) avec des assets créés par des artistes. Pour résoudre ces problèmes, nous avons développé une nouvelle métrique et un système multi-agents. Nous proposons AVR-Eval, une métrique relative pour évaluer la qualité des contenus multimédias en utilisant des enregistrements audio-visuels (AVRs). Un modèle omni-modal (traitant texte, vidéo et audio) compare les AVRs de deux contenus, tandis qu'un modèle de langage examine les évaluations pour déterminer la supériorité. Nous montrons qu'AVR-Eval identifie correctement les contenus de qualité par rapport à ceux qui sont défectueux ou mal assortis. Nous avons construit AVR-Agent, un système multi-agents générant du code JavaScript à partir d'une banque d'assets multimédias (audio, images, modèles 3D). L'agent de codage sélectionne les assets pertinents, génère plusieurs versions initiales du code, utilise AVR-Eval pour identifier la meilleure version, et l'améliore itérativement grâce aux retours omni-modaux de l'agent basés sur les AVRs. Nous avons mené des expériences sur des jeux et animations avec AVR-Eval (taux de victoire du contenu A contre B). Nous constatons que le contenu généré par AVR-Agent a un taux de victoire significativement plus élevé que celui produit par génération en une seule étape. Cependant, les modèles peinent à exploiter efficacement les assets personnalisés et les retours AVR, ne montrant aucun gain de taux de victoire. Cela révèle un écart critique : alors que les humains bénéficient d'assets de haute qualité et de retours audio-visuels, les modèles de codage actuels ne semblent pas utiliser ces ressources aussi efficacement, soulignant des différences fondamentales entre les approches de création de contenu humaines et machines.
English
While AI excels at generating text, audio, images, and videos, creating interactive audio-visual content such as video games remains challenging. Current LLMs can generate JavaScript games and animations, but lack automated evaluation metrics and struggle with complex content that normally requires teams of humans working for many months (multi-shot, multi-agents) using assets made by artists. To tackle these issues, we built a new metric and a multi-agent system. We propose AVR-Eval, a relative metric for multimedia content quality using Audio-Visual Recordings (AVRs). An omni-modal model (processing text, video, and audio) compares the AVRs of two contents, with a text model reviewing evaluations to determine superiority. We show that AVR-Eval properly identifies good from broken or mismatched content. We built AVR-Agent, a multi-agent system generating JavaScript code from a bank of multimedia assets (audio, images, 3D models). The coding agent selects relevant assets, generates multiple initial codes, uses AVR-Eval to identify the best version, and iteratively improves it through omni-modal agent feedback from the AVR. We run experiments on games and animations with AVR-Eval (win rate of content A against B). We find that content generated by AVR-Agent has a significantly higher win rate against content made through one-shot generation. However, models struggle to leverage custom assets and AVR feedback effectively, showing no higher win rate. This reveals a critical gap: while humans benefit from high-quality assets and audio-visual feedback, current coding models do not seem to utilize these resources as effectively, highlighting fundamental differences between human and machine content creation approaches.
PDF33August 4, 2025