다중 에이전트 게임 생성 및 오디오-비주얼 기록을 통한 평가
Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings
August 1, 2025
저자: Alexia Jolicoeur-Martineau
cs.AI
초록
AI는 텍스트, 오디오, 이미지, 비디오 생성에 뛰어나지만, 비디오 게임과 같은 인터랙티브 오디오-비주얼 콘텐츠를 만드는 것은 여전히 어려운 과제로 남아 있습니다. 현재의 대형 언어 모델(LLM)은 JavaScript 게임과 애니메이션을 생성할 수 있지만, 자동화된 평가 메트릭이 부족하며, 일반적으로 예술가들이 만든 자산을 사용하여 여러 달 동안 팀으로 작업해야 하는 복잡한 콘텐츠(멀티샷, 멀티에이전트)를 생성하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해 우리는 새로운 메트릭과 멀티에이전트 시스템을 구축했습니다.
우리는 오디오-비주얼 레코딩(AVR)을 사용하여 멀티미디어 콘텐츠 품질을 평가하는 상대적 메트릭인 AVR-Eval을 제안합니다. 텍스트, 비디오, 오디오를 처리하는 오모달 모델은 두 콘텐츠의 AVR을 비교하고, 텍스트 모델이 평가를 검토하여 우수성을 결정합니다. 우리는 AVR-Eval이 정상적인 콘텐츠와 결함이 있거나 불일치하는 콘텐츠를 올바르게 식별함을 보여줍니다.
우리는 멀티미디어 자산(오디오, 이미지, 3D 모델)을 기반으로 JavaScript 코드를 생성하는 멀티에이전트 시스템인 AVR-Agent를 구축했습니다. 코딩 에이전트는 관련 자산을 선택하고, 여러 초기 코드를 생성하며, AVR-Eval을 사용하여 최적의 버전을 식별하고, AVR에서 제공하는 오모달 에이전트 피드백을 통해 반복적으로 개선합니다.
우리는 AVR-Eval을 사용하여 게임과 애니메이션에 대한 실험을 실행했습니다(콘텐츠 A 대 B의 승률). AVR-Agent가 생성한 콘텐츠는 원샷 생성 방식으로 만들어진 콘텐츠에 비해 상당히 높은 승률을 보였습니다. 그러나 모델은 사용자 정의 자산과 AVR 피드백을 효과적으로 활용하지 못해 승률이 더 높아지지 않았습니다. 이는 중요한 차이점을 드러냅니다: 인간은 고품질 자산과 오디오-비주얼 피드백으로부터 이점을 얻지만, 현재의 코딩 모델은 이러한 자원을 그만큼 효과적으로 활용하지 못하며, 이는 인간과 기계의 콘텐츠 생성 접근 방식 간의 근본적인 차이를 강조합니다.
English
While AI excels at generating text, audio, images, and videos, creating
interactive audio-visual content such as video games remains challenging.
Current LLMs can generate JavaScript games and animations, but lack automated
evaluation metrics and struggle with complex content that normally requires
teams of humans working for many months (multi-shot, multi-agents) using assets
made by artists. To tackle these issues, we built a new metric and a
multi-agent system.
We propose AVR-Eval, a relative metric for multimedia content quality using
Audio-Visual Recordings (AVRs). An omni-modal model (processing text, video,
and audio) compares the AVRs of two contents, with a text model reviewing
evaluations to determine superiority. We show that AVR-Eval properly identifies
good from broken or mismatched content.
We built AVR-Agent, a multi-agent system generating JavaScript code from a
bank of multimedia assets (audio, images, 3D models). The coding agent selects
relevant assets, generates multiple initial codes, uses AVR-Eval to identify
the best version, and iteratively improves it through omni-modal agent feedback
from the AVR.
We run experiments on games and animations with AVR-Eval (win rate of content
A against B). We find that content generated by AVR-Agent has a significantly
higher win rate against content made through one-shot generation. However,
models struggle to leverage custom assets and AVR feedback effectively, showing
no higher win rate. This reveals a critical gap: while humans benefit from
high-quality assets and audio-visual feedback, current coding models do not
seem to utilize these resources as effectively, highlighting fundamental
differences between human and machine content creation approaches.