ChatPaper.aiChatPaper

VISTA: 테스트 시간 자가 개선 비디오 생성 에이전트

VISTA: A Test-Time Self-Improving Video Generation Agent

October 17, 2025
저자: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI

초록

텍스트-투-비디오 합성 기술의 급속한 발전에도 불구하고, 생성된 비디오의 품질은 여전히 사용자 프롬프트의 정밀도에 크게 의존합니다. 다른 분야에서는 성공을 거둔 기존의 테스트 시점 최적화 방법들은 비디오의 다면적인 특성 때문에 어려움을 겪고 있습니다. 본 연구에서는 VISTA(Video Iterative Self-improvemenT Agent)라는 새로운 다중 에이전트 시스템을 소개합니다. VISTA는 반복적인 루프를 통해 프롬프트를 개선함으로써 비디오 생성을 자율적으로 향상시킵니다. VISTA는 먼저 사용자의 아이디어를 구조화된 시간적 계획으로 분해합니다. 생성 후, 강력한 페어와이즈 토너먼트를 통해 최고의 비디오를 선별합니다. 이 우승 비디오는 시각적, 오디오, 그리고 문맥적 충실도에 초점을 맞춘 세 가지 전문 에이전트로부터 평가를 받습니다. 마지막으로, 추론 에이전트가 이 피드백을 종합하여 내성적으로 프롬프트를 재작성하고 다음 생성 사이클을 위해 개선합니다. 단일 및 다중 장면 비디오 생성 시나리오에서의 실험 결과, 기존 방법들은 일관성 없는 성과를 보인 반면, VISTA는 비디오 품질과 사용자 의도와의 일치성을 꾸준히 개선하며 최신 베이스라인 대비 최대 60%의 페어와이즈 승률을 달성했습니다. 인간 평가자들도 이를 뒷받침하며, 66.4%의 비교에서 VISTA의 출력물을 선호했습니다.
English
Despite rapid advances in text-to-video synthesis, generated video quality remains critically dependent on precise user prompts. Existing test-time optimization methods, successful in other domains, struggle with the multi-faceted nature of video. In this work, we introduce VISTA (Video Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously improves video generation through refining prompts in an iterative loop. VISTA first decomposes a user idea into a structured temporal plan. After generation, the best video is identified through a robust pairwise tournament. This winning video is then critiqued by a trio of specialized agents focusing on visual, audio, and contextual fidelity. Finally, a reasoning agent synthesizes this feedback to introspectively rewrite and enhance the prompt for the next generation cycle. Experiments on single- and multi-scene video generation scenarios show that while prior methods yield inconsistent gains, VISTA consistently improves video quality and alignment with user intent, achieving up to 60% pairwise win rate against state-of-the-art baselines. Human evaluators concur, preferring VISTA outputs in 66.4% of comparisons.
PDF162October 20, 2025