VISTA: テスト時自己改善型ビデオ生成エージェント
VISTA: A Test-Time Self-Improving Video Generation Agent
October 17, 2025
著者: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI
要旨
テキストからビデオへの合成技術は急速に進歩しているにもかかわらず、生成されるビデオの品質は、ユーザーの正確なプロンプトに大きく依存しています。他の分野では成功している既存のテスト時最適化手法も、ビデオの多面的な性質に対応するのに苦戦しています。本研究では、VISTA(Video Iterative Self-improvemenT Agent)を紹介します。これは、反復ループを通じてプロンプトを改良し、ビデオ生成を自律的に改善する新しいマルチエージェントシステムです。VISTAはまず、ユーザーのアイデアを構造化された時間的計画に分解します。生成後、堅牢なペアワイズトーナメントを通じて最良のビデオを特定します。この勝ち抜いたビデオは、視覚、音声、文脈の忠実度に焦点を当てた3つの専門エージェントによって批評されます。最後に、推論エージェントがこのフィードバックを統合し、内省的にプロンプトを書き直し、次の生成サイクルのために強化します。単一シーンおよび複数シーンのビデオ生成シナリオでの実験では、従来の手法が一貫した改善をもたらさないのに対し、VISTAはビデオの品質とユーザーの意図との整合性を一貫して向上させ、最先端のベースラインに対して最大60%のペアワイズ勝率を達成しました。人間の評価者もこれを支持し、比較の66.4%でVISTAの出力を選好しました。
English
Despite rapid advances in text-to-video synthesis, generated video quality
remains critically dependent on precise user prompts. Existing test-time
optimization methods, successful in other domains, struggle with the
multi-faceted nature of video. In this work, we introduce VISTA (Video
Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously
improves video generation through refining prompts in an iterative loop. VISTA
first decomposes a user idea into a structured temporal plan. After generation,
the best video is identified through a robust pairwise tournament. This winning
video is then critiqued by a trio of specialized agents focusing on visual,
audio, and contextual fidelity. Finally, a reasoning agent synthesizes this
feedback to introspectively rewrite and enhance the prompt for the next
generation cycle. Experiments on single- and multi-scene video generation
scenarios show that while prior methods yield inconsistent gains, VISTA
consistently improves video quality and alignment with user intent, achieving
up to 60% pairwise win rate against state-of-the-art baselines. Human
evaluators concur, preferring VISTA outputs in 66.4% of comparisons.