RAPO++:データアライメントとテストタイムスケーリングによるテキストからビデオ生成のためのクロスステージプロンプト最適化
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
October 23, 2025
著者: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu
cs.AI
要旨
プロンプト設計はテキスト動画生成(T2V)において極めて重要であるが、ユーザーが提供するプロンプトは短く、非構造的で、学習データとの整合性が低い場合が多く、拡散モデルベースのT2Vモデルの生成能力を制限している。本論文では、RAPO++を提案する。これは、学習データに整合した改良、推論時の反復的スケーリング、大規模言語モデル(LLM)のファインチューニングを統合したクロスステージプロンプト最適化フレームワークであり、基盤となる生成バックボーンを変更することなくT2V生成を大幅に改善する。ステージ1では、検索強化型プロンプト最適化(RAPO)が、関係グラフから検索された意味的に関連性の高い修飾語でユーザープロンプトを強化し、学習データ分布に合うように再構築することで、構成性と複数オブジェクトの忠実度を向上させる。ステージ2では、サンプル特化型プロンプト最適化(SSPO)を導入する。これは、意味的整合性、空間的忠実度、時間的一貫性、オプティカルフローなどのタスク特化信号を含むマルチソースフィードバックを用いてプロンプトを反復的に改良する閉ループ機構であり、動画生成品質を段階的に向上させる。ステージ3では、SSPOから得られた最適化されたプロンプトペアを活用して書き換えLLMをファインチューニングし、タスク特化の最適化パターンを内部化することで、推論前であっても効率的かつ高品質なプロンプト生成を可能にする。5つの最先端T2Vモデルと5つのベンチマークを用いた広範な実験により、RAPO++が意味的整合性、構成的推論、時間的安定性、物理的妥当性において大幅な改善を達成し、既存手法を大きな差で凌駕することを実証した。本結果は、RAPO++がモデルに依存せず、コスト効率が高く、スケーラブルなソリューションとして、T2V生成におけるプロンプト最適化の新たな標準を確立するものである。コードはhttps://github.com/Vchitect/RAPO で公開されている。
English
Prompt design plays a crucial role in text-to-video (T2V) generation, yet
user-provided prompts are often short, unstructured, and misaligned with
training data, limiting the generative potential of diffusion-based T2V models.
We present RAPO++, a cross-stage prompt optimization framework that
unifies training-data--aligned refinement, test-time iterative scaling, and
large language model (LLM) fine-tuning to substantially improve T2V generation
without modifying the underlying generative backbone. In Stage 1,
Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with
semantically relevant modifiers retrieved from a relation graph and refactors
them to match training distributions, enhancing compositionality and
multi-object fidelity. Stage 2 introduces Sample-Specific Prompt
Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts
using multi-source feedback -- including semantic alignment, spatial fidelity,
temporal coherence, and task-specific signals such as optical flow -- yielding
progressively improved video generation quality. Stage 3 leverages
optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing
task-specific optimization patterns and enabling efficient, high-quality prompt
generation even before inference. Extensive experiments across five
state-of-the-art T2V models and five benchmarks demonstrate that RAPO++
achieves significant gains in semantic alignment, compositional reasoning,
temporal stability, and physical plausibility, outperforming existing methods
by large margins. Our results highlight RAPO++ as a model-agnostic,
cost-efficient, and scalable solution that sets a new standard for prompt
optimization in T2V generation. The code is available at
https://github.com/Vchitect/RAPO.