RAPO++: Übergreifende Prompt-Optimierung für Text-zu-Video-Generierung durch Datenabgleich und Skalierung zur Testzeit
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
October 23, 2025
papers.authors: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu
cs.AI
papers.abstract
Die Gestaltung von Prompts spielt eine entscheidende Rolle bei der Text-zu-Video (T2V)-Generierung, doch sind benutzerdefinierte Prompts oft kurz, unstrukturiert und nicht mit den Trainingsdaten abgestimmt, was das generative Potenzial diffusionsbasierter T2V-Modelle einschränkt. Wir stellen RAPO++ vor, ein frameworkübergreifendes Prompt-Optimierungsframework, das eine trainingsdatenabgestimmte Verfeinerung, iterative Skalierung zur Testzeit und Feinabstimmung großer Sprachmodelle (LLMs) vereint, um die T2V-Generierung erheblich zu verbessern, ohne den zugrunde liegenden generativen Backbone zu modifizieren. In Stufe 1 reichert die Retrieval-Augmented Prompt Optimization (RAPO) Benutzerprompts mit semantisch relevanten Modifikatoren an, die aus einem Relationsgraphen abgerufen werden, und refaktorisiert sie, um sie an Trainingsverteilungen anzupassen, wodurch Kompositionalität und Multi-Objekt-Treue verbessert werden. Stufe 2 führt die Sample-Specific Prompt Optimization (SSPO) ein, einen Closed-Loop-Mechanismus, der Prompts iterativ unter Verwendung von Multi-Source-Feedback verfeinert – einschließlich semantischer Ausrichtung, räumlicher Treue, zeitlicher Kohärenz und aufgabenspezifischer Signale wie optischem Fluss – und so eine progressively verbesserte Videogenerierungsqualität erzielt. Stufe 3 nutzt optimierte Prompt-Paare aus SSPO, um den umschreibenden LLM feinzutunen, wodurch aufgabenspezifische Optimierungsmuster internalisiert werden und eine effiziente, hochwertige Prompt-Generierung bereits vor der Inferenz ermöglicht wird. Umfangreiche Experimente mit fünf state-of-the-art T2V-Modellen und fünf Benchmarks zeigen, dass RAPO++ signifikante Verbesserungen bei semantischer Ausrichtung, kompositionellem Reasoning, zeitlicher Stabilität und physikalischer Plausibilität erzielt und bestehende Methoden mit großem Abstand übertrifft. Unsere Ergebnisse unterstreichen RAPO++ als modellagnostische, kosteneffiziente und skalierbare Lösung, die einen neuen Standard für die Prompt-Optimierung in der T2V-Generierung setzt. Der Code ist verfügbar unter https://github.com/Vchitect/RAPO.
English
Prompt design plays a crucial role in text-to-video (T2V) generation, yet
user-provided prompts are often short, unstructured, and misaligned with
training data, limiting the generative potential of diffusion-based T2V models.
We present RAPO++, a cross-stage prompt optimization framework that
unifies training-data--aligned refinement, test-time iterative scaling, and
large language model (LLM) fine-tuning to substantially improve T2V generation
without modifying the underlying generative backbone. In Stage 1,
Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with
semantically relevant modifiers retrieved from a relation graph and refactors
them to match training distributions, enhancing compositionality and
multi-object fidelity. Stage 2 introduces Sample-Specific Prompt
Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts
using multi-source feedback -- including semantic alignment, spatial fidelity,
temporal coherence, and task-specific signals such as optical flow -- yielding
progressively improved video generation quality. Stage 3 leverages
optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing
task-specific optimization patterns and enabling efficient, high-quality prompt
generation even before inference. Extensive experiments across five
state-of-the-art T2V models and five benchmarks demonstrate that RAPO++
achieves significant gains in semantic alignment, compositional reasoning,
temporal stability, and physical plausibility, outperforming existing methods
by large margins. Our results highlight RAPO++ as a model-agnostic,
cost-efficient, and scalable solution that sets a new standard for prompt
optimization in T2V generation. The code is available at
https://github.com/Vchitect/RAPO.