RAPO++: Übergreifende Prompt-Optimierung für Text-zu-Video-Generierung durch Datenabgleich und Skalierung zur Testzeit

Zusammenfassung

Die Gestaltung von Prompts spielt eine entscheidende Rolle bei der Text-zu-Video (T2V)-Generierung, doch sind benutzerdefinierte Prompts oft kurz, unstrukturiert und nicht mit den Trainingsdaten abgestimmt, was das generative Potenzial diffusionsbasierter T2V-Modelle einschränkt. Wir stellen RAPO++ vor, ein frameworkübergreifendes Prompt-Optimierungsframework, das eine trainingsdatenabgestimmte Verfeinerung, iterative Skalierung zur Testzeit und Feinabstimmung großer Sprachmodelle (LLMs) vereint, um die T2V-Generierung erheblich zu verbessern, ohne den zugrunde liegenden generativen Backbone zu modifizieren. In Stufe 1 reichert die Retrieval-Augmented Prompt Optimization (RAPO) Benutzerprompts mit semantisch relevanten Modifikatoren an, die aus einem Relationsgraphen abgerufen werden, und refaktorisiert sie, um sie an Trainingsverteilungen anzupassen, wodurch Kompositionalität und Multi-Objekt-Treue verbessert werden. Stufe 2 führt die Sample-Specific Prompt Optimization (SSPO) ein, einen Closed-Loop-Mechanismus, der Prompts iterativ unter Verwendung von Multi-Source-Feedback verfeinert – einschließlich semantischer Ausrichtung, räumlicher Treue, zeitlicher Kohärenz und aufgabenspezifischer Signale wie optischem Fluss – und so eine progressively verbesserte Videogenerierungsqualität erzielt. Stufe 3 nutzt optimierte Prompt-Paare aus SSPO, um den umschreibenden LLM feinzutunen, wodurch aufgabenspezifische Optimierungsmuster internalisiert werden und eine effiziente, hochwertige Prompt-Generierung bereits vor der Inferenz ermöglicht wird. Umfangreiche Experimente mit fünf state-of-the-art T2V-Modellen und fünf Benchmarks zeigen, dass RAPO++ signifikante Verbesserungen bei semantischer Ausrichtung, kompositionellem Reasoning, zeitlicher Stabilität und physikalischer Plausibilität erzielt und bestehende Methoden mit großem Abstand übertrifft. Unsere Ergebnisse unterstreichen RAPO++ als modellagnostische, kosteneffiziente und skalierbare Lösung, die einen neuen Standard für die Prompt-Optimierung in der T2V-Generierung setzt. Der Code ist verfügbar unter https://github.com/Vchitect/RAPO.

English

Prompt design plays a crucial role in text-to-video (T2V) generation, yet user-provided prompts are often short, unstructured, and misaligned with training data, limiting the generative potential of diffusion-based T2V models. We present RAPO++, a cross-stage prompt optimization framework that unifies training-data--aligned refinement, test-time iterative scaling, and large language model (LLM) fine-tuning to substantially improve T2V generation without modifying the underlying generative backbone. In Stage 1, Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with semantically relevant modifiers retrieved from a relation graph and refactors them to match training distributions, enhancing compositionality and multi-object fidelity. Stage 2 introduces Sample-Specific Prompt Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts using multi-source feedback -- including semantic alignment, spatial fidelity, temporal coherence, and task-specific signals such as optical flow -- yielding progressively improved video generation quality. Stage 3 leverages optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing task-specific optimization patterns and enabling efficient, high-quality prompt generation even before inference. Extensive experiments across five state-of-the-art T2V models and five benchmarks demonstrate that RAPO++ achieves significant gains in semantic alignment, compositional reasoning, temporal stability, and physical plausibility, outperforming existing methods by large margins. Our results highlight RAPO++ as a model-agnostic, cost-efficient, and scalable solution that sets a new standard for prompt optimization in T2V generation. The code is available at https://github.com/Vchitect/RAPO.