RAPO++ : Optimisation des prompts inter-étapes pour la génération vidéo à partir de texte via l'alignement des données et la mise à l'échelle en temps de test
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
October 23, 2025
papers.authors: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu
cs.AI
papers.abstract
La conception des prompts joue un rôle crucial dans la génération texte-vidéo (T2V), mais les prompts fournis par les utilisateurs sont souvent courts, non structurés et désalignés des données d'entraînement, limitant le potentiel génératif des modèles T2V basés sur la diffusion. Nous présentons RAPO++, un cadre d'optimisation de prompts trans-étapes qui unifie le raffinement aligné sur les données d'entraînement, la mise à l'échelle itérative au moment du test et le fine-tuning de grands modèles de langage (LLM) pour améliorer substantiellement la génération T2V sans modifier l'architecture générative sous-jacente. Dans l'Étape 1, l'Optimisation de Prompt par Récupération Augmentée (RAPO) enrichit les prompts utilisateur avec des modificateurs sémantiquement pertinents récupérés depuis un graphe de relations et les restructure pour correspondre aux distributions d'entraînement, améliorant la compositionnalité et la fidélité multi-objets. L'Étape 2 introduit l'Optimisation de Prompt Spécifique à l'Échantillon (SSPO), un mécanisme en boucle fermée qui affine itérativement les prompts en utilisant un retour multi-sources – incluant l'alignement sémantique, la fidélité spatiale, la cohérence temporelle et des signaux spécifiques à la tâche tels que le flux optique – produisant une qualité de génération vidéo progressivement améliorée. L'Étape 3 exploite des paires de prompts optimisées provenant de SSPO pour effectuer le fine-tuning du LLM de réécriture, internalisant les schémas d'optimisation spécifiques à la tâche et permettant une génération de prompts efficace et de haute qualité, même avant l'inférence. Des expériences approfondies sur cinq modèles T2V de pointe et cinq benchmarks démontrent que RAPO++ obtient des gains significatifs en alignement sémantique, raisonnement compositionnel, stabilité temporelle et plausibilité physique, surpassant largement les méthodes existantes. Nos résultats soulignent RAPO++ comme une solution agnostique au modèle, économique et évolutive, qui établit un nouveau standard pour l'optimisation de prompts dans la génération T2V. Le code est disponible à l'adresse https://github.com/Vchitect/RAPO.
English
Prompt design plays a crucial role in text-to-video (T2V) generation, yet
user-provided prompts are often short, unstructured, and misaligned with
training data, limiting the generative potential of diffusion-based T2V models.
We present RAPO++, a cross-stage prompt optimization framework that
unifies training-data--aligned refinement, test-time iterative scaling, and
large language model (LLM) fine-tuning to substantially improve T2V generation
without modifying the underlying generative backbone. In Stage 1,
Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with
semantically relevant modifiers retrieved from a relation graph and refactors
them to match training distributions, enhancing compositionality and
multi-object fidelity. Stage 2 introduces Sample-Specific Prompt
Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts
using multi-source feedback -- including semantic alignment, spatial fidelity,
temporal coherence, and task-specific signals such as optical flow -- yielding
progressively improved video generation quality. Stage 3 leverages
optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing
task-specific optimization patterns and enabling efficient, high-quality prompt
generation even before inference. Extensive experiments across five
state-of-the-art T2V models and five benchmarks demonstrate that RAPO++
achieves significant gains in semantic alignment, compositional reasoning,
temporal stability, and physical plausibility, outperforming existing methods
by large margins. Our results highlight RAPO++ as a model-agnostic,
cost-efficient, and scalable solution that sets a new standard for prompt
optimization in T2V generation. The code is available at
https://github.com/Vchitect/RAPO.