RAPO++: Ottimizzazione Transfase dei Prompt per la Generazione Video da Testo tramite Allineamento dei Dati e Scalabilità al Momento del Test
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
October 23, 2025
Autori: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu
cs.AI
Abstract
La progettazione dei prompt svolge un ruolo cruciale nella generazione testo-video (T2V), tuttavia i prompt forniti dagli utenti sono spesso brevi, non strutturati e disallineati rispetto ai dati di addestramento, limitando il potenziale generativo dei modelli T2V basati su diffusione. Presentiamo RAPO++, un framework di ottimizzazione cross-stage dei prompt che unisce raffinamento allineato ai dati di addestramento, scalatura iterativa al tempo di test e fine-tuning di large language model (LLM) per migliorare sostanzialmente la generazione T2V senza modificare l'architettura generativa sottostante. Nello Stage 1, la Retrieval-Augmented Prompt Optimization (RAPO) arricchisce i prompt utente con modificatori semanticamente rilevanti recuperati da un grafo delle relazioni e li ristruttura per adattarli alle distribuzioni di addestramento, migliorando composizionalità e fedeltà multi-oggetto. Lo Stage 2 introduce la Sample-Specific Prompt Optimization (SSPO), un meccanismo a ciclo chiuso che affina iterativamente i prompt utilizzando feedback multi-sorgente – inclusi allineamento semantico, fedeltà spaziale, coerenza temporale e segnali task-specific come il flusso ottico – producendo una qualità di generazione video progressivamente migliorata. Lo Stage 3 sfrutta coppie di prompt ottimizzate dalla SSPO per effettuare il fine-tuning del LLM riscrittore, internalizzando pattern di ottimizzazione task-specific e abilitando una generazione di prompt efficiente e di alta qualità ancora prima dell'inferenza. Esperimenti estensivi su cinque modelli T2V all'avanguardia e cinque benchmark dimostrano che RAPO++ ottiene miglioramenti significativi in allineamento semantico, ragionamento composizionale, stabilità temporale e plausibilità fisica, superando di ampio margine i metodi esistenti. I nostri risultati evidenziano RAPO++ come una soluzione model-agnostic, efficiente in termini di costi e scalabile, che stabilisce un nuovo standard per l'ottimizzazione dei prompt nella generazione T2V. Il codice è disponibile all'indirizzo https://github.com/Vchitect/RAPO.
English
Prompt design plays a crucial role in text-to-video (T2V) generation, yet
user-provided prompts are often short, unstructured, and misaligned with
training data, limiting the generative potential of diffusion-based T2V models.
We present RAPO++, a cross-stage prompt optimization framework that
unifies training-data--aligned refinement, test-time iterative scaling, and
large language model (LLM) fine-tuning to substantially improve T2V generation
without modifying the underlying generative backbone. In Stage 1,
Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with
semantically relevant modifiers retrieved from a relation graph and refactors
them to match training distributions, enhancing compositionality and
multi-object fidelity. Stage 2 introduces Sample-Specific Prompt
Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts
using multi-source feedback -- including semantic alignment, spatial fidelity,
temporal coherence, and task-specific signals such as optical flow -- yielding
progressively improved video generation quality. Stage 3 leverages
optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing
task-specific optimization patterns and enabling efficient, high-quality prompt
generation even before inference. Extensive experiments across five
state-of-the-art T2V models and five benchmarks demonstrate that RAPO++
achieves significant gains in semantic alignment, compositional reasoning,
temporal stability, and physical plausibility, outperforming existing methods
by large margins. Our results highlight RAPO++ as a model-agnostic,
cost-efficient, and scalable solution that sets a new standard for prompt
optimization in T2V generation. The code is available at
https://github.com/Vchitect/RAPO.