RAPO++: Ottimizzazione Transfase dei Prompt per la Generazione Video da Testo tramite Allineamento dei Dati e Scalabilità al Momento del Test

Abstract

La progettazione dei prompt svolge un ruolo cruciale nella generazione testo-video (T2V), tuttavia i prompt forniti dagli utenti sono spesso brevi, non strutturati e disallineati rispetto ai dati di addestramento, limitando il potenziale generativo dei modelli T2V basati su diffusione. Presentiamo RAPO++, un framework di ottimizzazione cross-stage dei prompt che unisce raffinamento allineato ai dati di addestramento, scalatura iterativa al tempo di test e fine-tuning di large language model (LLM) per migliorare sostanzialmente la generazione T2V senza modificare l'architettura generativa sottostante. Nello Stage 1, la Retrieval-Augmented Prompt Optimization (RAPO) arricchisce i prompt utente con modificatori semanticamente rilevanti recuperati da un grafo delle relazioni e li ristruttura per adattarli alle distribuzioni di addestramento, migliorando composizionalità e fedeltà multi-oggetto. Lo Stage 2 introduce la Sample-Specific Prompt Optimization (SSPO), un meccanismo a ciclo chiuso che affina iterativamente i prompt utilizzando feedback multi-sorgente – inclusi allineamento semantico, fedeltà spaziale, coerenza temporale e segnali task-specific come il flusso ottico – producendo una qualità di generazione video progressivamente migliorata. Lo Stage 3 sfrutta coppie di prompt ottimizzate dalla SSPO per effettuare il fine-tuning del LLM riscrittore, internalizzando pattern di ottimizzazione task-specific e abilitando una generazione di prompt efficiente e di alta qualità ancora prima dell'inferenza. Esperimenti estensivi su cinque modelli T2V all'avanguardia e cinque benchmark dimostrano che RAPO++ ottiene miglioramenti significativi in allineamento semantico, ragionamento composizionale, stabilità temporale e plausibilità fisica, superando di ampio margine i metodi esistenti. I nostri risultati evidenziano RAPO++ come una soluzione model-agnostic, efficiente in termini di costi e scalabile, che stabilisce un nuovo standard per l'ottimizzazione dei prompt nella generazione T2V. Il codice è disponibile all'indirizzo https://github.com/Vchitect/RAPO.

English

Prompt design plays a crucial role in text-to-video (T2V) generation, yet user-provided prompts are often short, unstructured, and misaligned with training data, limiting the generative potential of diffusion-based T2V models. We present RAPO++, a cross-stage prompt optimization framework that unifies training-data--aligned refinement, test-time iterative scaling, and large language model (LLM) fine-tuning to substantially improve T2V generation without modifying the underlying generative backbone. In Stage 1, Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with semantically relevant modifiers retrieved from a relation graph and refactors them to match training distributions, enhancing compositionality and multi-object fidelity. Stage 2 introduces Sample-Specific Prompt Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts using multi-source feedback -- including semantic alignment, spatial fidelity, temporal coherence, and task-specific signals such as optical flow -- yielding progressively improved video generation quality. Stage 3 leverages optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing task-specific optimization patterns and enabling efficient, high-quality prompt generation even before inference. Extensive experiments across five state-of-the-art T2V models and five benchmarks demonstrate that RAPO++ achieves significant gains in semantic alignment, compositional reasoning, temporal stability, and physical plausibility, outperforming existing methods by large margins. Our results highlight RAPO++ as a model-agnostic, cost-efficient, and scalable solution that sets a new standard for prompt optimization in T2V generation. The code is available at https://github.com/Vchitect/RAPO.

RAPO++: Ottimizzazione Transfase dei Prompt per la Generazione Video da Testo tramite Allineamento dei Dati e Scalabilità al Momento del Test

RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling

Abstract

Support