RAPO++: Otimização de Prompt Transfásica para Geração de Texto para Vídeo via Alinhamento de Dados e Escalonamento em Tempo de Teste
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
October 23, 2025
Autores: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu
cs.AI
Resumo
O design de prompts desempenha um papel crucial na geração de texto-para-vídeo (T2V), contudo, os prompts fornecidos pelos usuários são frequentemente curtos, não estruturados e desalinhados com os dados de treinamento, limitando o potencial generativo dos modelos T2V baseados em difusão. Apresentamos o RAPO++, uma estrutura de otimização de prompts em estágios cruzados que unifica o refinamento alinhado aos dados de treinamento, o escalonamento iterativo em tempo de teste e o ajuste fino de modelos de linguagem grande (LLM) para melhorar substancialmente a geração T2V sem modificar a espinha dorsal generativa subjacente. No Estágio 1, a Otimização de Prompt Aumentada por Recuperação (RAPO) enriquece os prompts do usuário com modificadores semanticamente relevantes recuperados de um grafo de relações e os refatora para corresponder às distribuições de treinamento, melhorando a composicionalidade e a fidelidade multiobjeto. O Estágio 2 introduz a Otimização de Prompt Específica por Amostra (SSPO), um mecanismo de circuito fechado que refina iterativamente os prompts usando feedback de múltiplas fontes – incluindo alinhamento semântico, fidelidade espacial, coerência temporal e sinais específicos de tarefa, como fluxo óptico – produzindo uma qualidade de geração de vídeo progressivamente melhorada. O Estágio 3 aproveita pares de prompts otimizados do SSPO para ajustar finamente o LLM reescritor, internalizando padrões de otimização específicos da tarefa e permitindo uma geração de prompts eficiente e de alta qualidade mesmo antes da inferência. Experimentos extensos em cinco modelos T2V state-of-the-art e cinco benchmarks demonstram que o RAPO++ alcança ganhos significativos em alinhamento semântico, raciocínio composicional, estabilidade temporal e plausibilidade física, superando os métodos existentes por grandes margens. Nossos resultados destacam o RAPO++ como uma solução agnóstica ao modelo, custo-eficiente e escalável que estabelece um novo padrão para otimização de prompts na geração T2V. O código está disponível em https://github.com/Vchitect/RAPO.
English
Prompt design plays a crucial role in text-to-video (T2V) generation, yet
user-provided prompts are often short, unstructured, and misaligned with
training data, limiting the generative potential of diffusion-based T2V models.
We present RAPO++, a cross-stage prompt optimization framework that
unifies training-data--aligned refinement, test-time iterative scaling, and
large language model (LLM) fine-tuning to substantially improve T2V generation
without modifying the underlying generative backbone. In Stage 1,
Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with
semantically relevant modifiers retrieved from a relation graph and refactors
them to match training distributions, enhancing compositionality and
multi-object fidelity. Stage 2 introduces Sample-Specific Prompt
Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts
using multi-source feedback -- including semantic alignment, spatial fidelity,
temporal coherence, and task-specific signals such as optical flow -- yielding
progressively improved video generation quality. Stage 3 leverages
optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing
task-specific optimization patterns and enabling efficient, high-quality prompt
generation even before inference. Extensive experiments across five
state-of-the-art T2V models and five benchmarks demonstrate that RAPO++
achieves significant gains in semantic alignment, compositional reasoning,
temporal stability, and physical plausibility, outperforming existing methods
by large margins. Our results highlight RAPO++ as a model-agnostic,
cost-efficient, and scalable solution that sets a new standard for prompt
optimization in T2V generation. The code is available at
https://github.com/Vchitect/RAPO.