RAPO++: Optimización de Prompts Transfásica para Generación de Texto a Video mediante Alineación de Datos y Escalado en Tiempo de Prueba
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
October 23, 2025
Autores: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu
cs.AI
Resumen
El diseño de prompts juega un papel crucial en la generación de texto a video (T2V), sin embargo, los prompts proporcionados por los usuarios suelen ser breves, no estructurados y están desalineados con los datos de entrenamiento, lo que limita el potencial generativo de los modelos T2V basados en difusión. Presentamos RAPO++, un marco de optimización de prompts de etapas cruzadas que unifica el refinamiento alineado con los datos de entrenamiento, el escalado iterativo en tiempo de prueba y el ajuste fino de modelos de lenguaje grande (LLM) para mejorar sustancialmente la generación T2V sin modificar la columna vertebral generativa subyacente. En la Etapa 1, la Optimización de Prompts Aumentada por Recuperación (RAPO) enriquece los prompts del usuario con modificadores semánticamente relevantes recuperados de un grafo de relaciones y los refactoriza para que coincidan con las distribuciones de entrenamiento, mejorando la composicionalidad y la fidelidad multi-objeto. La Etapa 2 introduce la Optimización de Prompts Específica de la Muestra (SSPO), un mecanismo de bucle cerrado que refina iterativamente los prompts utilizando retroalimentación multi-fuente —incluyendo alineación semántica, fidelidad espacial, coherencia temporal y señales específicas de la tarea como el flujo óptico— produciendo una calidad de generación de video progresivamente mejorada. La Etapa 3 aprovecha pares de prompts optimizados de la SSPO para ajustar finamente el LLM reescritor, internalizando patrones de optimización específicos de la tarea y permitiendo una generación de prompts eficiente y de alta calidad incluso antes de la inferencia. Experimentos exhaustivos en cinco modelos T2V de última generación y cinco benchmarks demuestran que RAPO++ logra ganancias significativas en alineación semántica, razonamiento composicional, estabilidad temporal y plausibilidad física, superando a los métodos existentes por amplios márgenes. Nuestros resultados destacan a RAPO++ como una solución agnóstica al modelo, rentable y escalable que establece un nuevo estándar para la optimización de prompts en la generación T2V. El código está disponible en https://github.com/Vchitect/RAPO.
English
Prompt design plays a crucial role in text-to-video (T2V) generation, yet
user-provided prompts are often short, unstructured, and misaligned with
training data, limiting the generative potential of diffusion-based T2V models.
We present RAPO++, a cross-stage prompt optimization framework that
unifies training-data--aligned refinement, test-time iterative scaling, and
large language model (LLM) fine-tuning to substantially improve T2V generation
without modifying the underlying generative backbone. In Stage 1,
Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with
semantically relevant modifiers retrieved from a relation graph and refactors
them to match training distributions, enhancing compositionality and
multi-object fidelity. Stage 2 introduces Sample-Specific Prompt
Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts
using multi-source feedback -- including semantic alignment, spatial fidelity,
temporal coherence, and task-specific signals such as optical flow -- yielding
progressively improved video generation quality. Stage 3 leverages
optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing
task-specific optimization patterns and enabling efficient, high-quality prompt
generation even before inference. Extensive experiments across five
state-of-the-art T2V models and five benchmarks demonstrate that RAPO++
achieves significant gains in semantic alignment, compositional reasoning,
temporal stability, and physical plausibility, outperforming existing methods
by large margins. Our results highlight RAPO++ as a model-agnostic,
cost-efficient, and scalable solution that sets a new standard for prompt
optimization in T2V generation. The code is available at
https://github.com/Vchitect/RAPO.