RAPO++: Grensoverschrijdende Promptoptimalisatie voor Tekst-naar-Videogeneratie via Gegevensuitlijning en Schaling tijdens Testtijd
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
October 23, 2025
Auteurs: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu
cs.AI
Samenvatting
Promptontwerp speelt een cruciale rol in tekst-naar-video (T2V) generatie, maar door gebruikers verstrekte prompts zijn vaak kort, ongestructureerd en niet afgestemd op trainingsdata, wat het generatieve potentieel van op diffusie gebaseerde T2V-modellen beperkt. Wij presenteren RAPO++, een cross-stage promptoptimalisatiekader dat afgestemde verfijning op trainingsdata, iteratieve schaling tijdens testtijd en finetunen van large language models (LLM's) verenigt om T2V-generatie aanzienlijk te verbeteren zonder de onderliggende generatieve backbone aan te passen. In Fase 1 verrijkt Retrieval-Augmented Prompt Optimization (RAPO) gebruikersprompts met semantisch relevante modifiers opgehaald uit een relatiegraaf en herstructureert ze om trainingsdistributies te matchen, waardoor de compositionaliteit en multi-objecttrouw worden verbeterd. Fase 2 introduceert Sample-Specific Prompt Optimization (SSPO), een closed-loopmechanisme dat prompts iteratief verfijnt met behulp van multi-source feedback – inclusief semantische uitlijning, spatiale trouw, temporele coherentie en taakspecifieke signalen zoals optische stroming – wat progressief verbeterde videogeneratiekwaliteit oplevert. Fase 3 benut geoptimaliseerde promptparen van SSPO om de herschrijver-LLM te finetunen, waardoor taakspecifieke optimalisatiepatronen worden geïnternaliseerd en efficiënte, hoogwaardige promptgeneratie zelfs vóór inferentie mogelijk wordt. Uitgebreide experimenten met vijf state-of-the-art T2V-modellen en vijf benchmarks tonen aan dat RAPO++ aanzienlijke verbeteringen bereikt in semantische uitlijning, compositioneel redeneren, temporele stabiliteit en fysieke geloofwaardigheid, en bestaande methodes met grote marges overtreft. Onze resultaten benadrukken RAPO++ als een model-agnostische, kostenefficiënte en schaalbare oplossing die een nieuwe standaard zet voor promptoptimalisatie in T2V-generatie. De code is beschikbaar op https://github.com/Vchitect/RAPO.
English
Prompt design plays a crucial role in text-to-video (T2V) generation, yet
user-provided prompts are often short, unstructured, and misaligned with
training data, limiting the generative potential of diffusion-based T2V models.
We present RAPO++, a cross-stage prompt optimization framework that
unifies training-data--aligned refinement, test-time iterative scaling, and
large language model (LLM) fine-tuning to substantially improve T2V generation
without modifying the underlying generative backbone. In Stage 1,
Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with
semantically relevant modifiers retrieved from a relation graph and refactors
them to match training distributions, enhancing compositionality and
multi-object fidelity. Stage 2 introduces Sample-Specific Prompt
Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts
using multi-source feedback -- including semantic alignment, spatial fidelity,
temporal coherence, and task-specific signals such as optical flow -- yielding
progressively improved video generation quality. Stage 3 leverages
optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing
task-specific optimization patterns and enabling efficient, high-quality prompt
generation even before inference. Extensive experiments across five
state-of-the-art T2V models and five benchmarks demonstrate that RAPO++
achieves significant gains in semantic alignment, compositional reasoning,
temporal stability, and physical plausibility, outperforming existing methods
by large margins. Our results highlight RAPO++ as a model-agnostic,
cost-efficient, and scalable solution that sets a new standard for prompt
optimization in T2V generation. The code is available at
https://github.com/Vchitect/RAPO.