RAPO++: Grensoverschrijdende Promptoptimalisatie voor Tekst-naar-Videogeneratie via Gegevensuitlijning en Schaling tijdens Testtijd

Samenvatting

Promptontwerp speelt een cruciale rol in tekst-naar-video (T2V) generatie, maar door gebruikers verstrekte prompts zijn vaak kort, ongestructureerd en niet afgestemd op trainingsdata, wat het generatieve potentieel van op diffusie gebaseerde T2V-modellen beperkt. Wij presenteren RAPO++, een cross-stage promptoptimalisatiekader dat afgestemde verfijning op trainingsdata, iteratieve schaling tijdens testtijd en finetunen van large language models (LLM's) verenigt om T2V-generatie aanzienlijk te verbeteren zonder de onderliggende generatieve backbone aan te passen. In Fase 1 verrijkt Retrieval-Augmented Prompt Optimization (RAPO) gebruikersprompts met semantisch relevante modifiers opgehaald uit een relatiegraaf en herstructureert ze om trainingsdistributies te matchen, waardoor de compositionaliteit en multi-objecttrouw worden verbeterd. Fase 2 introduceert Sample-Specific Prompt Optimization (SSPO), een closed-loopmechanisme dat prompts iteratief verfijnt met behulp van multi-source feedback – inclusief semantische uitlijning, spatiale trouw, temporele coherentie en taakspecifieke signalen zoals optische stroming – wat progressief verbeterde videogeneratiekwaliteit oplevert. Fase 3 benut geoptimaliseerde promptparen van SSPO om de herschrijver-LLM te finetunen, waardoor taakspecifieke optimalisatiepatronen worden geïnternaliseerd en efficiënte, hoogwaardige promptgeneratie zelfs vóór inferentie mogelijk wordt. Uitgebreide experimenten met vijf state-of-the-art T2V-modellen en vijf benchmarks tonen aan dat RAPO++ aanzienlijke verbeteringen bereikt in semantische uitlijning, compositioneel redeneren, temporele stabiliteit en fysieke geloofwaardigheid, en bestaande methodes met grote marges overtreft. Onze resultaten benadrukken RAPO++ als een model-agnostische, kostenefficiënte en schaalbare oplossing die een nieuwe standaard zet voor promptoptimalisatie in T2V-generatie. De code is beschikbaar op https://github.com/Vchitect/RAPO.

English

Prompt design plays a crucial role in text-to-video (T2V) generation, yet user-provided prompts are often short, unstructured, and misaligned with training data, limiting the generative potential of diffusion-based T2V models. We present RAPO++, a cross-stage prompt optimization framework that unifies training-data--aligned refinement, test-time iterative scaling, and large language model (LLM) fine-tuning to substantially improve T2V generation without modifying the underlying generative backbone. In Stage 1, Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with semantically relevant modifiers retrieved from a relation graph and refactors them to match training distributions, enhancing compositionality and multi-object fidelity. Stage 2 introduces Sample-Specific Prompt Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts using multi-source feedback -- including semantic alignment, spatial fidelity, temporal coherence, and task-specific signals such as optical flow -- yielding progressively improved video generation quality. Stage 3 leverages optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing task-specific optimization patterns and enabling efficient, high-quality prompt generation even before inference. Extensive experiments across five state-of-the-art T2V models and five benchmarks demonstrate that RAPO++ achieves significant gains in semantic alignment, compositional reasoning, temporal stability, and physical plausibility, outperforming existing methods by large margins. Our results highlight RAPO++ as a model-agnostic, cost-efficient, and scalable solution that sets a new standard for prompt optimization in T2V generation. The code is available at https://github.com/Vchitect/RAPO.

RAPO++: Grensoverschrijdende Promptoptimalisatie voor Tekst-naar-Videogeneratie via Gegevensuitlijning en Schaling tijdens Testtijd

RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling

Samenvatting

Support