ChatPaper.aiChatPaper

RAPO++: Кросс-стадийная оптимизация промптов для генерации видео из текста с помощью выравнивания данных и масштабирования во время тестирования

RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling

October 23, 2025
Авторы: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu
cs.AI

Аннотация

Дизайн промптов играет ключевую роль в генерации видео по тексту (Text-to-Video, T2V), однако пользовательские промпты часто бывают краткими, неструктурированными и не согласованными с обучающими данными, что ограничивает генеративный потенциал диффузионных T2V-моделей. Мы представляем RAPO++ — кросc-стадийную структуру оптимизации промптов, которая объединяет согласованное с обучающими данными уточнение, итеративное масштабирование в режиме тестирования и тонкую настройку больших языковых моделей (LLM) для существенного улучшения T2V-генерации без модификации базовой генеративной архитектуры. На Этапе 1 Retrieval-Augmented Prompt Optimization (RAPO) обогащает пользовательские промпты семантически релевантными модификаторами, извлеченными из графа отношений, и перестраивает их для соответствия распределениям обучающих данных, повышая композиционность и достоверность множества объектов. Этап 2 представляет Sample-Specific Prompt Optimization (SSPO) — механизм с обратной связью, который итеративно уточняет промпты, используя мульти-источниковую оценку, включающую семантическое соответствие, пространственную достоверность, временную согласованность и специфичные для задачи сигналы, такие как оптический поток, что приводит к прогрессивному улучшению качества генерации видео. Этап 3 использует оптимизированные пары промптов из SSPO для тонкой настройки LLM-переписывателя, интериоризируя специфичные для задачи паттерны оптимизации и обеспечивая эффективную генерацию высококачественных промптов еще до начала вывода. Масштабные эксперименты на пяти современных T2V-моделях и пяти бенчмарках демонстрируют, что RAPO++ достигает значительного улучшения в семантическом соответствии, композиционном reasoning, временной стабильности и физической правдоподобности, существенно превосходя существующие методы. Наши результаты подчеркивают, что RAPO++ является модельно-агностичным, экономически эффективным и масштабируемым решением, устанавливающим новый стандарт оптимизации промптов в T2V-генерации. Код доступен по адресу https://github.com/Vchitect/RAPO.
English
Prompt design plays a crucial role in text-to-video (T2V) generation, yet user-provided prompts are often short, unstructured, and misaligned with training data, limiting the generative potential of diffusion-based T2V models. We present RAPO++, a cross-stage prompt optimization framework that unifies training-data--aligned refinement, test-time iterative scaling, and large language model (LLM) fine-tuning to substantially improve T2V generation without modifying the underlying generative backbone. In Stage 1, Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with semantically relevant modifiers retrieved from a relation graph and refactors them to match training distributions, enhancing compositionality and multi-object fidelity. Stage 2 introduces Sample-Specific Prompt Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts using multi-source feedback -- including semantic alignment, spatial fidelity, temporal coherence, and task-specific signals such as optical flow -- yielding progressively improved video generation quality. Stage 3 leverages optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing task-specific optimization patterns and enabling efficient, high-quality prompt generation even before inference. Extensive experiments across five state-of-the-art T2V models and five benchmarks demonstrate that RAPO++ achieves significant gains in semantic alignment, compositional reasoning, temporal stability, and physical plausibility, outperforming existing methods by large margins. Our results highlight RAPO++ as a model-agnostic, cost-efficient, and scalable solution that sets a new standard for prompt optimization in T2V generation. The code is available at https://github.com/Vchitect/RAPO.
PDF111December 17, 2025