RAPO++: 데이터 정렬 및 테스트 타임 스케일링을 통한 텍스트-비디오 생성을 위한 교차 단계 프롬프트 최적화
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
October 23, 2025
저자: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu
cs.AI
초록
프롬프트 설계는 텍스트-비디오(T2V) 생성에서 중요한 역할을 하지만, 사용자가 제공하는 프롬프트는 종종 짧고 구조화되지 않으며 훈련 데이터와 불일치하여 확산 기반 T2V 모델의 생성 잠재력을 제한합니다. 본 논문에서는 RAPO++를 소개합니다. 이는 교차 단계 프롬프트 최적화 프레임워크로, 훈련 데이터와의 정렬 개선, 테스트 시 반복적 스케일링, 그리고 대규모 언어 모델(LLM) 미세 조정을 통합하여 기본 생성 백본을 수정하지 않고도 T2V 생성을 크게 향상시킵니다. 1단계에서는 검색 증강 프롬프트 최적화(RAPO)가 관계 그래프에서 검색된 의미론적으로 관련된 수식어로 사용자 프롬프트를 풍부하게 하고 훈련 데이터 분포에 맞게 재구성하여 구성성과 다중 객체 정확도를 높입니다. 2단계에서는 샘플 특화 프롬프트 최적화(SSPO)를 도입합니다. 이는 폐쇄형 루프 메커니즘으로, 의미론적 정렬, 공간 정확도, 시간적 일관성 및 광학 흐름과 같은 작업 특화 신호를 포함한 다중 소스 피드백을 사용하여 프롬프트를 반복적으로 개선하여 점진적으로 향상된 비디오 생성 품질을 제공합니다. 3단계에서는 SSPO에서 생성된 최적화된 프롬프트 쌍을 활용하여 재작성 LLM을 미세 조정함으로써 작업 특화 최적화 패턴을 내재화하고 추론 전에도 효율적이고 고품질의 프롬프트 생성을 가능하게 합니다. 5개의 최첨단 T2V 모델과 5개의 벤치마크에 대한 광범위한 실험을 통해 RAPO++가 의미론적 정렬, 구성적 추론, 시간적 안정성 및 물리적 타당성에서 상당한 향상을 달성하며, 기존 방법들을 큰 차이로 능가함을 입증합니다. 우리의 결과는 RAPO++가 모델에 구애받지 않고 비용 효율적이며 확장 가능한 솔루션으로서 T2V 생성 분야의 프롬프트 최적화에 새로운 기준을 제시함을 보여줍니다. 코드는 https://github.com/Vchitect/RAPO에서 확인할 수 있습니다.
English
Prompt design plays a crucial role in text-to-video (T2V) generation, yet
user-provided prompts are often short, unstructured, and misaligned with
training data, limiting the generative potential of diffusion-based T2V models.
We present RAPO++, a cross-stage prompt optimization framework that
unifies training-data--aligned refinement, test-time iterative scaling, and
large language model (LLM) fine-tuning to substantially improve T2V generation
without modifying the underlying generative backbone. In Stage 1,
Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with
semantically relevant modifiers retrieved from a relation graph and refactors
them to match training distributions, enhancing compositionality and
multi-object fidelity. Stage 2 introduces Sample-Specific Prompt
Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts
using multi-source feedback -- including semantic alignment, spatial fidelity,
temporal coherence, and task-specific signals such as optical flow -- yielding
progressively improved video generation quality. Stage 3 leverages
optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing
task-specific optimization patterns and enabling efficient, high-quality prompt
generation even before inference. Extensive experiments across five
state-of-the-art T2V models and five benchmarks demonstrate that RAPO++
achieves significant gains in semantic alignment, compositional reasoning,
temporal stability, and physical plausibility, outperforming existing methods
by large margins. Our results highlight RAPO++ as a model-agnostic,
cost-efficient, and scalable solution that sets a new standard for prompt
optimization in T2V generation. The code is available at
https://github.com/Vchitect/RAPO.