PISCES: 최적 수송 정렬 보상을 통한 주석 없는 텍스트-비디오 사후 훈련
PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards
February 2, 2026
저자: Minh-Quan Le, Gaurav Mittal, Cheng Zhao, David Gu, Dimitris Samaras, Mei Chen
cs.AI
초록
텍스트-비디오(T2V) 생성은 입력 텍스트와 의미적으로 일관되면서 높은 시각적 품질과 시간적 일관성을 가진 비디오를 합성하는 것을 목표로 합니다. 보상 기반 사후 훈련은 생성된 비디오의 품질과 의미적 일관성을 향상시키는 유망한 방향으로 부상했습니다. 그러나 최근 방법들은 대규모 인간 선호도 주석에 의존하거나 사전 훈련된 비전-언어 모델의 정렬되지 않은 임베딩을 기반으로 작동하여 확장성이 제한되거나 최적이 아닌 지도 학습을 초래합니다. 본 논문에서는 이러한 한계를 해결하기 위한 새로운 Dual 최적 수송(OT) 기반 보상 모듈을 통해 주석이 필요 없는 사후 훈련 알고리즘인 PISCES를 제시합니다. PISCES는 보상 신호를 인간의 판단과 일치시키기 위해 OT를 사용하여 분포 수준과 개별 토큰 수준에서 텍스트와 비디오 임베딩을 연결하며, 이를 통해 보상 지도 학습이 두 가지 목표를 달성하도록 합니다: (i) 전반적인 시각적 품질과 시간적 일관성을 포착하는 분포 수준 OT 기반 품질 보상, (ii) 텍스트와 비디오 토큰 간의 의미적, 시공간적 일관성을 강화하는 개별 토큰 수준 OT 기반 의미 보상. 우리가 알기로 PISCES는 OT 관점에서 생성적 사후 훈련의 주석 없는 보상 지도 학습을 개선한 최초의 방법입니다. 단편 및 장편 비디오 생성에 대한 실험 결과, PISCES는 VBench의 품질 및 의미 점수에서 주석 기반 및 주석 없는 방법들을 모두 능가하며, 인간 선호도 연구를 통해 그 효과가 추가로 입증되었습니다. 또한 Dual OT 기반 보상 모듈이 직접 역전파와 강화 학습 미세 조정을 포함한 다양한 최적화 패러다임과 호환됨을 보여줍니다.
English
Text-to-video (T2V) generation aims to synthesize videos with high visual quality and temporal consistency that are semantically aligned with input text. Reward-based post-training has emerged as a promising direction to improve the quality and semantic alignment of generated videos. However, recent methods either rely on large-scale human preference annotations or operate on misaligned embeddings from pre-trained vision-language models, leading to limited scalability or suboptimal supervision. We present PISCES, an annotation-free post-training algorithm that addresses these limitations via a novel Dual Optimal Transport (OT)-aligned Rewards module. To align reward signals with human judgment, PISCES uses OT to bridge text and video embeddings at both distributional and discrete token levels, enabling reward supervision to fulfill two objectives: (i) a Distributional OT-aligned Quality Reward that captures overall visual quality and temporal coherence; and (ii) a Discrete Token-level OT-aligned Semantic Reward that enforces semantic, spatio-temporal correspondence between text and video tokens. To our knowledge, PISCES is the first to improve annotation-free reward supervision in generative post-training through the lens of OT. Experiments on both short- and long-video generation show that PISCES outperforms both annotation-based and annotation-free methods on VBench across Quality and Semantic scores, with human preference studies further validating its effectiveness. We show that the Dual OT-aligned Rewards module is compatible with multiple optimization paradigms, including direct backpropagation and reinforcement learning fine-tuning.