ChatPaper.aiChatPaper

PISCES: 最適輸送整合報酬による注釈不要のテキスト動画ポストトレーニング

PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

February 2, 2026
著者: Minh-Quan Le, Gaurav Mittal, Cheng Zhao, David Gu, Dimitris Samaras, Mei Chen
cs.AI

要旨

テキストからビデオ(T2V)生成は、入力テキストと意味的に整合性が高く、高い視覚的品質と時間的一貫性を備えたビデオを合成することを目的としている。報酬ベースの事後学習は、生成されるビデオの品質と意味的整合性を向上させる有望な方向性として登場した。しかし、最近の手法は、大規模な人間の嗜好アノテーションに依存するか、あるいは事前学習済み視覚言語モデルから得られた整合性の低い埋め込みに基づいて動作するため、拡張性が限られるか、最適ではない監督信号が得られるという課題がある。本研究では、新規の二重最適輸送(OT)整合報酬モジュールによりこれらの課題に対処する、アノテーション不要の事後学習アルゴリズムPISCESを提案する。報酬信号を人間の判断に整合させるため、PISCESはOTを用いて、分布的および個別トークンレベルの両方でテキストとビデオの埋め込みを橋渡しし、報酬監督が以下の二つの目的を達成することを可能にする:(i) 全体的な視覚的品質と時間的コヒーレンスを捉える分布的OT整合品質報酬、および (ii) テキストトークンとビデオトークン間の意味的・時空間的対応を強化する個別トークンレベルOT整合意味報酬である。知る限り、PISCESはOTの観点から生成的事後学習におけるアノテーション不要の報酬監督を改善する初めての試みである。短編および長編ビデオ生成に関する実験により、PISCESが品質スコアと意味スコアの両方においてVBench上でアノテーションあり・なしの手法を上回り、人間の嗜好調査がその有効性をさらに裏付けることを示す。また、二重OT整合報酬モジュールが、直接的な誤差逆伝播と強化学習に基づくファインチューニングを含む、複数の最適化パラダイムと互換性があることを示す。
English
Text-to-video (T2V) generation aims to synthesize videos with high visual quality and temporal consistency that are semantically aligned with input text. Reward-based post-training has emerged as a promising direction to improve the quality and semantic alignment of generated videos. However, recent methods either rely on large-scale human preference annotations or operate on misaligned embeddings from pre-trained vision-language models, leading to limited scalability or suboptimal supervision. We present PISCES, an annotation-free post-training algorithm that addresses these limitations via a novel Dual Optimal Transport (OT)-aligned Rewards module. To align reward signals with human judgment, PISCES uses OT to bridge text and video embeddings at both distributional and discrete token levels, enabling reward supervision to fulfill two objectives: (i) a Distributional OT-aligned Quality Reward that captures overall visual quality and temporal coherence; and (ii) a Discrete Token-level OT-aligned Semantic Reward that enforces semantic, spatio-temporal correspondence between text and video tokens. To our knowledge, PISCES is the first to improve annotation-free reward supervision in generative post-training through the lens of OT. Experiments on both short- and long-video generation show that PISCES outperforms both annotation-based and annotation-free methods on VBench across Quality and Semantic scores, with human preference studies further validating its effectiveness. We show that the Dual OT-aligned Rewards module is compatible with multiple optimization paradigms, including direct backpropagation and reinforcement learning fine-tuning.
PDF232February 7, 2026