ChatPaper.aiChatPaper

PISCES: Anmerkungsfreies Text-zu-Video-Nachtraining mittels Optimal-Transport-angepasster Belohnungen

PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

February 2, 2026
papers.authors: Minh-Quan Le, Gaurav Mittal, Cheng Zhao, David Gu, Dimitris Samaras, Mei Chen
cs.AI

papers.abstract

Die Text-zu-Video (T2V)-Generierung zielt darauf ab, Videos mit hoher visueller Qualität und zeitlicher Konsistenz zu synthetisieren, die semantisch mit dem Eingabetext übereinstimmen. Belohnungsbasiertes Nachtraining hat sich als vielversprechende Richtung erwiesen, um die Qualität und semantische Übereinstimmung generierter Videos zu verbessern. Allerdings stützen sich aktuelle Methoden entweder auf umfangreiche menschliche Präferenzannotationen oder arbeiten mit fehlausgerichteten Embeddings aus vortrainierten Vision-Language-Modellen, was zu begrenzter Skalierbarkeit oder suboptimaler Supervision führt. Wir stellen PISCES vor, einen annotierungsfreien Nachtrainingsalgorithmus, der diese Einschränkungen durch ein neuartiges Dual Optimal Transport (OT)-aligned Rewards Modul adressiert. Um Belohnungssignale mit menschlichem Urteilsvermögen in Einklang zu bringen, verwendet PISCES OT, um Text- und Video-Embeddings sowohl auf verteilungsbasierter als auch auf diskreter Token-Ebene zu verbinden. Dies ermöglicht eine Belohnungssupervision, die zwei Ziele erfüllt: (i) einen Distributional OT-aligned Quality Reward, der die allgemeine visuelle Qualität und zeitliche Kohärenz erfasst; und (ii) einen Discrete Token-level OT-aligned Semantic Reward, der die semantische, räumlich-zeitliche Übereinstimmung zwischen Text- und Video-Tokens erzwingt. Unseres Wissens ist PISCES die erste Methode, die die annotierungsfreie Belohnungssupervision im generativen Nachtraining durch die Linse der OT verbessert. Experimente zur Generierung kurzer und langer Videos zeigen, dass PISCES sowohl annotierungsbasierte als auch annotierungsfreie Methoden auf VBench hinsichtlich Qualitäts- und Semantik-Scores übertrifft, wobei menschliche Präferenzstudien die Wirksamkeit weiter validieren. Wir zeigen, dass das Dual OT-aligned Rewards Modul mit mehreren Optimierungsparadigmen kompatibel ist, einschließlich direkter Backpropagation und Reinforcement Learning Fine-Tuning.
English
Text-to-video (T2V) generation aims to synthesize videos with high visual quality and temporal consistency that are semantically aligned with input text. Reward-based post-training has emerged as a promising direction to improve the quality and semantic alignment of generated videos. However, recent methods either rely on large-scale human preference annotations or operate on misaligned embeddings from pre-trained vision-language models, leading to limited scalability or suboptimal supervision. We present PISCES, an annotation-free post-training algorithm that addresses these limitations via a novel Dual Optimal Transport (OT)-aligned Rewards module. To align reward signals with human judgment, PISCES uses OT to bridge text and video embeddings at both distributional and discrete token levels, enabling reward supervision to fulfill two objectives: (i) a Distributional OT-aligned Quality Reward that captures overall visual quality and temporal coherence; and (ii) a Discrete Token-level OT-aligned Semantic Reward that enforces semantic, spatio-temporal correspondence between text and video tokens. To our knowledge, PISCES is the first to improve annotation-free reward supervision in generative post-training through the lens of OT. Experiments on both short- and long-video generation show that PISCES outperforms both annotation-based and annotation-free methods on VBench across Quality and Semantic scores, with human preference studies further validating its effectiveness. We show that the Dual OT-aligned Rewards module is compatible with multiple optimization paradigms, including direct backpropagation and reinforcement learning fine-tuning.
PDF232February 7, 2026