PISCES: Annotatievrije Tekst-naar-Video Natreining via Optimal Transport-Uitgelijnde Beloningen

Samenvatting

Text-to-video (T2V)-generatie heeft als doel video's te synthetiseren met een hoge visuele kwaliteit en temporele consistentie die semantisch zijn afgestemd op de invoertekst. Post-training op basis van beloningen is naar voren gekomen als een veelbelovende richting om de kwaliteit en semantische afstemming van gegenereerde video's te verbeteren. Recente methoden vertrouwen echter ofwel op grootschalige annotaties van menselijke voorkeuren, ofwel opereren op niet-uitgelijnde embeddingen van vooraf getrainde vision-language-modellen, wat leidt tot beperkte schaalbaarheid of suboptimale supervisie. Wij presenteren PISCES, een annotatievrije post-training-algoritme dat deze beperkingen aanpakt via een nieuwe Dual Optimal Transport (OT)-aligned Rewards-module. Om beloningssignalen af te stemmen op menselijk oordeel, gebruikt PISCES OT om tekst- en video-embeddings te verbinden op zowel distributioneel als discreet tokenniveau, waardoor beloningssupervisie twee doelstellingen kan vervullen: (i) een Distributioneel OT-afgestemde Kwaliteitsbeloning die de algehele visuele kwaliteit en temporele coherentie vastlegt; en (ii) een Discrete Token-level OT-afgestemde Semantische Beloning die semantische, spatio-temporele correspondentie tussen tekst- en videotokens afdwingt. Voor zover wij weten, is PISCES de eerste methode die annotatievrije beloningssupervisie in generatieve post-training verbetert door de bril van OT. Experimenten met zowel korte als lange videogeneratie tonen aan dat PISCES zowel annotatiegebaseerde als annotatievrije methoden overtreft op VBench voor zowel Kwaliteits- als Semantische scores, waarbij studies naar menselijke voorkeur de effectiviteit verder valideren. Wij tonen aan dat de Dual OT-aligned Rewards-module compatibel is met meerdere optimalisatieparadigma's, waaronder directe backpropagatie en reinforcement learning fine-tuning.

English

Text-to-video (T2V) generation aims to synthesize videos with high visual quality and temporal consistency that are semantically aligned with input text. Reward-based post-training has emerged as a promising direction to improve the quality and semantic alignment of generated videos. However, recent methods either rely on large-scale human preference annotations or operate on misaligned embeddings from pre-trained vision-language models, leading to limited scalability or suboptimal supervision. We present PISCES, an annotation-free post-training algorithm that addresses these limitations via a novel Dual Optimal Transport (OT)-aligned Rewards module. To align reward signals with human judgment, PISCES uses OT to bridge text and video embeddings at both distributional and discrete token levels, enabling reward supervision to fulfill two objectives: (i) a Distributional OT-aligned Quality Reward that captures overall visual quality and temporal coherence; and (ii) a Discrete Token-level OT-aligned Semantic Reward that enforces semantic, spatio-temporal correspondence between text and video tokens. To our knowledge, PISCES is the first to improve annotation-free reward supervision in generative post-training through the lens of OT. Experiments on both short- and long-video generation show that PISCES outperforms both annotation-based and annotation-free methods on VBench across Quality and Semantic scores, with human preference studies further validating its effectiveness. We show that the Dual OT-aligned Rewards module is compatible with multiple optimization paradigms, including direct backpropagation and reinforcement learning fine-tuning.

PISCES: Annotatievrije Tekst-naar-Video Natreining via Optimal Transport-Uitgelijnde Beloningen

PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

Samenvatting

Support