PISCES: Post-Training per Text-to-Video senza Annotazioni tramite Ricompense Allineate con il Trasporto Ottimo

Abstract

La generazione video da testo (Text-to-Video, T2V) mira a sintetizzare video di alta qualità visiva e coerenza temporale, semanticamente allineati al testo di input. L'addestramento post-hoc basato su reward si è affermato come una direzione promettente per migliorare la qualità e l'allineamento semantico dei video generati. Tuttavia, i metodi recenti si basano su annotazioni su larga scala di preferenze umane o operano su embedding disallineati provenienti da modelli pre-addestrati visione-linguaggio, portando a una scalabilità limitata o a una supervisione subottimale. Presentiamo PISCES, un algoritmo di post-training senza annotazioni che affronta queste limitazioni attraverso un nuovo modulo di Reward al Dual Optimal Transport (OT). Per allineare i segnali di reward al giudizio umano, PISCES utilizza l'OT per collegare gli embedding di testo e video sia a livello distribuzionale che a livello di token discreti, consentendo alla supervisione del reward di soddisfare due obiettivi: (i) un Reward di Qualità allineato all'OT Distribuzionale che cattura la qualità visiva complessiva e la coerenza temporale; e (ii) un Reward Semantico a livello di Token Discreti allineato all'OT che impone una corrispondenza semantica spazio-temporale tra i token di testo e video. A nostra conoscenza, PISCES è il primo a migliorare la supervisione del reward senza annotazioni nell'addestramento post-hoc generativo attraverso la lente dell'OT. Esperimenti sulla generazione di video brevi e lunghi mostrano che PISCES supera sia i metodi basati su annotazioni che quelli senza annotazioni su VBench in termini di punteggi di Qualità e Semantica, con studi sulle preferenze umane che ne convalidano ulteriormente l'efficacia. Dimostriamo che il modulo Dual OT-aligned Rewards è compatibile con molteplici paradigmi di ottimizzazione, inclusi la retropropagazione diretta e il fine-tuning con apprendimento per rinforzo.

English

Text-to-video (T2V) generation aims to synthesize videos with high visual quality and temporal consistency that are semantically aligned with input text. Reward-based post-training has emerged as a promising direction to improve the quality and semantic alignment of generated videos. However, recent methods either rely on large-scale human preference annotations or operate on misaligned embeddings from pre-trained vision-language models, leading to limited scalability or suboptimal supervision. We present PISCES, an annotation-free post-training algorithm that addresses these limitations via a novel Dual Optimal Transport (OT)-aligned Rewards module. To align reward signals with human judgment, PISCES uses OT to bridge text and video embeddings at both distributional and discrete token levels, enabling reward supervision to fulfill two objectives: (i) a Distributional OT-aligned Quality Reward that captures overall visual quality and temporal coherence; and (ii) a Discrete Token-level OT-aligned Semantic Reward that enforces semantic, spatio-temporal correspondence between text and video tokens. To our knowledge, PISCES is the first to improve annotation-free reward supervision in generative post-training through the lens of OT. Experiments on both short- and long-video generation show that PISCES outperforms both annotation-based and annotation-free methods on VBench across Quality and Semantic scores, with human preference studies further validating its effectiveness. We show that the Dual OT-aligned Rewards module is compatible with multiple optimization paradigms, including direct backpropagation and reinforcement learning fine-tuning.

PISCES: Post-Training per Text-to-Video senza Annotazioni tramite Ricompense Allineate con il Trasporto Ottimo

PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

Abstract

Support