PISCES: Pós-treinamento de Texto para Vídeo sem Anotação via Recompensas Alinhadas por Transporte Ótimo

Resumo

A geração de texto para vídeo (T2V) visa sintetizar vídeos com alta qualidade visual e consistência temporal que estejam semanticamente alinhados com o texto de entrada. O pós-treinamento baseado em recompensas surgiu como uma direção promissora para melhorar a qualidade e o alinhamento semântico dos vídeos gerados. No entanto, os métodos recentes ou dependem de anotações em larga escala de preferências humanas ou operam em *embeddings* desalinhados de modelos pré-treinados de visão e linguagem, resultando em escalabilidade limitada ou supervisão subótima. Apresentamos o PISCES, um algoritmo de pós-treinamento sem anotações que aborda essas limitações por meio de um novo módulo de Recompensas Alinhadas por Transporte Ótimo (TO) Duplo. Para alinhar os sinais de recompensa com o julgamento humano, o PISCES usa TO para conectar os *embeddings* de texto e vídeo tanto em nível distribucional quanto em nível de *tokens* discretos, permitindo que a supervisão por recompensa cumpra dois objetivos: (i) uma Recompensa de Qualidade Alinhada por TO Distribucional que captura a qualidade visual geral e a coerência temporal; e (ii) uma Recompensa Semântica Alinhada por TO em Nível de *Tokens* Discretos que impõe a correspondência semântica espaço-temporal entre os *tokens* de texto e vídeo. Até onde sabemos, o PISCES é o primeiro a melhorar a supervisão de recompensa sem anotações no pós-treinamento generativo através da lente do TO. Experimentos na geração de vídeos curtos e longos mostram que o PISCES supera tanto métodos baseados em anotações quanto métodos sem anotações no VBench em pontuações de Qualidade e Semântica, com estudos de preferência humana validando ainda mais sua eficácia. Mostramos que o módulo de Recompensas Alinhadas por TO Duplo é compatível com múltiplos paradigmas de otimização, incluindo retropropagação direta e *fine-tuning* por aprendizagem por reforço.

English

Text-to-video (T2V) generation aims to synthesize videos with high visual quality and temporal consistency that are semantically aligned with input text. Reward-based post-training has emerged as a promising direction to improve the quality and semantic alignment of generated videos. However, recent methods either rely on large-scale human preference annotations or operate on misaligned embeddings from pre-trained vision-language models, leading to limited scalability or suboptimal supervision. We present PISCES, an annotation-free post-training algorithm that addresses these limitations via a novel Dual Optimal Transport (OT)-aligned Rewards module. To align reward signals with human judgment, PISCES uses OT to bridge text and video embeddings at both distributional and discrete token levels, enabling reward supervision to fulfill two objectives: (i) a Distributional OT-aligned Quality Reward that captures overall visual quality and temporal coherence; and (ii) a Discrete Token-level OT-aligned Semantic Reward that enforces semantic, spatio-temporal correspondence between text and video tokens. To our knowledge, PISCES is the first to improve annotation-free reward supervision in generative post-training through the lens of OT. Experiments on both short- and long-video generation show that PISCES outperforms both annotation-based and annotation-free methods on VBench across Quality and Semantic scores, with human preference studies further validating its effectiveness. We show that the Dual OT-aligned Rewards module is compatible with multiple optimization paradigms, including direct backpropagation and reinforcement learning fine-tuning.

PISCES: Pós-treinamento de Texto para Vídeo sem Anotação via Recompensas Alinhadas por Transporte Ótimo

PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

Resumo

Support