ChatPaper.aiChatPaper

PISCES: Post-entrenamiento de Texto a Vídeo sin Anotaciones mediante Recompensas Alineadas por Transporte Óptimo

PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

February 2, 2026
Autores: Minh-Quan Le, Gaurav Mittal, Cheng Zhao, David Gu, Dimitris Samaras, Mei Chen
cs.AI

Resumen

La generación de texto a vídeo (T2V) tiene como objetivo sintetizar vídeos con alta calidad visual y coherencia temporal que estén semánticamente alineados con el texto de entrada. El post-entrenamiento basado en recompensas ha surgido como una dirección prometedora para mejorar la calidad y la alineación semántica de los vídeos generados. Sin embargo, los métodos recientes dependen de anotaciones de preferencia humana a gran escala o operan sobre *embeddings* desalineados de modelos de visión y lenguaje preentrenados, lo que conduce a una escalabilidad limitada o a una supervisión subóptima. Presentamos PISCES, un algoritmo de post-entrenamiento sin anotaciones que aborda estas limitaciones mediante un nuevo módulo de Recompensas Alineadas por Transporte Óptimo (TO) Dual. Para alinear las señales de recompensa con el criterio humano, PISCES utiliza TO para tender un puente entre los *embeddings* de texto y vídeo tanto a nivel distribucional como a nivel de tokens discretos, permitiendo que la supervisión por recompensa cumpla dos objetivos: (i) una Recompensa de Calidad Alineada por TO Distribucional que captura la calidad visual general y la coherencia temporal; y (ii) una Recompensa Semántica a Nivel de Tokens Discretos Alineada por TO que impone una correspondencia semántica espacio-temporal entre los tokens de texto y vídeo. Hasta donde sabemos, PISCES es el primero en mejorar la supervisión de recompensas sin anotaciones en el post-entrenamiento generativo mediante la lente del TO. Los experimentos en generación de vídeos cortos y largos muestran que PISCES supera a los métodos basados en anotaciones y a los libres de anotaciones en VBench en las puntuaciones de Calidad y Semántica, y los estudios de preferencia humana validan aún más su eficacia. Demostramos que el módulo de Recompensas Alineadas por TO Dual es compatible con múltiples paradigmas de optimización, incluida la retropropagación directa y el ajuste fino por aprendizaje por refuerzo.
English
Text-to-video (T2V) generation aims to synthesize videos with high visual quality and temporal consistency that are semantically aligned with input text. Reward-based post-training has emerged as a promising direction to improve the quality and semantic alignment of generated videos. However, recent methods either rely on large-scale human preference annotations or operate on misaligned embeddings from pre-trained vision-language models, leading to limited scalability or suboptimal supervision. We present PISCES, an annotation-free post-training algorithm that addresses these limitations via a novel Dual Optimal Transport (OT)-aligned Rewards module. To align reward signals with human judgment, PISCES uses OT to bridge text and video embeddings at both distributional and discrete token levels, enabling reward supervision to fulfill two objectives: (i) a Distributional OT-aligned Quality Reward that captures overall visual quality and temporal coherence; and (ii) a Discrete Token-level OT-aligned Semantic Reward that enforces semantic, spatio-temporal correspondence between text and video tokens. To our knowledge, PISCES is the first to improve annotation-free reward supervision in generative post-training through the lens of OT. Experiments on both short- and long-video generation show that PISCES outperforms both annotation-based and annotation-free methods on VBench across Quality and Semantic scores, with human preference studies further validating its effectiveness. We show that the Dual OT-aligned Rewards module is compatible with multiple optimization paradigms, including direct backpropagation and reinforcement learning fine-tuning.
PDF232February 7, 2026