ChatPaper.aiChatPaper

PISCES : Post-entraînement annotation-free de texte-à-vidéo par récompenses alignées via transport optimal

PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

February 2, 2026
papers.authors: Minh-Quan Le, Gaurav Mittal, Cheng Zhao, David Gu, Dimitris Samaras, Mei Chen
cs.AI

papers.abstract

La génération texte-vidéo (T2V) vise à synthétiser des vidéos présentant une haute qualité visuelle et une cohérence temporelle, tout en étant sémantiquement alignées sur le texte d'entrée. L’après-entraînement par récompense s'est imposé comme une approche prometteuse pour améliorer la qualité et l'alignement sémantique des vidéos générées. Cependant, les méthodes récentes reposent soit sur de vastes annotations de préférences humaines, soit opèrent sur des embeddings non alignés issus de modèles vision-langage pré-entraînés, ce qui limite leur extensibilité ou conduit à un sous-optimal. Nous présentons PISCES, un algorithme d’après-entraînement sans annotation qui résout ces limitations via un nouveau module de Récompenses Alignées par Transport Optimal (TO) Dual. Pour aligner les signaux de récompense sur le jugement humain, PISCES utilise le TO pour rapprocher les embeddings texte et vidéo à la fois aux niveaux distributionnel et token discret, permettant à la supervision par récompense de remplir deux objectifs : (i) une Récompense de Qualité Alignée par TO Distributionnel qui capture la qualité visuelle globale et la cohérence temporelle ; et (ii) une Récompense Sémantique Alignée par TO au Niveau des Tokens Discrets qui assure une correspondance sémantique spatio-temporelle entre les tokens texte et vidéo. À notre connaissance, PISCES est le premier à améliorer la supervision par récompense sans annotation dans l’après-entraînement génératif via l'angle du TO. Les expériences sur la génération de vidéos courtes et longues montrent que PISCES surpasse les méthodes avec et sans annotation sur VBench pour les scores de Qualité et Sémantique, des études de préférence humaine validant en outre son efficacité. Nous montrons que le module de Récompenses Alignées par TO Dual est compatible avec plusieurs paradigmes d'optimisation, incluant la rétropropagation directe et le réglage fin par apprentissage par renforcement.
English
Text-to-video (T2V) generation aims to synthesize videos with high visual quality and temporal consistency that are semantically aligned with input text. Reward-based post-training has emerged as a promising direction to improve the quality and semantic alignment of generated videos. However, recent methods either rely on large-scale human preference annotations or operate on misaligned embeddings from pre-trained vision-language models, leading to limited scalability or suboptimal supervision. We present PISCES, an annotation-free post-training algorithm that addresses these limitations via a novel Dual Optimal Transport (OT)-aligned Rewards module. To align reward signals with human judgment, PISCES uses OT to bridge text and video embeddings at both distributional and discrete token levels, enabling reward supervision to fulfill two objectives: (i) a Distributional OT-aligned Quality Reward that captures overall visual quality and temporal coherence; and (ii) a Discrete Token-level OT-aligned Semantic Reward that enforces semantic, spatio-temporal correspondence between text and video tokens. To our knowledge, PISCES is the first to improve annotation-free reward supervision in generative post-training through the lens of OT. Experiments on both short- and long-video generation show that PISCES outperforms both annotation-based and annotation-free methods on VBench across Quality and Semantic scores, with human preference studies further validating its effectiveness. We show that the Dual OT-aligned Rewards module is compatible with multiple optimization paradigms, including direct backpropagation and reinforcement learning fine-tuning.
PDF232February 7, 2026