PISCES: Безаннотационное пост-обучение текста-видео с помощью вознаграждений, согласованных методом оптимального транспорта
PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards
February 2, 2026
Авторы: Minh-Quan Le, Gaurav Mittal, Cheng Zhao, David Gu, Dimitris Samaras, Mei Chen
cs.AI
Аннотация
Генерация видео по тексту (Text-to-Video, T2V) направлена на синтез видео с высоким визуальным качеством и временной согласованностью, которые семантически соответствуют входному тексту. Пост-тренинг на основе вознаграждений стал перспективным направлением для улучшения качества и семантического соответствия генерируемых видео. Однако современные методы либо полагаются на масштабные аннотации человеческих предпочтений, либо работают с несогласованными эмбеддингами из предварительно обученных визуально-языковых моделей, что приводит к ограниченной масштабируемости или субоптимальному контролю. Мы представляем PISCES — алгоритм пост-тренинга, не требующий аннотаций, который решает эти ограничения с помощью нового модуля Dual Optimal Transport (OT)-aligned Rewards. Чтобы согласовать сигналы вознаграждения с человеческим восприятием, PISCES использует оптимальное транспортирование (OT) для согласования текстовых и видео эмбеддингов как на распределенном, так и на дискретном токенном уровнях, что позволяет обеспечить выполнение двух целей: (i) Distributional OT-aligned Quality Reward, который оценивает общее визуальное качество и временную согласованность; и (ii) Discrete Token-level OT-aligned Semantic Reward, который обеспечивает семантическое пространственно-временное соответствие между текстовыми и видео токенами. Насколько нам известно, PISCES является первым методом, улучшающим контроль вознаграждения без аннотаций в генеративном пост-тренинге с использованием подхода оптимального транспортирования. Эксперименты на генерации как коротких, так и длинных видео показывают, что PISCES превосходит как методы с аннотациями, так и без них по показателям VBench по критериям Качества и Семантики, а исследования человеческих предпочтений дополнительно подтверждают его эффективность. Мы демонстрируем, что модуль Dual OT-aligned Rewards совместим с несколькими парадигмами оптимизации, включая прямое распространение ошибки и тонкую настройку с подкреплением.
English
Text-to-video (T2V) generation aims to synthesize videos with high visual quality and temporal consistency that are semantically aligned with input text. Reward-based post-training has emerged as a promising direction to improve the quality and semantic alignment of generated videos. However, recent methods either rely on large-scale human preference annotations or operate on misaligned embeddings from pre-trained vision-language models, leading to limited scalability or suboptimal supervision. We present PISCES, an annotation-free post-training algorithm that addresses these limitations via a novel Dual Optimal Transport (OT)-aligned Rewards module. To align reward signals with human judgment, PISCES uses OT to bridge text and video embeddings at both distributional and discrete token levels, enabling reward supervision to fulfill two objectives: (i) a Distributional OT-aligned Quality Reward that captures overall visual quality and temporal coherence; and (ii) a Discrete Token-level OT-aligned Semantic Reward that enforces semantic, spatio-temporal correspondence between text and video tokens. To our knowledge, PISCES is the first to improve annotation-free reward supervision in generative post-training through the lens of OT. Experiments on both short- and long-video generation show that PISCES outperforms both annotation-based and annotation-free methods on VBench across Quality and Semantic scores, with human preference studies further validating its effectiveness. We show that the Dual OT-aligned Rewards module is compatible with multiple optimization paradigms, including direct backpropagation and reinforcement learning fine-tuning.