Систематическая посттренировочная структура для генерации видео

Аннотация

Хотя крупномасштабные диффузионные модели для видео продемонстрировали впечатляющие возможности в генерации высококачественного и семантически насыщенного контента, сохраняется значительный разрыв между их производительностью после предварительного обучения и требованиями реального развертывания из-за таких критических проблем, как чувствительность к промптам, временная несогласованность и запретительно высокие вычислительные затраты на вывод. Для преодоления этого разрыва мы предлагаем комплексную систему пост-обучения, которая систематически выравнивает предобученные модели в соответствии с пользовательскими намерениями через четыре синергетических этапа: сначала мы применяем контролируемое тонкое настройка (SFT) для преобразования базовой модели в стабильную политику, следующую инструкциям; затем этап обучения с подкреплением на основе человеческих оценок (RLHF) с использованием нового метода Group Relative Policy Optimization (GRPO), адаптированного для видео-диффузии, для улучшения перцептивного качества и временной согласованности; далее мы интегрируем улучшение промптов с помощью специализированной языковой модели для уточнения пользовательских входных данных и, наконец, решаем проблему эффективности системы путем оптимизации вывода. Вместе эти компоненты обеспечивают систематический подход к улучшению визуального качества, временной согласованности и следования инструкциям, сохраняя при этом управляемость, усвоенную на этапе предварительного обучения. Результатом является практическая схема для построения масштабируемых конвейеров пост-обучения, которые являются стабильными, адаптивными и эффективными при развертывании в реальных условиях. Многочисленные эксперименты демонстрируют, что данный унифицированный конвейер эффективно устраняет типичные артефакты и значительно улучшает управляемость и визуальную эстетику при соблюдении строгих ограничений на стоимость сэмплирования.

English

While large-scale video diffusion models have demonstrated impressive capabilities in generating high-resolution and semantically rich content, a significant gap remains between their pretraining performance and real-world deployment requirements due to critical issues such as prompt sensitivity, temporal inconsistency, and prohibitive inference costs. To bridge this gap, we propose a comprehensive post-training framework that systematically aligns pretrained models with user intentions through four synergistic stages: we first employ Supervised Fine-Tuning (SFT) to transform the base model into a stable instruction-following policy, followed by a Reinforcement Learning from Human Feedback (RLHF) stage that utilizes a novel Group Relative Policy Optimization (GRPO) method tailored for video diffusion to enhance perceptual quality and temporal coherence; subsequently, we integrate Prompt Enhancement via a specialized language model to refine user inputs, and finally address system efficiency through Inference Optimization. Together, these components provide a systematic approach to improving visual quality, temporal coherence, and instruction following, while preserving the controllability learned during pretraining. The result is a practical blueprint for building scalable post-training pipelines that are stable, adaptable, and effective in real-world deployment. Extensive experiments demonstrate that this unified pipeline effectively mitigates common artifacts and significantly improves controllability and visual aesthetics while adhering to strict sampling cost constraints.

Систематическая посттренировочная структура для генерации видео

A Systematic Post-Train Framework for Video Generation

Аннотация

Support