ChatPaper.aiChatPaper

Руководство Free^2Guide: Градиентно-свободное управление путем интеграла пути для улучшения генерации текста в видео с использованием больших моделей видео-языка.

Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

November 26, 2024
Авторы: Jaemin Kim, Bryan S Kim, Jong Chul Ye
cs.AI

Аннотация

Модели диффузии достигли впечатляющих результатов в генеративных задачах, таких как синтез текста в изображение (T2I) и текста в видео (T2V). Однако достижение точного выравнивания текста в генерации T2V остается сложной задачей из-за сложной временной зависимости между кадрами. Существующие подходы на основе обучения с подкреплением (RL) для улучшения выравнивания текста часто требуют дифференцируемых функций вознаграждения или ограничиваются ограниченными подсказками, что затрудняет их масштабируемость и применимость. В данной статье мы предлагаем Free^2Guide, новую градиентно-свободную структуру для выравнивания сгенерированных видео с текстовыми подсказками без необходимости дополнительного обучения модели. Используя принципы управления путем интеграла по траектории, Free^2Guide аппроксимирует руководство для моделей диффузии, используя недифференцируемые функции вознаграждения, что позволяет интегрировать мощные черные ящики больших моделей видео-языкового восприятия (LVLMs) в качестве модели вознаграждения. Кроме того, наша структура поддерживает гибкое объединение нескольких моделей вознаграждения, включая масштабные модели на основе изображений, для синергетического улучшения выравнивания без значительных вычислительных затрат. Мы демонстрируем, что Free^2Guide значительно улучшает выравнивание текста по различным измерениям и повышает общее качество сгенерированных видео.
English
Diffusion models have achieved impressive results in generative tasks like text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving accurate text alignment in T2V generation remains challenging due to the complex temporal dependency across frames. Existing reinforcement learning (RL)-based approaches to enhance text alignment often require differentiable reward functions or are constrained to limited prompts, hindering their scalability and applicability. In this paper, we propose Free^2Guide, a novel gradient-free framework for aligning generated videos with text prompts without requiring additional model training. Leveraging principles from path integral control, Free^2Guide approximates guidance for diffusion models using non-differentiable reward functions, thereby enabling the integration of powerful black-box Large Vision-Language Models (LVLMs) as reward model. Additionally, our framework supports the flexible ensembling of multiple reward models, including large-scale image-based models, to synergistically enhance alignment without incurring substantial computational overhead. We demonstrate that Free^2Guide significantly improves text alignment across various dimensions and enhances the overall quality of generated videos.

Summary

AI-Generated Summary

PDF132November 29, 2024