Guía Free^2: Control Integral de Trayectoria sin Gradiente para Mejorar la Generación de Texto a Video con Modelos de Visión-Lenguaje Grandes
Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models
November 26, 2024
Autores: Jaemin Kim, Bryan S Kim, Jong Chul Ye
cs.AI
Resumen
Los modelos de difusión han logrado resultados impresionantes en tareas generativas como la síntesis de texto a imagen (T2I) y de texto a video (T2V). Sin embargo, lograr una alineación precisa del texto en la generación T2V sigue siendo un desafío debido a la compleja dependencia temporal entre fotogramas. Los enfoques existentes basados en aprendizaje por refuerzo (RL) para mejorar la alineación del texto a menudo requieren funciones de recompensa diferenciables o están limitados a indicaciones específicas, lo que dificulta su escalabilidad y aplicabilidad. En este documento, proponemos Free^2Guide, un nuevo marco libre de gradientes para alinear videos generados con indicaciones de texto sin necesidad de entrenamiento adicional del modelo. Aprovechando los principios del control de integral de camino, Free^2Guide aproxima la guía para los modelos de difusión utilizando funciones de recompensa no diferenciables, lo que permite la integración de potentes Modelos de Visión-Lenguaje a Gran Escala (LVLMs) como modelo de recompensa. Además, nuestro marco admite el ensamblaje flexible de múltiples modelos de recompensa, incluidos modelos basados en imágenes a gran escala, para mejorar sinérgicamente la alineación sin incurrir en una sobrecarga computacional sustancial. Demostramos que Free^2Guide mejora significativamente la alineación del texto en diversas dimensiones y mejora la calidad general de los videos generados.
English
Diffusion models have achieved impressive results in generative tasks like
text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving
accurate text alignment in T2V generation remains challenging due to the
complex temporal dependency across frames. Existing reinforcement learning
(RL)-based approaches to enhance text alignment often require differentiable
reward functions or are constrained to limited prompts, hindering their
scalability and applicability. In this paper, we propose Free^2Guide, a novel
gradient-free framework for aligning generated videos with text prompts without
requiring additional model training. Leveraging principles from path integral
control, Free^2Guide approximates guidance for diffusion models using
non-differentiable reward functions, thereby enabling the integration of
powerful black-box Large Vision-Language Models (LVLMs) as reward model.
Additionally, our framework supports the flexible ensembling of multiple reward
models, including large-scale image-based models, to synergistically enhance
alignment without incurring substantial computational overhead. We demonstrate
that Free^2Guide significantly improves text alignment across various
dimensions and enhances the overall quality of generated videos.Summary
AI-Generated Summary