ChatPaper.aiChatPaper

Guía Free^2: Control Integral de Trayectoria sin Gradiente para Mejorar la Generación de Texto a Video con Modelos de Visión-Lenguaje Grandes

Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

November 26, 2024
Autores: Jaemin Kim, Bryan S Kim, Jong Chul Ye
cs.AI

Resumen

Los modelos de difusión han logrado resultados impresionantes en tareas generativas como la síntesis de texto a imagen (T2I) y de texto a video (T2V). Sin embargo, lograr una alineación precisa del texto en la generación T2V sigue siendo un desafío debido a la compleja dependencia temporal entre fotogramas. Los enfoques existentes basados en aprendizaje por refuerzo (RL) para mejorar la alineación del texto a menudo requieren funciones de recompensa diferenciables o están limitados a indicaciones específicas, lo que dificulta su escalabilidad y aplicabilidad. En este documento, proponemos Free^2Guide, un nuevo marco libre de gradientes para alinear videos generados con indicaciones de texto sin necesidad de entrenamiento adicional del modelo. Aprovechando los principios del control de integral de camino, Free^2Guide aproxima la guía para los modelos de difusión utilizando funciones de recompensa no diferenciables, lo que permite la integración de potentes Modelos de Visión-Lenguaje a Gran Escala (LVLMs) como modelo de recompensa. Además, nuestro marco admite el ensamblaje flexible de múltiples modelos de recompensa, incluidos modelos basados en imágenes a gran escala, para mejorar sinérgicamente la alineación sin incurrir en una sobrecarga computacional sustancial. Demostramos que Free^2Guide mejora significativamente la alineación del texto en diversas dimensiones y mejora la calidad general de los videos generados.
English
Diffusion models have achieved impressive results in generative tasks like text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving accurate text alignment in T2V generation remains challenging due to the complex temporal dependency across frames. Existing reinforcement learning (RL)-based approaches to enhance text alignment often require differentiable reward functions or are constrained to limited prompts, hindering their scalability and applicability. In this paper, we propose Free^2Guide, a novel gradient-free framework for aligning generated videos with text prompts without requiring additional model training. Leveraging principles from path integral control, Free^2Guide approximates guidance for diffusion models using non-differentiable reward functions, thereby enabling the integration of powerful black-box Large Vision-Language Models (LVLMs) as reward model. Additionally, our framework supports the flexible ensembling of multiple reward models, including large-scale image-based models, to synergistically enhance alignment without incurring substantial computational overhead. We demonstrate that Free^2Guide significantly improves text alignment across various dimensions and enhances the overall quality of generated videos.

Summary

AI-Generated Summary

PDF132November 29, 2024