Guide gratuit : Contrôle intégral de chemin sans gradient pour améliorer la génération de texte en vidéo avec de grands modèles de vision-langage
Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models
November 26, 2024
Auteurs: Jaemin Kim, Bryan S Kim, Jong Chul Ye
cs.AI
Résumé
Les modèles de diffusion ont obtenu des résultats impressionnants dans des tâches génératives telles que la synthèse texte-image (T2I) et texte-vidéo (T2V). Cependant, parvenir à un alignement précis du texte dans la génération T2V reste difficile en raison de la complexité de la dépendance temporelle à travers les images. Les approches existantes basées sur l'apprentissage par renforcement (RL) pour améliorer l'alignement du texte nécessitent souvent des fonctions de récompense différenciables ou sont contraintes à des indications limitées, ce qui entrave leur extensibilité et leur applicabilité. Dans cet article, nous proposons Free^2Guide, un nouveau cadre sans gradient pour aligner les vidéos générées avec des indications textuelles sans nécessiter de formation supplémentaire du modèle. En exploitant les principes du contrôle intégral de chemin, Free^2Guide approxime le guidage pour les modèles de diffusion en utilisant des fonctions de récompense non différenciables, permettant ainsi l'intégration de puissants modèles de vision-langage en boîte noire (LVLMs) en tant que modèle de récompense. De plus, notre cadre prend en charge l'assemblage flexible de plusieurs modèles de récompense, y compris des modèles d'images à grande échelle, pour améliorer de manière synergique l'alignement sans entraîner de surcharge computationnelle substantielle. Nous démontrons que Free^2Guide améliore significativement l'alignement du texte sur divers aspects et améliore la qualité globale des vidéos générées.
English
Diffusion models have achieved impressive results in generative tasks like
text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving
accurate text alignment in T2V generation remains challenging due to the
complex temporal dependency across frames. Existing reinforcement learning
(RL)-based approaches to enhance text alignment often require differentiable
reward functions or are constrained to limited prompts, hindering their
scalability and applicability. In this paper, we propose Free^2Guide, a novel
gradient-free framework for aligning generated videos with text prompts without
requiring additional model training. Leveraging principles from path integral
control, Free^2Guide approximates guidance for diffusion models using
non-differentiable reward functions, thereby enabling the integration of
powerful black-box Large Vision-Language Models (LVLMs) as reward model.
Additionally, our framework supports the flexible ensembling of multiple reward
models, including large-scale image-based models, to synergistically enhance
alignment without incurring substantial computational overhead. We demonstrate
that Free^2Guide significantly improves text alignment across various
dimensions and enhances the overall quality of generated videos.Summary
AI-Generated Summary