Guide gratuit : Contrôle intégral de chemin sans gradient pour améliorer la génération de texte en vidéo avec de grands modèles de vision-langage

papers.abstract

Les modèles de diffusion ont obtenu des résultats impressionnants dans des tâches génératives telles que la synthèse texte-image (T2I) et texte-vidéo (T2V). Cependant, parvenir à un alignement précis du texte dans la génération T2V reste difficile en raison de la complexité de la dépendance temporelle à travers les images. Les approches existantes basées sur l'apprentissage par renforcement (RL) pour améliorer l'alignement du texte nécessitent souvent des fonctions de récompense différenciables ou sont contraintes à des indications limitées, ce qui entrave leur extensibilité et leur applicabilité. Dans cet article, nous proposons Free^2Guide, un nouveau cadre sans gradient pour aligner les vidéos générées avec des indications textuelles sans nécessiter de formation supplémentaire du modèle. En exploitant les principes du contrôle intégral de chemin, Free^2Guide approxime le guidage pour les modèles de diffusion en utilisant des fonctions de récompense non différenciables, permettant ainsi l'intégration de puissants modèles de vision-langage en boîte noire (LVLMs) en tant que modèle de récompense. De plus, notre cadre prend en charge l'assemblage flexible de plusieurs modèles de récompense, y compris des modèles d'images à grande échelle, pour améliorer de manière synergique l'alignement sans entraîner de surcharge computationnelle substantielle. Nous démontrons que Free^2Guide améliore significativement l'alignement du texte sur divers aspects et améliore la qualité globale des vidéos générées.

English

Diffusion models have achieved impressive results in generative tasks like text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving accurate text alignment in T2V generation remains challenging due to the complex temporal dependency across frames. Existing reinforcement learning (RL)-based approaches to enhance text alignment often require differentiable reward functions or are constrained to limited prompts, hindering their scalability and applicability. In this paper, we propose Free^2Guide, a novel gradient-free framework for aligning generated videos with text prompts without requiring additional model training. Leveraging principles from path integral control, Free^2Guide approximates guidance for diffusion models using non-differentiable reward functions, thereby enabling the integration of powerful black-box Large Vision-Language Models (LVLMs) as reward model. Additionally, our framework supports the flexible ensembling of multiple reward models, including large-scale image-based models, to synergistically enhance alignment without incurring substantial computational overhead. We demonstrate that Free^2Guide significantly improves text alignment across various dimensions and enhances the overall quality of generated videos.

Guide gratuit : Contrôle intégral de chemin sans gradient pour améliorer la génération de texte en vidéo avec de grands modèles de vision-langage

Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

papers.abstract

Support