Freier Leitfaden: Gradientenfreie Pfadintegralsteuerung zur Verbesserung der Text-zu-Video-Generierung mit großen Vision-Sprach-Modellen
Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models
November 26, 2024
Autoren: Jaemin Kim, Bryan S Kim, Jong Chul Ye
cs.AI
Zusammenfassung
Diffusionsmodelle haben beeindruckende Ergebnisse bei generativen Aufgaben wie der Text-zu-Bild- (T2I) und Text-zu-Video- (T2V) Synthese erzielt. Die präzise Textausrichtung bei der T2V-Generierung bleibt jedoch aufgrund der komplexen zeitlichen Abhängigkeiten über Frames hinweg eine Herausforderung. Bestehende auf Verstärkendem Lernen (RL) basierende Ansätze zur Verbesserung der Textausrichtung erfordern oft differenzierbare Belohnungsfunktionen oder sind auf begrenzte Hinweise beschränkt, was ihre Skalierbarkeit und Anwendbarkeit einschränkt. In diesem Papier schlagen wir Free^2Guide vor, ein neuartiges gradientenfreies Rahmenwerk zur Ausrichtung generierter Videos mit Texthinweisen, ohne zusätzliches Modelltraining zu benötigen. Durch die Nutzung von Prinzipien aus der Pfadintegralsteuerung approximiert Free^2Guide die Anleitung für Diffusionsmodelle mithilfe nicht differenzierbarer Belohnungsfunktionen, wodurch die Integration leistungsstarker Black-Box-Großer Bild-Sprach-Modelle (LVLMs) als Belohnungsmodell ermöglicht wird. Darüber hinaus unterstützt unser Rahmenwerk das flexible Zusammenführen mehrerer Belohnungsmodelle, einschließlich großangelegter bildbasierter Modelle, um die Ausrichtung synergistisch zu verbessern, ohne dabei erheblichen Rechenaufwand zu verursachen. Wir zeigen, dass Free^2Guide die Textausrichtung über verschiedene Dimensionen hinweg signifikant verbessert und die Gesamtqualität der generierten Videos steigert.
English
Diffusion models have achieved impressive results in generative tasks like
text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving
accurate text alignment in T2V generation remains challenging due to the
complex temporal dependency across frames. Existing reinforcement learning
(RL)-based approaches to enhance text alignment often require differentiable
reward functions or are constrained to limited prompts, hindering their
scalability and applicability. In this paper, we propose Free^2Guide, a novel
gradient-free framework for aligning generated videos with text prompts without
requiring additional model training. Leveraging principles from path integral
control, Free^2Guide approximates guidance for diffusion models using
non-differentiable reward functions, thereby enabling the integration of
powerful black-box Large Vision-Language Models (LVLMs) as reward model.
Additionally, our framework supports the flexible ensembling of multiple reward
models, including large-scale image-based models, to synergistically enhance
alignment without incurring substantial computational overhead. We demonstrate
that Free^2Guide significantly improves text alignment across various
dimensions and enhances the overall quality of generated videos.Summary
AI-Generated Summary