ChatPaper.aiChatPaper

Vrije^2Gids: Gradientvrije Padintegrale Controle voor het Verbeteren van Tekst-naar-Video Generatie met Grote Visie-Taalmodellen

Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

November 26, 2024
Auteurs: Jaemin Kim, Bryan S Kim, Jong Chul Ye
cs.AI

Samenvatting

Diffusiemodellen hebben indrukwekkende resultaten behaald in generatieve taken zoals tekst-naar-afbeelding (T2I) en tekst-naar-video (T2V) synthese. Het nauwkeurig uitlijnen van tekst in T2V generatie blijft echter een uitdaging vanwege de complexe temporele afhankelijkheid tussen frames. Bestaande op reinforcement learning (RL) gebaseerde benaderingen om tekstuitlijning te verbeteren vereisen vaak differentieerbare beloningsfuncties of zijn beperkt tot beperkte aanwijzingen, wat hun schaalbaarheid en toepasbaarheid belemmert. In dit artikel stellen we Free^2Guide voor, een nieuw gradientvrij kader voor het uitlijnen van gegenereerde video's met tekstaanwijzingen zonder extra modeltraining te vereisen. Door principes uit de padintegraalbesturing te benutten, benadert Free^2Guide begeleiding voor diffusiemodellen met behulp van niet-differentieerbare beloningsfuncties, waardoor de integratie van krachtige black-box Grote Visie-Taalmodellen (LVLM's) als beloningsmodel mogelijk is. Bovendien ondersteunt ons kader de flexibele samenvoeging van meerdere beloningsmodellen, inclusief grootschalige op afbeeldingen gebaseerde modellen, om de uitlijning synergetisch te verbeteren zonder aanzienlijke computationele overhead te veroorzaken. We tonen aan dat Free^2Guide de tekstuitlijning aanzienlijk verbetert over verschillende dimensies en de algehele kwaliteit van gegenereerde video's verbetert.
English
Diffusion models have achieved impressive results in generative tasks like text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving accurate text alignment in T2V generation remains challenging due to the complex temporal dependency across frames. Existing reinforcement learning (RL)-based approaches to enhance text alignment often require differentiable reward functions or are constrained to limited prompts, hindering their scalability and applicability. In this paper, we propose Free^2Guide, a novel gradient-free framework for aligning generated videos with text prompts without requiring additional model training. Leveraging principles from path integral control, Free^2Guide approximates guidance for diffusion models using non-differentiable reward functions, thereby enabling the integration of powerful black-box Large Vision-Language Models (LVLMs) as reward model. Additionally, our framework supports the flexible ensembling of multiple reward models, including large-scale image-based models, to synergistically enhance alignment without incurring substantial computational overhead. We demonstrate that Free^2Guide significantly improves text alignment across various dimensions and enhances the overall quality of generated videos.
PDF132December 14, 2025