GPT4Motion: Programmazione di Movimenti Fisici nella Generazione Video da Testo tramite Pianificazione GPT Orientata a Blender

Abstract

I recenti progressi nella generazione di video da testo hanno sfruttato la potenza dei modelli di diffusione per creare contenuti visivamente accattivanti condizionati da prompt testuali. Tuttavia, questi approcci spesso incontrano elevati costi computazionali e faticano a produrre video con movimenti fisici coerenti. Per affrontare queste problematiche, proponiamo GPT4Motion, un framework senza necessità di addestramento che sfrutta la capacità di pianificazione dei grandi modelli linguistici come GPT, la forza della simulazione fisica di Blender e l'eccellente capacità di generazione di immagini dei modelli di diffusione da testo a immagine per migliorare la qualità della sintesi video. Nello specifico, GPT4Motion utilizza GPT-4 per generare uno script Blender basato su un prompt testuale dell'utente, il quale comanda il motore fisico integrato di Blender per creare componenti di scena fondamentali che racchiudono movimenti fisici coerenti tra i fotogrammi. Questi componenti vengono poi inseriti in Stable Diffusion per generare un video allineato con il prompt testuale. I risultati sperimentali su tre scenari di movimento fisico di base, tra cui caduta e collisione di oggetti rigidi, drappeggio e oscillazione di tessuti e flusso di liquidi, dimostrano che GPT4Motion può generare video di alta qualità in modo efficiente, mantenendo la coerenza del movimento e la consistenza delle entità. GPT4Motion offre nuove prospettive nella ricerca sulla generazione di video da testo, migliorandone la qualità e ampliando gli orizzonti per future esplorazioni.

English

Recent advances in text-to-video generation have harnessed the power of diffusion models to create visually compelling content conditioned on text prompts. However, they usually encounter high computational costs and often struggle to produce videos with coherent physical motions. To tackle these issues, we propose GPT4Motion, a training-free framework that leverages the planning capability of large language models such as GPT, the physical simulation strength of Blender, and the excellent image generation ability of text-to-image diffusion models to enhance the quality of video synthesis. Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a user textual prompt, which commands Blender's built-in physics engine to craft fundamental scene components that encapsulate coherent physical motions across frames. Then these components are inputted into Stable Diffusion to generate a video aligned with the textual prompt. Experimental results on three basic physical motion scenarios, including rigid object drop and collision, cloth draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate high-quality videos efficiently in maintaining motion coherency and entity consistency. GPT4Motion offers new insights in text-to-video research, enhancing its quality and broadening its horizon for future explorations.

GPT4Motion: Programmazione di Movimenti Fisici nella Generazione Video da Testo tramite Pianificazione GPT Orientata a Blender

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

Abstract

Support