ChatPaper.aiChatPaper

Istruzioni Integrate nel Video: Segnali Visivi come Controllo Generativo

In-Video Instructions: Visual Signals as Generative Control

November 24, 2025
Autori: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI

Abstract

I recenti modelli generativi video su larga scala hanno dimostrato notevoli capacità visive, permettendo la previsione di fotogrammi futuri che rispettano i suggerimenti logici e fisici presenti nell'osservazione corrente. In questo lavoro, indaghiamo se tali capacità possano essere sfruttate per una generazione controllata da immagine a video, interpretando i segnali visivi incorporati nei fotogrammi come istruzioni, un paradigma che definiamo Istruzione nel Video. A differenza del controllo basato su prompt, che fornisce descrizioni testuali intrinsecamente globali e approssimative, l'Istruzione nel Video codifica la guida dell'utente direttamente nel dominio visivo attraverso elementi come testo sovrapposto, frecce o traiettorie. Ciò consente corrispondenze esplicite, spazialmente consapevoli e inequivocabili tra i soggetti visivi e le azioni previste, assegnando istruzioni distinte a oggetti diversi. Esperimenti estesi su tre generatori all'avanguardia, inclusi Veo 3.1, Kling 2.5 e Wan 2.2, mostrano che i modelli video possono interpretare ed eseguire in modo affidabile tali istruzioni incorporate visivamente, specialmente in scenari complessi con più oggetti.
English
Large-scale video generative models have recently demonstrated strong visual capabilities, enabling the prediction of future frames that adhere to the logical and physical cues in the current observation. In this work, we investigate whether such capabilities can be harnessed for controllable image-to-video generation by interpreting visual signals embedded within the frames as instructions, a paradigm we term In-Video Instruction. In contrast to prompt-based control, which provides textual descriptions that are inherently global and coarse, In-Video Instruction encodes user guidance directly into the visual domain through elements such as overlaid text, arrows, or trajectories. This enables explicit, spatial-aware, and unambiguous correspondences between visual subjects and their intended actions by assigning distinct instructions to different objects. Extensive experiments on three state-of-the-art generators, including Veo 3.1, Kling 2.5, and Wan 2.2, show that video models can reliably interpret and execute such visually embedded instructions, particularly in complex multi-object scenarios.
PDF282December 3, 2025