ChatPaper.aiChatPaper

Instruções em Vídeo: Sinais Visuais como Controle Gerativo

In-Video Instructions: Visual Signals as Generative Control

November 24, 2025
Autores: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI

Resumo

Os modelos generativos de vídeo em larga escala têm demonstrado recentemente fortes capacidades visuais, permitindo a previsão de quadros futuros que aderem às pistas lógicas e físicas na observação atual. Neste trabalho, investigamos se tais capacidades podem ser aproveitadas para geração controlada de imagem para vídeo, interpretando os sinais visuais incorporados nos quadros como instruções - um paradigma que denominamos Instrução em Vídeo. Em contraste com o controle baseado em prompt, que fornece descrições textuais inerentemente globais e grosseiras, a Instrução em Vídeo codifica a orientação do usuário diretamente no domínio visual por meio de elementos como texto sobreposto, setas ou trajetórias. Isso permite correspondências explícitas, espacialmente conscientes e inequívocas entre os sujeitos visuais e suas ações pretendidas, atribuindo instruções distintas a diferentes objetos. Experimentos extensos em três geradores de última geração, incluindo Veo 3.1, Kling 2.5 e Wan 2.2, mostram que os modelos de vídeo podem interpretar e executar de forma confiável tais instruções visualmente incorporadas, particularmente em cenários complexos com múltiplos objetos.
English
Large-scale video generative models have recently demonstrated strong visual capabilities, enabling the prediction of future frames that adhere to the logical and physical cues in the current observation. In this work, we investigate whether such capabilities can be harnessed for controllable image-to-video generation by interpreting visual signals embedded within the frames as instructions, a paradigm we term In-Video Instruction. In contrast to prompt-based control, which provides textual descriptions that are inherently global and coarse, In-Video Instruction encodes user guidance directly into the visual domain through elements such as overlaid text, arrows, or trajectories. This enables explicit, spatial-aware, and unambiguous correspondences between visual subjects and their intended actions by assigning distinct instructions to different objects. Extensive experiments on three state-of-the-art generators, including Veo 3.1, Kling 2.5, and Wan 2.2, show that video models can reliably interpret and execute such visually embedded instructions, particularly in complex multi-object scenarios.
PDF322February 27, 2026