ChatPaper.aiChatPaper

Instrucciones en Video: Señales Visuales como Control Generativo

In-Video Instructions: Visual Signals as Generative Control

November 24, 2025
Autores: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI

Resumen

Los modelos generativos de video a gran escala han demostrado recientemente una gran capacidad visual, permitiendo la predicción de fotogramas futuros que se ajustan a las pistas lógicas y físicas de la observación actual. En este trabajo, investigamos si dichas capacidades pueden aprovecharse para la generación controlada de imagen a video interpretando las señales visuales incrustadas en los fotogramas como instrucciones, un paradigma que denominamos Instrucción en Video. A diferencia del control basado en texto, que proporciona descripciones inherentemente globales y generales, la Instrucción en Video codifica la guía del usuario directamente en el dominio visual mediante elementos como texto superpuesto, flechas o trayectorias. Esto permite correspondencias explícitas, espacialmente conscientes y no ambiguas entre los sujetos visuales y sus acciones deseadas, al asignar instrucciones distintas a objetos diferentes. Experimentos exhaustivos en tres generadores de última generación, incluidos Veo 3.1, Kling 2.5 y Wan 2.2, muestran que los modelos de video pueden interpretar y ejecutar de manera confiable dichas instrucciones visualmente incrustadas, particularmente en escenarios complejos con múltiples objetos.
English
Large-scale video generative models have recently demonstrated strong visual capabilities, enabling the prediction of future frames that adhere to the logical and physical cues in the current observation. In this work, we investigate whether such capabilities can be harnessed for controllable image-to-video generation by interpreting visual signals embedded within the frames as instructions, a paradigm we term In-Video Instruction. In contrast to prompt-based control, which provides textual descriptions that are inherently global and coarse, In-Video Instruction encodes user guidance directly into the visual domain through elements such as overlaid text, arrows, or trajectories. This enables explicit, spatial-aware, and unambiguous correspondences between visual subjects and their intended actions by assigning distinct instructions to different objects. Extensive experiments on three state-of-the-art generators, including Veo 3.1, Kling 2.5, and Wan 2.2, show that video models can reliably interpret and execute such visually embedded instructions, particularly in complex multi-object scenarios.
PDF322February 7, 2026