Instructions intégrées à la vidéo : les signaux visuels comme contrôle génératif
In-Video Instructions: Visual Signals as Generative Control
November 24, 2025
papers.authors: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
papers.abstract
Les modèles génératifs vidéo à grande échelle ont récemment démontré d’impressionnantes capacités visuelles, permettant la prédiction d’images futures conformes aux indices logiques et physiques présents dans l’observation courante. Dans ce travail, nous étudions si de telles capacités peuvent être exploitées pour la génération contrôlée d’images vers la vidéo en interprétant les signaux visuels intégrés dans les images comme des instructions, un paradigme que nous nommons Instruction In-Vidéo. Contrairement au contrôle par prompt textuel, qui fournit des descriptions globales et nécessairement approximatives, l’Instruction In-Vidéo encode les directives utilisateur directement dans le domaine visuel via des éléments tels que du texte superposé, des flèches ou des trajectoires. Cela permet d’établir des correspondances explicites, spatialement localisées et non ambiguës entre les sujets visuels et leurs actions intentionnelles, en attribuant des instructions distinctes à différents objets. Des expériences approfondies sur trois générateurs de pointe, incluant Veo 3.1, Kling 2.5 et Wan 2.2, montrent que les modèles vidéo peuvent interpréter et exécuter de manière fiable ces instructions visuellement intégrées, en particulier dans des scénarios complexes à plusieurs objets.
English
Large-scale video generative models have recently demonstrated strong visual capabilities, enabling the prediction of future frames that adhere to the logical and physical cues in the current observation. In this work, we investigate whether such capabilities can be harnessed for controllable image-to-video generation by interpreting visual signals embedded within the frames as instructions, a paradigm we term In-Video Instruction. In contrast to prompt-based control, which provides textual descriptions that are inherently global and coarse, In-Video Instruction encodes user guidance directly into the visual domain through elements such as overlaid text, arrows, or trajectories. This enables explicit, spatial-aware, and unambiguous correspondences between visual subjects and their intended actions by assigning distinct instructions to different objects. Extensive experiments on three state-of-the-art generators, including Veo 3.1, Kling 2.5, and Wan 2.2, show that video models can reliably interpret and execute such visually embedded instructions, particularly in complex multi-object scenarios.