Инструкции в видео: визуальные сигналы как генеративный контроль
In-Video Instructions: Visual Signals as Generative Control
November 24, 2025
Авторы: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Аннотация
Крупномасштабные генеративные модели для видео в последнее время продемонстрировали высокие визуальные способности, позволяя предсказывать последующие кадры, которые соответствуют логическим и физическим закономерностям, выявленным в текущем наблюдении. В данной работе мы исследуем, можно ли использовать такие возможности для управляемой генерации видео из изображений, интерпретируя визуальные сигналы, встроенные в кадры, как инструкции — парадигму, которую мы называем «инструктирование в видео». В отличие от управления на основе текстовых описаний, которые по своей природе являются глобальными и обобщенными, инструктирование в видео кодирует указания пользователя непосредственно в визуальной области с помощью таких элементов, как наложенный текст, стрелки или траектории. Это позволяет устанавливать явные, пространственно-ориентированные и однозначные соответствия между визуальными объектами и их предполагаемыми действиями за счет назначения различных инструкций разным объектам. Многочисленные эксперименты с тремя современными генераторами, включая Veo 3.1, Kling 2.5 и Wan 2.2, показывают, что видеомодели могут надежно интерпретировать и выполнять такие визуально встроенные инструкции, особенно в сложных сценариях с множеством объектов.
English
Large-scale video generative models have recently demonstrated strong visual capabilities, enabling the prediction of future frames that adhere to the logical and physical cues in the current observation. In this work, we investigate whether such capabilities can be harnessed for controllable image-to-video generation by interpreting visual signals embedded within the frames as instructions, a paradigm we term In-Video Instruction. In contrast to prompt-based control, which provides textual descriptions that are inherently global and coarse, In-Video Instruction encodes user guidance directly into the visual domain through elements such as overlaid text, arrows, or trajectories. This enables explicit, spatial-aware, and unambiguous correspondences between visual subjects and their intended actions by assigning distinct instructions to different objects. Extensive experiments on three state-of-the-art generators, including Veo 3.1, Kling 2.5, and Wan 2.2, show that video models can reliably interpret and execute such visually embedded instructions, particularly in complex multi-object scenarios.