動画内指示:生成制御としての視覚的シグナル
In-Video Instructions: Visual Signals as Generative Control
November 24, 2025
著者: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
要旨
大規模ビデオ生成モデルは近年、強力な視覚能力を示し、現在の観測に含まれる論理的・物理的手がかりに沿った未来フレームの予測を可能にしている。本研究では、フレーム内に埋め込まれた視覚信号を指示として解釈することで、このような能力が制御可能な画像対ビデオ生成に応用できるかどうかを探求する。この手法を「In-Video Instruction(映像内指示)」と称する。プロンプトベースの制御が本質的に全体的で大まかなテキスト記述を提供するのに対し、In-Video Instructionは、重ね書きされたテキストや矢印、軌道などの要素を通じて、ユーザーの指示を視覚領域に直接符号化する。これにより、異なるオブジェクトに個別の指示を割り当てることで、視覚的主体と意図された動作との間に明示的・空間認識的・曖昧性のない対応関係が実現する。Veo 3.1、Kling 2.5、Wan 2.2を含む3つの最先端生成モデルを用いた広範な実験により、特に複雑な多オブジェクトシナリオにおいて、ビデオモデルがこのような視覚的埋め込み指示を確実に解釈・実行できることが示された。
English
Large-scale video generative models have recently demonstrated strong visual capabilities, enabling the prediction of future frames that adhere to the logical and physical cues in the current observation. In this work, we investigate whether such capabilities can be harnessed for controllable image-to-video generation by interpreting visual signals embedded within the frames as instructions, a paradigm we term In-Video Instruction. In contrast to prompt-based control, which provides textual descriptions that are inherently global and coarse, In-Video Instruction encodes user guidance directly into the visual domain through elements such as overlaid text, arrows, or trajectories. This enables explicit, spatial-aware, and unambiguous correspondences between visual subjects and their intended actions by assigning distinct instructions to different objects. Extensive experiments on three state-of-the-art generators, including Veo 3.1, Kling 2.5, and Wan 2.2, show that video models can reliably interpret and execute such visually embedded instructions, particularly in complex multi-object scenarios.