ChatPaper.aiChatPaper

인비디오 지시: 생성적 제어로서의 시각적 신호

In-Video Instructions: Visual Signals as Generative Control

November 24, 2025
저자: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI

초록

대규모 비디오 생성 모델은 최근 강력한 시각 능력을 입증하며 현재 관측 프레임의 논리적, 물리적 단서를 따르는 미래 프레임 예측을 가능하게 하였다. 본 연구에서는 프레임 내에 내재된 시각적 신호를 지시어로 해석하여 제어 가능한 이미지-비디오 생성에 이러한 능력을 활용할 수 있는지 탐구하며, 이를 인-비디오 지시어(In-Video Instruction) 패러다임으로 명명한다. 본질적으로 전역적이고 포괄적인 텍스트 설명을 제공하는 프롬프트 기반 제어와 달리, 인-비디오 지시어는 오버레이 텍스트, 화살표, 궤적 등의 요소를 통해 사용자 지침을 시각 영역에 직접 인코딩한다. 이를 통해 서로 다른 객체에 개별 지시어를 할당함으로써 시각적 대상과 의도된 동작 간의 명시적, 공간 인식적, 모호함 없는 대응 관계를 가능하게 한다. Veo 3.1, Kling 2.5, Wan 2.2를 포함한 세 가지 최첨단 생성기에 대한 광범위한 실험을 통해 비디오 모델이 특히 복잡한 다중 객체 시나리오에서 이러한 시각적으로 내재된 지시어를 안정적으로 해석하고 실행할 수 있음을 보여준다.
English
Large-scale video generative models have recently demonstrated strong visual capabilities, enabling the prediction of future frames that adhere to the logical and physical cues in the current observation. In this work, we investigate whether such capabilities can be harnessed for controllable image-to-video generation by interpreting visual signals embedded within the frames as instructions, a paradigm we term In-Video Instruction. In contrast to prompt-based control, which provides textual descriptions that are inherently global and coarse, In-Video Instruction encodes user guidance directly into the visual domain through elements such as overlaid text, arrows, or trajectories. This enables explicit, spatial-aware, and unambiguous correspondences between visual subjects and their intended actions by assigning distinct instructions to different objects. Extensive experiments on three state-of-the-art generators, including Veo 3.1, Kling 2.5, and Wan 2.2, show that video models can reliably interpret and execute such visually embedded instructions, particularly in complex multi-object scenarios.
PDF322February 7, 2026