ChatPaper.aiChatPaper

In-Video-Anleitungen: Visuelle Signale als generative Steuerung

In-Video Instructions: Visual Signals as Generative Control

November 24, 2025
papers.authors: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI

papers.abstract

Große generative Videomodelle haben kürzlich beeindruckende visuelle Fähigkeiten demonstriert, die die Vorhersage zukünftiger Einzelbilder ermöglichen, die den logischen und physikalischen Hinweisen der aktuellen Beobachtung folgen. In dieser Arbeit untersuchen wir, ob solche Fähigkeiten für kontrollierbare Bild-zu-Video-Generierung genutzt werden können, indem visuelle Signale, die in den Einzelbildern eingebettet sind, als Anweisungen interpretiert werden – ein Paradigma, das wir als In-Video-Instruction bezeichnen. Im Gegensatz zur prompt-basierten Steuerung, die textuelle Beschreibungen bereitstellt, die inhärent global und grob sind, kodiert In-Video-Instruction Benutzerführung direkt in der visuellen Domäne durch Elemente wie überlagerter Text, Pfeile oder Trajektorien. Dies ermöglicht explizite, raumbewusste und eindeutige Zuordnungen zwischen visuellen Subjekten und ihren beabsichtigten Aktionen, indem verschiedenen Objekten distincte Anweisungen zugewiesen werden. Umfangreiche Experimente mit drei state-of-the-art Generatoren – Veo 3.1, Kling 2.5 und Wan 2.2 – zeigen, dass Videomodelle solche visuell eingebetteten Anweisungen zuverlässig interpretieren und ausführen können, insbesondere in komplexen Multi-Objektszenarien.
English
Large-scale video generative models have recently demonstrated strong visual capabilities, enabling the prediction of future frames that adhere to the logical and physical cues in the current observation. In this work, we investigate whether such capabilities can be harnessed for controllable image-to-video generation by interpreting visual signals embedded within the frames as instructions, a paradigm we term In-Video Instruction. In contrast to prompt-based control, which provides textual descriptions that are inherently global and coarse, In-Video Instruction encodes user guidance directly into the visual domain through elements such as overlaid text, arrows, or trajectories. This enables explicit, spatial-aware, and unambiguous correspondences between visual subjects and their intended actions by assigning distinct instructions to different objects. Extensive experiments on three state-of-the-art generators, including Veo 3.1, Kling 2.5, and Wan 2.2, show that video models can reliably interpret and execute such visually embedded instructions, particularly in complex multi-object scenarios.
PDF322February 7, 2026