VINO: Ein einheitlicher visueller Generator mit verschachteltem omnimodalem Kontext
VINO: A Unified Visual Generator with Interleaved OmniModal Context
January 5, 2026
papers.authors: Junyi Chen, Tong He, Zhoujie Fu, Pengfei Wan, Kun Gai, Weicai Ye
cs.AI
papers.abstract
Wir stellen VINO vor, einen vereinheitlichten visuellen Generator, der Bild- und Videogenerierung sowie -bearbeitung innerhalb eines einzigen Frameworks durchführt. Anstatt auf aufgabenspezifische Modelle oder unabhängige Module für jede Modalität angewiesen zu sein, nutzt VINO ein gemeinsames Diffusion-Backbone, das auf Text, Bilder und Videos konditioniert. Dies ermöglicht ein breites Spektrum visueller Erstellungs- und Bearbeitungsaufgaben unter einem einzigen Modell. Konkret kombiniert VINO ein Vision-Language-Model (VLM) mit einem Multimodal Diffusion Transformer (MMDiT), bei dem multimodale Eingaben als verschachtelte Konditionierungstokens kodiert werden, um dann den Diffusionsprozess zu steuern. Dieser Entwurf unterstützt Multi-Referenz-Grounding, die Befolgung langwieriger Instruktionen und kohärente Identitätserhaltung über statische und dynamische Inhalte hinweg, während modalitätsspezifische Architekturkomponenten vermieden werden. Um ein solches vereinheitlichtes System zu trainieren, führen wir eine mehrstufige Trainingspipeline ein, die ein Basis-Videogenerierungsmodell schrittweise zu einem vereinheitlichten, multitaskingfähigen Generator erweitert, der sowohl Bild- als auch Videoeingaben und -ausgaben verarbeiten kann. In diversen Generierungs- und Bearbeitungsbenchmarks demonstriert VINO hohe visuelle Qualität, zuverlässige Instruktionsbefolgung, verbesserte Referenz- und Attributerhaltung sowie besser kontrollierbare Multi-Identitäts-Bearbeitungen. Unsere Ergebnisse unterstreichen einen praktischen Weg hin zu skalierbarer, vereinheitlichter visueller Generierung und das Potenzial verschachtelter, kontextbezogener Berechnung als Grundlage für allgemeine visuelle Erstellung.
English
We present VINO, a unified visual generator that performs image and video generation and editing within a single framework. Instead of relying on task-specific models or independent modules for each modality, VINO uses a shared diffusion backbone that conditions on text, images and videos, enabling a broad range of visual creation and editing tasks under one model. Specifically, VINO couples a vision-language model (VLM) with a Multimodal Diffusion Transformer (MMDiT), where multimodal inputs are encoded as interleaved conditioning tokens, and then used to guide the diffusion process. This design supports multi-reference grounding, long-form instruction following, and coherent identity preservation across static and dynamic content, while avoiding modality-specific architectural components. To train such a unified system, we introduce a multi-stage training pipeline that progressively expands a video generation base model into a unified, multi-task generator capable of both image and video input and output. Across diverse generation and editing benchmarks, VINO demonstrates strong visual quality, faithful instruction following, improved reference and attribute preservation, and more controllable multi-identity edits. Our results highlight a practical path toward scalable unified visual generation, and the promise of interleaved, in-context computation as a foundation for general-purpose visual creation.