VINO: 상호 교차된 전모달 컨텍스트를 갖춘 통합 시각 생성기
VINO: A Unified Visual Generator with Interleaved OmniModal Context
January 5, 2026
저자: Junyi Chen, Tong He, Zhoujie Fu, Pengfei Wan, Kun Gai, Weicai Ye
cs.AI
초록
우리는 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 수행하는 통합 시각 생성기 VINO를 제안한다. 각 모달리티별로 과제 전용 모델이나 독립적인 모듈에 의존하는 대신, VINO는 텍스트, 이미지, 비디오를 조건으로 하는 공유 확산 백본을 사용하여 하나의 모델로 광범위한 시각 생성 및 편집 과제를 수행할 수 있다. 구체적으로 VINO는 비전-언어 모델(VLM)과 Multimodal Diffusion Transformer(MMDiT)를 결합하며, 여기서 다중모달 입력은 교차된 조건 토큰으로 인코딩된 후 확산 과정을 안내하는 데 사용된다. 이러한 설계는 정적 및 동적 콘텐츠에 걸쳐 다중 참조 기반, 긴 형식의 지시 따르기, 일관된 정체성 보존을 지원하면서 모달리티 특화 아키텍처 구성 요소를 피한다. 이러한 통합 시스템을 학습시키기 위해, 우리는 비디오 생성 기본 모델을 점진적으로 이미지와 비디오 입력 및 출력이 모두 가능한 통합 다중 과제 생성기로 확장하는 다단계 학습 파이프라인을 도입한다. 다양한 생성 및 편집 벤치마크에서 VINO는 강력한 시각적 품질, 충실한 지시 수행, 개선된 참조 및 속성 보존, 더 제어 가능한 다중 정체성 편집을 보여준다. 우리의 결과는 확장 가능한 통합 시각 생성으로 가는 실용적인 경로와 범용 시각 생성의 기반으로서 교차된 맥락 내 계산의 가능성을 강조한다.
English
We present VINO, a unified visual generator that performs image and video generation and editing within a single framework. Instead of relying on task-specific models or independent modules for each modality, VINO uses a shared diffusion backbone that conditions on text, images and videos, enabling a broad range of visual creation and editing tasks under one model. Specifically, VINO couples a vision-language model (VLM) with a Multimodal Diffusion Transformer (MMDiT), where multimodal inputs are encoded as interleaved conditioning tokens, and then used to guide the diffusion process. This design supports multi-reference grounding, long-form instruction following, and coherent identity preservation across static and dynamic content, while avoiding modality-specific architectural components. To train such a unified system, we introduce a multi-stage training pipeline that progressively expands a video generation base model into a unified, multi-task generator capable of both image and video input and output. Across diverse generation and editing benchmarks, VINO demonstrates strong visual quality, faithful instruction following, improved reference and attribute preservation, and more controllable multi-identity edits. Our results highlight a practical path toward scalable unified visual generation, and the promise of interleaved, in-context computation as a foundation for general-purpose visual creation.