VINO: Um Gerador Visual Unificado com Contexto Omnimodal Intercalado

Resumo

Apresentamos o VINO, um gerador visual unificado que executa geração e edição de imagens e vídeos em um único framework. Em vez de depender de modelos específicos para cada tarefa ou módulos independentes para cada modalidade, o VINO utiliza um backbone de difusão compartilhado que se condiciona a textos, imagens e vídeos, permitindo uma ampla gama de tarefas de criação e edição visual em um único modelo. Especificamente, o VINO acopla um modelo de visão e linguagem (VLM) a um Transformador de Difusão Multimodal (MMDiT), onde entradas multimodais são codificadas como tokens de condicionamento intercalados e, em seguida, usadas para orientar o processo de difusão. Este projeto suporta o ancoramento multirreferência, o seguimento de instruções de longa duração e a preservação coerente de identidade em conteúdos estáticos e dinâmicos, evitando ao mesmo tempo componentes arquitetónicos específicos da modalidade. Para treinar um sistema unificado deste tipo, introduzimos um pipeline de treino multiestágio que expande progressivamente um modelo base de geração de vídeo num gerador unificado e multitarefa capaz de processar entrada e saída de imagem e vídeo. Em diversos benchmarks de geração e edição, o VINO demonstra forte qualidade visual, seguimento fiel de instruções, preservação melhorada de referências e atributos, e edições multi-identidade mais controláveis. Os nossos resultados destacam um caminho prático para a geração visual unificada e escalável, e o potencial da computação intercalada e contextual como base para a criação visual de propósito geral.

English

We present VINO, a unified visual generator that performs image and video generation and editing within a single framework. Instead of relying on task-specific models or independent modules for each modality, VINO uses a shared diffusion backbone that conditions on text, images and videos, enabling a broad range of visual creation and editing tasks under one model. Specifically, VINO couples a vision-language model (VLM) with a Multimodal Diffusion Transformer (MMDiT), where multimodal inputs are encoded as interleaved conditioning tokens, and then used to guide the diffusion process. This design supports multi-reference grounding, long-form instruction following, and coherent identity preservation across static and dynamic content, while avoiding modality-specific architectural components. To train such a unified system, we introduce a multi-stage training pipeline that progressively expands a video generation base model into a unified, multi-task generator capable of both image and video input and output. Across diverse generation and editing benchmarks, VINO demonstrates strong visual quality, faithful instruction following, improved reference and attribute preservation, and more controllable multi-identity edits. Our results highlight a practical path toward scalable unified visual generation, and the promise of interleaved, in-context computation as a foundation for general-purpose visual creation.

VINO: Um Gerador Visual Unificado com Contexto Omnimodal Intercalado

VINO: A Unified Visual Generator with Interleaved OmniModal Context

Resumo

Support