UniFusion: Vision-Sprach-Modell als einheitlicher Encoder in der Bildgenerierung
UniFusion: Vision-Language Model as Unified Encoder in Image Generation
October 14, 2025
papers.authors: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale
cs.AI
papers.abstract
Obwohl die jüngsten Fortschritte in der visuellen Generierung bemerkenswert sind, hängen die meisten bestehenden Architekturen immer noch von separaten Encodern für Bilder und Text ab. Diese Trennung schränkt die Fähigkeit von Diffusionsmodellen ein, cross-modales Denken und Wissenstransfer durchzuführen. Frühere Versuche, diese Lücke zu schließen, nutzen oft die Informationen der letzten Schicht eines VLM, setzen mehrere visuelle Encoder ein oder trainieren große, vereinheitlichte Modelle gemeinsam für die Text- und Bildgenerierung, was erhebliche Rechenressourcen und groß angelegte Daten erfordert und somit die Zugänglichkeit einschränkt. Wir präsentieren UniFusion, ein diffusionsbasiertes Generativmodell, das auf einem eingefrorenen großen Vision-Language-Modell (VLM) als einheitlichem multimodalen Encoder basiert. Im Kern von UniFusion steht der Layerwise Attention Pooling (LAP)-Mechanismus, der sowohl hochrangige Semantik als auch niedrigrangige Details aus Text- und visuellen Tokens eines eingefrorenen VLM extrahiert, um ein diffusionsbasiertes Generativmodell zu konditionieren. Wir zeigen, dass LAP andere flache Fusionsarchitekturen in Bezug auf die Text-Bild-Ausrichtung für die Generierung und die treue Übertragung visueller Informationen vom VLM an das Diffusionsmodell übertrifft, was für die Bearbeitung entscheidend ist. Wir schlagen VLM-Enabled Rewriting Injection with Flexible Inference (VERIFI) vor, das einen Diffusion Transformer (DiT) nur auf die Text-Tokens konditioniert, die vom VLM während der Prompt-Rewriting-Phase im Modell generiert werden. VERIFI kombiniert die Ausrichtung der Konditionierungsverteilung mit den Denkfähigkeiten des VLM für erhöhte Fähigkeiten und Flexibilität bei der Inferenz. Darüber hinaus verbessert das Feintuning auf Bearbeitungsaufgaben nicht nur die Text-Bild-Ausrichtung für die Generierung, was auf einen cross-modalen Wissenstransfer hinweist, sondern zeigt auch enorme Generalisierungsfähigkeiten. Unser Modell, das auf die Bearbeitung einzelner Bilder trainiert wurde, generalisiert zero-shot auf mehrere Bildreferenzen, was das einheitliche Encoder-Design von UniFusion weiter motiviert.
English
Although recent advances in visual generation have been remarkable, most
existing architectures still depend on distinct encoders for images and text.
This separation constrains diffusion models' ability to perform cross-modal
reasoning and knowledge transfer. Prior attempts to bridge this gap often use
the last layer information from VLM, employ multiple visual encoders, or train
large unified models jointly for text and image generation, which demands
substantial computational resources and large-scale data, limiting its
accessibility.We present UniFusion, a diffusion-based generative model
conditioned on a frozen large vision-language model (VLM) that serves as a
unified multimodal encoder. At the core of UniFusion is the Layerwise Attention
Pooling (LAP) mechanism that extracts both high level semantics and low level
details from text and visual tokens of a frozen VLM to condition a diffusion
generative model. We demonstrate that LAP outperforms other shallow fusion
architectures on text-image alignment for generation and faithful transfer of
visual information from VLM to the diffusion model which is key for editing. We
propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI),
which conditions a diffusion transformer (DiT) only on the text tokens
generated by the VLM during in-model prompt rewriting. VERIFI combines the
alignment of the conditioning distribution with the VLM's reasoning
capabilities for increased capabilities and flexibility at inference. In
addition, finetuning on editing task not only improves text-image alignment for
generation, indicative of cross-modality knowledge transfer, but also exhibits
tremendous generalization capabilities. Our model when trained on single image
editing, zero-shot generalizes to multiple image references further motivating
the unified encoder design of UniFusion.