Beste aus beiden Welten: Multimodales Schließen und Generieren mittels vereinheitlichtem diskretem Flow Matching
Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
February 12, 2026
papers.authors: Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou
cs.AI
papers.abstract
Wir stellen UniDFlow vor, einen vereinheitlichten diskreten Flow-Matching-Rahmen für multimodales Verständnis, Generierung und Bearbeitung. Er entkoppelt Verständnis und Generierung durch aufgabenspezifische Low-Rank-Adapter, vermeidet dadurch Zielkonflikte und Repräsentationsverschränkungen, während eine neuartige referenzbasierte multimodale Präferenzabstimmung relative Ergebnisse unter identischen Bedingungen optimiert und so Treue und Steuerbarkeit ohne aufwändiges Neutraining verbessert. UniDFlow erzielt state-of-the-art Leistungen in acht Benchmarks und zeigt starke Zero-Shot-Generalisierung für Aufgaben wie Inpainting, kontextbezogene Bildgenerierung, referenzbasierte Bearbeitung und kompositionelle Generierung, obwohl kein explizites aufgabenspezifisches Training erfolgte.
English
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.