Het beste van twee werelden: multimodale redenering en generatie via uniforme discrete flow matching
Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
February 12, 2026
Auteurs: Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou
cs.AI
Samenvatting
Wij introduceren UniDFlow, een uniform raamwerk voor discrete *flow-matching* voor multimodale interpretatie, generatie en bewerking. Het ontkoppelt interpretatie en generatie via taakspecifieke *low-rank adapters*, waardoor doelconflicten en verstrengeling van representaties worden vermeden. Tegelijkertijd optimaliseert een nieuwe op referenties gebaseerde multimodale voorkeursafstemming de relatieve uitkomsten onder identieke condities, wat de nauwkeurigheid en bestuurbaarheid verbetert zonder grootschalige hertraining. UniDFlow behaalt state-of-the-art prestaties op acht benchmarks en vertoont sterke zero-shot generalisatie naar taken zoals *inpainting*, beeldgeneratie in context, op referenties gebaseerde bewerking en compositionele generatie, ondanks het ontbreken van expliciete taakspecifieke training.
English
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.