Het beste van twee werelden: multimodale redenering en generatie via uniforme discrete flow matching

Samenvatting

Wij introduceren UniDFlow, een uniform raamwerk voor discrete *flow-matching* voor multimodale interpretatie, generatie en bewerking. Het ontkoppelt interpretatie en generatie via taakspecifieke *low-rank adapters*, waardoor doelconflicten en verstrengeling van representaties worden vermeden. Tegelijkertijd optimaliseert een nieuwe op referenties gebaseerde multimodale voorkeursafstemming de relatieve uitkomsten onder identieke condities, wat de nauwkeurigheid en bestuurbaarheid verbetert zonder grootschalige hertraining. UniDFlow behaalt state-of-the-art prestaties op acht benchmarks en vertoont sterke zero-shot generalisatie naar taken zoals *inpainting*, beeldgeneratie in context, op referenties gebaseerde bewerking en compositionele generatie, ondanks het ontbreken van expliciete taakspecifieke training.

English

We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.

Het beste van twee werelden: multimodale redenering en generatie via uniforme discrete flow matching

Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Samenvatting

Support