ChatPaper.aiChatPaper

Le Meilleur des Deux Mondes : Raisonnement et Génération Multimodaux via l'Appariement de Flux Discret Unifié

Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

February 12, 2026
papers.authors: Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou
cs.AI

papers.abstract

Nous proposons UniDFlow, un cadre unifié de flux discret pour la compréhension, la génération et l'édition multimodales. Il dissocie compréhension et génération via des adaptateurs à faible rang spécifiques aux tâches, évitant les interférences d'objectifs et l'enchevêtrement des représentations, tandis qu'un nouvel alignement des préférences multimodales basé sur des références optimise les résultats relatifs sous conditionnement identique, améliorant la fidélité et la contrôlabilité sans réentraînement à grande échelle. UniDFlow atteint des performances état de l'art sur huit benchmarks et présente une forte généralisation zero-shot à des tâches incluant l'inpainting, la génération d'images contextuelles, l'édition par référence et la génération compositionnelle, malgré l'absence d'entraînement explicite spécifique à ces tâches.
English
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.
PDF22February 17, 2026