ChatPaper.aiChatPaper

O Melhor dos Dois Mundos: Raciocínio e Geração Multimodal via Fluxo Discreto Unificado

Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

February 12, 2026
Autores: Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou
cs.AI

Resumo

Propomos o UniDFlow, uma estrutura unificada de correspondência de fluxo discreto para compreensão, geração e edição multimodal. Ele desacopla a compreensão e a geração por meio de adaptadores de baixo custo específicos para cada tarefa, evitando interferência de objetivos e emaranhamento de representações, enquanto um novo alinhamento de preferência multimodal baseado em referência otimiza resultados relativos sob condicionamento idêntico, melhorando a fidelidade e a controlabilidade sem retreinamento em larga escala. O UniDFlow alcança desempenho de última geração em oito benchmarks e exibe forte generalização de zero-shot para tarefas incluindo preenchimento, geração de imagens em contexto, edição baseada em referência e geração composicional, apesar de não ter treinamento explícito específico para tarefas.
English
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.
PDF52March 28, 2026