Lo Mejor de Ambos Mundos: Razonamiento y Generación Multimodal mediante Emparejamiento de Flujos Discretos Unificado
Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
February 12, 2026
Autores: Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou
cs.AI
Resumen
Proponemos UniDFlow, un marco unificado de flujo discreto adaptado para la comprensión, generación y edición multimodal. Este marco desacopla la comprensión y la generación mediante adaptadores de bajo rango específicos por tarea, evitando la interferencia de objetivos y el entrelazamiento de representaciones. Simultáneamente, una novedosa alineación de preferencias multimodales basada en referencias optimiza los resultados relativos bajo un condicionamiento idéntico, mejorando la fidelidad y la controlabilidad sin necesidad de un reentrenamiento a gran escala. UniDFlow logra un rendimiento de vanguardia (SOTA) en ocho benchmarks y exhibe una fuerte generalización *zero-shot* para tareas que incluyen la restauración (*inpainting*), la generación de imágenes en contexto (*in-context*), la edición basada en referencias y la generación composicional, a pesar de no haber recibido entrenamiento explícito específico para estas tareas.
English
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.