Лучшее из двух миров: многомодальное рассуждение и генерация с помощью унифицированного дискретного согласования потоков
Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
February 12, 2026
Авторы: Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou
cs.AI
Аннотация
Мы представляем UniDFlow — унифицированную дискретную framework-систему согласования потоков для многомодального понимания, генерации и редактирования. Она разделяет задачи понимания и генерации с помощью специализированных низкоранговых адаптеров, избегая интерференции целевых функций и переплетения представлений, в то время как новая многомодальная адаптация предпочтений на основе референсов оптимизирует относительные результаты при идентичных условиях, повышая достоверность и управляемость без масштабного переобучения. UniDFlow достигает state-of-the-art результатов на восьми бенчмарках и демонстрирует сильную zero-shot обобщаемость к задачам, включая инпейнтинг, контекстную генерацию изображений, референсное редактирование и композиционную генерацию, несмотря на отсутствие явного специализированного обучения.
English
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.