통합 이산 흐름 정합을 통한 다중 모달 추론 및 생성: 두 세계의 장점을 모두 누리다
Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
February 12, 2026
저자: Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou
cs.AI
초록
UniDFlow는 다중 모드 이해, 생성 및 편집을 위한 통합 이산형 플로우 매칭 프레임워크입니다. 본 프레임워크는 작업 특화적 로우랭크 어댑터를 통해 이해와 생성을 분리하여 목표 간섭과 표현 얽힘을 방지하며, 새로운 참조 기반 다중 모드 선호도 정렬을 통해 동일 조건에서의 상대적 결과를 최적화하여 대규모 재학습 없이도 정확성과 제어 가능성을 향상시킵니다. UniDFlow는 8개 벤치마크에서 SOTA 성능을 달성했으며, 인페인팅, 문맥 기반 이미지 생성, 참조 기반 편집, 구성적 생성 작업에 대해 명시적인 작업 특화 학습 없이도 강력한 제로샷 일반화 능력을 보여줍니다.
English
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.