ChatPaper.aiChatPaper

両方の世界の長所を活かす:統一離散フローマッチングによるマルチモーダル推論と生成

Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

February 12, 2026
著者: Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou
cs.AI

要旨

我々は、マルチモーダルな理解・生成・編集のための統一離散フローマッチングフレームワーク「UniDFlow」を提案する。本手法は、タスク特化型LoRAアダプタにより理解と生成を分離し、目的関数の干渉と表現の混在を回避する。さらに、新たな参照ベースマルチモーダル選好調整により、同一条件付け下での相対的出力最適化を行い、大規模再学習なしで忠実性と制御性を向上させる。UniDFlowは8つのベンチマークでSOTA性能を達成し、インペインティング、文脈対応画像生成、参照ベース編集、構成的生成といったタスクに対し、明示的なタスク特化訓練なしに強力なゼロショット汎化性能を示す。
English
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.
PDF22February 17, 2026