ChatPaper.aiChatPaper

UniPath: 統一マルチモーダル推論のための理解と生成の適応的協調

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

May 12, 2026
著者: Hayes Bai, Yinyi Luo, Wenwen Wang, Qingsong Wen, Jindong Wang
cs.AI

要旨

統一マルチモーダルモデル(UMMs)は、理解と生成を単一のアーキテクチャに統合することを目指している。しかしながら、これら2つの能力を効果的に連携させ、より効率的で効果的な推論を実現する方法については、まだ十分に研究されていない。既存の協調アプローチは、訓練時に結合を行うものの推論時の明示的な協調を行わないか、あるいはすべての入力に対して固定の協調パターンを課すかのいずれかである。本研究では、マルチモーダルタスクが実質的な協調経路の多様性を示すこと、すなわち入力によって異なる協調経路が適していることを明らかにする。このことは、このような多様性を活用することが性能向上の鍵であることを示唆している。我々は、協調経路の多様性を適応的にモデル化し活用するフレームワーク、UniPathを提案する。単一の協調パターンを強制する代わりに、直接回答からテキスト推論、視覚的思考構築、仮説に基づく探索に至る経路の選択と実行として課題解決を表現する。役割整合軌跡を構築して経路条件付き実行器を訓練し、入力依存の経路選択を可能にする軽量なプランナー機構を導入する。実験により、協調経路の多様性を活用することで、固定の協調戦略よりも性能が向上し、解釈可能な中間行動が得られることを示す。コードは以下で入手可能:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath。
English
Unified multimodal models (UMMs) aim to integrate understanding and generation within a single architecture. However, it remains underexplored how to effectively coordinate these two capabilities for more effective and efficient reasoning. Existing coordination approaches either perform coupling during training, without explicit inference-time coordination, or impose a fixed coordination pattern for all inputs. In this work, we show that multimodal tasks exhibit substantial coordination-path diversity: different inputs favor different coordination paths. This suggests that exploiting such diversity is key to improving performance. We propose UniPath, a framework for adaptively modeling and exploiting coordination-path diversity. Instead of enforcing a single coordination pattern, we represent task solving as the selection and execution of a path, ranging from direct answering to textual inference, visual-thought construction, and hypothesis-based exploration. We construct role-aligned trajectories to train a path-conditioned executor and introduce a lightweight planner mechanism to enable input-dependent path selection. Experiments show that leveraging coordination-path diversity improves performance over fixed coordination strategies while providing interpretable intermediate behaviors. The code is available at:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath.
PDF21May 14, 2026