UniPath : Coordination adaptative de la compréhension et de la génération pour le raisonnement multimodal unifié

Résumé

Les modèles multimodaux unifiés (UMM) visent à intégrer la compréhension et la génération au sein d'une même architecture. Cependant, il reste encore peu exploré comment coordonner efficacement ces deux capacités pour un raisonnement plus performant et efficient. Les approches de coordination existantes effectuent soit un couplage lors de l'entraînement, sans coordination explicite au moment de l'inférence, soit imposent un schéma de coordination fixe pour toutes les entrées. Dans ce travail, nous montrons que les tâches multimodales présentent une diversité substantielle de chemins de coordination : différentes entrées favorisent différents chemins de coordination. Cela suggère que l'exploitation de cette diversité est essentielle pour améliorer les performances. Nous proposons UniPath, un cadre pour modéliser et exploiter de manière adaptative la diversité des chemins de coordination. Au lieu d'imposer un seul schéma de coordination, nous représentons la résolution de tâches comme la sélection et l'exécution d'un chemin, allant de la réponse directe à l'inférence textuelle, en passant par la construction visuelle de pensées et l'exploration basée sur des hypothèses. Nous construisons des trajectoires alignées sur les rôles pour entraîner un exécuteur conditionné par le chemin et introduisons un mécanisme de planificateur léger pour permettre une sélection de chemin dépendante de l'entrée. Les expériences montrent que l'exploitation de la diversité des chemins de coordination améliore les performances par rapport aux stratégies de coordination fixes, tout en fournissant des comportements intermédiaires interprétables. Le code est disponible à l'adresse : https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath.

English

Unified multimodal models (UMMs) aim to integrate understanding and generation within a single architecture. However, it remains underexplored how to effectively coordinate these two capabilities for more effective and efficient reasoning. Existing coordination approaches either perform coupling during training, without explicit inference-time coordination, or impose a fixed coordination pattern for all inputs. In this work, we show that multimodal tasks exhibit substantial coordination-path diversity: different inputs favor different coordination paths. This suggests that exploiting such diversity is key to improving performance. We propose UniPath, a framework for adaptively modeling and exploiting coordination-path diversity. Instead of enforcing a single coordination pattern, we represent task solving as the selection and execution of a path, ranging from direct answering to textual inference, visual-thought construction, and hypothesis-based exploration. We construct role-aligned trajectories to train a path-conditioned executor and introduce a lightweight planner mechanism to enable input-dependent path selection. Experiments show that leveraging coordination-path diversity improves performance over fixed coordination strategies while providing interpretable intermediate behaviors. The code is available at:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath.

UniPath : Coordination adaptative de la compréhension et de la génération pour le raisonnement multimodal unifié

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

Résumé

Support