UniPath: Coordinación Adaptativa de la Comprensión y la Generación para el Razonamiento Multimodal Unificado

Resumen

Los modelos multimodales unificados (MMU) buscan integrar la comprensión y la generación en una única arquitectura. Sin embargo, aún no se ha explorado suficientemente cómo coordinar eficazmente estas dos capacidades para lograr un razonamiento más efectivo y eficiente. Los enfoques de coordinación existentes o bien realizan un acoplamiento durante el entrenamiento, sin coordinación explícita en tiempo de inferencia, o imponen un patrón de coordinación fijo para todas las entradas. En este trabajo, mostramos que las tareas multimodales presentan una diversidad sustancial de rutas de coordinación: diferentes entradas favorecen diferentes rutas. Esto sugiere que explotar dicha diversidad es clave para mejorar el rendimiento. Proponemos UniPath, un marco para modelar y explotar adaptativamente la diversidad de rutas de coordinación. En lugar de imponer un único patrón de coordinación, representamos la resolución de tareas como la selección y ejecución de una ruta, que abarca desde la respuesta directa hasta la inferencia textual, la construcción de pensamientos visuales y la exploración basada en hipótesis. Construimos trayectorias alineadas por roles para entrenar un ejecutor condicionado por ruta e introducimos un mecanismo de planificador ligero para permitir la selección de rutas dependientes de la entrada. Los experimentos muestran que aprovechar la diversidad de rutas de coordinación mejora el rendimiento en comparación con estrategias de coordinación fijas, al tiempo que proporciona comportamientos intermedios interpretables. El código está disponible en: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath.

English

Unified multimodal models (UMMs) aim to integrate understanding and generation within a single architecture. However, it remains underexplored how to effectively coordinate these two capabilities for more effective and efficient reasoning. Existing coordination approaches either perform coupling during training, without explicit inference-time coordination, or impose a fixed coordination pattern for all inputs. In this work, we show that multimodal tasks exhibit substantial coordination-path diversity: different inputs favor different coordination paths. This suggests that exploiting such diversity is key to improving performance. We propose UniPath, a framework for adaptively modeling and exploiting coordination-path diversity. Instead of enforcing a single coordination pattern, we represent task solving as the selection and execution of a path, ranging from direct answering to textual inference, visual-thought construction, and hypothesis-based exploration. We construct role-aligned trajectories to train a path-conditioned executor and introduce a lightweight planner mechanism to enable input-dependent path selection. Experiments show that leveraging coordination-path diversity improves performance over fixed coordination strategies while providing interpretable intermediate behaviors. The code is available at:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath.

UniPath: Coordinación Adaptativa de la Comprensión y la Generación para el Razonamiento Multimodal Unificado

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

Resumen

Support