UniPath: Adaptive Koordination von Verstehen und Generierung für einheitliches multimodales Reasoning

Zusammenfassung

Vereinheitlichte multimodale Modelle (UMMs) zielen darauf ab, Verständnis und Generierung in einer einzigen Architektur zu integrieren. Es ist jedoch noch wenig erforscht, wie diese beiden Fähigkeiten effektiv koordiniert werden können, um eine effizientere und wirksamere Schlussfolgerung zu ermöglichen. Bisherige Koordinationsansätze führen entweder eine Kopplung während des Trainings durch, ohne explizite Koordination zur Inferenzzeit, oder sie legen für alle Eingaben ein festes Koordinationsmuster fest. In dieser Arbeit zeigen wir, dass multimodale Aufgaben eine erhebliche Koordinationspfad-Diversität aufweisen: Unterschiedliche Eingaben bevorzugen unterschiedliche Koordinationspfade. Dies deutet darauf hin, dass die Nutzung dieser Diversität der Schlüssel zur Leistungssteigerung ist. Wir schlagen UniPath vor, ein Framework zur adaptiven Modellierung und Nutzung der Koordinationspfad-Diversität. Anstatt ein einziges Koordinationsmuster zu erzwingen, stellen wir die Aufgabenlösung als Auswahl und Ausführung eines Pfades dar, der von direkter Beantwortung über textuelle Schlussfolgerung, visuelle Gedankenkonstruktion bis hin zu hypothesenbasierter Erkundung reicht. Wir konstruieren rollenangepasste Trajektorien, um einen pfadbedingten Ausführer zu trainieren, und führen einen leichtgewichtigen Planer-Mechanismus ein, der eine eingabeabhängige Pfadauswahl ermöglicht. Experimente zeigen, dass die Nutzung der Koordinationspfad-Diversität die Leistung im Vergleich zu festen Koordinationsstrategien verbessert und gleichzeitig interpretierbares Zwischenverhalten liefert. Der Code ist verfügbar unter: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath.

English

Unified multimodal models (UMMs) aim to integrate understanding and generation within a single architecture. However, it remains underexplored how to effectively coordinate these two capabilities for more effective and efficient reasoning. Existing coordination approaches either perform coupling during training, without explicit inference-time coordination, or impose a fixed coordination pattern for all inputs. In this work, we show that multimodal tasks exhibit substantial coordination-path diversity: different inputs favor different coordination paths. This suggests that exploiting such diversity is key to improving performance. We propose UniPath, a framework for adaptively modeling and exploiting coordination-path diversity. Instead of enforcing a single coordination pattern, we represent task solving as the selection and execution of a path, ranging from direct answering to textual inference, visual-thought construction, and hypothesis-based exploration. We construct role-aligned trajectories to train a path-conditioned executor and introduce a lightweight planner mechanism to enable input-dependent path selection. Experiments show that leveraging coordination-path diversity improves performance over fixed coordination strategies while providing interpretable intermediate behaviors. The code is available at:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath.

UniPath: Adaptive Koordination von Verstehen und Generierung für einheitliches multimodales Reasoning

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

Zusammenfassung

Support