UniPath: Адаптивная координация понимания и генерации для унифицированного мультимодального рассуждения

Аннотация

Единые мультимодальные модели (UMMs) направлены на интеграцию понимания и генерации в рамках единой архитектуры. Однако остается недостаточно изученным, как эффективно координировать эти две способности для более продуктивного и эффективного рассуждения. Существующие подходы к координации либо выполняют связывание во время обучения, без явной координации на этапе вывода, либо навязывают фиксированный шаблон координации для всех входных данных. В данной работе мы показываем, что мультимодальные задачи демонстрируют существенное разнообразие путей координации: разные входные данные предпочитают разные пути координации. Это говорит о том, что использование такого разнообразия является ключом к повышению производительности. Мы предлагаем UniPath — фреймворк для адаптивного моделирования и использования разнообразия путей координации. Вместо навязывания единого шаблона координации мы представляем решение задачи как выбор и выполнение пути — от прямого ответа до текстового вывода, построения визуальных рассуждений и гипотетического исследования. Мы конструируем выровненные по ролям траектории для обучения исполнителя, обусловленного путем, и вводим легковесный механизм планировщика для выбора пути, зависящего от входных данных. Эксперименты показывают, что использование разнообразия путей координации повышает производительность по сравнению с фиксированными стратегиями координации, обеспечивая при этом интерпретируемое промежуточное поведение. Код доступен по адресу: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath.

English

Unified multimodal models (UMMs) aim to integrate understanding and generation within a single architecture. However, it remains underexplored how to effectively coordinate these two capabilities for more effective and efficient reasoning. Existing coordination approaches either perform coupling during training, without explicit inference-time coordination, or impose a fixed coordination pattern for all inputs. In this work, we show that multimodal tasks exhibit substantial coordination-path diversity: different inputs favor different coordination paths. This suggests that exploiting such diversity is key to improving performance. We propose UniPath, a framework for adaptively modeling and exploiting coordination-path diversity. Instead of enforcing a single coordination pattern, we represent task solving as the selection and execution of a path, ranging from direct answering to textual inference, visual-thought construction, and hypothesis-based exploration. We construct role-aligned trajectories to train a path-conditioned executor and introduce a lightweight planner mechanism to enable input-dependent path selection. Experiments show that leveraging coordination-path diversity improves performance over fixed coordination strategies while providing interpretable intermediate behaviors. The code is available at:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath.

UniPath: Адаптивная координация понимания и генерации для унифицированного мультимодального рассуждения

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

Аннотация

Support