TorchUMM: Унифицированная кодовая база мультимодальных моделей для оценки, анализа и пост-обучения

Аннотация

Последние достижения в области унифицированных мультимодальных моделей (UMM) привели к появлению множества архитектур, способных понимать, генерировать и редактировать данные в визуальной и текстовой модальностях. Однако создание унифицированной платформы для UMM остается сложной задачей из-за разнообразия архитектур моделей, а также гетерогенности парадигм обучения и деталей реализации. В данной статье мы представляем TorchUMM — первую унифицированную кодобазу для комплексной оценки, анализа и пост-обучения разнородных UMM-архитектур, задач и наборов данных. TorchUMM поддерживает широкий спектр моделей, охватывающих множество масштабов и дизайнерских парадигм. Наш бенчмарк включает три ключевых направления задач: мультимодальное понимание, генерацию и редактирование, а также интегрирует как established, так и новые наборы данных для оценки способностей к восприятию, логическому выводу, композициональности и следованию инструкциям. Предоставляя унифицированный интерфейс и стандартизированные протоколы оценки, TorchUMM обеспечивает справедливые и воспроизводимые сравнения разнородных моделей, способствует более глубокому пониманию их сильных и слабых сторон и ускоряет разработку более совершенных унифицированных мультимодальных систем. Код доступен по адресу: https://github.com/AIFrontierLab/TorchUMM.

English

Recent advances in unified multimodal models (UMMs) have led to a proliferation of architectures capable of understanding, generating, and editing across visual and textual modalities. However, developing a unified framework for UMMs remains challenging due to the diversity of model architectures and the heterogeneity of training paradigms and implementation details. In this paper, we present TorchUMM, the first unified codebase for comprehensive evaluation, analysis, and post-training across diverse UMM backbones, tasks, and datasets. TorchUMM supports a broad spectrum of models covering a wide range of scales and design paradigms. Our benchmark encompasses three core task dimensions: multimodal understanding, generation, and editing, and integrates both established and novel datasets to evaluate perception, reasoning, compositionality, and instruction-following abilities. By providing a unified interface and standardized evaluation protocols, TorchUMM enables fair and reproducible comparisons across heterogeneous models and fosters deeper insights into their strengths and limitations, facilitating the development of more capable unified multimodal systems. Code is available at: https://github.com/AIFrontierLab/TorchUMM.

TorchUMM: Унифицированная кодовая база мультимодальных моделей для оценки, анализа и пост-обучения

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

Аннотация

Support