TorchUMM: 평가, 분석 및 사후 학습을 위한 통합 멀티모달 모델 코드베이스
TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training
April 12, 2026
저자: Yinyi Luo, Wenwen Wang, Hayes Bai, Hongyu Zhu, Hao Chen, Pan He, Marios Savvides, Sharon Li, Jindong Wang
cs.AI
초록
최근 통합 멀티모달 모델(UMM)의 발전으로 시각 및 텍스트 양식을 이해, 생성, 편집할 수 있는 다양한 아키텍처가 빠르게 확산되고 있습니다. 그러나 모델 아키텍처의 다양성과 훈련 패러다임 및 구현 세부사항의 이질성으로 인해 UMM을 위한 통합 프레임워크 개발은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 다양한 UMM 백본, 작업, 데이터셋을 포괄적으로 평가, 분석, 사후 훈련할 수 있는 최초의 통합 코드베이스인 TorchUMM을 소개합니다. TorchUMM은 광범위한 규모와 설계 패러다임을 아우르는 다양한 모델을 지원합니다. 우리의 벤치마크는 멀티모달 이해, 생성, 편집이라는 세 가지 핵심 작업 차원을 포함하며, 기존 및 신규 데이터셋을 통합하여 인지, 추론, 구성력, 지시 수행 능력을 평가합니다. 통합 인터페이스와 표준화된 평가 프로토콜을 제공함으로써 TorchUMM은 이질적인 모델 간 공정하고 재현 가능한 비교를 가능하게 하며, 그들의 강점과 한계에 대한 깊은 통찰을 촉진하여 더욱 강력한 통합 멀티모달 시스템의 개발을 용이하게 합니다. 코드는 https://github.com/AIFrontierLab/TorchUMM에서 확인할 수 있습니다.
English
Recent advances in unified multimodal models (UMMs) have led to a proliferation of architectures capable of understanding, generating, and editing across visual and textual modalities. However, developing a unified framework for UMMs remains challenging due to the diversity of model architectures and the heterogeneity of training paradigms and implementation details. In this paper, we present TorchUMM, the first unified codebase for comprehensive evaluation, analysis, and post-training across diverse UMM backbones, tasks, and datasets. TorchUMM supports a broad spectrum of models covering a wide range of scales and design paradigms. Our benchmark encompasses three core task dimensions: multimodal understanding, generation, and editing, and integrates both established and novel datasets to evaluate perception, reasoning, compositionality, and instruction-following abilities. By providing a unified interface and standardized evaluation protocols, TorchUMM enables fair and reproducible comparisons across heterogeneous models and fosters deeper insights into their strengths and limitations, facilitating the development of more capable unified multimodal systems. Code is available at: https://github.com/AIFrontierLab/TorchUMM.