TorchUMM: Een Geünificeerde Multimodale Modelcodebase voor Evaluatie, Analyse en Post-training

Samenvatting

Recente vooruitgang in verenigde multimodale modellen (UMM's) heeft geleid tot een proliferatie van architecturen die in staat zijn tot begrip, generatie en bewerking over visuele en tekstuele modaliteiten heen. Het ontwikkelen van een verenigd framework voor UMM's blijft echter een uitdaging vanwege de diversiteit aan modelarchitecturen en de heterogeniteit van trainingsparadigma's en implementatiedetails. In dit artikel presenteren we TorchUMM, de eerste verenigde codebase voor uitgebreide evaluatie, analyse en post-training van diverse UMM-backbones, taken en datasets. TorchUMM ondersteunt een breed spectrum van modellen die een groot aantal schalen en ontwerpparadigma's bestrijken. Onze benchmark omvat drie kerntakendimensies: multimodaal begrip, generatie en bewerking, en integreert zowel gevestigde als nieuwe datasets om perceptie, redeneervermogen, compositionaliteit en instructievolgvermogen te evalueren. Door een verenigde interface en gestandaardiseerde evaluatieprotocollen te bieden, stelt TorchUMM eerlijke en reproduceerbare vergelijkingen tussen heterogene modellen mogelijk en bevordert het dieper inzicht in hun sterke en zwakke punten, wat de ontwikkeling van capabelere verenigde multimodale systemen vergemakkelijkt. Code is beschikbaar op: https://github.com/AIFrontierLab/TorchUMM.

English

Recent advances in unified multimodal models (UMMs) have led to a proliferation of architectures capable of understanding, generating, and editing across visual and textual modalities. However, developing a unified framework for UMMs remains challenging due to the diversity of model architectures and the heterogeneity of training paradigms and implementation details. In this paper, we present TorchUMM, the first unified codebase for comprehensive evaluation, analysis, and post-training across diverse UMM backbones, tasks, and datasets. TorchUMM supports a broad spectrum of models covering a wide range of scales and design paradigms. Our benchmark encompasses three core task dimensions: multimodal understanding, generation, and editing, and integrates both established and novel datasets to evaluate perception, reasoning, compositionality, and instruction-following abilities. By providing a unified interface and standardized evaluation protocols, TorchUMM enables fair and reproducible comparisons across heterogeneous models and fosters deeper insights into their strengths and limitations, facilitating the development of more capable unified multimodal systems. Code is available at: https://github.com/AIFrontierLab/TorchUMM.

TorchUMM: Een Geünificeerde Multimodale Modelcodebase voor Evaluatie, Analyse en Post-training

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

Samenvatting

Support