TorchUMM: Una Codebase Unificata per Modelli Multimodali per Valutazione, Analisi e Post-Addestramento

Abstract

I recenti progressi nei modelli multimodali unificati (UMM) hanno portato a una proliferazione di architetture in grado di comprendere, generare e modificare contenuti attraverso le modalità visiva e testuale. Tuttavia, lo sviluppo di un framework unificato per gli UMM rimane impegnativo a causa della diversità delle architetture dei modelli e dell'eterogeneità dei paradigmi di addestramento e dei dettagli implementativi. In questo articolo, presentiamo TorchUMM, il primo codice unificato per la valutazione completa, l'analisi e il post-training su diverse backbone di UMM, task e dataset. TorchUMM supporta un'ampia gamma di modelli che coprono diverse scale e paradigmi progettuali. Il nostro benchmark comprende tre dimensioni di task fondamentali: comprensione, generazione e editing multimodale, e integra sia dataset consolidati che innovativi per valutare le capacità di percezione, ragionamento, composizionalità e aderenza alle istruzioni. Fornendo un'interfaccia unificata e protocolli di valutazione standardizzati, TorchUMM consente confronti equi e riproducibili tra modelli eterogenei e favorisce una comprensione più approfondita dei loro punti di forza e di debolezza, facilitando lo sviluppo di sistemi multimodali unificati più capaci. Il codice è disponibile all'indirizzo: https://github.com/AIFrontierLab/TorchUMM.

English

Recent advances in unified multimodal models (UMMs) have led to a proliferation of architectures capable of understanding, generating, and editing across visual and textual modalities. However, developing a unified framework for UMMs remains challenging due to the diversity of model architectures and the heterogeneity of training paradigms and implementation details. In this paper, we present TorchUMM, the first unified codebase for comprehensive evaluation, analysis, and post-training across diverse UMM backbones, tasks, and datasets. TorchUMM supports a broad spectrum of models covering a wide range of scales and design paradigms. Our benchmark encompasses three core task dimensions: multimodal understanding, generation, and editing, and integrates both established and novel datasets to evaluate perception, reasoning, compositionality, and instruction-following abilities. By providing a unified interface and standardized evaluation protocols, TorchUMM enables fair and reproducible comparisons across heterogeneous models and fosters deeper insights into their strengths and limitations, facilitating the development of more capable unified multimodal systems. Code is available at: https://github.com/AIFrontierLab/TorchUMM.

TorchUMM: Una Codebase Unificata per Modelli Multimodali per Valutazione, Analisi e Post-Addestramento

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

Abstract

Support