TorchUMM: Um Codebase Unificado de Modelo Multimodal para Avaliação, Análise e Pós-treinamento

Resumo

Os recentes avanços em modelos multimodais unificados (UMMs) levaram a uma proliferação de arquiteturas capazes de compreender, gerar e editar através das modalidades visual e textual. No entanto, o desenvolvimento de uma estrutura unificada para UMMs permanece um desafio devido à diversidade de arquiteturas de modelos e à heterogeneidade dos paradigmas de treinamento e detalhes de implementação. Neste artigo, apresentamos o TorchUMM, a primeira base de código unificada para avaliação abrangente, análise e pós-treinamento em diversos *backbones* de UMMs, tarefas e conjuntos de dados. O TorchUMM suporta um amplo espectro de modelos que abrangem uma vasta gama de escalas e paradigmas de design. Nossa avaliação comparativa abrange três dimensões principais de tarefas: compreensão multimodal, geração e edição, e integra conjuntos de dados consagrados e novos para avaliar capacidades de perceção, raciocínio, composicionalidade e seguimento de instruções. Ao fornecer uma interface unificada e protocolos de avaliação padronizados, o TorchUMM permite comparações justas e reproduzíveis entre modelos heterogéneos e promove insights mais profundos sobre os seus pontos fortes e limitações, facilitando o desenvolvimento de sistemas multimodais unificados mais capazes. O código está disponível em: https://github.com/AIFrontierLab/TorchUMM.

English

Recent advances in unified multimodal models (UMMs) have led to a proliferation of architectures capable of understanding, generating, and editing across visual and textual modalities. However, developing a unified framework for UMMs remains challenging due to the diversity of model architectures and the heterogeneity of training paradigms and implementation details. In this paper, we present TorchUMM, the first unified codebase for comprehensive evaluation, analysis, and post-training across diverse UMM backbones, tasks, and datasets. TorchUMM supports a broad spectrum of models covering a wide range of scales and design paradigms. Our benchmark encompasses three core task dimensions: multimodal understanding, generation, and editing, and integrates both established and novel datasets to evaluate perception, reasoning, compositionality, and instruction-following abilities. By providing a unified interface and standardized evaluation protocols, TorchUMM enables fair and reproducible comparisons across heterogeneous models and fosters deeper insights into their strengths and limitations, facilitating the development of more capable unified multimodal systems. Code is available at: https://github.com/AIFrontierLab/TorchUMM.

TorchUMM: Um Codebase Unificado de Modelo Multimodal para Avaliação, Análise e Pós-treinamento

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

Resumo

Support