TorchUMM: Un Código Base Unificado de Modelos Multimodales para Evaluación, Análisis y Post-entrenamiento

Resumen

Los recientes avances en modelos multimodales unificados (UMMs) han llevado a una proliferación de arquitecturas capaces de comprender, generar y editar a través de las modalidades visual y textual. Sin embargo, desarrollar un marco unificado para los UMMs sigue siendo un desafío debido a la diversidad de arquitecturas de modelos y a la heterogeneidad de los paradigmas de entrenamiento y los detalles de implementación. En este artículo, presentamos TorchUMM, la primera base de código unificada para la evaluación integral, el análisis y el post-entrenamiento a través de diversos *backbones* de UMMs, tareas y conjuntos de datos. TorchUMM admite un amplio espectro de modelos que cubren una gran variedad de escalas y paradigmas de diseño. Nuestro *benchmark* abarca tres dimensiones de tareas principales: comprensión multimodal, generación y edición, e integra tanto conjuntos de datos establecidos como novedosos para evaluar las capacidades de percepción, razonamiento, composicionalidad y seguimiento de instrucciones. Al proporcionar una interfaz unificada y protocolos de evaluación estandarizados, TorchUMM permite comparaciones justas y reproducibles entre modelos heterogéneos y fomenta una comprensión más profunda de sus fortalezas y limitaciones, facilitando el desarrollo de sistemas multimodales unificados más capaces. El código está disponible en: https://github.com/AIFrontierLab/TorchUMM.

English

Recent advances in unified multimodal models (UMMs) have led to a proliferation of architectures capable of understanding, generating, and editing across visual and textual modalities. However, developing a unified framework for UMMs remains challenging due to the diversity of model architectures and the heterogeneity of training paradigms and implementation details. In this paper, we present TorchUMM, the first unified codebase for comprehensive evaluation, analysis, and post-training across diverse UMM backbones, tasks, and datasets. TorchUMM supports a broad spectrum of models covering a wide range of scales and design paradigms. Our benchmark encompasses three core task dimensions: multimodal understanding, generation, and editing, and integrates both established and novel datasets to evaluate perception, reasoning, compositionality, and instruction-following abilities. By providing a unified interface and standardized evaluation protocols, TorchUMM enables fair and reproducible comparisons across heterogeneous models and fosters deeper insights into their strengths and limitations, facilitating the development of more capable unified multimodal systems. Code is available at: https://github.com/AIFrontierLab/TorchUMM.

TorchUMM: Un Código Base Unificado de Modelos Multimodales para Evaluación, Análisis y Post-entrenamiento

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

Resumen

Support