TorchUMM : Une base de code unifiée pour modèles multimodaux destinée à l'évaluation, l'analyse et le post-entraînement

Résumé

Les récents progrès des modèles multimodaux unifiés (UMM) ont conduit à une prolifération d'architectures capables de comprendre, générer et éditer des contenus à travers les modalités visuelles et textuelles. Cependant, le développement d'un cadre unifié pour les UMM reste difficile en raison de la diversité des architectures de modèles et de l'hétérogénéité des paradigmes d'entraînement et des détails de mise en œuvre. Dans cet article, nous présentons TorchUMM, la première base de code unifiée pour l'évaluation complète, l'analyse et le post-entraînement de diverses architectures de base d'UMM, de tâches et de jeux de données. TorchUMM prend en charge un large éventail de modèles couvrant une vaste gamme d'échelles et de paradigmes de conception. Notre benchmark englobe trois dimensions de tâches principales : la compréhension, la génération et l'édition multimodales, et intègre à la fois des jeux de données établis et novateurs pour évaluer les capacités de perception, de raisonnement, de compositionnalité et de suivi d'instructions. En fournissant une interface unifiée et des protocoles d'évaluation standardisés, TorchUMM permet des comparaisons équitables et reproductibles entre des modèles hétérogènes et favorise une compréhension plus approfondie de leurs forces et limites, facilitant ainsi le développement de systèmes multimodaux unifiés plus performants. Le code est disponible à l'adresse : https://github.com/AIFrontierLab/TorchUMM.

English

Recent advances in unified multimodal models (UMMs) have led to a proliferation of architectures capable of understanding, generating, and editing across visual and textual modalities. However, developing a unified framework for UMMs remains challenging due to the diversity of model architectures and the heterogeneity of training paradigms and implementation details. In this paper, we present TorchUMM, the first unified codebase for comprehensive evaluation, analysis, and post-training across diverse UMM backbones, tasks, and datasets. TorchUMM supports a broad spectrum of models covering a wide range of scales and design paradigms. Our benchmark encompasses three core task dimensions: multimodal understanding, generation, and editing, and integrates both established and novel datasets to evaluate perception, reasoning, compositionality, and instruction-following abilities. By providing a unified interface and standardized evaluation protocols, TorchUMM enables fair and reproducible comparisons across heterogeneous models and fosters deeper insights into their strengths and limitations, facilitating the development of more capable unified multimodal systems. Code is available at: https://github.com/AIFrontierLab/TorchUMM.

TorchUMM : Une base de code unifiée pour modèles multimodaux destinée à l'évaluation, l'analyse et le post-entraînement

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

Résumé

Support