TorchUMM: Eine einheitliche Multimodale Modell-Codebasis für Evaluation, Analyse und Nach-Training

Zusammenfassung

Jüngste Fortschritte bei einheitlichen multimodalen Modellen (UMMs) haben eine Vielzahl von Architekturen hervorgebracht, die in der Lage sind, visuelle und textuelle Modi zu verstehen, zu generieren und zu bearbeiten. Die Entwicklung eines einheitlichen Frameworks für UMMs bleibt jedoch aufgrund der Vielfalt der Modellarchitekturen sowie der Heterogenität von Trainingsparadigmen und Implementierungsdetails eine Herausforderung. In diesem Artikel stellen wir TorchUMM vor, die erste vereinheitlichte Codebasis für umfassende Evaluation, Analyse und Nachbearbeitung verschiedenster UMM-Backbones, Aufgaben und Datensätze. TorchUMM unterstützt ein breites Spektrum von Modellen, die eine große Bandbreite an Skalierungen und Designparadigmen abdecken. Unser Benchmark umfasst drei zentrale Aufgabendimensionen: multimodales Verstehen, Generieren und Bearbeiten, und integriert sowohl etablierte als auch neuartige Datensätze, um Wahrnehmungs-, Reasoning-, Kompositionalitäts- und Instruktionsbefolgungfähigkeiten zu evaluieren. Durch die Bereitstellung einer einheitlichen Schnittstelle und standardisierter Evaluationsprotokolle ermöglicht TorchUMM faire und reproduzierbare Vergleiche zwischen heterogenen Modellen, fördert tiefere Einblicke in ihre Stärken und Grenzen und erleichtert die Entwicklung leistungsfähigerer einheitlicher multimodaler Systeme. Der Code ist verfügbar unter: https://github.com/AIFrontierLab/TorchUMM.

English

Recent advances in unified multimodal models (UMMs) have led to a proliferation of architectures capable of understanding, generating, and editing across visual and textual modalities. However, developing a unified framework for UMMs remains challenging due to the diversity of model architectures and the heterogeneity of training paradigms and implementation details. In this paper, we present TorchUMM, the first unified codebase for comprehensive evaluation, analysis, and post-training across diverse UMM backbones, tasks, and datasets. TorchUMM supports a broad spectrum of models covering a wide range of scales and design paradigms. Our benchmark encompasses three core task dimensions: multimodal understanding, generation, and editing, and integrates both established and novel datasets to evaluate perception, reasoning, compositionality, and instruction-following abilities. By providing a unified interface and standardized evaluation protocols, TorchUMM enables fair and reproducible comparisons across heterogeneous models and fosters deeper insights into their strengths and limitations, facilitating the development of more capable unified multimodal systems. Code is available at: https://github.com/AIFrontierLab/TorchUMM.

TorchUMM: Eine einheitliche Multimodale Modell-Codebasis für Evaluation, Analyse und Nach-Training

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

Zusammenfassung

Support