OtterHD: Ein hochauflösendes Multimodalitätsmodell
OtterHD: A High-Resolution Multi-modality Model
November 7, 2023
Autoren: Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu
cs.AI
Zusammenfassung
In diesem Artikel präsentieren wir OtterHD-8B, ein innovatives multimodales Modell, das aus Fuyu-8B entwickelt wurde und speziell dafür konzipiert ist, hochauflösende visuelle Eingaben mit granulierter Präzision zu interpretieren. Im Gegensatz zu herkömmlichen Modellen, die durch feste Größen von Vision-Encodern eingeschränkt sind, verfügt OtterHD-8B über die Fähigkeit, flexible Eingabedimensionen zu verarbeiten, was seine Vielseitigkeit über verschiedene Inferenzanforderungen hinweg sicherstellt. Neben diesem Modell führen wir MagnifierBench ein, ein Evaluierungsframework, das darauf ausgelegt ist, die Fähigkeit von Modellen zu untersuchen, feine Details und räumliche Beziehungen kleiner Objekte zu erkennen. Unsere vergleichende Analyse zeigt, dass aktuelle führende Modelle bei diesem Benchmark scheitern, während OtterHD-8B, insbesondere bei der direkten Verarbeitung hochauflösender Eingaben, seine Gegenstücke mit deutlichem Abstand übertrifft. Die Ergebnisse beleuchten die strukturellen Unterschiede in der Verarbeitung visueller Informationen zwischen verschiedenen Modellen und den Einfluss, den die Unterschiede in der Vorabtrainingsauflösung der Vision-Encoder auf die Modellwirksamkeit in solchen Benchmarks haben. Unsere Studie unterstreicht die entscheidende Rolle von Flexibilität und hochauflösenden Eingabefähigkeiten in großen multimodalen Modellen und verdeutlicht auch das Potenzial, das in der Einfachheit der Fuyu-Architektur für die Handhabung komplexer visueller Daten innewohnt.
English
In this paper, we present OtterHD-8B, an innovative multimodal model evolved
from Fuyu-8B, specifically engineered to interpret high-resolution visual
inputs with granular precision. Unlike conventional models that are constrained
by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible
input dimensions, ensuring its versatility across various inference
requirements. Alongside this model, we introduce MagnifierBench, an evaluation
framework designed to scrutinize models' ability to discern minute details and
spatial relationships of small objects. Our comparative analysis reveals that
while current leading models falter on this benchmark, OtterHD-8B, particularly
when directly processing high-resolution inputs, outperforms its counterparts
by a substantial margin. The findings illuminate the structural variances in
visual information processing among different models and the influence that the
vision encoders' pre-training resolution disparities have on model
effectiveness within such benchmarks. Our study highlights the critical role of
flexibility and high-resolution input capabilities in large multimodal models
and also exemplifies the potential inherent in the Fuyu architecture's
simplicity for handling complex visual data.