OtterHD: Un modello multi-modalità ad alta risoluzione
OtterHD: A High-Resolution Multi-modality Model
November 7, 2023
Autori: Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu
cs.AI
Abstract
In questo articolo presentiamo OtterHD-8B, un modello multimodale innovativo evoluto da Fuyu-8B, specificamente progettato per interpretare input visivi ad alta risoluzione con precisione granulare. A differenza dei modelli convenzionali, vincolati da encoder visivi di dimensioni fisse, OtterHD-8B vanta la capacità di gestire dimensioni di input flessibili, garantendo così la sua versatilità in vari requisiti di inferenza. Insieme a questo modello, introduciamo MagnifierBench, un framework di valutazione concepito per analizzare la capacità dei modelli di discernere dettagli minuti e relazioni spaziali di oggetti piccoli. La nostra analisi comparativa rivela che, mentre i principali modelli attuali falliscono su questo benchmark, OtterHD-8B, specialmente quando elabora direttamente input ad alta risoluzione, supera i suoi concorrenti con un margine significativo. I risultati evidenziano le differenze strutturali nell'elaborazione delle informazioni visive tra i vari modelli e l'influenza che le disparità di risoluzione nel pre-training degli encoder visivi hanno sull'efficacia del modello in tali benchmark. Il nostro studio sottolinea il ruolo cruciale della flessibilità e delle capacità di input ad alta risoluzione nei grandi modelli multimodali e dimostra inoltre il potenziale insito nella semplicità dell'architettura Fuyu per gestire dati visivi complessi.
English
In this paper, we present OtterHD-8B, an innovative multimodal model evolved
from Fuyu-8B, specifically engineered to interpret high-resolution visual
inputs with granular precision. Unlike conventional models that are constrained
by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible
input dimensions, ensuring its versatility across various inference
requirements. Alongside this model, we introduce MagnifierBench, an evaluation
framework designed to scrutinize models' ability to discern minute details and
spatial relationships of small objects. Our comparative analysis reveals that
while current leading models falter on this benchmark, OtterHD-8B, particularly
when directly processing high-resolution inputs, outperforms its counterparts
by a substantial margin. The findings illuminate the structural variances in
visual information processing among different models and the influence that the
vision encoders' pre-training resolution disparities have on model
effectiveness within such benchmarks. Our study highlights the critical role of
flexibility and high-resolution input capabilities in large multimodal models
and also exemplifies the potential inherent in the Fuyu architecture's
simplicity for handling complex visual data.