OtterHD: Un modello multi-modalità ad alta risoluzione

Abstract

In questo articolo presentiamo OtterHD-8B, un modello multimodale innovativo evoluto da Fuyu-8B, specificamente progettato per interpretare input visivi ad alta risoluzione con precisione granulare. A differenza dei modelli convenzionali, vincolati da encoder visivi di dimensioni fisse, OtterHD-8B vanta la capacità di gestire dimensioni di input flessibili, garantendo così la sua versatilità in vari requisiti di inferenza. Insieme a questo modello, introduciamo MagnifierBench, un framework di valutazione concepito per analizzare la capacità dei modelli di discernere dettagli minuti e relazioni spaziali di oggetti piccoli. La nostra analisi comparativa rivela che, mentre i principali modelli attuali falliscono su questo benchmark, OtterHD-8B, specialmente quando elabora direttamente input ad alta risoluzione, supera i suoi concorrenti con un margine significativo. I risultati evidenziano le differenze strutturali nell'elaborazione delle informazioni visive tra i vari modelli e l'influenza che le disparità di risoluzione nel pre-training degli encoder visivi hanno sull'efficacia del modello in tali benchmark. Il nostro studio sottolinea il ruolo cruciale della flessibilità e delle capacità di input ad alta risoluzione nei grandi modelli multimodali e dimostra inoltre il potenziale insito nella semplicità dell'architettura Fuyu per gestire dati visivi complessi.

English

In this paper, we present OtterHD-8B, an innovative multimodal model evolved from Fuyu-8B, specifically engineered to interpret high-resolution visual inputs with granular precision. Unlike conventional models that are constrained by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible input dimensions, ensuring its versatility across various inference requirements. Alongside this model, we introduce MagnifierBench, an evaluation framework designed to scrutinize models' ability to discern minute details and spatial relationships of small objects. Our comparative analysis reveals that while current leading models falter on this benchmark, OtterHD-8B, particularly when directly processing high-resolution inputs, outperforms its counterparts by a substantial margin. The findings illuminate the structural variances in visual information processing among different models and the influence that the vision encoders' pre-training resolution disparities have on model effectiveness within such benchmarks. Our study highlights the critical role of flexibility and high-resolution input capabilities in large multimodal models and also exemplifies the potential inherent in the Fuyu architecture's simplicity for handling complex visual data.

OtterHD: Un modello multi-modalità ad alta risoluzione

OtterHD: A High-Resolution Multi-modality Model

Abstract

Support