ChatPaper.aiChatPaper

OtterHD: Een hoogresolutie multimodaal model

OtterHD: A High-Resolution Multi-modality Model

November 7, 2023
Auteurs: Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu
cs.AI

Samenvatting

In dit artikel presenteren we OtterHD-8B, een innovatief multimodaal model dat is geëvolueerd uit Fuyu-8B en specifiek is ontworpen om hoogwaardige visuele invoer met gedetailleerde precisie te interpreteren. In tegenstelling tot conventionele modellen die beperkt worden door vaste grootte van visuele encoders, beschikt OtterHD-8B over de mogelijkheid om flexibele invoerdimensies te verwerken, wat de veelzijdigheid ervan waarborgt voor diverse inferentiebehoeften. Naast dit model introduceren we MagnifierBench, een evaluatieraamwerk dat is ontworpen om het vermogen van modellen om fijne details en ruimtelijke relaties van kleine objecten te onderscheiden, grondig te onderzoeken. Onze vergelijkende analyse toont aan dat terwijl huidige toonaangevende modellen falen op deze benchmark, OtterHD-8B, met name bij het direct verwerken van hoogwaardige invoer, zijn tegenhangers met een aanzienlijke marge overtreft. De bevindingen belichten de structurele verschillen in visuele informatieverwerking tussen verschillende modellen en de invloed die de verschillen in pre-trainingsresolutie van visuele encoders hebben op de effectiviteit van modellen binnen dergelijke benchmarks. Onze studie benadrukt de cruciale rol van flexibiliteit en hoogwaardige invoermogelijkheden in grote multimodale modellen en illustreert tevens het potentieel dat inherent is aan de eenvoud van de Fuyu-architectuur voor het verwerken van complexe visuele data.
English
In this paper, we present OtterHD-8B, an innovative multimodal model evolved from Fuyu-8B, specifically engineered to interpret high-resolution visual inputs with granular precision. Unlike conventional models that are constrained by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible input dimensions, ensuring its versatility across various inference requirements. Alongside this model, we introduce MagnifierBench, an evaluation framework designed to scrutinize models' ability to discern minute details and spatial relationships of small objects. Our comparative analysis reveals that while current leading models falter on this benchmark, OtterHD-8B, particularly when directly processing high-resolution inputs, outperforms its counterparts by a substantial margin. The findings illuminate the structural variances in visual information processing among different models and the influence that the vision encoders' pre-training resolution disparities have on model effectiveness within such benchmarks. Our study highlights the critical role of flexibility and high-resolution input capabilities in large multimodal models and also exemplifies the potential inherent in the Fuyu architecture's simplicity for handling complex visual data.
PDF342February 8, 2026