ChatPaper.aiChatPaper

OtterHD: Um Modelo Multimodal de Alta Resolução

OtterHD: A High-Resolution Multi-modality Model

November 7, 2023
Autores: Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu
cs.AI

Resumo

Neste artigo, apresentamos o OtterHD-8B, um modelo multimodal inovador evoluído a partir do Fuyu-8B, especificamente projetado para interpretar entradas visuais de alta resolução com precisão granular. Diferente dos modelos convencionais, que são limitados por codificadores visuais de tamanho fixo, o OtterHD-8B possui a capacidade de lidar com dimensões de entrada flexíveis, garantindo sua versatilidade em diversas necessidades de inferência. Juntamente com este modelo, introduzimos o MagnifierBench, um framework de avaliação projetado para examinar a capacidade dos modelos de discernir detalhes minuciosos e relações espaciais de objetos pequenos. Nossa análise comparativa revela que, enquanto os modelos líderes atuais apresentam falhas nesse benchmark, o OtterHD-8B, especialmente ao processar diretamente entradas de alta resolução, supera seus concorrentes por uma margem substancial. Os resultados destacam as diferenças estruturais no processamento de informações visuais entre diferentes modelos e a influência que as disparidades de resolução no pré-treinamento dos codificadores visuais têm na eficácia dos modelos dentro de tais benchmarks. Nosso estudo enfatiza o papel crítico da flexibilidade e das capacidades de entrada de alta resolução em modelos multimodais de grande porte e também exemplifica o potencial inerente à simplicidade da arquitetura Fuyu para lidar com dados visuais complexos.
English
In this paper, we present OtterHD-8B, an innovative multimodal model evolved from Fuyu-8B, specifically engineered to interpret high-resolution visual inputs with granular precision. Unlike conventional models that are constrained by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible input dimensions, ensuring its versatility across various inference requirements. Alongside this model, we introduce MagnifierBench, an evaluation framework designed to scrutinize models' ability to discern minute details and spatial relationships of small objects. Our comparative analysis reveals that while current leading models falter on this benchmark, OtterHD-8B, particularly when directly processing high-resolution inputs, outperforms its counterparts by a substantial margin. The findings illuminate the structural variances in visual information processing among different models and the influence that the vision encoders' pre-training resolution disparities have on model effectiveness within such benchmarks. Our study highlights the critical role of flexibility and high-resolution input capabilities in large multimodal models and also exemplifies the potential inherent in the Fuyu architecture's simplicity for handling complex visual data.
PDF342February 8, 2026