OtterHD: Un modelo de alta resolución para múltiples modalidades

Resumen

En este artículo, presentamos OtterHD-8B, un modelo multimodal innovador evolucionado a partir de Fuyu-8B, específicamente diseñado para interpretar entradas visuales de alta resolución con precisión granular. A diferencia de los modelos convencionales que están limitados por codificadores visuales de tamaño fijo, OtterHD-8B posee la capacidad de manejar dimensiones de entrada flexibles, asegurando su versatilidad en diversos requisitos de inferencia. Junto con este modelo, introducimos MagnifierBench, un marco de evaluación diseñado para examinar la capacidad de los modelos para discernir detalles minuciosos y relaciones espaciales de objetos pequeños. Nuestro análisis comparativo revela que, mientras los modelos líderes actuales fallan en este punto de referencia, OtterHD-8B, particularmente al procesar directamente entradas de alta resolución, supera a sus contrapartes por un margen considerable. Los hallazgos iluminan las variaciones estructurales en el procesamiento de información visual entre diferentes modelos y la influencia que las diferencias en la resolución de pre-entrenamiento de los codificadores visuales tienen en la efectividad del modelo dentro de tales puntos de referencia. Nuestro estudio destaca el papel crítico de la flexibilidad y las capacidades de entrada de alta resolución en los modelos multimodales grandes, y también ejemplifica el potencial inherente en la simplicidad de la arquitectura Fuyu para manejar datos visuales complejos.

English

In this paper, we present OtterHD-8B, an innovative multimodal model evolved from Fuyu-8B, specifically engineered to interpret high-resolution visual inputs with granular precision. Unlike conventional models that are constrained by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible input dimensions, ensuring its versatility across various inference requirements. Alongside this model, we introduce MagnifierBench, an evaluation framework designed to scrutinize models' ability to discern minute details and spatial relationships of small objects. Our comparative analysis reveals that while current leading models falter on this benchmark, OtterHD-8B, particularly when directly processing high-resolution inputs, outperforms its counterparts by a substantial margin. The findings illuminate the structural variances in visual information processing among different models and the influence that the vision encoders' pre-training resolution disparities have on model effectiveness within such benchmarks. Our study highlights the critical role of flexibility and high-resolution input capabilities in large multimodal models and also exemplifies the potential inherent in the Fuyu architecture's simplicity for handling complex visual data.

OtterHD: Un modelo de alta resolución para múltiples modalidades

OtterHD: A High-Resolution Multi-modality Model

Resumen

Support