OtterHD: Un modelo de alta resolución para múltiples modalidades
OtterHD: A High-Resolution Multi-modality Model
November 7, 2023
Autores: Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu
cs.AI
Resumen
En este artículo, presentamos OtterHD-8B, un modelo multimodal innovador evolucionado a partir de Fuyu-8B, específicamente diseñado para interpretar entradas visuales de alta resolución con precisión granular. A diferencia de los modelos convencionales que están limitados por codificadores visuales de tamaño fijo, OtterHD-8B posee la capacidad de manejar dimensiones de entrada flexibles, asegurando su versatilidad en diversos requisitos de inferencia. Junto con este modelo, introducimos MagnifierBench, un marco de evaluación diseñado para examinar la capacidad de los modelos para discernir detalles minuciosos y relaciones espaciales de objetos pequeños. Nuestro análisis comparativo revela que, mientras los modelos líderes actuales fallan en este punto de referencia, OtterHD-8B, particularmente al procesar directamente entradas de alta resolución, supera a sus contrapartes por un margen considerable. Los hallazgos iluminan las variaciones estructurales en el procesamiento de información visual entre diferentes modelos y la influencia que las diferencias en la resolución de pre-entrenamiento de los codificadores visuales tienen en la efectividad del modelo dentro de tales puntos de referencia. Nuestro estudio destaca el papel crítico de la flexibilidad y las capacidades de entrada de alta resolución en los modelos multimodales grandes, y también ejemplifica el potencial inherente en la simplicidad de la arquitectura Fuyu para manejar datos visuales complejos.
English
In this paper, we present OtterHD-8B, an innovative multimodal model evolved
from Fuyu-8B, specifically engineered to interpret high-resolution visual
inputs with granular precision. Unlike conventional models that are constrained
by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible
input dimensions, ensuring its versatility across various inference
requirements. Alongside this model, we introduce MagnifierBench, an evaluation
framework designed to scrutinize models' ability to discern minute details and
spatial relationships of small objects. Our comparative analysis reveals that
while current leading models falter on this benchmark, OtterHD-8B, particularly
when directly processing high-resolution inputs, outperforms its counterparts
by a substantial margin. The findings illuminate the structural variances in
visual information processing among different models and the influence that the
vision encoders' pre-training resolution disparities have on model
effectiveness within such benchmarks. Our study highlights the critical role of
flexibility and high-resolution input capabilities in large multimodal models
and also exemplifies the potential inherent in the Fuyu architecture's
simplicity for handling complex visual data.