OtterHD: Высокодетализированная многомодальная модель
OtterHD: A High-Resolution Multi-modality Model
November 7, 2023
Авторы: Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu
cs.AI
Аннотация
В данной статье мы представляем OtterHD-8B — инновационную мультимодальную модель, развившуюся из Fuyu-8B, специально разработанную для интерпретации высококачественных визуальных данных с высокой степенью детализации. В отличие от традиционных моделей, ограниченных фиксированными размерами визуальных энкодеров, OtterHD-8B способна обрабатывать входные данные переменного размера, что обеспечивает её универсальность для различных задач вывода. Вместе с этой моделью мы представляем MagnifierBench — оценочную платформу, предназначенную для анализа способности моделей распознавать мелкие детали и пространственные отношения небольших объектов. Наш сравнительный анализ показывает, что, хотя современные ведущие модели демонстрируют слабые результаты на этом тесте, OtterHD-8B, особенно при непосредственной обработке высококачественных входных данных, значительно превосходит своих конкурентов. Результаты исследования подчеркивают структурные различия в обработке визуальной информации между различными моделями, а также влияние различий в разрешении предварительного обучения визуальных энкодеров на эффективность моделей в таких тестах. Наше исследование акцентирует важность гибкости и способности работы с высококачественными входными данными в крупных мультимодальных моделях, а также демонстрирует потенциал, заложенный в простоте архитектуры Fuyu для обработки сложных визуальных данных.
English
In this paper, we present OtterHD-8B, an innovative multimodal model evolved
from Fuyu-8B, specifically engineered to interpret high-resolution visual
inputs with granular precision. Unlike conventional models that are constrained
by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible
input dimensions, ensuring its versatility across various inference
requirements. Alongside this model, we introduce MagnifierBench, an evaluation
framework designed to scrutinize models' ability to discern minute details and
spatial relationships of small objects. Our comparative analysis reveals that
while current leading models falter on this benchmark, OtterHD-8B, particularly
when directly processing high-resolution inputs, outperforms its counterparts
by a substantial margin. The findings illuminate the structural variances in
visual information processing among different models and the influence that the
vision encoders' pre-training resolution disparities have on model
effectiveness within such benchmarks. Our study highlights the critical role of
flexibility and high-resolution input capabilities in large multimodal models
and also exemplifies the potential inherent in the Fuyu architecture's
simplicity for handling complex visual data.