OtterHD : Un modèle multi-modal haute résolution
OtterHD: A High-Resolution Multi-modality Model
November 7, 2023
Auteurs: Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu
cs.AI
Résumé
Dans cet article, nous présentons OtterHD-8B, un modèle multimodal innovant dérivé de Fuyu-8B, spécialement conçu pour interpréter des entrées visuelles haute résolution avec une précision granulaire. Contrairement aux modèles conventionnels limités par des encodeurs visuels de taille fixe, OtterHD-8B possède la capacité de gérer des dimensions d'entrée flexibles, garantissant ainsi sa polyvalence face à diverses exigences d'inférence. Parallèlement à ce modèle, nous introduisons MagnifierBench, un cadre d'évaluation conçu pour examiner la capacité des modèles à discerner des détails minutieux et les relations spatiales de petits objets. Notre analyse comparative révèle que si les modèles leaders actuels échouent sur ce benchmark, OtterHD-8B, en particulier lorsqu'il traite directement des entrées haute résolution, surpasse ses homologues de manière significative. Les résultats mettent en lumière les différences structurelles dans le traitement de l'information visuelle entre différents modèles, ainsi que l'influence des disparités de résolution de pré-entraînement des encodeurs visuels sur l'efficacité des modèles dans de tels benchmarks. Notre étude souligne le rôle crucial de la flexibilité et des capacités d'entrée haute résolution dans les grands modèles multimodaux, tout en illustrant le potentiel inhérent à la simplicité de l'architecture Fuyu pour gérer des données visuelles complexes.
English
In this paper, we present OtterHD-8B, an innovative multimodal model evolved
from Fuyu-8B, specifically engineered to interpret high-resolution visual
inputs with granular precision. Unlike conventional models that are constrained
by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible
input dimensions, ensuring its versatility across various inference
requirements. Alongside this model, we introduce MagnifierBench, an evaluation
framework designed to scrutinize models' ability to discern minute details and
spatial relationships of small objects. Our comparative analysis reveals that
while current leading models falter on this benchmark, OtterHD-8B, particularly
when directly processing high-resolution inputs, outperforms its counterparts
by a substantial margin. The findings illuminate the structural variances in
visual information processing among different models and the influence that the
vision encoders' pre-training resolution disparities have on model
effectiveness within such benchmarks. Our study highlights the critical role of
flexibility and high-resolution input capabilities in large multimodal models
and also exemplifies the potential inherent in the Fuyu architecture's
simplicity for handling complex visual data.