ChatPaper.aiChatPaper

Ferret-v2: Улучшенный базовый уровень для ссылок и привязки с использованием больших моделей языка.

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

April 11, 2024
Авторы: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
cs.AI

Аннотация

В то время как Ferret плавно интегрирует региональное понимание в Большую Языковую Модель (LLM) для облегчения ее возможности ссылки и закрепления, это представляет определенные ограничения: ограниченностью предварительно обученным фиксированным визуальным кодировщиком и неспособностью хорошо справляться с более широкими задачами. В данной работе мы представляем Ferret-v2, значительное улучшение по сравнению с Ferret, с тремя ключевыми дизайнами. (1) Закрепление и ссылка на любое разрешение: гибкий подход, который легко обрабатывает более высокое разрешение изображения, улучшая способность модели обрабатывать и понимать изображения более детально. (2) Мульти-гранулярное визуальное кодирование: путем интеграции дополнительного кодировщика DINOv2 модель изучает лучше и разнообразнее основные контексты для глобальной и мелкозернистой визуальной информации. (3) Трехэтапная парадигма обучения: помимо выравнивания изображения-подписи, предлагается дополнительный этап для плотного выравнивания высокого разрешения перед окончательной настройкой инструкции. Эксперименты показывают, что Ferret-v2 обеспечивает значительные улучшения по сравнению с Ferret и другими передовыми методами благодаря масштабированию высокого разрешения и обработке мелкозернистой визуальной информации.
English
While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.

Summary

AI-Generated Summary

PDF333December 15, 2024