ChatPaper.aiChatPaper

Ferret-v2: 대규모 언어 모델을 활용한 참조 및 그라운딩을 위한 개선된 베이스라인

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

April 11, 2024
저자: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
cs.AI

초록

Ferret은 대규모 언어 모델(LLM)에 지역 이해를 원활하게 통합하여 참조 및 접지 능력을 강화하지만, 몇 가지 한계를 가지고 있습니다: 사전 학습된 고정된 시각 인코더에 의해 제약을 받으며, 더 광범위한 작업에서 성능이 떨어지는 문제가 있습니다. 본 연구에서는 Ferret의 중요한 업그레이드 버전인 Ferret-v2를 소개하며, 세 가지 주요 설계를 제안합니다. (1) 임의 해상도 접지 및 참조: 더 높은 이미지 해상도를 손쉽게 처리할 수 있는 유연한 접근 방식으로, 모델이 더 세밀한 이미지를 처리하고 이해하는 능력을 향상시킵니다. (2) 다중 세분화 시각 인코딩: 추가적인 DINOv2 인코더를 통합함으로써, 모델이 전역적 및 세부적인 시각 정보에 대한 더 나은 다양한 맥락을 학습합니다. (3) 3단계 학습 패러다임: 이미지-캡션 정렬 외에도, 최종 명령어 튜닝 전에 고해상도 밀집 정렬을 위한 추가 단계를 제안합니다. 실험 결과, Ferret-v2는 고해상도 스케일링과 세밀한 시각 처리 덕분에 Ferret 및 기타 최신 방법 대비 상당한 개선을 보여줍니다.
English
While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.

Summary

AI-Generated Summary

PDF333December 15, 2024