ChatPaper.aiChatPaper

Griffon v2: 고해상도 스케일링과 시각-언어 공동 참조를 통한 다중모달 인식 기술의 발전

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

March 14, 2024
저자: Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI

초록

대규모 시각-언어 모델은 세밀한 객체 인식 능력을 달성했지만, 복잡하고 밀집된 시나리오에서 특정 작업 전문가들의 성능을 뛰어넘기 위해서는 여전히 이미지 해상도의 한계가 주요 장애물로 남아 있습니다. 이러한 한계는 GUI 에이전트, 카운팅 등과 같은 영역에서 미묘한 시각 및 언어 참조를 달성하는 모델의 잠재력을 더욱 제한합니다. 이 문제를 해결하기 위해, 우리는 통합된 고해상도 일반 모델인 Griffon v2를 소개하며, 시각 및 텍스트 프롬프트를 통해 유연한 객체 참조를 가능하게 합니다. 이미지 해상도를 효율적으로 확장하기 위해, 우리는 대규모 언어 모델의 입력 토큰 제약을 극복하기 위한 간단하고 경량화된 다운샘플링 프로젝터를 설계했습니다. 이 설계는 본질적으로 완전한 문맥과 세부 사항을 보존하며, 특히 작은 객체에 대한 다중모달 인식 능력을 크게 향상시킵니다. 이를 기반으로, 우리는 플러그 앤 플레이 시각 토크나이저를 통해 모델에 시각-언어 공동 참조 능력을 추가로 장착했습니다. 이를 통해 사용자는 유연한 대상 이미지, 자유 형식 텍스트, 심지어 좌표와도 친숙하게 상호작용할 수 있습니다. 실험 결과, Griffon v2는 시각 및 텍스트 참조를 통해 관심 객체를 정확히 위치 지정할 수 있으며, REC, 구문 그라운딩, REG 작업에서 최첨단 성능을 달성하고, 객체 탐지 및 객체 카운팅에서 전문가 모델들을 능가합니다. 데이터, 코드 및 모델은 https://github.com/jefferyZhan/Griffon에서 공개될 예정입니다.
English
Large Vision Language Models have achieved fine-grained object perception, but the limitation of image resolution remains a significant obstacle to surpass the performance of task-specific experts in complex and dense scenarios. Such limitation further restricts the model's potential to achieve nuanced visual and language referring in domains such as GUI Agents, Counting and \etc. To address this issue, we introduce a unified high-resolution generalist model, Griffon v2, enabling flexible object referring with visual and textual prompts. To efficiently scaling up image resolution, we design a simple and lightweight down-sampling projector to overcome the input tokens constraint in Large Language Models. This design inherently preserves the complete contexts and fine details, and significantly improves multimodal perception ability especially for small objects. Building upon this, we further equip the model with visual-language co-referring capabilities through a plug-and-play visual tokenizer. It enables user-friendly interaction with flexible target images, free-form texts and even coordinates. Experiments demonstrate that Griffon v2 can localize any objects of interest with visual and textual referring, achieve state-of-the-art performance on REC, phrase grounding, and REG tasks, and outperform expert models in object detection and object counting. Data, codes and models will be released at https://github.com/jefferyZhan/Griffon.

Summary

AI-Generated Summary

PDF163December 15, 2024