ChatPaper.aiChatPaper

ViGoR: 세분화된 보상 모델링을 통해 대규모 시각-언어 모델의 시각적 그라운딩 성능 향상

ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling

February 9, 2024
저자: Siming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li
cs.AI

초록

자연어 이해와 대규모 언어 모델의 생성 능력 및 광범위한 지식을 이미지 인식과 결합함으로써, 최근의 대규모 시각 언어 모델(LVLMs)은 현실 세계에서 전례 없는 추론 능력을 보여주고 있습니다. 그러나 생성된 텍스트는 종종 시각적 입력에 대한 정확한 근거가 부족하여, 존재하지 않는 장면 요소를 환각하거나 장면의 중요한 부분을 놓치고, 객체 간의 잘못된 속성과 관계를 추론하는 등의 오류를 발생시킵니다. 이러한 문제를 해결하기 위해, 우리는 미세한 보상 모델링을 활용하여 LVLMs의 시각적 근거를 사전 학습된 기준선 대비 크게 향상시키는 새로운 프레임워크인 ViGoR(Visual Grounding Through Fine-Grained Reward Modeling)를 소개합니다. 이 개선은 완전한 감독 대신 훨씬 저렴한 인간 평가와 자동화된 방법을 통해 효율적으로 달성됩니다. 우리는 여러 벤치마크에서 다양한 지표를 통해 우리의 접근 방식의 효과를 입증합니다. 또한, LVLMs의 시각적 근거 능력을 검증하기 위해 특별히 설계된 포괄적이고 도전적인 데이터셋을 구축합니다. 마지막으로, 우리는 약 16,000개의 이미지와 생성된 텍스트 쌍에 대한 미세한 평가를 포함한 인간 주석을 공개하여 커뮤니티의 관련 연구에 기여할 계획입니다.
English
By combining natural language understanding and the generation capabilities and breadth of knowledge of large language models with image perception, recent large vision language models (LVLMs) have shown unprecedented reasoning capabilities in the real world. However, the generated text often suffers from inaccurate grounding in the visual input, resulting in errors such as hallucinating nonexistent scene elements, missing significant parts of the scene, and inferring incorrect attributes and relationships between objects. To address these issues, we introduce a novel framework, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling) that utilizes fine-grained reward modeling to significantly enhance the visual grounding of LVLMs over pre-trained baselines. This improvement is efficiently achieved using much cheaper human evaluations instead of full supervisions, as well as automated methods. We show the effectiveness of our approach through numerous metrics on several benchmarks. Additionally, we construct a comprehensive and challenging dataset specifically designed to validate the visual grounding capabilities of LVLMs. Finally, we plan to release our human annotation comprising approximately 16,000 images and generated text pairs with fine-grained evaluations to contribute to related research in the community.
PDF152December 15, 2024