ChatPaper.aiChatPaper

DeepPerception: 지식 집약적 시각적 접지를 위한 MLLM에서 R1 유사 인지적 시각 인식 기술 발전

DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding

March 17, 2025
저자: Xinyu Ma, Ziyang Ding, Zhicong Luo, Chi Chen, Zonghao Guo, Derek F. Wong, Xiaoyi Feng, Maosong Sun
cs.AI

초록

인간 전문가들은 도메인 지식을 활용하여 지각적 특징을 세밀하게 조정함으로써 미세한 시각적 차별화에 탁월한 능력을 보입니다. 이러한 능력은 현재의 다중모드 대형 언어 모델(MLLM)에서는 아직 충분히 개발되지 못하고 있습니다. MLLM은 방대한 전문가 수준의 지식을 보유하고 있음에도 불구하고, 시각적 인식에 추론을 통합하는 데 어려움을 겪으며 종종 더 깊은 분석 없이 직접적인 응답을 생성합니다. 이러한 격차를 해소하기 위해, 우리는 미세한 지각과 도메인 특화 지식 통합을 모두 요구하는 새로운 시각적 접지 작업인 지식 집약적 시각적 접지(KVG)를 소개합니다. KVG의 도전 과제를 해결하기 위해, 우리는 인지적 시각적 인식 능력이 강화된 MLLM인 DeepPerception을 제안합니다. 우리의 접근 방식은 (1) 고품질의 지식 정렬 훈련 샘플을 생성하는 자동화된 데이터 합성 파이프라인과 (2) 인지적 추론 스캐폴딩을 위한 지도 미세 조정과 지각-인지 시너지를 최적화하기 위한 강화 학습을 결합한 두 단계 훈련 프레임워크로 구성됩니다. 성능을 벤치마킹하기 위해, 우리는 10개 도메인에 걸쳐 1.3K개의 수동으로 선별된 테스트 케이스를 포함한 포괄적인 데이터셋인 KVG-Bench를 소개합니다. 실험 결과는 DeepPerception이 직접적인 미세 조정을 크게 능가하며, KVG-Bench에서 +8.08%의 정확도 향상을 달성하고 기준 접근법 대비 +4.60%의 우수한 도메인 간 일반화 능력을 보여줍니다. 우리의 연구 결과는 인간과 같은 시각적 인식을 위해 MLLM에 인지 과정을 통합하는 것의 중요성을 강조하며, 다중모드 추론 연구를 위한 새로운 방향을 제시합니다. 데이터, 코드 및 모델은 https://github.com/thunlp/DeepPerception에서 공개되었습니다.
English
Human experts excel at fine-grained visual discrimination by leveraging domain knowledge to refine perceptual features, a capability that remains underdeveloped in current Multimodal Large Language Models (MLLMs). Despite possessing vast expert-level knowledge, MLLMs struggle to integrate reasoning into visual perception, often generating direct responses without deeper analysis. To bridge this gap, we introduce knowledge-intensive visual grounding (KVG), a novel visual grounding task that requires both fine-grained perception and domain-specific knowledge integration. To address the challenges of KVG, we propose DeepPerception, an MLLM enhanced with cognitive visual perception capabilities. Our approach consists of (1) an automated data synthesis pipeline that generates high-quality, knowledge-aligned training samples, and (2) a two-stage training framework combining supervised fine-tuning for cognitive reasoning scaffolding and reinforcement learning to optimize perception-cognition synergy. To benchmark performance, we introduce KVG-Bench a comprehensive dataset spanning 10 domains with 1.3K manually curated test cases. Experimental results demonstrate that DeepPerception significantly outperforms direct fine-tuning, achieving +8.08\% accuracy improvements on KVG-Bench and exhibiting +4.60\% superior cross-domain generalization over baseline approaches. Our findings highlight the importance of integrating cognitive processes into MLLMs for human-like visual perception and open new directions for multimodal reasoning research. The data, codes, and models are released at https://github.com/thunlp/DeepPerception.

Summary

AI-Generated Summary

PDF302March 19, 2025