DeepPerception: Avanzando en la Percepción Visual Cognitiva Similar a R1 en MLLMs para la Fundamentación Visual Intensiva en Conocimiento
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding
March 17, 2025
Autores: Xinyu Ma, Ziyang Ding, Zhicong Luo, Chi Chen, Zonghao Guo, Derek F. Wong, Xiaoyi Feng, Maosong Sun
cs.AI
Resumen
Los expertos humanos destacan en la discriminación visual de grano fino al aprovechar el conocimiento del dominio para refinar las características perceptivas, una capacidad que sigue estando poco desarrollada en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) actuales. A pesar de poseer un vasto conocimiento a nivel de experto, los MLLMs tienen dificultades para integrar el razonamiento en la percepción visual, generando a menudo respuestas directas sin un análisis más profundo. Para cerrar esta brecha, introducimos el anclaje visual intensivo en conocimiento (KVG), una novedosa tarea de anclaje visual que requiere tanto una percepción de grano fino como la integración de conocimiento específico del dominio. Para abordar los desafíos del KVG, proponemos DeepPerception, un MLLM mejorado con capacidades de percepción visual cognitiva. Nuestro enfoque consiste en (1) una canalización de síntesis de datos automatizada que genera muestras de entrenamiento de alta calidad alineadas con el conocimiento, y (2) un marco de entrenamiento en dos etapas que combina el ajuste fino supervisado para el andamiaje de razonamiento cognitivo y el aprendizaje por refuerzo para optimizar la sinergia percepción-cognición. Para evaluar el rendimiento, presentamos KVG-Bench, un conjunto de datos integral que abarca 10 dominios con 1.3K casos de prueba curados manualmente. Los resultados experimentales demuestran que DeepPerception supera significativamente el ajuste fino directo, logrando mejoras de +8.08\% en precisión en KVG-Bench y exhibiendo una generalización cruzada de dominio +4.60\% superior en comparación con los enfoques de referencia. Nuestros hallazgos resaltan la importancia de integrar procesos cognitivos en los MLLMs para una percepción visual similar a la humana y abren nuevas direcciones para la investigación en razonamiento multimodal. Los datos, códigos y modelos se publican en https://github.com/thunlp/DeepPerception.
English
Human experts excel at fine-grained visual discrimination by leveraging
domain knowledge to refine perceptual features, a capability that remains
underdeveloped in current Multimodal Large Language Models (MLLMs). Despite
possessing vast expert-level knowledge, MLLMs struggle to integrate reasoning
into visual perception, often generating direct responses without deeper
analysis. To bridge this gap, we introduce knowledge-intensive visual grounding
(KVG), a novel visual grounding task that requires both fine-grained perception
and domain-specific knowledge integration. To address the challenges of KVG, we
propose DeepPerception, an MLLM enhanced with cognitive visual perception
capabilities. Our approach consists of (1) an automated data synthesis pipeline
that generates high-quality, knowledge-aligned training samples, and (2) a
two-stage training framework combining supervised fine-tuning for cognitive
reasoning scaffolding and reinforcement learning to optimize
perception-cognition synergy. To benchmark performance, we introduce KVG-Bench
a comprehensive dataset spanning 10 domains with 1.3K manually curated test
cases. Experimental results demonstrate that DeepPerception significantly
outperforms direct fine-tuning, achieving +8.08\% accuracy improvements on
KVG-Bench and exhibiting +4.60\% superior cross-domain generalization over
baseline approaches. Our findings highlight the importance of integrating
cognitive processes into MLLMs for human-like visual perception and open new
directions for multimodal reasoning research. The data, codes, and models are
released at https://github.com/thunlp/DeepPerception.Summary
AI-Generated Summary