ChatPaper.aiChatPaper

DeepPerception: Avanzando en la Percepción Visual Cognitiva Similar a R1 en MLLMs para la Fundamentación Visual Intensiva en Conocimiento

DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding

March 17, 2025
Autores: Xinyu Ma, Ziyang Ding, Zhicong Luo, Chi Chen, Zonghao Guo, Derek F. Wong, Xiaoyi Feng, Maosong Sun
cs.AI

Resumen

Los expertos humanos destacan en la discriminación visual de grano fino al aprovechar el conocimiento del dominio para refinar las características perceptivas, una capacidad que sigue estando poco desarrollada en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) actuales. A pesar de poseer un vasto conocimiento a nivel de experto, los MLLMs tienen dificultades para integrar el razonamiento en la percepción visual, generando a menudo respuestas directas sin un análisis más profundo. Para cerrar esta brecha, introducimos el anclaje visual intensivo en conocimiento (KVG), una novedosa tarea de anclaje visual que requiere tanto una percepción de grano fino como la integración de conocimiento específico del dominio. Para abordar los desafíos del KVG, proponemos DeepPerception, un MLLM mejorado con capacidades de percepción visual cognitiva. Nuestro enfoque consiste en (1) una canalización de síntesis de datos automatizada que genera muestras de entrenamiento de alta calidad alineadas con el conocimiento, y (2) un marco de entrenamiento en dos etapas que combina el ajuste fino supervisado para el andamiaje de razonamiento cognitivo y el aprendizaje por refuerzo para optimizar la sinergia percepción-cognición. Para evaluar el rendimiento, presentamos KVG-Bench, un conjunto de datos integral que abarca 10 dominios con 1.3K casos de prueba curados manualmente. Los resultados experimentales demuestran que DeepPerception supera significativamente el ajuste fino directo, logrando mejoras de +8.08\% en precisión en KVG-Bench y exhibiendo una generalización cruzada de dominio +4.60\% superior en comparación con los enfoques de referencia. Nuestros hallazgos resaltan la importancia de integrar procesos cognitivos en los MLLMs para una percepción visual similar a la humana y abren nuevas direcciones para la investigación en razonamiento multimodal. Los datos, códigos y modelos se publican en https://github.com/thunlp/DeepPerception.
English
Human experts excel at fine-grained visual discrimination by leveraging domain knowledge to refine perceptual features, a capability that remains underdeveloped in current Multimodal Large Language Models (MLLMs). Despite possessing vast expert-level knowledge, MLLMs struggle to integrate reasoning into visual perception, often generating direct responses without deeper analysis. To bridge this gap, we introduce knowledge-intensive visual grounding (KVG), a novel visual grounding task that requires both fine-grained perception and domain-specific knowledge integration. To address the challenges of KVG, we propose DeepPerception, an MLLM enhanced with cognitive visual perception capabilities. Our approach consists of (1) an automated data synthesis pipeline that generates high-quality, knowledge-aligned training samples, and (2) a two-stage training framework combining supervised fine-tuning for cognitive reasoning scaffolding and reinforcement learning to optimize perception-cognition synergy. To benchmark performance, we introduce KVG-Bench a comprehensive dataset spanning 10 domains with 1.3K manually curated test cases. Experimental results demonstrate that DeepPerception significantly outperforms direct fine-tuning, achieving +8.08\% accuracy improvements on KVG-Bench and exhibiting +4.60\% superior cross-domain generalization over baseline approaches. Our findings highlight the importance of integrating cognitive processes into MLLMs for human-like visual perception and open new directions for multimodal reasoning research. The data, codes, and models are released at https://github.com/thunlp/DeepPerception.

Summary

AI-Generated Summary

PDF302March 19, 2025