Artemis: Razonamiento Visual Estructurado para el Aprendizaje de Políticas de Percepción
Artemis: Structured Visual Reasoning for Perception Policy Learning
December 1, 2025
Autores: Wei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li
cs.AI
Resumen
Los marcos recientes de aprendizaje por refuerzo para políticas de percepción visual han comenzado a incorporar cadenas de razonamiento intermedias expresadas en lenguaje natural. Observaciones empíricas indican que dicho razonamiento intermedio puramente lingüístico a menudo reduce el rendimiento en tareas de percepción. Sostenemos que el problema central no reside en el razonamiento en sí, sino en su forma: mientras estas cadenas realizan razonamiento semántico en un espacio lingüístico no estructurado, la percepción visual requiere razonar en un espacio espacial y centrado en objetos. Como respuesta, presentamos Artemis, un marco de aprendizaje de políticas de percepción que realiza un razonamiento estructurado basado en propuestas, donde cada paso intermedio se representa como un par (etiqueta, caja delimitadora) que captura un estado visual verificable. Este diseño permite el seguimiento explícito de estados intermedios, la supervisión directa de la calidad de las propuestas y evita la ambigüedad introducida por el razonamiento basado en lenguaje. Artemis está construido sobre Qwen2.5-VL-3B, logra un rendimiento sólido en tareas de grounding y detección, y exhibe una generalización sustancial a tareas de conteo y percepción geométrica. Las mejoras consistentes en estos diversos escenarios confirman que alinear el razonamiento con representaciones espaciales mejora el aprendizaje de políticas de percepción. Debido a su razonamiento visual reforzado, Artemis también logra un rendimiento competitivo en benchmarks generales de MLLM, ilustrando que el razonamiento espacialmente fundamentado proporciona una ruta principled hacia políticas de percepción escalables y generales.
English
Recent reinforcement-learning frameworks for visual perception policy have begun to incorporate intermediate reasoning chains expressed in natural language. Empirical observations indicate that such purely linguistic intermediate reasoning often reduces performance on perception tasks. We argue that the core issue lies not in reasoning per se but in the form of reasoning: while these chains perform semantic reasoning in an unstructured linguistic space, visual perception requires reasoning in a spatial and object-centric space. In response, we introduce Artemis, a perception-policy learning framework that performs structured proposal-based reasoning, where each intermediate step is represented as a (label, bounding-box) pair capturing a verifiable visual state. This design enables explicit tracking of intermediate states, direct supervision for proposal quality, and avoids ambiguity introduced by language-based reasoning. Artemis is built on Qwen2.5-VL-3B, achieves strong performance on grounding and detection task and exhibits substantial generalization to counting and geometric-perception tasks. The consistent improvements across these diverse settings confirm that aligning reasoning with spatial representations enhances perception-policy learning. Owing to its strengthened visual reasoning, Artemis also achieves competitive performance on general MLLM benchmarks, illustrating that spatially grounded reasoning provides a principled route toward scalable and general perception policies.