ChatPaper.aiChatPaper

아르테미스: 지각 정책 학습을 위한 구조화된 시각 추론

Artemis: Structured Visual Reasoning for Perception Policy Learning

December 1, 2025
저자: Wei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li
cs.AI

초록

시각 인식 정책을 위한 최근의 강화학습 프레임워크는 자연어로 표현된 중간 추론 체인을 통합하기 시작했습니다. 실증적 관찰에 따르면, 이러한 순수하게 언어적인 중간 추론은 종종 인식 과제에서 성능을 저하시키는 것으로 나타납니다. 우리는 핵심 문제가 추론 자체가 아니라 추론의 형태에 있다고 주장합니다. 즉, 이러한 체인들이 구조화되지 않은 언어 공간에서 의미론적 추론을 수행하는 반면, 시각 인식은 공간적이고 객체 중심적인 공간에서의 추론을 필요로 합니다. 이에 대응하여 우리는 구조화된 제안 기반 추론을 수행하는 인식-정책 학습 프레임워크인 Artemis를 소개합니다. 여기서 각 중간 단계는 검증 가능한 시각적 상태를 포착하는 (레이블, 경계 상자) 쌍으로 표현됩니다. 이 설계는 중간 상태의 명시적 추적, 제안 품질에 대한 직접적 감독, 그리고 언어 기반 추론에서 발생하는 모호함을 피할 수 있게 합니다. Artemis는 Qwen2.5-VL-3B를 기반으로 구축되었으며, 그라운딩 및 탐지 과제에서 강력한 성능을 달성하고 계수 및 기하학적 인식 과제로의 상당한 일반화 능력을 보여줍니다. 이러한 다양한 설정에서의 일관된 성능 향상은 추론을 공간 표현과 일치시키는 것이 인식-정책 학습을 향상시킨다는 것을 확인해 줍니다. 강화된 시각 추론 능력 덕분에 Artemis는 일반 MLLM 벤치마크에서도 경쟁력 있는 성능을 달성하며, 공간적으로 근거된 추론이 확장 가능하고 일반적인 인식 정책을 위한 원칙적인 경로를 제공함을 보여줍니다.
English
Recent reinforcement-learning frameworks for visual perception policy have begun to incorporate intermediate reasoning chains expressed in natural language. Empirical observations indicate that such purely linguistic intermediate reasoning often reduces performance on perception tasks. We argue that the core issue lies not in reasoning per se but in the form of reasoning: while these chains perform semantic reasoning in an unstructured linguistic space, visual perception requires reasoning in a spatial and object-centric space. In response, we introduce Artemis, a perception-policy learning framework that performs structured proposal-based reasoning, where each intermediate step is represented as a (label, bounding-box) pair capturing a verifiable visual state. This design enables explicit tracking of intermediate states, direct supervision for proposal quality, and avoids ambiguity introduced by language-based reasoning. Artemis is built on Qwen2.5-VL-3B, achieves strong performance on grounding and detection task and exhibits substantial generalization to counting and geometric-perception tasks. The consistent improvements across these diverse settings confirm that aligning reasoning with spatial representations enhances perception-policy learning. Owing to its strengthened visual reasoning, Artemis also achieves competitive performance on general MLLM benchmarks, illustrating that spatially grounded reasoning provides a principled route toward scalable and general perception policies.
PDF11December 4, 2025