ChatPaper.aiChatPaper

アルテミス:知覚政策学習のための構造化視覚推論

Artemis: Structured Visual Reasoning for Perception Policy Learning

December 1, 2025
著者: Wei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li
cs.AI

要旨

視覚知覚政策のための強化学習フレームワークにおいて、自然言語で表現された中間推論連鎖を組み込む手法が登場している。しかし実証観察によれば、このような純粋に言語的な中間推論は、知覚タスクの性能をむしろ低下させることが多い。本論文では、問題の本質が推論そのものではなく推論の形式にあると主張する。既存手法が非構造化された言語空間で意味的推論を行うのに対し、視覚知覚は空間的かつ対象中心の空間での推論を必要とする。これに対応するため、我々は構造化された提案ベース推論を行う知覚政策学習フレームワークArtemisを提案する。Artemisでは各中間ステップが(ラベル、バウンディングボックス)のペアとして表現され、検証可能な視覚状態を捉える。この設計により、中間状態の明示的な追跡、提案品質への直接的な監督が可能となり、言語ベース推論が導入する曖昧性を回避する。ArtemisはQwen2.5-VL-3Bを基盤とし、接地認識や検出タスクで高い性能を達成するとともに、計数や幾何学知覚タスクへの顕著な一般化能力を示す。これらの多様な設定における一貫した改善は、推論を空間的表現に整合させることで知覚政策学習が強化されることを実証する。強化された視覚推論能力により、Artemisは一般MLLMベンチマークでも競合力のある性能を達成し、空間に根ざした推論がスケーラブルで汎用的な知覚政策への原理的な道筋を提供することを示唆する。
English
Recent reinforcement-learning frameworks for visual perception policy have begun to incorporate intermediate reasoning chains expressed in natural language. Empirical observations indicate that such purely linguistic intermediate reasoning often reduces performance on perception tasks. We argue that the core issue lies not in reasoning per se but in the form of reasoning: while these chains perform semantic reasoning in an unstructured linguistic space, visual perception requires reasoning in a spatial and object-centric space. In response, we introduce Artemis, a perception-policy learning framework that performs structured proposal-based reasoning, where each intermediate step is represented as a (label, bounding-box) pair capturing a verifiable visual state. This design enables explicit tracking of intermediate states, direct supervision for proposal quality, and avoids ambiguity introduced by language-based reasoning. Artemis is built on Qwen2.5-VL-3B, achieves strong performance on grounding and detection task and exhibits substantial generalization to counting and geometric-perception tasks. The consistent improvements across these diverse settings confirm that aligning reasoning with spatial representations enhances perception-policy learning. Owing to its strengthened visual reasoning, Artemis also achieves competitive performance on general MLLM benchmarks, illustrating that spatially grounded reasoning provides a principled route toward scalable and general perception policies.
PDF11December 4, 2025