Artemis: Strukturiertes visuelles Schließen für die Lernende Wahrnehmungspolitik
Artemis: Structured Visual Reasoning for Perception Policy Learning
December 1, 2025
papers.authors: Wei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li
cs.AI
papers.abstract
Kürzlich entwickelte Reinforcement-Learning-Frameworks für visuelle Wahrnehmungsstrategien integrierieren zunehmend Zwischenreasoning-Ketten, die in natürlicher Sprache formuliert sind. Empirische Beobachtungen zeigen, dass solche rein sprachlichen Zwischenschritte die Leistung bei Wahrnehmungsaufgaben oft verschlechtern. Wir argumentieren, dass das Kernproblem nicht im Reasoning an sich liegt, sondern in seiner Form: Während diese Ketten semantisches Reasoning in einem unstrukturierten linguistischen Raum durchführen, erfordert visuelle Wahrnehmung Reasoning in einem räumlichen und objektzentrierten Raum. Als Lösung stellen wir Artemis vor, ein Framework zum Erlernen von Wahrnehmungsstrategien, das strukturiertes, vorschlagsbasiertes Reasoning durchführt, wobei jeder Zwischenschritt als (Label, Bounding-Box)-Paar dargestellt wird, das einen überprüfbaren visuellen Zustand erfasst. Dieser Entwurf ermöglicht die explizite Nachverfolgung von Zwischenzuständen, direkte Überwachung der Vorschlagsqualität und vermeidet die Mehrdeutigkeit sprachbasierten Reasonings. Artemis basiert auf Qwen2.5-VL-3B, erzielt hohe Leistung in Grounding- und Detektionsaufgaben und zeigt substantiale Generalisierung für Zähl- und geometrische Wahrnehmungsaufgaben. Die konsistenten Verbesserungen in diesen verschiedenen Settings bestätigen, dass die Ausrichtung des Reasonings an räumlichen Repräsentationen das Lernen von Wahrnehmungsstrategien verbessert. Aufgrund seines gestärkten visuellen Reasonings erzielt Artemis auch wettbewerbsfähige Leistung in allgemeinen MLLM-Benchmarks, was verdeutlicht, dass räumlich verankertes Reasoning einen prinzipiellen Weg zu skalierbaren und allgemeinen Wahrnehmungsstrategien bietet.
English
Recent reinforcement-learning frameworks for visual perception policy have begun to incorporate intermediate reasoning chains expressed in natural language. Empirical observations indicate that such purely linguistic intermediate reasoning often reduces performance on perception tasks. We argue that the core issue lies not in reasoning per se but in the form of reasoning: while these chains perform semantic reasoning in an unstructured linguistic space, visual perception requires reasoning in a spatial and object-centric space. In response, we introduce Artemis, a perception-policy learning framework that performs structured proposal-based reasoning, where each intermediate step is represented as a (label, bounding-box) pair capturing a verifiable visual state. This design enables explicit tracking of intermediate states, direct supervision for proposal quality, and avoids ambiguity introduced by language-based reasoning. Artemis is built on Qwen2.5-VL-3B, achieves strong performance on grounding and detection task and exhibits substantial generalization to counting and geometric-perception tasks. The consistent improvements across these diverse settings confirm that aligning reasoning with spatial representations enhances perception-policy learning. Owing to its strengthened visual reasoning, Artemis also achieves competitive performance on general MLLM benchmarks, illustrating that spatially grounded reasoning provides a principled route toward scalable and general perception policies.