Artemis : Raisonnement visuel structuré pour l'apprentissage de politiques de perception
Artemis: Structured Visual Reasoning for Perception Policy Learning
December 1, 2025
papers.authors: Wei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li
cs.AI
papers.abstract
Les cadres récents d'apprentissage par renforcement pour les politiques de perception visuelle ont commencé à intégrer des chaînes de raisonnement intermédiaires exprimées en langage naturel. Les observations empiriques indiquent que ce type de raisonnement intermédiaire purement linguistique réduit souvent les performances sur les tâches de perception. Nous soutenons que le problème fondamental ne réside pas dans le raisonnement en soi, mais dans sa forme : alors que ces chaînes effectuent un raisonnement sémantique dans un espace linguistique non structuré, la perception visuelle nécessite un raisonnement dans un espace spatial et centré sur les objets. En réponse, nous présentons Artemis, un cadre d'apprentissage de politiques de perception qui effectue un raisonnement structuré basé sur des propositions, où chaque étape intermédiaire est représentée par une paire (étiquette, boîte englobante) capturant un état visuel vérifiable. Cette conception permet un suivi explicite des états intermédiaires, une supervision directe de la qualité des propositions, et évite l'ambiguïté introduite par le raisonnement basé sur le langage. Artemis est construit sur Qwen2.5-VL-3B, obtient de solides performances sur les tâches de localisation et de détection, et présente une généralisation substantielle aux tâches de comptage et de perception géométrique. Les améliorations constantes dans ces divers contextes confirment qu'aligner le raisonnement sur les représentations spatiales améliore l'apprentissage des politiques de perception. Grâce à son raisonnement visuel renforcé, Artemis obtient également des performances compétitives sur les benchmarks généraux de MLLM, illustrant qu'un raisonnement spatialement ancré offre une voie principielle vers des politiques de perception évolutives et généralistes.
English
Recent reinforcement-learning frameworks for visual perception policy have begun to incorporate intermediate reasoning chains expressed in natural language. Empirical observations indicate that such purely linguistic intermediate reasoning often reduces performance on perception tasks. We argue that the core issue lies not in reasoning per se but in the form of reasoning: while these chains perform semantic reasoning in an unstructured linguistic space, visual perception requires reasoning in a spatial and object-centric space. In response, we introduce Artemis, a perception-policy learning framework that performs structured proposal-based reasoning, where each intermediate step is represented as a (label, bounding-box) pair capturing a verifiable visual state. This design enables explicit tracking of intermediate states, direct supervision for proposal quality, and avoids ambiguity introduced by language-based reasoning. Artemis is built on Qwen2.5-VL-3B, achieves strong performance on grounding and detection task and exhibits substantial generalization to counting and geometric-perception tasks. The consistent improvements across these diverse settings confirm that aligning reasoning with spatial representations enhances perception-policy learning. Owing to its strengthened visual reasoning, Artemis also achieves competitive performance on general MLLM benchmarks, illustrating that spatially grounded reasoning provides a principled route toward scalable and general perception policies.