ChatPaper.aiChatPaper

Artemis: Gestructureerd Visueel Redeneren voor Perceptie Beleidsleren

Artemis: Structured Visual Reasoning for Perception Policy Learning

December 1, 2025
Auteurs: Wei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li
cs.AI

Samenvatting

Recente reinforcement learning-frameworks voor visueel-perceptiebeleid beginnen tussenliggende redeneerketens in natuurlijke taal te incorporeren. Empirische observaties tonen aan dat dergelijke puur linguïstische tussenredeneringen de prestaties op perceptietaken vaak verminderen. Wij beargumenteren dat het kernprobleem niet ligt in het redeneren zelf, maar in de vorm van de redenering: terwijl deze ketens semantisch redeneren in een ongestructureerde linguïstische ruimte, vereist visuele perceptie redeneren in een ruimtelijke en object-gecentreerde ruimte. Als antwoord hierop introduceren wij Artemis, een raamwerk voor het leren van perceptiebeleid dat gestructureerd, op voorstellen gebaseerd redeneren uitvoert, waarbij elke tussenstap wordt gerepresenteerd als een (label, begrenzingskader)-paar dat een verifieerbare visuele staat vastlegt. Dit ontwerp maakt expliciete tracking van tussenstaten mogelijk, direct toezicht op de kwaliteit van de voorstellen, en vermijdt de ambiguïteit die door op taal gebaseerd redeneren wordt geïntroduceerd. Artemis is gebouwd op Qwen2.5-VL-3B, behaalt sterke prestaties op taken voor grounding en detectie, en vertont aanzienlijke generalisatie naar taken voor tellen en geometrische perceptie. De consistente verbeteringen in deze uiteenlopende settings bevestigen dat het afstemmen van redenering op ruimtelijke representaties het leren van perceptiebeleid verbetert. Vanwege de versterkte visuele redeneervaardigheid behaalt Artemis ook competitieve prestaties op algemene MLLM-benchmarks, wat illustreert dat ruimtelijk verankerd redeneren een principiële route biedt naar schaalbare en algemene perceptiebeleidsregels.
English
Recent reinforcement-learning frameworks for visual perception policy have begun to incorporate intermediate reasoning chains expressed in natural language. Empirical observations indicate that such purely linguistic intermediate reasoning often reduces performance on perception tasks. We argue that the core issue lies not in reasoning per se but in the form of reasoning: while these chains perform semantic reasoning in an unstructured linguistic space, visual perception requires reasoning in a spatial and object-centric space. In response, we introduce Artemis, a perception-policy learning framework that performs structured proposal-based reasoning, where each intermediate step is represented as a (label, bounding-box) pair capturing a verifiable visual state. This design enables explicit tracking of intermediate states, direct supervision for proposal quality, and avoids ambiguity introduced by language-based reasoning. Artemis is built on Qwen2.5-VL-3B, achieves strong performance on grounding and detection task and exhibits substantial generalization to counting and geometric-perception tasks. The consistent improvements across these diverse settings confirm that aligning reasoning with spatial representations enhances perception-policy learning. Owing to its strengthened visual reasoning, Artemis also achieves competitive performance on general MLLM benchmarks, illustrating that spatially grounded reasoning provides a principled route toward scalable and general perception policies.
PDF11December 4, 2025