ChatPaper.aiChatPaper

Artemis: Ragionamento Visivo Strutturato per l'Apprendimento di Politiche Percettive

Artemis: Structured Visual Reasoning for Perception Policy Learning

December 1, 2025
Autori: Wei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li
cs.AI

Abstract

I recenti framework di apprendimento per rinforzo per politiche di percezione visiva hanno iniziato a incorporare catene di ragionamento intermedie espresse in linguaggio naturale. Osservazioni empiriche indicano che tali ragionamenti intermedi puramente linguistici spesso riducono le prestazioni sui compiti di percezione. Sosteniamo che il problema centrale non risieda nel ragionamento in sé, ma nella sua forma: mentre queste catene effettuano un ragionamento semantico in uno spazio linguistico non strutturato, la percezione visiva richiede un ragionamento in uno spazio spaziale e centrato sugli oggetti. In risposta, introduciamo Artemis, un framework di apprendimento per politiche di percezione che esegue un ragionamento strutturato basato su proposte, dove ogni passo intermedio è rappresentato come una coppia (etichetta, riquadro di delimitazione) che cattura uno stato visivo verificabile. Questo design consente il tracciamento esplicito degli stati intermedi, una supervisione diretta sulla qualità delle proposte ed evita l'ambiguità introdotta dal ragionamento basato sul linguaggio. Artemis è costruito su Qwen2.5-VL-3B, raggiunge prestazioni elevate nei compiti di grounding e rilevamento e mostra una sostanziale generalizzazione ai compiti di conteggio e percezione geometrica. I miglioramenti consistenti in questi diversi contesti confermano che l'allineamento del ragionamento con le rappresentazioni spaziali potenzia l'apprendimento delle politiche di percezione. Grazie al suo ragionamento visivo potenziato, Artemis raggiunge anche prestazioni competitive su benchmark MLLM generali, illustrando come un ragionamento spazialmente ancorato fornisca una via principiata verso politiche di percezione scalabili e generali.
English
Recent reinforcement-learning frameworks for visual perception policy have begun to incorporate intermediate reasoning chains expressed in natural language. Empirical observations indicate that such purely linguistic intermediate reasoning often reduces performance on perception tasks. We argue that the core issue lies not in reasoning per se but in the form of reasoning: while these chains perform semantic reasoning in an unstructured linguistic space, visual perception requires reasoning in a spatial and object-centric space. In response, we introduce Artemis, a perception-policy learning framework that performs structured proposal-based reasoning, where each intermediate step is represented as a (label, bounding-box) pair capturing a verifiable visual state. This design enables explicit tracking of intermediate states, direct supervision for proposal quality, and avoids ambiguity introduced by language-based reasoning. Artemis is built on Qwen2.5-VL-3B, achieves strong performance on grounding and detection task and exhibits substantial generalization to counting and geometric-perception tasks. The consistent improvements across these diverse settings confirm that aligning reasoning with spatial representations enhances perception-policy learning. Owing to its strengthened visual reasoning, Artemis also achieves competitive performance on general MLLM benchmarks, illustrating that spatially grounded reasoning provides a principled route toward scalable and general perception policies.
PDF11December 4, 2025