Artemis: Raciocínio Visual Estruturado para Aprendizagem de Políticas de Percepção

Resumo

Recentemente, estruturas de aprendizagem por reforço para políticas de percepção visual começaram a incorporar cadeias de raciocínio intermediárias expressas em linguagem natural. Observações empíricas indicam que esse raciocínio intermediário puramente linguístico frequentemente reduz o desempenho em tarefas de percepção. Argumentamos que o problema central não está no raciocínio em si, mas na sua forma: enquanto essas cadeias realizam raciocínio semântico em um espaço linguístico não estruturado, a percepção visual requer raciocínio em um espaço espacial e centrado em objetos. Em resposta, apresentamos a Artemis, uma estrutura de aprendizagem de política de percepção que realiza raciocínio estruturado baseado em propostas, onde cada etapa intermediária é representada como um par (rótulo, caixa delimitadora) que captura um estado visual verificável. Este projeto permite o rastreamento explícito de estados intermediários, a supervisão direta da qualidade da proposta e evita a ambiguidade introduzida pelo raciocínio baseado em linguagem. A Artemis é construída sobre o Qwen2.5-VL-3B, atinge um forte desempenho em tarefas de fundamentação (grounding) e detecção e exibe uma generalização substancial para tarefas de contagem e percepção geométrica. As melhorias consistentes nessas diversas configurações confirmam que alinhar o raciocínio com representações espaciais aprimora a aprendizagem de políticas de percepção. Devido ao seu raciocínio visual fortalecido, a Artemis também alcança um desempenho competitivo em benchmarks gerais de MLLM (Large Multimodal Models), ilustrando que o raciocínio espacialmente fundamentado fornece uma rota principiada para políticas de percepção escaláveis e gerais.

English

Recent reinforcement-learning frameworks for visual perception policy have begun to incorporate intermediate reasoning chains expressed in natural language. Empirical observations indicate that such purely linguistic intermediate reasoning often reduces performance on perception tasks. We argue that the core issue lies not in reasoning per se but in the form of reasoning: while these chains perform semantic reasoning in an unstructured linguistic space, visual perception requires reasoning in a spatial and object-centric space. In response, we introduce Artemis, a perception-policy learning framework that performs structured proposal-based reasoning, where each intermediate step is represented as a (label, bounding-box) pair capturing a verifiable visual state. This design enables explicit tracking of intermediate states, direct supervision for proposal quality, and avoids ambiguity introduced by language-based reasoning. Artemis is built on Qwen2.5-VL-3B, achieves strong performance on grounding and detection task and exhibits substantial generalization to counting and geometric-perception tasks. The consistent improvements across these diverse settings confirm that aligning reasoning with spatial representations enhances perception-policy learning. Owing to its strengthened visual reasoning, Artemis also achieves competitive performance on general MLLM benchmarks, illustrating that spatially grounded reasoning provides a principled route toward scalable and general perception policies.

Artemis: Raciocínio Visual Estruturado para Aprendizagem de Políticas de Percepção

Artemis: Structured Visual Reasoning for Perception Policy Learning

Resumo

Support