Артемида: структурированное визуальное мышление для обучения перцептивной политике
Artemis: Structured Visual Reasoning for Perception Policy Learning
December 1, 2025
Авторы: Wei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li
cs.AI
Аннотация
Современные фреймворки обучения с подкреплением для политик визуального восприятия начали включать промежуточные цепочки рассуждений, выраженные на естественном языке. Эмпирические наблюдения показывают, что такие чисто лингвистические промежуточные рассуждения часто снижают производительность на задачах восприятия. Мы утверждаем, что ключевая проблема заключается не в самом рассуждении, а в его форме: в то время как эти цепочки выполняют семантические рассуждения в неструктурированном лингвистическом пространстве, визуальное восприятие требует рассуждений в пространственном и объектно-ориентированном пространстве. В ответ на это мы представляем Artemis — фреймворк обучения политик восприятия, который выполняет структурированное рассуждение на основе предложений (proposal-based reasoning), где каждый промежуточный шаг представлен в виде пары (метка, ограничивающая рамка), фиксирующей проверяемое визуальное состояние. Такой дизайн позволяет явно отслеживать промежуточные состояния, осуществлять прямое управление качеством предложений и избегать неоднозначности, привносимой языковыми рассуждениями. Artemis построен на основе Qwen2.5-VL-3B, демонстрирует высокую производительность на задачах локализации и обнаружения и показывает значительную обобщающую способность на задачи счета и геометрического восприятия. Последовательное улучшение результатов в этих разнообразных условиях подтверждает, что согласование рассуждений с пространственными представлениями улучшает обучение политик восприятия. Благодаря усиленному визуальному рассуждению Artemis также достигает конкурентоспособных результатов на общих бенчмарках MLLM, что иллюстрирует, что пространственно обоснованное рассуждение предоставляет принципиальный путь к масштабируемым и обобщающим политикам восприятия.
English
Recent reinforcement-learning frameworks for visual perception policy have begun to incorporate intermediate reasoning chains expressed in natural language. Empirical observations indicate that such purely linguistic intermediate reasoning often reduces performance on perception tasks. We argue that the core issue lies not in reasoning per se but in the form of reasoning: while these chains perform semantic reasoning in an unstructured linguistic space, visual perception requires reasoning in a spatial and object-centric space. In response, we introduce Artemis, a perception-policy learning framework that performs structured proposal-based reasoning, where each intermediate step is represented as a (label, bounding-box) pair capturing a verifiable visual state. This design enables explicit tracking of intermediate states, direct supervision for proposal quality, and avoids ambiguity introduced by language-based reasoning. Artemis is built on Qwen2.5-VL-3B, achieves strong performance on grounding and detection task and exhibits substantial generalization to counting and geometric-perception tasks. The consistent improvements across these diverse settings confirm that aligning reasoning with spatial representations enhances perception-policy learning. Owing to its strengthened visual reasoning, Artemis also achieves competitive performance on general MLLM benchmarks, illustrating that spatially grounded reasoning provides a principled route toward scalable and general perception policies.