Skill-3D: Evoluindo Habilidades Conscientes do Cenário para Raciocínio Espacial 3D Agêntico

Resumo

Este artigo explora a compreensão espacial 3D agentiva, ou seja, agentes MLLM realizando raciocínio 3D por meio do uso de ferramentas. Métodos existentes frequentemente utilizam ferramentas de forma inadequada e exibem preferências enviesadas por ferramentas em cenários 3D, fazendo com que o paradigma agentivo apresente apenas ganhos marginais em relação a estratégias não agentivas. Revelamos que as tarefas de raciocínio espacial 3D são heterogêneas entre as cenas, enquanto esses agentes aplicam uma estratégia uniforme de uso de ferramentas a todas as cenas, em vez de selecionar ferramentas de acordo com a cena e a tarefa específicas. Para lidar com isso, propomos o Skill-3D, uma estrutura que aprende habilidades conscientes de cena que evoluem por si mesmas. Especificamente, o Skill-3D identifica a cena da tarefa e registra a trajetória de uso de ferramentas do agente em uma Memória de Cena, onde trajetórias bem-sucedidas de cenas similares são agregadas e destiladas em uma habilidade reutilizável consciente de cena, com as trajetórias fracassadas anexadas à habilidade como lições. Durante o treinamento, quando uma cena similar ocorre novamente, a habilidade correspondente é injetada para guiar o agente, produzindo novas trajetórias cujos sucessos e fracassos refinam ainda mais a habilidade, formando um ciclo no qual a memória e a biblioteca de habilidades coevoluem. Experimentos mostram que o Skill-3D melhora substancialmente a utilização de ferramentas no raciocínio espacial 3D (de 39% para 78% no VSI-Bench), direcionando o agente para um uso correto e suficiente de ferramentas. Por exemplo, ele melhora o Gemini-3-Flash em 67% no MMSI-Bench. Além disso, realizamos pós-treinamento agentivo sobre trajetórias guiadas por habilidades, o que impulsiona o Qwen3-VL-8B em 43% no VSI-Bench.

English

This paper explores agentic 3D spatial understanding, i.e., MLLM agents performing 3D reasoning through tool use. Existing methods often misuse tools and exhibit biased tool preferences under 3D scenarios, leaving the agentic paradigm with only marginal gains over non-agentic strategies. We reveal that 3D spatial reasoning tasks are heterogeneous across scenes, while these agents apply a uniform tool-use strategy to all scenes rather than selecting tools according to the specific scene and task. To address this, we propose Skill-3D, a framework that learns self-evolving scene-aware skills. Specifically, Skill-3D identifies the task scene and records the agent's tool-use trajectory into a Scene Memory, where successful trajectories from similar scenes are aggregated and distilled into a reusable scene-aware skill, with failed ones attached to the skill as lessons. During training, once a similar scene recurs, the corresponding skill is injected to guide the agent, producing new trajectories whose successes and failures further refine the skill, forming a loop in which the memory and the skill library co-evolve. Experiments show that Skill-3D substantially improves tool utilization in 3D spatial reasoning (from 39% to 78% on VSI-Bench), driving the agent toward correct and sufficient tool use. For instance, it improves Gemini-3-Flash by 67% on MMSI-Bench. Furthermore, we conduct agentic post-training over skill-guided trajectories, which boosts Qwen3-VL-8B by 43% on VSI-Bench.