Skill-3D: Habilidades Evolutivas Conscientes del Escenario para el Razonamiento Espacial 3D Agentivo

Resumen

Este artículo explora la comprensión espacial 3D agente, es decir, agentes MLLM que realizan razonamiento 3D mediante el uso de herramientas. Los métodos existentes a menudo utilizan mal las herramientas y muestran preferencias sesgadas hacia ellas en escenarios 3D, lo que genera que el paradigma agente obtenga solo ganancias marginales sobre las estrategias no agente. Revelamos que las tareas de razonamiento espacial 3D son heterogéneas entre escenas, mientras que estos agentes aplican una estrategia uniforme de uso de herramientas a todas las escenas, en lugar de seleccionar herramientas según la escena y tarea específicas. Para abordar esto, proponemos Skill-3D, un marco que aprende habilidades conscientes del escenario que evolucionan por sí mismas. Específicamente, Skill-3D identifica la escena de la tarea y registra la trayectoria de uso de herramientas del agente en una Memoria de Escenario, donde las trayectorias exitosas de escenas similares se agregan y destilan en una habilidad consciente del escenario reutilizable, y las fallidas se adjuntan a la habilidad como lecciones. Durante el entrenamiento, una vez que una escena similar se repite, la habilidad correspondiente se inyecta para guiar al agente, produciendo nuevas trayectorias cuyos éxitos y fracasos refinan aún más la habilidad, formando un bucle en el que la memoria y la biblioteca de habilidades co-evolucionan. Los experimentos muestran que Skill-3D mejora sustancialmente la utilización de herramientas en el razonamiento espacial 3D (del 39% al 78% en VSI-Bench), impulsando al agente hacia un uso correcto y suficiente de herramientas. Por ejemplo, mejora Gemini-3-Flash en un 67% en MMSI-Bench. Además, realizamos post-entrenamiento agente sobre trayectorias guiadas por habilidades, lo que impulsa a Qwen3-VL-8B en un 43% en VSI-Bench.

English

This paper explores agentic 3D spatial understanding, i.e., MLLM agents performing 3D reasoning through tool use. Existing methods often misuse tools and exhibit biased tool preferences under 3D scenarios, leaving the agentic paradigm with only marginal gains over non-agentic strategies. We reveal that 3D spatial reasoning tasks are heterogeneous across scenes, while these agents apply a uniform tool-use strategy to all scenes rather than selecting tools according to the specific scene and task. To address this, we propose Skill-3D, a framework that learns self-evolving scene-aware skills. Specifically, Skill-3D identifies the task scene and records the agent's tool-use trajectory into a Scene Memory, where successful trajectories from similar scenes are aggregated and distilled into a reusable scene-aware skill, with failed ones attached to the skill as lessons. During training, once a similar scene recurs, the corresponding skill is injected to guide the agent, producing new trajectories whose successes and failures further refine the skill, forming a loop in which the memory and the skill library co-evolve. Experiments show that Skill-3D substantially improves tool utilization in 3D spatial reasoning (from 39% to 78% on VSI-Bench), driving the agent toward correct and sufficient tool use. For instance, it improves Gemini-3-Flash by 67% on MMSI-Bench. Furthermore, we conduct agentic post-training over skill-guided trajectories, which boosts Qwen3-VL-8B by 43% on VSI-Bench.