Skill-3D: Evoluerende scènebewuste vaardigheden voor agentisch 3D-ruimtelijk redeneren

Samenvatting

Dit artikel onderzoekt agentisch 3D-ruimtelijk begrip, d.w.z. MLLM-agenten die 3D-redeneringen uitvoeren door middel van toolgebruik. Bestaande methoden misbruiken vaak tools en vertonen een bevooroordeelde toolvoorkeur in 3D-scenario's, waardoor het agentische paradigma slechts marginale winst boekt ten opzichte van niet-agentische strategieën. We tonen aan dat 3D-ruimtelijke redeneertaken heterogeen zijn over scènes heen, terwijl deze agenten een uniforme toolgebruikstrategie toepassen op alle scènes, in plaats van tools te selecteren op basis van de specifieke scène en taak. Om dit aan te pakken stellen we Skill-3D voor, een raamwerk dat zelf-evoluerende scènebewuste vaardigheden leert. Specifiek identificeert Skill-3D de taakscène en registreert het toolgebruikstraject van de agent in een Scene Memory, waar succesvolle trajecten van vergelijkbare scènes worden samengevoegd en gedistilleerd tot een herbruikbare scènebewuste vaardigheid, waarbij mislukte trajecten aan de vaardigheid worden toegevoegd als lessen. Tijdens de training, zodra een vergelijkbare scène zich voordoet, wordt de bijbehorende vaardigheid geïnjecteerd om de agent te begeleiden, wat nieuwe trajecten produceert waarvan de successen en mislukkingen de vaardigheid verder verfijnen, waardoor een lus ontstaat waarin het geheugen en de vaardighedenbibliotheek co-evolueren. Experimenten tonen aan dat Skill-3D het toolgebruik in 3D-ruimtelijk redeneren aanzienlijk verbetert (van 39% naar 78% op VSI-Bench), wat de agent aanzet tot correct en voldoende toolgebruik. Zo verbetert het Gemini-3-Flash met 67% op MMSI-Bench. Bovendien voeren we agentische post-training uit op vaardigheid-geleide trajecten, wat Qwen3-VL-8B met 43% verhoogt op VSI-Bench.

English

This paper explores agentic 3D spatial understanding, i.e., MLLM agents performing 3D reasoning through tool use. Existing methods often misuse tools and exhibit biased tool preferences under 3D scenarios, leaving the agentic paradigm with only marginal gains over non-agentic strategies. We reveal that 3D spatial reasoning tasks are heterogeneous across scenes, while these agents apply a uniform tool-use strategy to all scenes rather than selecting tools according to the specific scene and task. To address this, we propose Skill-3D, a framework that learns self-evolving scene-aware skills. Specifically, Skill-3D identifies the task scene and records the agent's tool-use trajectory into a Scene Memory, where successful trajectories from similar scenes are aggregated and distilled into a reusable scene-aware skill, with failed ones attached to the skill as lessons. During training, once a similar scene recurs, the corresponding skill is injected to guide the agent, producing new trajectories whose successes and failures further refine the skill, forming a loop in which the memory and the skill library co-evolve. Experiments show that Skill-3D substantially improves tool utilization in 3D spatial reasoning (from 39% to 78% on VSI-Bench), driving the agent toward correct and sufficient tool use. For instance, it improves Gemini-3-Flash by 67% on MMSI-Bench. Furthermore, we conduct agentic post-training over skill-guided trajectories, which boosts Qwen3-VL-8B by 43% on VSI-Bench.