Skill-3D : Développement de compétences conscientes de la scène pour le raisonnement spatial 3D agentique

Résumé

Cet article explore la compréhension spatiale 3D agentique, c'est-à-dire des agents MLLM effectuant un raisonnement 3D par l'utilisation d'outils. Les méthodes existantes abusent souvent des outils et présentent des préférences d'outils biaisées dans les scénarios 3D, ce qui confère au paradigme agentique des gains seulement marginaux par rapport aux stratégies non-agentiques. Nous révélons que les tâches de raisonnement spatial 3D sont hétérogènes selon les scènes, tandis que ces agents appliquent une stratégie uniforme d'utilisation d'outils à toutes les scènes plutôt que de sélectionner les outils en fonction de la scène et de la tâche spécifiques. Pour remédier à cela, nous proposons Skill-3D, un cadre qui apprend des compétences contextuelles auto-évolutives. Plus précisément, Skill-3D identifie la scène de la tâche et enregistre la trajectoire d'utilisation d'outils de l'agent dans une Mémoire de Scène, où les trajectoires réussies provenant de scènes similaires sont agrégées et distillées en une compétence contextuelle réutilisable, tandis que les trajectoires échouées sont attachées à la compétence en tant que leçons. Pendant l'entraînement, dès qu'une scène similaire se reproduit, la compétence correspondante est injectée pour guider l'agent, produisant de nouvelles trajectoires dont les réussites et les échecs affinent davantage la compétence, formant une boucle dans laquelle la mémoire et la bibliothèque de compétences co-évoluent. Les expériences montrent que Skill-3D améliore considérablement l'utilisation des outils dans le raisonnement spatial 3D (de 39 % à 78 % sur VSI-Bench), orientant l'agent vers une utilisation correcte et suffisante des outils. Par exemple, il améliore Gemini-3-Flash de 67 % sur MMSI-Bench. De plus, nous effectuons un post-entraînement agentique sur des trajectoires guidées par les compétences, ce qui améliore Qwen3-VL-8B de 43 % sur VSI-Bench.

English

This paper explores agentic 3D spatial understanding, i.e., MLLM agents performing 3D reasoning through tool use. Existing methods often misuse tools and exhibit biased tool preferences under 3D scenarios, leaving the agentic paradigm with only marginal gains over non-agentic strategies. We reveal that 3D spatial reasoning tasks are heterogeneous across scenes, while these agents apply a uniform tool-use strategy to all scenes rather than selecting tools according to the specific scene and task. To address this, we propose Skill-3D, a framework that learns self-evolving scene-aware skills. Specifically, Skill-3D identifies the task scene and records the agent's tool-use trajectory into a Scene Memory, where successful trajectories from similar scenes are aggregated and distilled into a reusable scene-aware skill, with failed ones attached to the skill as lessons. During training, once a similar scene recurs, the corresponding skill is injected to guide the agent, producing new trajectories whose successes and failures further refine the skill, forming a loop in which the memory and the skill library co-evolve. Experiments show that Skill-3D substantially improves tool utilization in 3D spatial reasoning (from 39% to 78% on VSI-Bench), driving the agent toward correct and sufficient tool use. For instance, it improves Gemini-3-Flash by 67% on MMSI-Bench. Furthermore, we conduct agentic post-training over skill-guided trajectories, which boosts Qwen3-VL-8B by 43% on VSI-Bench.