Skill-3D: Развивающиеся навыки с учётом сцены для агентного 3D-пространственного рассуждения

Аннотация

В данной статье исследуется агентное 3D-пространственное понимание, то есть MLLM-агенты, выполняющие 3D-рассуждения посредством использования инструментов. Существующие методы часто неправильно используют инструменты и демонстрируют смещённые предпочтения в их выборе в 3D-сценариях, что приводит к лишь незначительному преимуществу агентного подхода по сравнению с неагентными стратегиями. Мы показываем, что задачи 3D-пространственного рассуждения гетерогенны в зависимости от сцен, в то время как эти агенты применяют единую стратегию использования инструментов ко всем сценам, а не выбирают инструменты в соответствии с конкретной сценой и задачей. Для решения этой проблемы мы предлагаем Skill-3D — фреймворк, который обучается саморазвивающимся навыкам, учитывающим сцену. В частности, Skill-3D идентифицирует сцену задачи и записывает траекторию использования инструментов агентом в Память сцен (Scene Memory), где успешные траектории из похожих сцен агрегируются и дистиллируются в повторно используемый навык для данной сцены, а неудачные траектории прикрепляются к навыку в качестве уроков. В процессе обучения, как только возникает похожая сцена, соответствующий навык внедряется для направления агента, создавая новые траектории, успехи и неудачи которых далее уточняют навык, формируя цикл, в котором память и библиотека навыков совместно эволюционируют. Эксперименты показывают, что Skill-3D существенно улучшает использование инструментов при 3D-пространственном рассуждении (с 39% до 78% на VSI-Bench), направляя агента к правильному и достаточному использованию инструментов. Например, он улучшает Gemini-3-Flash на 67% на MMSI-Bench. Кроме того, мы проводим агентное пост-обучение на траекториях, направляемых навыками, что повышает показатель Qwen3-VL-8B на 43% на VSI-Bench.

English

This paper explores agentic 3D spatial understanding, i.e., MLLM agents performing 3D reasoning through tool use. Existing methods often misuse tools and exhibit biased tool preferences under 3D scenarios, leaving the agentic paradigm with only marginal gains over non-agentic strategies. We reveal that 3D spatial reasoning tasks are heterogeneous across scenes, while these agents apply a uniform tool-use strategy to all scenes rather than selecting tools according to the specific scene and task. To address this, we propose Skill-3D, a framework that learns self-evolving scene-aware skills. Specifically, Skill-3D identifies the task scene and records the agent's tool-use trajectory into a Scene Memory, where successful trajectories from similar scenes are aggregated and distilled into a reusable scene-aware skill, with failed ones attached to the skill as lessons. During training, once a similar scene recurs, the corresponding skill is injected to guide the agent, producing new trajectories whose successes and failures further refine the skill, forming a loop in which the memory and the skill library co-evolve. Experiments show that Skill-3D substantially improves tool utilization in 3D spatial reasoning (from 39% to 78% on VSI-Bench), driving the agent toward correct and sufficient tool use. For instance, it improves Gemini-3-Flash by 67% on MMSI-Bench. Furthermore, we conduct agentic post-training over skill-guided trajectories, which boosts Qwen3-VL-8B by 43% on VSI-Bench.