Skill-3D: Weiterentwicklung szenenbewusster Fähigkeiten für agentisches 3D-Raumdenken

Zusammenfassung

Diese Arbeit untersucht agentisches 3D-Raumverständnis, d.h. MLLM-Agenten, die durch Werkzeuggebrauch 3D-Schlussfolgerungen durchführen. Bestehende Methoden nutzen Werkzeuge häufig falsch und zeigen in 3D-Szenarien verzerrte Werkzeugpräferenzen, sodass das agentische Paradigma nur marginale Verbesserungen gegenüber nicht-agentischen Strategien erzielt. Wir zeigen, dass 3D-Raumverständnisaufgaben szenenübergreifend heterogen sind, während diese Agenten eine einheitliche Werkzeugnutzungsstrategie auf alle Szenen anwenden, anstatt Werkzeuge gemäß der spezifischen Szene und Aufgabe auszuwählen. Um dies zu adressieren, schlagen wir Skill-3D vor, ein Framework, das selbstentwickelnde, szenenbewusste Fähigkeiten (Skills) erlernt. Konkret identifiziert Skill-3D die Aufgabenszene und zeichnet die Werkzeugnutzungstrajektorie des Agenten in einem Szenenspeicher (Scene Memory) auf. Dabei werden erfolgreiche Trajektorien aus ähnlichen Szenen aggregiert und in einen wiederverwendbaren, szenenbewussten Skill destilliert, während fehlgeschlagene Trajektorien als Lehren (Lessons) an den Skill angehängt werden. Während des Trainings wird, sobald eine ähnliche Szene erneut auftritt, der entsprechende Skill injiziert, um den Agenten zu leiten, wodurch neue Trajektorien entstehen, deren Erfolge und Misserfolge den Skill weiter verfeinern. Dies bildet eine Schleife, in der sich der Speicher und die Skill-Bibliothek gemeinsam weiterentwickeln. Experimente zeigen, dass Skill-3D die Werkzeugnutzung bei 3D-Raumverständnis erheblich verbessert (von 39 % auf 78 % auf VSI-Bench), was den Agenten zu korrektem und ausreichendem Werkzeuggebrauch führt. Beispielsweise verbessert es Gemini-3-Flash um 67 % auf MMSI-Bench. Darüber hinaus führen wir ein agentisches Post-Training über Skill-gesteuerte Trajektorien durch, das Qwen3-VL-8B um 43 % auf VSI-Bench steigert.

English

This paper explores agentic 3D spatial understanding, i.e., MLLM agents performing 3D reasoning through tool use. Existing methods often misuse tools and exhibit biased tool preferences under 3D scenarios, leaving the agentic paradigm with only marginal gains over non-agentic strategies. We reveal that 3D spatial reasoning tasks are heterogeneous across scenes, while these agents apply a uniform tool-use strategy to all scenes rather than selecting tools according to the specific scene and task. To address this, we propose Skill-3D, a framework that learns self-evolving scene-aware skills. Specifically, Skill-3D identifies the task scene and records the agent's tool-use trajectory into a Scene Memory, where successful trajectories from similar scenes are aggregated and distilled into a reusable scene-aware skill, with failed ones attached to the skill as lessons. During training, once a similar scene recurs, the corresponding skill is injected to guide the agent, producing new trajectories whose successes and failures further refine the skill, forming a loop in which the memory and the skill library co-evolve. Experiments show that Skill-3D substantially improves tool utilization in 3D spatial reasoning (from 39% to 78% on VSI-Bench), driving the agent toward correct and sufficient tool use. For instance, it improves Gemini-3-Flash by 67% on MMSI-Bench. Furthermore, we conduct agentic post-training over skill-guided trajectories, which boosts Qwen3-VL-8B by 43% on VSI-Bench.