Penser, Agir, Construire : Un Cadre Agentique avec des Modèles de Vision et de Langage pour l'Ancrage Visuel 3D en Apprentissage Zéro

Résumé

Le repérage visuel 3D (3D-VG) vise à localiser des objets dans des scènes 3D à l'aide de descriptions en langage naturel. Bien que les récents progrès exploitant les modèles vision-langage (VLM) aient exploré des possibilités zero-shot, ils souffrent généralement d'un flux de travail statique reposant sur des nuages de points 3D prétraités, réduisant essentiellement le repérage à une mise en correspondance de propositions. Pour contourner cette dépendance, notre motivation centrale est de découpler la tâche : utiliser des VLM 2D pour résoudre la sémantique spatiale complexe, tout en s'appuyant sur la géométrie multi-vue déterministe pour instancier la structure 3D. Guidés par cette idée, nous proposons « Think, Act, Build (TAB) », un cadre agentiel dynamique qui reformule les tâches 3D-VG en un paradigme de reconstruction générative 2D-vers-3D opérant directement sur des flux bruts RGB-D. Plus précisément, guidé par une compétence spécialisée en 3D-VG, notre agent VLM invoque dynamiquement des outils visuels pour suivre et reconstruire la cible à travers des images 2D. Surtout, pour surmonter le déficit de couverture multi-vue causé par le suivi sémantique strict du VLM, nous introduisons l'Expansion Géométrique à Ancrage Sémantique, un mécanisme qui ancre d'abord la cible dans un clip vidéo de référence, puis exploite la géométrie multi-vue pour propager sa position spatiale à travers des images non observées. Cela permet à l'agent de « Construire » la représentation 3D de la cible en agrégeant ces caractéristiques multi-vue via les paramètres de la caméra, mappant directement les indices visuels 2D aux coordonnées 3D. De plus, pour garantir une évaluation rigoureuse, nous identifions des défauts tels que l'ambiguïté de référence et les erreurs de catégorie dans les benchmarks existants et affinons manuellement les requêtes incorrectes. Des expériences approfondies sur ScanRefer et Nr3D démontrent que notre cadre, reposant entièrement sur des modèles open-source, surpasse significativement les méthodes zero-shot précédentes et dépasse même les approches supervisées.

English

3D Visual Grounding (3D-VG) aims to localize objects in 3D scenes via natural language descriptions. While recent advancements leveraging Vision-Language Models (VLMs) have explored zero-shot possibilities, they typically suffer from a static workflow relying on preprocessed 3D point clouds, essentially degrading grounding into proposal matching. To bypass this reliance, our core motivation is to decouple the task: leveraging 2D VLMs to resolve complex spatial semantics, while relying on deterministic multi-view geometry to instantiate the 3D structure. Driven by this insight, we propose "Think, Act, Build (TAB)", a dynamic agentic framework that reformulates 3D-VG tasks as a generative 2D-to-3D reconstruction paradigm operating directly on raw RGB-D streams. Specifically, guided by a specialized 3D-VG skill, our VLM agent dynamically invokes visual tools to track and reconstruct the target across 2D frames. Crucially, to overcome the multi-view coverage deficit caused by strict VLM semantic tracking, we introduce the Semantic-Anchored Geometric Expansion, a mechanism that first anchors the target in a reference video clip and then leverages multi-view geometry to propagate its spatial location across unobserved frames. This enables the agent to "Build" the target's 3D representation by aggregating these multi-view features via camera parameters, directly mapping 2D visual cues to 3D coordinates. Furthermore, to ensure rigorous assessment, we identify flaws such as reference ambiguity and category errors in existing benchmarks and manually refine the incorrect queries. Extensive experiments on ScanRefer and Nr3D demonstrate that our framework, relying entirely on open-source models, significantly outperforms previous zero-shot methods and even surpasses fully supervised baselines.

Penser, Agir, Construire : Un Cadre Agentique avec des Modèles de Vision et de Langage pour l'Ancrage Visuel 3D en Apprentissage Zéro

Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

Résumé

Support