3D-VCD: Hallucinatievermindering in 3D-LLM Belichaamde Agents via Visueel Contrastief Decoderen
3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding
April 9, 2026
Auteurs: Makanjuola Ogunleye, Eman Abdelrahman, Ismini Lourentzou
cs.AI
Samenvatting
Grote multimodale modellen worden steeds vaker gebruikt als de redeneerkern van belichaamde agents in 3D-omgevingen, maar ze blijven vatbaar voor hallucinaties die tot onveilige en ongegronde beslissingen kunnen leiden. Bestaande methoden om hallucinaties tijdens inferentie tegen te gaan, richten zich grotendeels op 2D visie-taal settings en zijn niet overdraagbaar naar belichaamd 3D-redeneren, waar fouten voortkomen uit de aanwezigheid van objecten, ruimtelijke lay-out en geometrische verankering in plaats van pixel-level inconsistenties. Wij introduceren 3D-VCD, het eerste visuele contrastieve decodeerframework tijdens inferentie voor het verminderen van hallucinaties in belichaamde 3D-agents. 3D-VCD construeert een vervormde 3D-scènegraph door semantische en geometrische perturbaties toe te passen op objectgecentreerde representaties, zoals categorisubstituties en corruptie van coördinaten of afmetingen. Door voorspellingen onder de originele en vervormde 3D-contexten te contrasteren, onderdrukt onze methode tokens die ongevoelig zijn voor gegronde scène-evidentie en daarom waarschijnlijk worden gedreven door taalpriors. Wij evalueren 3D-VCD op de 3D-POPE en HEAL benchmarks en tonen aan dat het gegronde redeneren consistent verbetert zonder enige hertraining, waarmee contrastief decoderen tijdens inferentie over gestructureerde 3D-representaties wordt gevestigd als een effectieve en praktische route naar betrouwbaardere belichaamde intelligentie.
English
Large multimodal models are increasingly used as the reasoning core of embodied agents operating in 3D environments, yet they remain prone to hallucinations that can produce unsafe and ungrounded decisions. Existing inference-time hallucination mitigation methods largely target 2D vision-language settings and do not transfer to embodied 3D reasoning, where failures arise from object presence, spatial layout, and geometric grounding rather than pixel-level inconsistencies. We introduce 3D-VCD, the first inference-time visual contrastive decoding framework for hallucination mitigation in 3D embodied agents. 3D-VCD constructs a distorted 3D scene graph by applying semantic and geometric perturbations to object-centric representations, such as category substitutions and coordinate or extent corruption. By contrasting predictions under the original and distorted 3D contexts, our method suppresses tokens that are insensitive to grounded scene evidence and are therefore likely driven by language priors. We evaluate 3D-VCD on the 3D-POPE and HEAL benchmarks and show that it consistently improves grounded reasoning without any retraining, establishing inference-time contrastive decoding over structured 3D representations as an effective and practical route to more reliable embodied intelligence.