3D-VCD: Mitigação de Alucinações em Agentes Incorporados 3D-LLM através de Decodificação Visual Contrastiva

Resumo

Os modelos multimodais de grande escala são cada vez mais utilizados como núcleo de raciocínio de agentes incorporados que operam em ambientes 3D, no entanto, eles permanecem propensos a alucinações que podem produzir decisões inseguras e sem fundamento. Os métodos existentes de mitigação de alucinações em tempo de inferência visam principalmente configurações de linguagem visual 2D e não se transferem para o raciocínio incorporado em 3D, onde as falhas surgem da presença de objetos, do layout espacial e da fundamentação geométrica, e não de inconsistências a nível de pixel. Apresentamos o 3D-VCD, o primeiro *framework* de decodificação contrastiva visual em tempo de inferência para mitigação de alucinações em agentes incorporados 3D. O 3D-VCD constrói um grafo de cena 3D distorcido aplicando perturbações semânticas e geométricas a representações centradas em objetos, como substituições de categoria e corrupção de coordenadas ou extensões. Ao contrastar previsões sob os contextos 3D originais e distorcidos, nosso método suprime *tokens* que são insensíveis a evidências fundamentadas da cena e, portanto, provavelmente impulsionados por *priors* linguísticos. Avaliamos o 3D-VCD nos *benchmarks* 3D-POPE e HEAL e mostramos que ele melhora consistentemente o raciocínio fundamentado sem qualquer retreinamento, estabelecendo a decodificação contrastiva em tempo de inferência sobre representações 3D estruturadas como uma rota eficaz e prática para uma inteligência incorporada mais confiável.

English

Large multimodal models are increasingly used as the reasoning core of embodied agents operating in 3D environments, yet they remain prone to hallucinations that can produce unsafe and ungrounded decisions. Existing inference-time hallucination mitigation methods largely target 2D vision-language settings and do not transfer to embodied 3D reasoning, where failures arise from object presence, spatial layout, and geometric grounding rather than pixel-level inconsistencies. We introduce 3D-VCD, the first inference-time visual contrastive decoding framework for hallucination mitigation in 3D embodied agents. 3D-VCD constructs a distorted 3D scene graph by applying semantic and geometric perturbations to object-centric representations, such as category substitutions and coordinate or extent corruption. By contrasting predictions under the original and distorted 3D contexts, our method suppresses tokens that are insensitive to grounded scene evidence and are therefore likely driven by language priors. We evaluate 3D-VCD on the 3D-POPE and HEAL benchmarks and show that it consistently improves grounded reasoning without any retraining, establishing inference-time contrastive decoding over structured 3D representations as an effective and practical route to more reliable embodied intelligence.

3D-VCD: Mitigação de Alucinações em Agentes Incorporados 3D-LLM através de Decodificação Visual Contrastiva

3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

Resumo

Support