ReVSI: Reconstruindo a Avaliação da Inteligência Espacial Visual para uma Análise Precisa do Raciocínio 3D em VLMs

Resumo

As avaliações atuais de inteligência espacial podem ser sistematicamente inválidas sob configurações modernas de modelos de visão e linguagem (VLM). Primeiro, muitos benchmarks derivam pares pergunta-resposta (QA) de anotações 3D baseadas em nuvem de pontos originalmente criadas para percepção 3D tradicional. Quando tais anotações são tratadas como verdade fundamental para avaliação baseada em vídeo, artefatos de reconstrução e anotação podem omitir objetos claramente visíveis no vídeo, rotular incorretamente identidades de objetos ou corromper respostas dependentes de geometria (por exemplo, tamanho), produzindo pares QA incorretos ou ambíguos. Segundo, as avaliações frequentemente assumem acesso à cena completa, enquanto muitos VLMs operam com quadros amostrados esparsamente (por exemplo, 16-64), tornando muitas questões efetivamente impossíveis de responder sob as entradas reais do modelo. Melhoramos a validade da avaliação introduzindo o ReVSI, um benchmark e protocolo que garante que cada par QA seja respondível e correto sob as entradas reais do modelo. Para tanto, reanotamos objetos e geometria em 381 cenas de 5 conjuntos de dados para melhorar a qualidade dos dados, e regeneramos todos os pares QA com rigorosa mitigação de viés e verificação humana usando ferramentas profissionais de anotação 3D. Ainda aprimoramos a controlabilidade da avaliação fornecendo variantes em múltiplos orçamentos de quadros (16/32/64/todos) e metadados de visibilidade de objetos granular, permitindo análises diagnósticas controladas. Avaliações de VLMs gerais e específicos de domínio no ReVSI revelam modos de falha sistemáticos que são obscurecidos por benchmarks anteriores, produzindo uma avaliação mais confiável e diagnóstica da inteligência espacial.

English

Current evaluations of spatial intelligence can be systematically invalid under modern vision-language model (VLM) settings. First, many benchmarks derive question-answer (QA) pairs from point-cloud-based 3D annotations originally curated for traditional 3D perception. When such annotations are treated as ground truth for video-based evaluation, reconstruction and annotation artifacts can miss objects that are clearly visible in the video, mislabel object identities, or corrupt geometry-dependent answers (e.g., size), yielding incorrect or ambiguous QA pairs. Second, evaluations often assume full-scene access, while many VLMs operate on sparsely sampled frames (e.g., 16-64), making many questions effectively unanswerable under the actual model inputs. We improve evaluation validity by introducing ReVSI, a benchmark and protocol that ensures each QA pair is answerable and correct under the model's actual inputs. To this end, we re-annotate objects and geometry across 381 scenes from 5 datasets to improve data quality, and regenerate all QA pairs with rigorous bias mitigation and human verification using professional 3D annotation tools. We further enhance evaluation controllability by providing variants across multiple frame budgets (16/32/64/all) and fine-grained object visibility metadata, enabling controlled diagnostic analyses. Evaluations of general and domain-specific VLMs on ReVSI reveal systematic failure modes that are obscured by prior benchmarks, yielding a more reliable and diagnostic assessment of spatial intelligence.

ReVSI: Reconstruindo a Avaliação da Inteligência Espacial Visual para uma Análise Precisa do Raciocínio 3D em VLMs

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Resumo

Support