ReVSI: Herstructurering van de Evaluatie van Visueel Ruimtelijk Inzicht voor een Nauwkeurige Beoordeling van 3D-redeneren in Visueel-Taalmodellen

Samenvatting

Huidige evaluaties van ruimtelijke intelligentie kunnen systematisch ongeldig zijn onder moderne vision-language model (VLM) instellingen. Ten eerste zijn veel benchmarks afgeleid van vraag-antwoord (QA) paren op basis van point-cloud-gebaseerde 3D-annotaties die oorspronkelijk zijn samengesteld voor traditionele 3D-perceptie. Wanneer dergelijke annotaties als grondwaarheid worden behandeld voor videogebaseerde evaluatie, kunnen reconstructie- en annotatiefouten objecten missen die duidelijk zichtbaar zijn in de video, objectidentiteiten verkeerd labelen of geometrie-afhankelijke antwoorden (bijvoorbeeld grootte) corrumperen, wat resulteert in incorrecte of dubbelzinnige QA-paren. Ten tweede gaan evaluaties vaak uit van volledige toegang tot de scène, terwijl veel VLMs werken op spaarzaam bemonsterde frames (bijvoorbeeld 16-64), waardoor veel vragen in feite onbeantwoordbaar zijn onder de werkelijke modelinputs. Wij verbeteren de evaluatievaliditeit door ReVSI te introduceren, een benchmark en protocol dat ervoor zorgt dat elk QA-paar antwoordbaar en correct is onder de werkelijke inputs van het model. Hiertoe herannoteren wij objecten en geometrie in 381 scènes uit 5 datasets om de datakwaliteit te verbeteren, en regenereren wij alle QA-paren met rigoureuze bias-mitigatie en menselijke verificatie met professionele 3D-annotatietools. Wij vergroten verder de evaluatiebeheersbaarheid door varianten aan te bieden over meerdere framebudgetten (16/32/64/alle) en fijnmazige metadata over objectzichtbaarheid, wat gecontroleerde diagnostische analyses mogelijk maakt. Evaluaties van algemene en domeinspecifieke VLMs op ReVSI onthullen systematische faalmodi die verborgen blijven in eerdere benchmarks, wat resulteert in een betrouwbaardere en meer diagnostische beoordeling van ruimtelijke intelligentie.

English

Current evaluations of spatial intelligence can be systematically invalid under modern vision-language model (VLM) settings. First, many benchmarks derive question-answer (QA) pairs from point-cloud-based 3D annotations originally curated for traditional 3D perception. When such annotations are treated as ground truth for video-based evaluation, reconstruction and annotation artifacts can miss objects that are clearly visible in the video, mislabel object identities, or corrupt geometry-dependent answers (e.g., size), yielding incorrect or ambiguous QA pairs. Second, evaluations often assume full-scene access, while many VLMs operate on sparsely sampled frames (e.g., 16-64), making many questions effectively unanswerable under the actual model inputs. We improve evaluation validity by introducing ReVSI, a benchmark and protocol that ensures each QA pair is answerable and correct under the model's actual inputs. To this end, we re-annotate objects and geometry across 381 scenes from 5 datasets to improve data quality, and regenerate all QA pairs with rigorous bias mitigation and human verification using professional 3D annotation tools. We further enhance evaluation controllability by providing variants across multiple frame budgets (16/32/64/all) and fine-grained object visibility metadata, enabling controlled diagnostic analyses. Evaluations of general and domain-specific VLMs on ReVSI reveal systematic failure modes that are obscured by prior benchmarks, yielding a more reliable and diagnostic assessment of spatial intelligence.

ReVSI: Herstructurering van de Evaluatie van Visueel Ruimtelijk Inzicht voor een Nauwkeurige Beoordeling van 3D-redeneren in Visueel-Taalmodellen

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Samenvatting

Support