ReVSI: Ricostruzione della Valutazione dell'Intelligenza Spaziale Visiva per una Valutazione Precisa del Ragionamento 3D nei VLM

Abstract

Le valutazioni attuali dell'intelligenza spaziale possono essere sistematicamente non valide nel contesto dei moderni modelli visione-linguaggio (VLM). In primo luogo, molti benchmark derivano coppie domanda-risposta (QA) da annotazioni 3D basate su nuvole di punti originariamente create per la percezione 3D tradizionale. Quando queste annotazioni sono trattate come verità assoluta per valutazioni basate su video, gli artefatti di ricostruzione e annotazione possono omettere oggetti chiaramente visibili nel video, etichettare erroneamente le identità degli oggetti o corrompere risposte dipendenti dalla geometria (ad esempio, le dimensioni), producendo coppie QA errate o ambigue. In secondo luogo, le valutazioni spesso presuppongono l'accesso all'intera scena, mentre molti VLM operano su frame campionati in modo sparso (ad esempio, 16-64), rendendo molte domande di fatto impossibili da rispondere con gli input effettivi del modello. Miglioriamo la validità della valutazione introducendo ReVSI, un benchmark e protocollo che garantisce che ogni coppia QA sia rispondibile e corretta in base agli input effettivi del modello. A tal fine, riannotiamo oggetti e geometria in 381 scene provenienti da 5 dataset per migliorare la qualità dei dati, e rigeneriamo tutte le coppie QA con una rigorosa mitigazione dei bias e verifica umana utilizzando strumenti professionali di annotazione 3D. Aumentiamo ulteriormente la controllabilità della valutazione fornendo varianti per diversi budget di frame (16/32/64/tutti) e metadati granulari sulla visibilità degli oggetti, consentendo analisi diagnostiche controllate. Le valutazioni di VLM generali e specialistici su ReVSI rivelano modalità di fallimento sistematiche che erano oscurate dai benchmark precedenti, fornendo una valutazione dell'intelligenza spaziale più affidabile e diagnostica.

English

Current evaluations of spatial intelligence can be systematically invalid under modern vision-language model (VLM) settings. First, many benchmarks derive question-answer (QA) pairs from point-cloud-based 3D annotations originally curated for traditional 3D perception. When such annotations are treated as ground truth for video-based evaluation, reconstruction and annotation artifacts can miss objects that are clearly visible in the video, mislabel object identities, or corrupt geometry-dependent answers (e.g., size), yielding incorrect or ambiguous QA pairs. Second, evaluations often assume full-scene access, while many VLMs operate on sparsely sampled frames (e.g., 16-64), making many questions effectively unanswerable under the actual model inputs. We improve evaluation validity by introducing ReVSI, a benchmark and protocol that ensures each QA pair is answerable and correct under the model's actual inputs. To this end, we re-annotate objects and geometry across 381 scenes from 5 datasets to improve data quality, and regenerate all QA pairs with rigorous bias mitigation and human verification using professional 3D annotation tools. We further enhance evaluation controllability by providing variants across multiple frame budgets (16/32/64/all) and fine-grained object visibility metadata, enabling controlled diagnostic analyses. Evaluations of general and domain-specific VLMs on ReVSI reveal systematic failure modes that are obscured by prior benchmarks, yielding a more reliable and diagnostic assessment of spatial intelligence.

ReVSI: Ricostruzione della Valutazione dell'Intelligenza Spaziale Visiva per una Valutazione Precisa del Ragionamento 3D nei VLM

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Abstract

Support