IR3D-Bench: Valutazione della Comprensione Scenica nei Modelli Visione-Linguaggio come Rendering Inverso Agente
IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering
June 29, 2025
Autori: Parker Liu, Chenxin Li, Zhengxin Li, Yipeng Wu, Wuyang Li, Zhiqin Yang, Zhenyuan Zhang, Yunlong Lin, Sirui Han, Brandon Y. Feng
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) eccellono nei compiti descrittivi, ma rimane incerto se comprendano veramente le scene dalle osservazioni visive. Introduciamo IR3D-Bench, un benchmark che sfida i VLMs a dimostrare comprensione attraverso la creazione attiva piuttosto che il riconoscimento passivo. Basato sul paradigma dell'analisi-per-sintesi, IR3D-Bench assegna agli Agenti Visione-Linguaggio (VLAs) il compito di utilizzare attivamente strumenti di programmazione e rendering per ricreare la struttura 3D sottostante di un'immagine di input, raggiungendo il rendering inverso agentico attraverso l'uso di strumenti. Questo approccio "comprendere-creando" esplora la capacità generativa degli VLAs nell'uso di strumenti, andando oltre la capacità descrittiva o conversazionale misurata dai tradizionali benchmark di comprensione delle scene. Forniamo una suite completa di metriche per valutare l'accuratezza geometrica, le relazioni spaziali, gli attributi di aspetto e la plausibilità complessiva. Gli esperimenti iniziali sul rendering inverso agentico supportato da vari VLMs all'avanguardia evidenziano le attuali limitazioni, in particolare nella precisione visiva piuttosto che nell'uso di base degli strumenti. IR3D-Bench, inclusi dati e protocolli di valutazione, viene rilasciato per facilitare lo studio sistematico e lo sviluppo di VLAs che utilizzano strumenti verso una genuina comprensione delle scene attraverso la creazione.
English
Vision-language models (VLMs) excel at descriptive tasks, but whether they
truly understand scenes from visual observations remains uncertain. We
introduce IR3D-Bench, a benchmark challenging VLMs to demonstrate understanding
through active creation rather than passive recognition. Grounded in the
analysis-by-synthesis paradigm, IR3D-Bench tasks Vision-Language Agents (VLAs)
with actively using programming and rendering tools to recreate the underlying
3D structure of an input image, achieving agentic inverse rendering through
tool use. This "understanding-by-creating" approach probes the tool-using
generative capacity of VLAs, moving beyond the descriptive or conversational
capacity measured by traditional scene understanding benchmarks. We provide a
comprehensive suite of metrics to evaluate geometric accuracy, spatial
relations, appearance attributes, and overall plausibility. Initial experiments
on agentic inverse rendering powered by various state-of-the-art VLMs highlight
current limitations, particularly in visual precision rather than basic tool
usage. IR3D-Bench, including data and evaluation protocols, is released to
facilitate systematic study and development of tool-using VLAs towards genuine
scene understanding by creating.