ChatPaper.aiChatPaper

IR3D-Bench: Valutazione della Comprensione Scenica nei Modelli Visione-Linguaggio come Rendering Inverso Agente

IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering

June 29, 2025
Autori: Parker Liu, Chenxin Li, Zhengxin Li, Yipeng Wu, Wuyang Li, Zhiqin Yang, Zhenyuan Zhang, Yunlong Lin, Sirui Han, Brandon Y. Feng
cs.AI

Abstract

I modelli visione-linguaggio (VLMs) eccellono nei compiti descrittivi, ma rimane incerto se comprendano veramente le scene dalle osservazioni visive. Introduciamo IR3D-Bench, un benchmark che sfida i VLMs a dimostrare comprensione attraverso la creazione attiva piuttosto che il riconoscimento passivo. Basato sul paradigma dell'analisi-per-sintesi, IR3D-Bench assegna agli Agenti Visione-Linguaggio (VLAs) il compito di utilizzare attivamente strumenti di programmazione e rendering per ricreare la struttura 3D sottostante di un'immagine di input, raggiungendo il rendering inverso agentico attraverso l'uso di strumenti. Questo approccio "comprendere-creando" esplora la capacità generativa degli VLAs nell'uso di strumenti, andando oltre la capacità descrittiva o conversazionale misurata dai tradizionali benchmark di comprensione delle scene. Forniamo una suite completa di metriche per valutare l'accuratezza geometrica, le relazioni spaziali, gli attributi di aspetto e la plausibilità complessiva. Gli esperimenti iniziali sul rendering inverso agentico supportato da vari VLMs all'avanguardia evidenziano le attuali limitazioni, in particolare nella precisione visiva piuttosto che nell'uso di base degli strumenti. IR3D-Bench, inclusi dati e protocolli di valutazione, viene rilasciato per facilitare lo studio sistematico e lo sviluppo di VLAs che utilizzano strumenti verso una genuina comprensione delle scene attraverso la creazione.
English
Vision-language models (VLMs) excel at descriptive tasks, but whether they truly understand scenes from visual observations remains uncertain. We introduce IR3D-Bench, a benchmark challenging VLMs to demonstrate understanding through active creation rather than passive recognition. Grounded in the analysis-by-synthesis paradigm, IR3D-Bench tasks Vision-Language Agents (VLAs) with actively using programming and rendering tools to recreate the underlying 3D structure of an input image, achieving agentic inverse rendering through tool use. This "understanding-by-creating" approach probes the tool-using generative capacity of VLAs, moving beyond the descriptive or conversational capacity measured by traditional scene understanding benchmarks. We provide a comprehensive suite of metrics to evaluate geometric accuracy, spatial relations, appearance attributes, and overall plausibility. Initial experiments on agentic inverse rendering powered by various state-of-the-art VLMs highlight current limitations, particularly in visual precision rather than basic tool usage. IR3D-Bench, including data and evaluation protocols, is released to facilitate systematic study and development of tool-using VLAs towards genuine scene understanding by creating.
PDF51July 2, 2025