IR3D-Bench: Evaluatie van scenebegrip door vision-language modellen als agentische inverse rendering
IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering
June 29, 2025
Auteurs: Parker Liu, Chenxin Li, Zhengxin Li, Yipeng Wu, Wuyang Li, Zhiqin Yang, Zhenyuan Zhang, Yunlong Lin, Sirui Han, Brandon Y. Feng
cs.AI
Samenvatting
Vision-language models (VLMs) blinken uit in beschrijvende taken, maar of ze scènes daadwerkelijk begrijpen op basis van visuele waarnemingen blijft onzeker. Wij introduceren IR3D-Bench, een benchmark die VLMs uitdaagt om begrip te tonen door middel van actieve creatie in plaats van passieve herkenning. Geworteld in het analyse-door-synthese paradigma, vraagt IR3D-Bench Vision-Language Agents (VLAs) om actief programmeer- en renderingtools te gebruiken om de onderliggende 3D-structuur van een invoerbeeld te reconstrueren, waardoor agent-gebaseerde inverse rendering wordt bereikt via toolgebruik. Deze "begrip-door-creatie" benadering onderzoekt de generatieve capaciteit van VLAs in het gebruik van tools, en gaat verder dan de beschrijvende of conversatiecapaciteit die wordt gemeten door traditionele benchmarks voor scènebegrip. Wij bieden een uitgebreide set metriek om geometrische nauwkeurigheid, ruimtelijke relaties, uiterlijke attributen en algemene geloofwaardigheid te evalueren. Eerste experimenten met agent-gebaseerde inverse rendering, aangedreven door verschillende state-of-the-art VLMs, benadrukken de huidige beperkingen, met name in visuele precisie in plaats van basis toolgebruik. IR3D-Bench, inclusief data en evaluatieprotocollen, wordt vrijgegeven om systematische studie en ontwikkeling van toolgebruikende VLAs te faciliteren richting echt scènebegrip door creatie.
English
Vision-language models (VLMs) excel at descriptive tasks, but whether they
truly understand scenes from visual observations remains uncertain. We
introduce IR3D-Bench, a benchmark challenging VLMs to demonstrate understanding
through active creation rather than passive recognition. Grounded in the
analysis-by-synthesis paradigm, IR3D-Bench tasks Vision-Language Agents (VLAs)
with actively using programming and rendering tools to recreate the underlying
3D structure of an input image, achieving agentic inverse rendering through
tool use. This "understanding-by-creating" approach probes the tool-using
generative capacity of VLAs, moving beyond the descriptive or conversational
capacity measured by traditional scene understanding benchmarks. We provide a
comprehensive suite of metrics to evaluate geometric accuracy, spatial
relations, appearance attributes, and overall plausibility. Initial experiments
on agentic inverse rendering powered by various state-of-the-art VLMs highlight
current limitations, particularly in visual precision rather than basic tool
usage. IR3D-Bench, including data and evaluation protocols, is released to
facilitate systematic study and development of tool-using VLAs towards genuine
scene understanding by creating.