ChatPaper.aiChatPaper

IR3D-Bench : Évaluation de la compréhension des scènes par les modèles vision-langage en tant que rendu inverse agentique

IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering

June 29, 2025
Auteurs: Parker Liu, Chenxin Li, Zhengxin Li, Yipeng Wu, Wuyang Li, Zhiqin Yang, Zhenyuan Zhang, Yunlong Lin, Sirui Han, Brandon Y. Feng
cs.AI

Résumé

Les modèles vision-langage (VLMs) excellent dans les tâches descriptives, mais leur capacité à véritablement comprendre les scènes à partir d'observations visuelles reste incertaine. Nous présentons IR3D-Bench, un benchmark qui met au défi les VLMs de démontrer leur compréhension par la création active plutôt que par la reconnaissance passive. Fondé sur le paradigme de l'analyse par synthèse, IR3D-Bench confie aux agents vision-langage (VLAs) la tâche d'utiliser activement des outils de programmation et de rendu pour recréer la structure 3D sous-jacente d'une image d'entrée, réalisant ainsi un rendu inverse agentique par l'utilisation d'outils. Cette approche de "compréhension par création" explore la capacité générative des VLAs à utiliser des outils, allant au-delà de la capacité descriptive ou conversationnelle mesurée par les benchmarks traditionnels de compréhension de scènes. Nous proposons une suite complète de métriques pour évaluer la précision géométrique, les relations spatiales, les attributs d'apparence et la plausibilité globale. Les expériences initiales sur le rendu inverse agentique alimenté par divers VLMs de pointe mettent en lumière les limitations actuelles, notamment en termes de précision visuelle plutôt que d'utilisation basique des outils. IR3D-Bench, incluant les données et protocoles d'évaluation, est rendu public pour faciliter l'étude systématique et le développement des VLAs utilisant des outils vers une véritable compréhension de scènes par la création.
English
Vision-language models (VLMs) excel at descriptive tasks, but whether they truly understand scenes from visual observations remains uncertain. We introduce IR3D-Bench, a benchmark challenging VLMs to demonstrate understanding through active creation rather than passive recognition. Grounded in the analysis-by-synthesis paradigm, IR3D-Bench tasks Vision-Language Agents (VLAs) with actively using programming and rendering tools to recreate the underlying 3D structure of an input image, achieving agentic inverse rendering through tool use. This "understanding-by-creating" approach probes the tool-using generative capacity of VLAs, moving beyond the descriptive or conversational capacity measured by traditional scene understanding benchmarks. We provide a comprehensive suite of metrics to evaluate geometric accuracy, spatial relations, appearance attributes, and overall plausibility. Initial experiments on agentic inverse rendering powered by various state-of-the-art VLMs highlight current limitations, particularly in visual precision rather than basic tool usage. IR3D-Bench, including data and evaluation protocols, is released to facilitate systematic study and development of tool-using VLAs towards genuine scene understanding by creating.
PDF51July 2, 2025