IR3D-Bench: Evaluación de la Comprensión Escénica de Modelos de Visión-Lenguaje como Representación Inversa Agéntica
IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering
June 29, 2025
Autores: Parker Liu, Chenxin Li, Zhengxin Li, Yipeng Wu, Wuyang Li, Zhiqin Yang, Zhenyuan Zhang, Yunlong Lin, Sirui Han, Brandon Y. Feng
cs.AI
Resumen
Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) destacan en tareas descriptivas, pero sigue siendo incierto si realmente comprenden escenas a partir de observaciones visuales. Presentamos IR3D-Bench, un punto de referencia que desafía a los VLMs a demostrar comprensión a través de la creación activa en lugar del reconocimiento pasivo. Basado en el paradigma de análisis por síntesis, IR3D-Bench asigna a los Agentes de Visión y Lenguaje (VLAs) la tarea de utilizar activamente herramientas de programación y renderizado para recrear la estructura 3D subyacente de una imagen de entrada, logrando una representación inversa mediante el uso de herramientas. Este enfoque de "comprensión mediante la creación" explora la capacidad generativa de los VLAs en el uso de herramientas, yendo más allá de la capacidad descriptiva o conversacional medida por los puntos de referencia tradicionales de comprensión de escenas. Proporcionamos un conjunto integral de métricas para evaluar la precisión geométrica, las relaciones espaciales, los atributos de apariencia y la plausibilidad general. Los experimentos iniciales sobre la representación inversa impulsada por varios VLMs de última generación destacan las limitaciones actuales, particularmente en la precisión visual más que en el uso básico de herramientas. IR3D-Bench, que incluye datos y protocolos de evaluación, se ha publicado para facilitar el estudio sistemático y el desarrollo de VLAs que utilicen herramientas con el objetivo de lograr una comprensión genuina de escenas mediante la creación.
English
Vision-language models (VLMs) excel at descriptive tasks, but whether they
truly understand scenes from visual observations remains uncertain. We
introduce IR3D-Bench, a benchmark challenging VLMs to demonstrate understanding
through active creation rather than passive recognition. Grounded in the
analysis-by-synthesis paradigm, IR3D-Bench tasks Vision-Language Agents (VLAs)
with actively using programming and rendering tools to recreate the underlying
3D structure of an input image, achieving agentic inverse rendering through
tool use. This "understanding-by-creating" approach probes the tool-using
generative capacity of VLAs, moving beyond the descriptive or conversational
capacity measured by traditional scene understanding benchmarks. We provide a
comprehensive suite of metrics to evaluate geometric accuracy, spatial
relations, appearance attributes, and overall plausibility. Initial experiments
on agentic inverse rendering powered by various state-of-the-art VLMs highlight
current limitations, particularly in visual precision rather than basic tool
usage. IR3D-Bench, including data and evaluation protocols, is released to
facilitate systematic study and development of tool-using VLAs towards genuine
scene understanding by creating.