IR3D-Bench: Evaluación de la Comprensión Escénica de Modelos de Visión-Lenguaje como Representación Inversa Agéntica

Resumen

Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) destacan en tareas descriptivas, pero sigue siendo incierto si realmente comprenden escenas a partir de observaciones visuales. Presentamos IR3D-Bench, un punto de referencia que desafía a los VLMs a demostrar comprensión a través de la creación activa en lugar del reconocimiento pasivo. Basado en el paradigma de análisis por síntesis, IR3D-Bench asigna a los Agentes de Visión y Lenguaje (VLAs) la tarea de utilizar activamente herramientas de programación y renderizado para recrear la estructura 3D subyacente de una imagen de entrada, logrando una representación inversa mediante el uso de herramientas. Este enfoque de "comprensión mediante la creación" explora la capacidad generativa de los VLAs en el uso de herramientas, yendo más allá de la capacidad descriptiva o conversacional medida por los puntos de referencia tradicionales de comprensión de escenas. Proporcionamos un conjunto integral de métricas para evaluar la precisión geométrica, las relaciones espaciales, los atributos de apariencia y la plausibilidad general. Los experimentos iniciales sobre la representación inversa impulsada por varios VLMs de última generación destacan las limitaciones actuales, particularmente en la precisión visual más que en el uso básico de herramientas. IR3D-Bench, que incluye datos y protocolos de evaluación, se ha publicado para facilitar el estudio sistemático y el desarrollo de VLAs que utilicen herramientas con el objetivo de lograr una comprensión genuina de escenas mediante la creación.

English

Vision-language models (VLMs) excel at descriptive tasks, but whether they truly understand scenes from visual observations remains uncertain. We introduce IR3D-Bench, a benchmark challenging VLMs to demonstrate understanding through active creation rather than passive recognition. Grounded in the analysis-by-synthesis paradigm, IR3D-Bench tasks Vision-Language Agents (VLAs) with actively using programming and rendering tools to recreate the underlying 3D structure of an input image, achieving agentic inverse rendering through tool use. This "understanding-by-creating" approach probes the tool-using generative capacity of VLAs, moving beyond the descriptive or conversational capacity measured by traditional scene understanding benchmarks. We provide a comprehensive suite of metrics to evaluate geometric accuracy, spatial relations, appearance attributes, and overall plausibility. Initial experiments on agentic inverse rendering powered by various state-of-the-art VLMs highlight current limitations, particularly in visual precision rather than basic tool usage. IR3D-Bench, including data and evaluation protocols, is released to facilitate systematic study and development of tool-using VLAs towards genuine scene understanding by creating.

IR3D-Bench: Evaluación de la Comprensión Escénica de Modelos de Visión-Lenguaje como Representación Inversa Agéntica

IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering

Resumen

Support