ChatPaper.aiChatPaper

IR3D-Bench: Avaliando a Compreensão de Cenas por Modelos de Visão e Linguagem como Renderização Inversa Agente

IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering

June 29, 2025
Autores: Parker Liu, Chenxin Li, Zhengxin Li, Yipeng Wu, Wuyang Li, Zhiqin Yang, Zhenyuan Zhang, Yunlong Lin, Sirui Han, Brandon Y. Feng
cs.AI

Resumo

Modelos visão-linguagem (VLMs) se destacam em tarefas descritivas, mas ainda é incerto se eles realmente compreendem cenas a partir de observações visuais. Apresentamos o IR3D-Bench, um benchmark que desafia os VLMs a demonstrar compreensão por meio da criação ativa, em vez do reconhecimento passivo. Baseado no paradigma de análise por síntese, o IR3D-Bench atribui aos Agentes Visão-Linguagem (VLAs) a tarefa de usar ativamente ferramentas de programação e renderização para recriar a estrutura 3D subjacente de uma imagem de entrada, alcançando a renderização inversa agentiva por meio do uso de ferramentas. Essa abordagem de "compreensão por criação" investiga a capacidade gerativa de uso de ferramentas dos VLAs, indo além da capacidade descritiva ou conversacional medida pelos benchmarks tradicionais de compreensão de cenas. Fornecemos um conjunto abrangente de métricas para avaliar a precisão geométrica, relações espaciais, atributos de aparência e plausibilidade geral. Experimentos iniciais sobre renderização inversa agentiva, impulsionada por diversos VLMs state-of-the-art, destacam limitações atuais, particularmente na precisão visual em vez do uso básico de ferramentas. O IR3D-Bench, incluindo dados e protocolos de avaliação, é disponibilizado para facilitar o estudo sistemático e o desenvolvimento de VLAs que utilizam ferramentas, visando uma genuína compreensão de cenas por meio da criação.
English
Vision-language models (VLMs) excel at descriptive tasks, but whether they truly understand scenes from visual observations remains uncertain. We introduce IR3D-Bench, a benchmark challenging VLMs to demonstrate understanding through active creation rather than passive recognition. Grounded in the analysis-by-synthesis paradigm, IR3D-Bench tasks Vision-Language Agents (VLAs) with actively using programming and rendering tools to recreate the underlying 3D structure of an input image, achieving agentic inverse rendering through tool use. This "understanding-by-creating" approach probes the tool-using generative capacity of VLAs, moving beyond the descriptive or conversational capacity measured by traditional scene understanding benchmarks. We provide a comprehensive suite of metrics to evaluate geometric accuracy, spatial relations, appearance attributes, and overall plausibility. Initial experiments on agentic inverse rendering powered by various state-of-the-art VLMs highlight current limitations, particularly in visual precision rather than basic tool usage. IR3D-Bench, including data and evaluation protocols, is released to facilitate systematic study and development of tool-using VLAs towards genuine scene understanding by creating.
PDF51July 2, 2025