BlenderGym: Avaliação de Sistemas de Modelos Fundamentais para Edição Gráfica

Resumo

A edição de gráficos 3D é crucial em aplicações como produção de filmes e design de jogos, mas continua sendo um processo demorado que exige expertise altamente especializada. Automatizar esse processo é desafiador porque a edição gráfica requer a execução de uma variedade de tarefas, cada uma demandando conjuntos de habilidades distintos. Recentemente, modelos de visão e linguagem (VLMs) surgiram como uma estrutura poderosa para automatizar o processo de edição, mas seu desenvolvimento e avaliação são limitados pela falta de um benchmark abrangente que exija percepção em nível humano e apresente complexidade de edição do mundo real. Neste trabalho, apresentamos o BlenderGym, o primeiro benchmark abrangente de sistema VLM para edição de gráficos 3D. O BlenderGym avalia sistemas VLM por meio de tarefas de reconstrução 3D baseadas em código. Avaliamos sistemas VLM de código fechado e aberto e observamos que até mesmo o sistema VLM mais avançado enfrenta dificuldades em tarefas relativamente fáceis para usuários humanos do Blender. Habilitados pelo BlenderGym, estudamos como técnicas de escalonamento de inferência impactam o desempenho do VLM em tarefas de edição gráfica. Notavelmente, nossas descobertas revelam que o verificador usado para guiar o escalonamento da geração pode ser aprimorado por meio do escalonamento de inferência, complementando insights recentes sobre o escalonamento de inferência da geração de LLMs em tarefas de codificação e matemática. Além disso, mostramos que o poder computacional de inferência não é uniformemente eficaz e pode ser otimizado ao ser estrategicamente distribuído entre geração e verificação.

English

3D graphics editing is crucial in applications like movie production and game design, yet it remains a time-consuming process that demands highly specialized domain expertise. Automating this process is challenging because graphical editing requires performing a variety of tasks, each requiring distinct skill sets. Recently, vision-language models (VLMs) have emerged as a powerful framework for automating the editing process, but their development and evaluation are bottlenecked by the lack of a comprehensive benchmark that requires human-level perception and presents real-world editing complexity. In this work, we present BlenderGym, the first comprehensive VLM system benchmark for 3D graphics editing. BlenderGym evaluates VLM systems through code-based 3D reconstruction tasks. We evaluate closed- and open-source VLM systems and observe that even the state-of-the-art VLM system struggles with tasks relatively easy for human Blender users. Enabled by BlenderGym, we study how inference scaling techniques impact VLM's performance on graphics editing tasks. Notably, our findings reveal that the verifier used to guide the scaling of generation can itself be improved through inference scaling, complementing recent insights on inference scaling of LLM generation in coding and math tasks. We further show that inference compute is not uniformly effective and can be optimized by strategically distributing it between generation and verification.

BlenderGym: Avaliação de Sistemas de Modelos Fundamentais para Edição Gráfica

BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

Resumo

Summary

Support

Support