BlenderGym: Avaliação de Sistemas de Modelos Fundamentais para Edição Gráfica
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing
April 2, 2025
Autores: Yunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas
cs.AI
Resumo
A edição de gráficos 3D é crucial em aplicações como produção de filmes e design de jogos, mas continua sendo um processo demorado que exige expertise altamente especializada. Automatizar esse processo é desafiador porque a edição gráfica requer a execução de uma variedade de tarefas, cada uma demandando conjuntos de habilidades distintos. Recentemente, modelos de visão e linguagem (VLMs) surgiram como uma estrutura poderosa para automatizar o processo de edição, mas seu desenvolvimento e avaliação são limitados pela falta de um benchmark abrangente que exija percepção em nível humano e apresente complexidade de edição do mundo real. Neste trabalho, apresentamos o BlenderGym, o primeiro benchmark abrangente de sistema VLM para edição de gráficos 3D. O BlenderGym avalia sistemas VLM por meio de tarefas de reconstrução 3D baseadas em código. Avaliamos sistemas VLM de código fechado e aberto e observamos que até mesmo o sistema VLM mais avançado enfrenta dificuldades em tarefas relativamente fáceis para usuários humanos do Blender. Habilitados pelo BlenderGym, estudamos como técnicas de escalonamento de inferência impactam o desempenho do VLM em tarefas de edição gráfica. Notavelmente, nossas descobertas revelam que o verificador usado para guiar o escalonamento da geração pode ser aprimorado por meio do escalonamento de inferência, complementando insights recentes sobre o escalonamento de inferência da geração de LLMs em tarefas de codificação e matemática. Além disso, mostramos que o poder computacional de inferência não é uniformemente eficaz e pode ser otimizado ao ser estrategicamente distribuído entre geração e verificação.
English
3D graphics editing is crucial in applications like movie production and game
design, yet it remains a time-consuming process that demands highly specialized
domain expertise. Automating this process is challenging because graphical
editing requires performing a variety of tasks, each requiring distinct skill
sets. Recently, vision-language models (VLMs) have emerged as a powerful
framework for automating the editing process, but their development and
evaluation are bottlenecked by the lack of a comprehensive benchmark that
requires human-level perception and presents real-world editing complexity. In
this work, we present BlenderGym, the first comprehensive VLM system benchmark
for 3D graphics editing. BlenderGym evaluates VLM systems through code-based 3D
reconstruction tasks. We evaluate closed- and open-source VLM systems and
observe that even the state-of-the-art VLM system struggles with tasks
relatively easy for human Blender users. Enabled by BlenderGym, we study how
inference scaling techniques impact VLM's performance on graphics editing
tasks. Notably, our findings reveal that the verifier used to guide the scaling
of generation can itself be improved through inference scaling, complementing
recent insights on inference scaling of LLM generation in coding and math
tasks. We further show that inference compute is not uniformly effective and
can be optimized by strategically distributing it between generation and
verification.Summary
AI-Generated Summary