Design Agente de Máquinas Composicionais
Agentic Design of Compositional Machines
October 16, 2025
Autores: Wenqian Zhang, Weiyang Liu, Zhen Liu
cs.AI
Resumo
O design de máquinas complexas representa tanto um marco da inteligência humana quanto um fundamento da prática de engenharia. Diante dos recentes avanços em modelos de linguagem de grande escala (LLMs), questionamos se eles também podem aprender a criar. Abordamos essa questão através da lente do design composicional de máquinas: uma tarefa na qual máquinas são montadas a partir de componentes padronizados para atender demandas funcionais, como locomoção ou manipulação, em um ambiente físico simulado. Para apoiar essa investigação, introduzimos o BesiegeField, um ambiente de teste baseado no jogo de construção de máquinas Besiege, que permite construção baseada em partes, simulação física e avaliação orientada por recompensas. Utilizando o BesiegeField, avaliamos LLMs de última geração com fluxos de trabalho agentivos e identificamos capacidades essenciais para o sucesso, incluindo raciocínio espacial, montagem estratégica e seguimento de instruções. Como os modelos de código aberto atuais não atingem o desempenho desejado, exploramos o aprendizado por reforço (RL) como um caminho para melhoria: compilamos um conjunto de dados de partida, conduzimos experimentos de ajuste fino com RL e destacamos desafios em aberto na interseção entre linguagem, design de máquinas e raciocínio físico.
English
The design of complex machines stands as both a marker of human intelligence
and a foundation of engineering practice. Given recent advances in large
language models (LLMs), we ask whether they, too, can learn to create. We
approach this question through the lens of compositional machine design: a task
in which machines are assembled from standardized components to meet functional
demands like locomotion or manipulation in a simulated physical environment. To
support this investigation, we introduce BesiegeField, a testbed built on the
machine-building game Besiege, which enables part-based construction, physical
simulation and reward-driven evaluation. Using BesiegeField, we benchmark
state-of-the-art LLMs with agentic workflows and identify key capabilities
required for success, including spatial reasoning, strategic assembly, and
instruction-following. As current open-source models fall short, we explore
reinforcement learning (RL) as a path to improvement: we curate a cold-start
dataset, conduct RL finetuning experiments, and highlight open challenges at
the intersection of language, machine design, and physical reasoning.