Progettazione Agente di Macchine Composizionali
Agentic Design of Compositional Machines
October 16, 2025
Autori: Wenqian Zhang, Weiyang Liu, Zhen Liu
cs.AI
Abstract
La progettazione di macchine complesse rappresenta sia un indicatore dell'intelligenza umana che un fondamento della pratica ingegneristica. Alla luce dei recenti progressi nei grandi modelli linguistici (LLM), ci chiediamo se anche essi possano imparare a creare. Affrontiamo questa questione attraverso la lente della progettazione composizionale di macchine: un compito in cui le macchine vengono assemblate da componenti standardizzati per soddisfare esigenze funzionali come la locomozione o la manipolazione in un ambiente fisico simulato. Per supportare questa indagine, introduciamo BesiegeField, un banco di prova basato sul gioco di costruzione di macchine Besiege, che consente la costruzione basata su parti, la simulazione fisica e la valutazione guidata da ricompense. Utilizzando BesiegeField, testiamo i migliori LLM con flussi di lavoro agentici e identifichiamo le capacità chiave necessarie per il successo, tra cui il ragionamento spaziale, l'assemblaggio strategico e il rispetto delle istruzioni. Poiché gli attuali modelli open-source non sono all'altezza, esploriamo l'apprendimento per rinforzo (RL) come percorso di miglioramento: curiamo un dataset di partenza a freddo, conduciamo esperimenti di fine-tuning RL e evidenziamo le sfide aperte all'intersezione tra linguaggio, progettazione di macchine e ragionamento fisico.
English
The design of complex machines stands as both a marker of human intelligence
and a foundation of engineering practice. Given recent advances in large
language models (LLMs), we ask whether they, too, can learn to create. We
approach this question through the lens of compositional machine design: a task
in which machines are assembled from standardized components to meet functional
demands like locomotion or manipulation in a simulated physical environment. To
support this investigation, we introduce BesiegeField, a testbed built on the
machine-building game Besiege, which enables part-based construction, physical
simulation and reward-driven evaluation. Using BesiegeField, we benchmark
state-of-the-art LLMs with agentic workflows and identify key capabilities
required for success, including spatial reasoning, strategic assembly, and
instruction-following. As current open-source models fall short, we explore
reinforcement learning (RL) as a path to improvement: we curate a cold-start
dataset, conduct RL finetuning experiments, and highlight open challenges at
the intersection of language, machine design, and physical reasoning.