Diseño Agéntico de Máquinas Composicionales
Agentic Design of Compositional Machines
October 16, 2025
Autores: Wenqian Zhang, Weiyang Liu, Zhen Liu
cs.AI
Resumen
El diseño de máquinas complejas representa tanto un indicador de la inteligencia humana como un fundamento de la práctica de la ingeniería. Dados los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), nos preguntamos si estos también pueden aprender a crear. Abordamos esta pregunta desde la perspectiva del diseño de máquinas composicional: una tarea en la que las máquinas se ensamblan a partir de componentes estandarizados para satisfacer demandas funcionales, como la locomoción o la manipulación, en un entorno físico simulado. Para respaldar esta investigación, presentamos BesiegeField, un banco de pruebas basado en el juego de construcción de máquinas Besiege, que permite la construcción basada en piezas, la simulación física y la evaluación guiada por recompensas. Utilizando BesiegeField, evaluamos los LLMs más avanzados con flujos de trabajo agentivos e identificamos las capacidades clave necesarias para el éxito, incluyendo el razonamiento espacial, el ensamblaje estratégico y el seguimiento de instrucciones. Dado que los modelos de código abierto actuales no alcanzan estos requisitos, exploramos el aprendizaje por refuerzo (RL, por sus siglas en inglés) como una vía de mejora: seleccionamos un conjunto de datos de inicio en frío, realizamos experimentos de ajuste fino con RL y destacamos los desafíos abiertos en la intersección del lenguaje, el diseño de máquinas y el razonamiento físico.
English
The design of complex machines stands as both a marker of human intelligence
and a foundation of engineering practice. Given recent advances in large
language models (LLMs), we ask whether they, too, can learn to create. We
approach this question through the lens of compositional machine design: a task
in which machines are assembled from standardized components to meet functional
demands like locomotion or manipulation in a simulated physical environment. To
support this investigation, we introduce BesiegeField, a testbed built on the
machine-building game Besiege, which enables part-based construction, physical
simulation and reward-driven evaluation. Using BesiegeField, we benchmark
state-of-the-art LLMs with agentic workflows and identify key capabilities
required for success, including spatial reasoning, strategic assembly, and
instruction-following. As current open-source models fall short, we explore
reinforcement learning (RL) as a path to improvement: we curate a cold-start
dataset, conduct RL finetuning experiments, and highlight open challenges at
the intersection of language, machine design, and physical reasoning.