Agentische Gestaltung kompositioneller Maschinen

papers.abstract

Die Gestaltung komplexer Maschinen stellt sowohl ein Zeichen menschlicher Intelligenz als auch eine Grundlage der Ingenieurspraxis dar. Angesichts der jüngsten Fortschritte bei großen Sprachmodellen (LLMs) stellen wir die Frage, ob auch diese lernen können, zu erschaffen. Wir nähern uns dieser Frage aus der Perspektive des kompositionellen Maschinendesigns: einer Aufgabe, bei der Maschinen aus standardisierten Komponenten zusammengesetzt werden, um funktionale Anforderungen wie Fortbewegung oder Manipulation in einer simulierten physischen Umgebung zu erfüllen. Um diese Untersuchung zu unterstützen, führen wir BesiegeField ein, eine Testumgebung, die auf dem maschinenbasierten Spiel Besiege aufbaut und teilbasierte Konstruktion, physikalische Simulation und belohnungsgesteuerte Bewertung ermöglicht. Mit BesiegeField bewerten wir state-of-the-art LLMs mit agentenbasierten Workflows und identifizieren Schlüsselkompetenzen, die für den Erfolg erforderlich sind, darunter räumliches Denken, strategische Montage und Befolgung von Anweisungen. Da aktuelle Open-Source-Modelle nicht ausreichen, untersuchen wir Verstärkungslernen (RL) als Weg zur Verbesserung: Wir erstellen einen Cold-Start-Datensatz, führen RL-Finetuning-Experimente durch und beleuchten offene Herausforderungen an der Schnittstelle von Sprache, Maschinendesign und physikalischem Denken.

English

The design of complex machines stands as both a marker of human intelligence and a foundation of engineering practice. Given recent advances in large language models (LLMs), we ask whether they, too, can learn to create. We approach this question through the lens of compositional machine design: a task in which machines are assembled from standardized components to meet functional demands like locomotion or manipulation in a simulated physical environment. To support this investigation, we introduce BesiegeField, a testbed built on the machine-building game Besiege, which enables part-based construction, physical simulation and reward-driven evaluation. Using BesiegeField, we benchmark state-of-the-art LLMs with agentic workflows and identify key capabilities required for success, including spatial reasoning, strategic assembly, and instruction-following. As current open-source models fall short, we explore reinforcement learning (RL) as a path to improvement: we curate a cold-start dataset, conduct RL finetuning experiments, and highlight open challenges at the intersection of language, machine design, and physical reasoning.

Agentische Gestaltung kompositioneller Maschinen

Agentic Design of Compositional Machines

papers.abstract

Support