SPhyR: Benchmark voor Ruimtelijk-Fysisch Redeneren over Materiaalverdeling

Samenvatting

We introduceren een nieuwe dataset ontworpen om de fysieke en ruimtelijke redeneervaardigheden van Large Language Models (LLM) te benchmarken op basis van topologie-optimalisatie, een methode voor het berekenen van optimale materiaalverdelingen binnen een ontwerpruimte onder voorgeschreven belastingen en ondersteuningen. In deze dataset krijgen LLM's voorwaarden zoals 2D-randen, uitgeoefende krachten en ondersteuningen, en moeten ze redeneren over de resulterende optimale materiaalverdeling. De dataset omvat een verscheidenheid aan taken, variërend van het invullen van gemaskeerde regio's binnen gedeeltelijke structuren tot het voorspellen van volledige materiaalverdelingen. Het oplossen van deze taken vereist inzicht in de krachtverdeling en de benodigde materiaalverdeling onder gegeven beperkingen, zonder toegang tot simulatietools of expliciete fysieke modellen, wat modellen uitdaagt om te redeneren over structurele stabiliteit en ruimtelijke organisatie. Onze dataset richt zich op de evaluatie van ruimtelijke en fysieke redeneervaardigheden in 2D-omgevingen, en biedt een complementair perspectief ten opzichte van traditionele taal- en logische benchmarks.

English

We introduce a novel dataset designed to benchmark the physical and spatial reasoning capabilities of Large Language Models (LLM) based on topology optimization, a method for computing optimal material distributions within a design space under prescribed loads and supports. In this dataset, LLMs are provided with conditions such as 2D boundary, applied forces and supports, and must reason about the resulting optimal material distribution. The dataset includes a variety of tasks, ranging from filling in masked regions within partial structures to predicting complete material distributions. Solving these tasks requires understanding the flow of forces and the required material distribution under given constraints, without access to simulation tools or explicit physical models, challenging models to reason about structural stability and spatial organization. Our dataset targets the evaluation of spatial and physical reasoning abilities in 2D settings, offering a complementary perspective to traditional language and logic benchmarks.

SPhyR: Benchmark voor Ruimtelijk-Fysisch Redeneren over Materiaalverdeling

SPhyR: Spatial-Physical Reasoning Benchmark on Material Distribution

Samenvatting

Support