SPhyR: Benchmark voor Ruimtelijk-Fysisch Redeneren over Materiaalverdeling
SPhyR: Spatial-Physical Reasoning Benchmark on Material Distribution
May 21, 2025
Auteurs: Philipp D. Siedler
cs.AI
Samenvatting
We introduceren een nieuwe dataset ontworpen om de fysieke en ruimtelijke
redeneervaardigheden van Large Language Models (LLM) te benchmarken op basis van
topologie-optimalisatie, een methode voor het berekenen van optimale materiaalverdelingen
binnen een ontwerpruimte onder voorgeschreven belastingen en ondersteuningen. In deze
dataset krijgen LLM's voorwaarden zoals 2D-randen, uitgeoefende krachten en ondersteuningen,
en moeten ze redeneren over de resulterende optimale materiaalverdeling. De dataset
omvat een verscheidenheid aan taken, variërend van het invullen van gemaskeerde regio's
binnen gedeeltelijke structuren tot het voorspellen van volledige materiaalverdelingen.
Het oplossen van deze taken vereist inzicht in de krachtverdeling en de benodigde
materiaalverdeling onder gegeven beperkingen, zonder toegang tot simulatietools of
expliciete fysieke modellen, wat modellen uitdaagt om te redeneren over structurele
stabiliteit en ruimtelijke organisatie. Onze dataset richt zich op de evaluatie van
ruimtelijke en fysieke redeneervaardigheden in 2D-omgevingen, en biedt een
complementair perspectief ten opzichte van traditionele taal- en logische benchmarks.
English
We introduce a novel dataset designed to benchmark the physical and spatial
reasoning capabilities of Large Language Models (LLM) based on topology
optimization, a method for computing optimal material distributions within a
design space under prescribed loads and supports. In this dataset, LLMs are
provided with conditions such as 2D boundary, applied forces and supports, and
must reason about the resulting optimal material distribution. The dataset
includes a variety of tasks, ranging from filling in masked regions within
partial structures to predicting complete material distributions. Solving these
tasks requires understanding the flow of forces and the required material
distribution under given constraints, without access to simulation tools or
explicit physical models, challenging models to reason about structural
stability and spatial organization. Our dataset targets the evaluation of
spatial and physical reasoning abilities in 2D settings, offering a
complementary perspective to traditional language and logic benchmarks.