Visuele diffusiemodellen zijn geometrische oplossers.
Visual Diffusion Models are Geometric Solvers
October 24, 2025
Auteurs: Nir Goren, Shai Yehezkel, Omer Dahary, Andrey Voynov, Or Patashnik, Daniel Cohen-Or
cs.AI
Samenvatting
In dit artikel tonen wij aan dat visuele diffusiemodellen effectief kunnen fungeren als geometrische oplossers: zij kunnen rechtstreeks redeneren over geometrische problemen door in de pixelruimte te werken. Wij demonstreren dit eerst aan de hand van het Ingegeschreven Vierkant Probleem, een lang bestaand geometrisch probleem dat vraagt of elke Jordankromme vier punten bevat die een vierkant vormen. Vervolgens breiden wij de aanpak uit naar twee andere bekende moeilijke geometrische problemen: het Steinerboommprobleem en het Eenvoudige Veelhoek Probleem.
Onze methode behandelt elk probleemgeval als een afbeelding en traint een standaard visueel diffusiemodel dat Gaussische ruis transformeert in een afbeelding die een geldige benaderende oplossing vertegenwoordigt die nauw aansluit bij de exacte oplossing. Het model leert om rumoerige geometrische structuren om te zetten in correcte configuraties, waardoor geometrisch redeneren in feite wordt herschapen tot beeldgeneratie.
In tegenstelling tot eerder werk dat gespecialiseerde architecturen en domeinspecifieke aanpassingen vereist bij de toepassing van diffusie op parametrische geometrische representaties, gebruiken wij een standaard visueel diffusiemodel dat werkt op de visuele representatie van het probleem. Deze eenvoud benadrukt een verrassende brug tussen generatieve modellering en het oplossen van geometrische problemen. Naast de hier bestudeerde specifieke problemen, wijzen onze resultaten op een breder paradigma: werken in de beeldruimte biedt een algemeen en praktisch kader voor het benaderen van berucht harde problemen, en opent de deur naar het aanpakken van een veel ruimere klasse van uitdagende geometrische taken.
English
In this paper we show that visual diffusion models can serve as effective
geometric solvers: they can directly reason about geometric problems by working
in pixel space. We first demonstrate this on the Inscribed Square Problem, a
long-standing problem in geometry that asks whether every Jordan curve contains
four points forming a square. We then extend the approach to two other
well-known hard geometric problems: the Steiner Tree Problem and the Simple
Polygon Problem.
Our method treats each problem instance as an image and trains a standard
visual diffusion model that transforms Gaussian noise into an image
representing a valid approximate solution that closely matches the exact one.
The model learns to transform noisy geometric structures into correct
configurations, effectively recasting geometric reasoning as image generation.
Unlike prior work that necessitates specialized architectures and
domain-specific adaptations when applying diffusion to parametric geometric
representations, we employ a standard visual diffusion model that operates on
the visual representation of the problem. This simplicity highlights a
surprising bridge between generative modeling and geometric problem solving.
Beyond the specific problems studied here, our results point toward a broader
paradigm: operating in image space provides a general and practical framework
for approximating notoriously hard problems, and opens the door to tackling a
far wider class of challenging geometric tasks.