I modelli di diffusione visiva sono risolutori geometrici
Visual Diffusion Models are Geometric Solvers
October 24, 2025
Autori: Nir Goren, Shai Yehezkel, Omer Dahary, Andrey Voynov, Or Patashnik, Daniel Cohen-Or
cs.AI
Abstract
In questo articolo dimostriamo che i modelli di diffusione visiva possono fungere da efficaci risolutori geometrici: sono in grado di ragionare direttamente su problemi geometrici operando nello spazio dei pixel. Illustriamo inizialmente questo principio sul Problema del Quadrato Inscritto, un problema geometrico di lunga data che si chiede se ogni curva di Jordan contenga quattro punti che formano un quadrato. Estendiamo successivamente l'approccio a due altri noti problemi geometrici complessi: il Problema dell'Albero di Steiner e il Problema del Poligono Semplice.
Il nostro metodo tratta ogni istanza del problema come un'immagine e addestra un modello di diffusione visiva standard che trasforma del rumore Gaussiano in un'immagine rappresentante una soluzione approssimata valida che si avvicina strettamente a quella esatta. Il modello impara a trasformare strutture geometriche rumorose in configurazioni corrette, riformulando di fatto il ragionamento geometrico come generazione di immagini.
A differenza di lavori precedenti che necessitano di architetture specializzate e adattamenti specifici per il dominio quando si applica la diffusione a rappresentazioni geometriche parametriche, noi impieghiamo un modello di diffusione visiva standard che opera sulla rappresentazione visiva del problema. Questa semplicità mette in luce un ponte sorprendente tra la modellazione generativa e la risoluzione di problemi geometrici. Oltre ai problemi specifici qui studiati, i nostri risultati indicano un paradigma più ampio: operare nello spazio dell'immagine fornisce una struttura generale e pratica per approssimare problemi notoriamente difficili e apre la porta all'affrontare una classe molto più vasta di compiti geometrici impegnativi.
English
In this paper we show that visual diffusion models can serve as effective
geometric solvers: they can directly reason about geometric problems by working
in pixel space. We first demonstrate this on the Inscribed Square Problem, a
long-standing problem in geometry that asks whether every Jordan curve contains
four points forming a square. We then extend the approach to two other
well-known hard geometric problems: the Steiner Tree Problem and the Simple
Polygon Problem.
Our method treats each problem instance as an image and trains a standard
visual diffusion model that transforms Gaussian noise into an image
representing a valid approximate solution that closely matches the exact one.
The model learns to transform noisy geometric structures into correct
configurations, effectively recasting geometric reasoning as image generation.
Unlike prior work that necessitates specialized architectures and
domain-specific adaptations when applying diffusion to parametric geometric
representations, we employ a standard visual diffusion model that operates on
the visual representation of the problem. This simplicity highlights a
surprising bridge between generative modeling and geometric problem solving.
Beyond the specific problems studied here, our results point toward a broader
paradigm: operating in image space provides a general and practical framework
for approximating notoriously hard problems, and opens the door to tackling a
far wider class of challenging geometric tasks.