Визуальные диффузные модели являются геометрическими решателями
Visual Diffusion Models are Geometric Solvers
October 24, 2025
Авторы: Nir Goren, Shai Yehezkel, Omer Dahary, Andrey Voynov, Or Patashnik, Daniel Cohen-Or
cs.AI
Аннотация
В данной работе мы показываем, что визуальные диффузионные модели могут служить эффективными геометрическими решателями: они способны напрямую рассуждать о геометрических задачах, работая в пространстве пикселей. Мы сначала демонстрируем это на задаче о вписанном квадрате — давней геометрической проблеме, которая ставит вопрос, содержит ли каждая жорданова кривая четыре точки, образующие квадрат. Затем мы расширяем подход на две другие известные сложные геометрические задачи: задачу Штейнера и задачу о простом многоугольнике.
Наш метод рассматривает каждый экземпляр задачи как изображение и обучает стандартную визуальную диффузионную модель, которая преобразует гауссовский шум в изображение, представляющее допустимое приближённое решение, близкое к точному. Модель учится преобразовывать зашумленные геометрические структуры в правильные конфигурации, фактически переформулируя геометрические рассуждения как генерацию изображений.
В отличие от предыдущих работ, требующих специализированных архитектур и доменно-ориентированных адаптаций при применении диффузии к параметрическим геометрическим представлениям, мы используем стандартную визуальную диффузионную модель, работающую с визуальным представлением задачи. Эта простота подчёркивает удивительную связь между генеративным моделированием и решением геометрических задач. Помимо конкретных изученных проблем, наши результаты указывают на более широкую парадигму: работа в пространстве изображений предоставляет универсальный и практичный фреймворк для аппроксимации печально известных сложных задач и открывает двери для решения гораздо более широкого класса сложных геометрических проблем.
English
In this paper we show that visual diffusion models can serve as effective
geometric solvers: they can directly reason about geometric problems by working
in pixel space. We first demonstrate this on the Inscribed Square Problem, a
long-standing problem in geometry that asks whether every Jordan curve contains
four points forming a square. We then extend the approach to two other
well-known hard geometric problems: the Steiner Tree Problem and the Simple
Polygon Problem.
Our method treats each problem instance as an image and trains a standard
visual diffusion model that transforms Gaussian noise into an image
representing a valid approximate solution that closely matches the exact one.
The model learns to transform noisy geometric structures into correct
configurations, effectively recasting geometric reasoning as image generation.
Unlike prior work that necessitates specialized architectures and
domain-specific adaptations when applying diffusion to parametric geometric
representations, we employ a standard visual diffusion model that operates on
the visual representation of the problem. This simplicity highlights a
surprising bridge between generative modeling and geometric problem solving.
Beyond the specific problems studied here, our results point toward a broader
paradigm: operating in image space provides a general and practical framework
for approximating notoriously hard problems, and opens the door to tackling a
far wider class of challenging geometric tasks.