시각 확산 모델은 기하학적 솔버입니다
Visual Diffusion Models are Geometric Solvers
October 24, 2025
저자: Nir Goren, Shai Yehezkel, Omer Dahary, Andrey Voynov, Or Patashnik, Daniel Cohen-Or
cs.AI
초록
본 논문에서는 시각적 확산 모델이 효과적인 기하학적 솔버 역할을 할 수 있음을 보여줍니다. 즉, 확산 모델이 픽셀 공간에서 작동하여 기하학적 문제를 직접 추론할 수 있습니다. 우리는 먼저 이를 기하학의 오랜 난제인 '내접 정사각형 문제'에 적용하여 증명했습니다. 이 문제는 모든 조르단 곡선이 정사각형을 형성하는 네 점을 포함하는지 묻는 문제입니다. 이후 이 접근법을 두 가지 다른 유명한 난제인 '슈타이너 트리 문제'와 '단순 다각형 문제'로 확장했습니다.
우리의 방법은 각 문제 인스턴스를 이미지로 취급하고, 가우시안 노이즈를 정확한 해에 근접한 유효한 근사 해를 나타내는 이미지로 변환하는 표준 시각적 확산 모델을 학습합니다. 이 모델은 노이즈가 섞인 기하학적 구조를 올바른 구성으로 변환하는 법을 배우며, 기하학적 추론을 효과적으로 이미지 생성 작업으로 재구성합니다.
매개변수화된 기하학적 표현에 확산 모델을 적용할 때 전용 아키텍처와 도메인 특화적 적용이 필요했던 기존 연구와 달리, 우리는 문제의 시각적 표현에서 작동하는 표준 시각적 확산 모델을 사용합니다. 이러한 단순성은 생성 모델링과 기하학적 문제 해결 사이에 놀라운 연결고리가 있음을 부각시킵니다. 본 연구에서 다룬 특정 문제를 넘어, 우리의 결과는 이미지 공간에서 작동하는 것이 악명 높은 난제들을 근사화하는 일반적이고 실용적인 프레임워크를 제공하며, 훨씬 더 광범위한 종류의 까다로운 기하학적 과제에 도전할 문을 연다는 더 넓은 패러다임을 제시합니다.
English
In this paper we show that visual diffusion models can serve as effective
geometric solvers: they can directly reason about geometric problems by working
in pixel space. We first demonstrate this on the Inscribed Square Problem, a
long-standing problem in geometry that asks whether every Jordan curve contains
four points forming a square. We then extend the approach to two other
well-known hard geometric problems: the Steiner Tree Problem and the Simple
Polygon Problem.
Our method treats each problem instance as an image and trains a standard
visual diffusion model that transforms Gaussian noise into an image
representing a valid approximate solution that closely matches the exact one.
The model learns to transform noisy geometric structures into correct
configurations, effectively recasting geometric reasoning as image generation.
Unlike prior work that necessitates specialized architectures and
domain-specific adaptations when applying diffusion to parametric geometric
representations, we employ a standard visual diffusion model that operates on
the visual representation of the problem. This simplicity highlights a
surprising bridge between generative modeling and geometric problem solving.
Beyond the specific problems studied here, our results point toward a broader
paradigm: operating in image space provides a general and practical framework
for approximating notoriously hard problems, and opens the door to tackling a
far wider class of challenging geometric tasks.