ChatPaper.aiChatPaper

Modelos de Difusão Visual são Solucionadores Geométricos

Visual Diffusion Models are Geometric Solvers

October 24, 2025
Autores: Nir Goren, Shai Yehezkel, Omer Dahary, Andrey Voynov, Or Patashnik, Daniel Cohen-Or
cs.AI

Resumo

Neste artigo, demonstramos que os modelos de difusão visual podem atuar como solucionadores geométricos eficazes: eles podem raciocinar diretamente sobre problemas geométricos operando no espaço de pixels. Primeiro, demonstramos isso no Problema do Quadrado Inscrito, um problema de longa data na geometria que questiona se toda curva de Jordan contém quatro pontos que formam um quadrado. Em seguida, estendemos a abordagem para outros dois problemas geométricos complexos conhecidos: o Problema da Árvore de Steiner e o Problema do Polígono Simples. Nosso método trata cada instância do problema como uma imagem e treina um modelo de difusão visual padrão que transforma ruído gaussiano em uma imagem representando uma solução aproximada válida que se aproxima da solução exata. O modelo aprende a transformar estruturas geométricas ruidosas em configurações corretas, reformulando efetivamente o raciocínio geométrico como geração de imagens. Diferente de trabalhos anteriores que necessitam de arquiteturas especializadas e adaptações específicas de domínio ao aplicar difusão a representações geométricas paramétricas, empregamos um modelo de difusão visual padrão que opera na representação visual do problema. Esta simplicidade destaca uma ponte surpreendente entre a modelagem generativa e a resolução de problemas geométricos. Para além dos problemas específicos aqui estudados, nossos resultados apontam para um paradigma mais amplo: operar no espaço de imagem fornece uma estrutura geral e prática para aproximar problemas notoriamente difíceis, e abre caminho para abordar uma classe muito mais ampla de tarefas geométricas desafiadoras.
English
In this paper we show that visual diffusion models can serve as effective geometric solvers: they can directly reason about geometric problems by working in pixel space. We first demonstrate this on the Inscribed Square Problem, a long-standing problem in geometry that asks whether every Jordan curve contains four points forming a square. We then extend the approach to two other well-known hard geometric problems: the Steiner Tree Problem and the Simple Polygon Problem. Our method treats each problem instance as an image and trains a standard visual diffusion model that transforms Gaussian noise into an image representing a valid approximate solution that closely matches the exact one. The model learns to transform noisy geometric structures into correct configurations, effectively recasting geometric reasoning as image generation. Unlike prior work that necessitates specialized architectures and domain-specific adaptations when applying diffusion to parametric geometric representations, we employ a standard visual diffusion model that operates on the visual representation of the problem. This simplicity highlights a surprising bridge between generative modeling and geometric problem solving. Beyond the specific problems studied here, our results point toward a broader paradigm: operating in image space provides a general and practical framework for approximating notoriously hard problems, and opens the door to tackling a far wider class of challenging geometric tasks.
PDF191December 17, 2025