Learn2Fold: Geração Estruturada de Origami com Planejamento de Modelo Mundial

Resumo

A capacidade de transformar uma folha plana numa estrutura tridimensional complexa é um teste fundamental à inteligência física. Ao contrário da manipulação de tecidos, o origami é regido por axiomas geométricos rigorosos e restrições cinemáticas rígidas, onde uma única dobra inválida ou colisão pode invalidar toda a sequência de dobragem. Consequentemente, o origami exige um raciocínio construtivo de longo horizonte que satisfaça conjuntamente leis físicas precisas e uma intenção semântica de alto nível. As abordagens existentes dividem-se em dois paradigmas distintos: os métodos baseados em otimização impõem validade física, mas requerem entradas densas e especificadas com precisão, tornando-os inadequados para descrições esparsas em linguagem natural, enquanto os modelos de base generativos se destacam na síntese semântica e perceptual, mas falham em produzir processos de dobragem de longo horizonte e fisicamente consistentes. Por conseguinte, a geração de sequências de dobragem de origami válidas diretamente a partir de texto permanece um desafio em aberto. Para colmatar esta lacuna, introduzimos o Learn2Fold, uma estrutura neuro-simbólica que formula a dobragem de origami como uma indução de programa condicional sobre um grafo de padrão de vincos. A nossa principal perceção é desacoplar a proposta semântica da verificação física. Um modelo de linguagem de grande escala gera programas de dobragem candidatos a partir de instruções textuais abstratas, enquanto um modelo de mundo aprendido com estrutura de grafo serve como um simulador substituto diferenciável que prevê a viabilidade física e os modos de falha antes da execução. Integrado num ciclo de planeamento prospetivo, o Learn2Fold permite a geração robusta de sequências de dobragem fisicamente válidas para padrões complexos e fora da distribuição, demonstrando que uma inteligência espacial eficaz surge da sinergia entre o raciocínio simbólico e a simulação física fundamentada.

English

The ability to transform a flat sheet into a complex three-dimensional structure is a fundamental test of physical intelligence. Unlike cloth manipulation, origami is governed by strict geometric axioms and hard kinematic constraints, where a single invalid crease or collision can invalidate the entire folding sequence. As a result, origami demands long-horizon constructive reasoning that jointly satisfies precise physical laws and high-level semantic intent. Existing approaches fall into two disjoint paradigms: optimization-based methods enforce physical validity but require dense, precisely specified inputs, making them unsuitable for sparse natural language descriptions, while generative foundation models excel at semantic and perceptual synthesis yet fail to produce long-horizon, physics-consistent folding processes. Consequently, generating valid origami folding sequences directly from text remains an open challenge. To address this gap, we introduce Learn2Fold, a neuro-symbolic framework that formulates origami folding as conditional program induction over a crease-pattern graph. Our key insight is to decouple semantic proposal from physical verification. A large language model generates candidate folding programs from abstract text prompts, while a learned graph-structured world model serves as a differentiable surrogate simulator that predicts physical feasibility and failure modes before execution. Integrated within a lookahead planning loop, Learn2Fold enables robust generation of physically valid folding sequences for complex and out-of-distribution patterns, demonstrating that effective spatial intelligence arises from the synergy between symbolic reasoning and grounded physical simulation.