Learn2Fold: Generación de Origami Estructurado con Planificación de Modelos del Mundo
Learn2Fold: Structured Origami Generation with World Model Planning
February 2, 2026
Autores: Yanjia Huang, Yunuo Chen, Ying Jiang, Jinru Han, Zhengzhong Tu, Yin Yang, Chenfanfu Jiang
cs.AI
Resumen
La capacidad de transformar una lámina plana en una estructura tridimensional compleja es una prueba fundamental de la inteligencia física. A diferencia de la manipulación de tela, el origami se rige por axiomas geométricos estrictos y restricciones cinemáticas rígidas, donde un solo pliegue inválido o una colisión puede invalidar toda la secuencia de plegado. En consecuencia, el origami exige un razonamiento constructivo de horizonte largo que satisfaga conjuntamente leyes físicas precisas y una intención semántica de alto nivel. Los enfoques existentes se dividen en dos paradigmas disjuntos: los métodos basados en optimización hacen cumplir la validez física pero requieren entradas densas y precisamente especificadas, lo que los hace inadecuados para descripciones lingüísticas naturales escasas, mientras que los modelos fundacionales generativos sobresalen en la síntesis semántica y perceptiva, pero no logran producir procesos de plegado de horizonte largo y consistentes con la física. En consecuencia, generar secuencias de plegado de origami válidas directamente a partir de texto sigue siendo un desafío sin resolver. Para abordar esta brecha, presentamos Learn2Fold, un marco neuro-simbólico que formula el plegado de origami como una inducción de programas condicionales sobre un grafo de patrón de pliegues. Nuestra idea clave es desacoplar la propuesta semántica de la verificación física. Un modelo de lenguaje grande genera programas de plegado candidatos a partir de instrucciones de texto abstractas, mientras que un modelo de mundo aprendido con estructura de grafo sirve como un simulador sustituto diferenciable que predice la viabilidad física y los modos de fallo antes de la ejecución. Integrado en un bucle de planificación con anticipación, Learn2Fold permite la generación robusta de secuencias de plegado físicamente válidas para patrones complejos y fuera de distribución, demostrando que una inteligencia espacial efectiva surge de la sinergia entre el razonamiento simbólico y la simulación física fundamentada.
English
The ability to transform a flat sheet into a complex three-dimensional structure is a fundamental test of physical intelligence. Unlike cloth manipulation, origami is governed by strict geometric axioms and hard kinematic constraints, where a single invalid crease or collision can invalidate the entire folding sequence. As a result, origami demands long-horizon constructive reasoning that jointly satisfies precise physical laws and high-level semantic intent. Existing approaches fall into two disjoint paradigms: optimization-based methods enforce physical validity but require dense, precisely specified inputs, making them unsuitable for sparse natural language descriptions, while generative foundation models excel at semantic and perceptual synthesis yet fail to produce long-horizon, physics-consistent folding processes. Consequently, generating valid origami folding sequences directly from text remains an open challenge. To address this gap, we introduce Learn2Fold, a neuro-symbolic framework that formulates origami folding as conditional program induction over a crease-pattern graph. Our key insight is to decouple semantic proposal from physical verification. A large language model generates candidate folding programs from abstract text prompts, while a learned graph-structured world model serves as a differentiable surrogate simulator that predicts physical feasibility and failure modes before execution. Integrated within a lookahead planning loop, Learn2Fold enables robust generation of physically valid folding sequences for complex and out-of-distribution patterns, demonstrating that effective spatial intelligence arises from the synergy between symbolic reasoning and grounded physical simulation.