Learn2Fold: Generazione Strutturata di Origami con Pianificazione tramite Modello del Mondo
Learn2Fold: Structured Origami Generation with World Model Planning
February 2, 2026
Autori: Yanjia Huang, Yunuo Chen, Ying Jiang, Jinru Han, Zhengzhong Tu, Yin Yang, Chenfanfu Jiang
cs.AI
Abstract
La capacità di trasformare un foglio piatto in una struttura tridimensionale complessa rappresenta una prova fondamentale dell'intelligenza fisica. A differenza della manipolazione di tessuti, l'origami è governato da assiomi geometrici rigorosi e vincoli cinematici rigidi, dove una singola piega non valida o una collisione può invalidare l'intera sequenza di piegatura. Di conseguenza, l'origami richiede un ragionamento costruttivo a lungo termine che soddisfi congiuntamente leggi fisiche precise e un'intenzione semantica di alto livello. Gli approcci esistenti ricadono in due paradigmi separati: i metodi basati sull'ottimizzazione impongono la validità fisica ma richiedono input densi e precisamente specificati, rendendoli inadatti per descrizioni linguistiche naturali sparse, mentre i modelli generativi foundation eccellono nella sintesi semantica e percettiva, ma non riescono a produrre processi di piegatura a lungo termine e fisicamente coerenti. Conseguentemente, generare sequenze di piegatura origami valide direttamente dal testo rimane una sfida aperta. Per colmare questa lacuna, introduciamo Learn2Fold, un framework neuro-simbolico che formula la piegatura origami come induzione condizionata di programmi su un grafo del pattern di pieghe. La nostra intuizione chiave è disaccoppiare la proposta semantica dalla verifica fisica. Un grande modello linguistico genera programmi di piegatura candidati da prompt testuali astratti, mentre un modello di mondo appreso con struttura a grafo funge da simulatore surrogato differenziabile che prevede la fattibilità fisica e le modalità di fallimento prima dell'esecuzione. Integrato in un ciclo di pianificazione con lookahead, Learn2Fold consente la generazione robusta di sequenze di piegatura fisicamente valide per pattern complessi e fuori distribuzione, dimostrando che un'efficace intelligenza spaziale nasce dalla sinergia tra ragionamento simbolico e simulazione fisica fondata.
English
The ability to transform a flat sheet into a complex three-dimensional structure is a fundamental test of physical intelligence. Unlike cloth manipulation, origami is governed by strict geometric axioms and hard kinematic constraints, where a single invalid crease or collision can invalidate the entire folding sequence. As a result, origami demands long-horizon constructive reasoning that jointly satisfies precise physical laws and high-level semantic intent. Existing approaches fall into two disjoint paradigms: optimization-based methods enforce physical validity but require dense, precisely specified inputs, making them unsuitable for sparse natural language descriptions, while generative foundation models excel at semantic and perceptual synthesis yet fail to produce long-horizon, physics-consistent folding processes. Consequently, generating valid origami folding sequences directly from text remains an open challenge. To address this gap, we introduce Learn2Fold, a neuro-symbolic framework that formulates origami folding as conditional program induction over a crease-pattern graph. Our key insight is to decouple semantic proposal from physical verification. A large language model generates candidate folding programs from abstract text prompts, while a learned graph-structured world model serves as a differentiable surrogate simulator that predicts physical feasibility and failure modes before execution. Integrated within a lookahead planning loop, Learn2Fold enables robust generation of physically valid folding sequences for complex and out-of-distribution patterns, demonstrating that effective spatial intelligence arises from the synergy between symbolic reasoning and grounded physical simulation.