Learn2Fold : Génération structurée d'origami par planification avec un modèle du monde

Résumé

La capacité à transformer une feuille plane en une structure tridimensionnelle complexe constitue un test fondamental de l'intelligence physique. Contrairement à la manipulation de tissus, l'origami est régie par des axiomes géométriques stricts et des contraintes cinématiques rigides, où un seul pli invalide ou une seule collision peut invalider la séquence de pliage entière. Par conséquent, l'origami exige un raisonnement constructif à long horizon qui satisfait conjointement des lois physiques précises et une intention sémantique de haut niveau. Les approches existantes se divisent en deux paradigmes disjoints : les méthodes basées sur l'optimisation imposent la validité physique mais nécessitent des entrées denses et précisément spécifiées, les rendant inadaptées aux descriptions éparses en langage naturel, tandis que les modèles de fondation génératifs excellent dans la synthèse sémantique et perceptive mais échouent à produire des processus de pliage à long horizon et physiquement cohérents. Par conséquent, générer directement des séquences de pliage d'origami valides à partir de texte reste un défi non résolu. Pour combler cette lacune, nous présentons Learn2Fold, un cadre neuro-symbolique qui formule le pliage d'origami comme une induction de programme conditionnelle sur un graphe de motif de plis. Notre idée clé est de découpler la proposition sémantique de la vérification physique. Un grand modèle linguistique génère des programmes de pliage candidats à partir de prompts textuels abstraits, tandis qu'un modèle de monde appris à structure graphique sert de simulateur différentiable substitut qui prédit la faisabilité physique et les modes de défaillance avant l'exécution. Intégré dans une boucle de planification avec anticipation, Learn2Fold permet la génération robuste de séquences de pliage physiquement valides pour des motifs complexes et hors distribution, démontrant qu'une intelligence spatiale efficace émerge de la synergie entre le raisonnement symbolique et la simulation physique ancrée.

English

The ability to transform a flat sheet into a complex three-dimensional structure is a fundamental test of physical intelligence. Unlike cloth manipulation, origami is governed by strict geometric axioms and hard kinematic constraints, where a single invalid crease or collision can invalidate the entire folding sequence. As a result, origami demands long-horizon constructive reasoning that jointly satisfies precise physical laws and high-level semantic intent. Existing approaches fall into two disjoint paradigms: optimization-based methods enforce physical validity but require dense, precisely specified inputs, making them unsuitable for sparse natural language descriptions, while generative foundation models excel at semantic and perceptual synthesis yet fail to produce long-horizon, physics-consistent folding processes. Consequently, generating valid origami folding sequences directly from text remains an open challenge. To address this gap, we introduce Learn2Fold, a neuro-symbolic framework that formulates origami folding as conditional program induction over a crease-pattern graph. Our key insight is to decouple semantic proposal from physical verification. A large language model generates candidate folding programs from abstract text prompts, while a learned graph-structured world model serves as a differentiable surrogate simulator that predicts physical feasibility and failure modes before execution. Integrated within a lookahead planning loop, Learn2Fold enables robust generation of physically valid folding sequences for complex and out-of-distribution patterns, demonstrating that effective spatial intelligence arises from the synergy between symbolic reasoning and grounded physical simulation.

Learn2Fold : Génération structurée d'origami par planification avec un modèle du monde

Learn2Fold: Structured Origami Generation with World Model Planning

Résumé

Support