Learn2Fold: Strukturierte Origami-Generierung mit World-Model-Planning

Zusammenfassung

Die Fähigkeit, eine flache Fläche in eine komplexe dreidimensionale Struktur zu überführen, ist ein grundlegender Test des physikalischen Intelligenz. Im Gegensatz zur Manipulation von Stoff wird Origami durch strenge geometrische Axiome und harte kinematische Zwänge bestimmt, bei der eine einzelne ungültige Faltlinie oder Kollision die gesamte Faltsequenz ungültig machen kann. Folglich erfordert Origami ein langfristiges konstruktives Reasoning, das präzise physikalische Gesetze und hochrangige semantische Absichten gleichzeitig erfüllt. Bestehende Ansätze lassen sich in zwei getrennte Paradigmen einteilen: Optimierungsbasierte Methoden erzwingen physikalische Validität, erfordern jedoch dichte, präzise spezifizierte Eingaben, was sie für spärliche natürliche Sprachbeschreibungen ungeeignet macht. Generative Foundation-Modelle hingegen glänzen bei der semantischen und perzeptuellen Synthese, scheitern aber daran, langfristige, physikalisch konsistente Faltprozesse zu erzeugen. Folglich bleibt die Generierung gültiger Origami-Faltsequenzen direkt aus Text eine ungelöste Herausforderung. Um diese Lücke zu schließen, stellen wir Learn2Fold vor, einen neuro-symbolischen Rahmen, der Origami-Falten als konditionelle Programminduktion über einen Faltlinien-Graphen formuliert. Unsere zentrale Erkenntnis ist die Entkopplung von semantischem Vorschlag und physikalischer Verifikation. Ein großes Sprachmodell generiert Kandidaten-Faltprogramme aus abstrakten Textaufforderungen, während ein gelernter graphstrukturierter Weltmodell als differenzierbarer Surrogat-Simulator dient, der die physikalische Machbarkeit und Fehlermodi vor der Ausführung vorhersagt. Integriert in eine Lookahead-Planungsschleife ermöglicht Learn2Fold die robuste Generierung physikalisch valider Faltsequenzen für komplexe und Out-of-Distribution-Muster und zeigt, dass effektive räumliche Intelligenz aus der Synergie zwischen symbolischem Reasoning und geerdeter physikalischer Simulation entsteht.

English

The ability to transform a flat sheet into a complex three-dimensional structure is a fundamental test of physical intelligence. Unlike cloth manipulation, origami is governed by strict geometric axioms and hard kinematic constraints, where a single invalid crease or collision can invalidate the entire folding sequence. As a result, origami demands long-horizon constructive reasoning that jointly satisfies precise physical laws and high-level semantic intent. Existing approaches fall into two disjoint paradigms: optimization-based methods enforce physical validity but require dense, precisely specified inputs, making them unsuitable for sparse natural language descriptions, while generative foundation models excel at semantic and perceptual synthesis yet fail to produce long-horizon, physics-consistent folding processes. Consequently, generating valid origami folding sequences directly from text remains an open challenge. To address this gap, we introduce Learn2Fold, a neuro-symbolic framework that formulates origami folding as conditional program induction over a crease-pattern graph. Our key insight is to decouple semantic proposal from physical verification. A large language model generates candidate folding programs from abstract text prompts, while a learned graph-structured world model serves as a differentiable surrogate simulator that predicts physical feasibility and failure modes before execution. Integrated within a lookahead planning loop, Learn2Fold enables robust generation of physically valid folding sequences for complex and out-of-distribution patterns, demonstrating that effective spatial intelligence arises from the synergy between symbolic reasoning and grounded physical simulation.

Learn2Fold: Strukturierte Origami-Generierung mit World-Model-Planning

Learn2Fold: Structured Origami Generation with World Model Planning

Zusammenfassung

Support