Learn2Fold: Генерация структурированных оригами с планированием на основе мировой модели

Аннотация

Способность преобразовывать плоский лист в сложную трёхмерную структуру является фундаментальной проверкой физического интеллекта. В отличие от манипуляций с тканью, оригами управляется строгими геометрическими аксиомами и жёсткими кинематическими ограничениями, где единственный недопустимый сгиб или коллизия может сделать недействительной всю последовательность складывания. Как следствие, оригами требует конструктивного рассуждения на большом горизонте, которое совместно удовлетворяет точным физическим законам и семантическому замыслу высокого уровня. Существующие подходы делятся на две несвязанные парадигмы: методы на основе оптимизации обеспечивают физическую корректность, но требуют плотных, точно заданных входных данных, что делает их непригодными для разреженных описаний на естественном языке, в то время как генеративные фундаментальные модели превосходны в семантическом и перцептивном синтезе, но не способны воспроизводить длительные, физически согласованные процессы складывания. Следовательно, генерация корректных последовательностей складывания оригами непосредственно из текста остаётся нерешённой задачей. Для преодоления этого разрыва мы представляем Learn2Fold, нейро-символический фреймворк, который формулирует складывание оригами как условную индукцию программ над графом паттерна складок. Наше ключевое наблюдение заключается в разделении семантического предложения и физической проверки. Большая языковая модель генерирует кандидатные программы складывания из абстрактных текстовых промптов, тогда как обученная графовая модель мира служит дифференцируемым суррогатным симулятором, который предсказывает физическую осуществимость и режимы сбоя до выполнения. Интегрированный в цикл планирования с упреждением, Learn2Fold обеспечивает robustную генерацию физически корректных последовательностей складывания для сложных и выходящих за пределы распределения паттернов, демонстрируя, что эффективный пространственный интеллект возникает из синергии между символьными рассуждениями и обоснованным физическим моделированием.

English

The ability to transform a flat sheet into a complex three-dimensional structure is a fundamental test of physical intelligence. Unlike cloth manipulation, origami is governed by strict geometric axioms and hard kinematic constraints, where a single invalid crease or collision can invalidate the entire folding sequence. As a result, origami demands long-horizon constructive reasoning that jointly satisfies precise physical laws and high-level semantic intent. Existing approaches fall into two disjoint paradigms: optimization-based methods enforce physical validity but require dense, precisely specified inputs, making them unsuitable for sparse natural language descriptions, while generative foundation models excel at semantic and perceptual synthesis yet fail to produce long-horizon, physics-consistent folding processes. Consequently, generating valid origami folding sequences directly from text remains an open challenge. To address this gap, we introduce Learn2Fold, a neuro-symbolic framework that formulates origami folding as conditional program induction over a crease-pattern graph. Our key insight is to decouple semantic proposal from physical verification. A large language model generates candidate folding programs from abstract text prompts, while a learned graph-structured world model serves as a differentiable surrogate simulator that predicts physical feasibility and failure modes before execution. Integrated within a lookahead planning loop, Learn2Fold enables robust generation of physically valid folding sequences for complex and out-of-distribution patterns, demonstrating that effective spatial intelligence arises from the synergy between symbolic reasoning and grounded physical simulation.

Learn2Fold: Генерация структурированных оригами с планированием на основе мировой модели

Learn2Fold: Structured Origami Generation with World Model Planning

Аннотация

Support