ChatPaper.aiChatPaper

Kinematify: Синтез сочлененных объектов с высокой степенью свободы на основе открытого словаря

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

November 3, 2025
Авторы: Jiawei Wang, Dingyou Wang, Jiaming Hu, Qixuan Zhang, Jingyi Yu, Lan Xu
cs.AI

Аннотация

Глубокое понимание кинематических структур и подвижных компонентов крайне важно для обеспечения способности роботов манипулировать объектами и моделировать свои собственные шарнирные формы. Такое понимание фиксируется в виде шарнирных объектов, которые необходимы для таких задач, как физическое моделирование, планирование движений и обучение стратегиям. Однако создание этих моделей, особенно для объектов с высокой степенью подвижности (DoF), остается серьезной проблемой. Существующие методы обычно опираются на последовательности движений или строгие допущения, основанные на тщательно отобранных наборах данных, что ограничивает их масштабируемость. В данной статье мы представляем Kinematify — автоматизированную систему, которая синтезирует шарнирные объекты непосредственно из произвольных RGB-изображений или текстовых описаний. Наш метод решает две ключевые задачи: (i) вывод кинематических топологий для объектов с высокой DoF и (ii) оценку параметров сочленений по статической геометрии. Для этого мы сочетаем поиск методом MCTS для структурного вывода с геометрически-ориентированной оптимизацией для анализа сочленений, получая физически согласованные и функционально корректные описания. Мы оцениваем Kinematify на разнообразных входных данных из синтетических и реальных сред, демонстрируя улучшения в точности регистрации и кинематической топологии по сравнению с предыдущими работами.
English
A deep understanding of kinematic structures and movable components is essential for enabling robots to manipulate objects and model their own articulated forms. Such understanding is captured through articulated objects, which are essential for tasks such as physical simulation, motion planning, and policy learning. However, creating these models, particularly for objects with high degrees of freedom (DoF), remains a significant challenge. Existing methods typically rely on motion sequences or strong assumptions from hand-curated datasets, which hinders scalability. In this paper, we introduce Kinematify, an automated framework that synthesizes articulated objects directly from arbitrary RGB images or textual descriptions. Our method addresses two core challenges: (i) inferring kinematic topologies for high-DoF objects and (ii) estimating joint parameters from static geometry. To achieve this, we combine MCTS search for structural inference with geometry-driven optimization for joint reasoning, producing physically consistent and functionally valid descriptions. We evaluate Kinematify on diverse inputs from both synthetic and real-world environments, demonstrating improvements in registration and kinematic topology accuracy over prior work.
PDF132December 1, 2025