ChatPaper.aiChatPaper

Kinematify: Síntesis de Vocabulario Abierto de Objetos Articulados de Alto Grado de Libertad

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

November 3, 2025
Autores: Jiawei Wang, Dingyou Wang, Jiaming Hu, Qixuan Zhang, Jingyi Yu, Lan Xu
cs.AI

Resumen

Una comprensión profunda de las estructuras cinemáticas y los componentes móviles es fundamental para permitir que los robots manipulen objetos y modelen sus propias formas articuladas. Dicha comprensión se captura a través de objetos articulados, los cuales son esenciales para tareas como la simulación física, la planificación de movimientos y el aprendizaje de políticas. Sin embargo, la creación de estos modelos, particularmente para objetos con altos grados de libertad (GdL), sigue siendo un desafío significativo. Los métodos existentes generalmente dependen de secuencias de movimiento o fuertes suposiciones derivadas de conjuntos de datos curados manualmente, lo que dificulta la escalabilidad. En este artículo, presentamos Kinematify, un marco automatizado que sintetiza objetos articulados directamente a partir de imágenes RGB arbitrarias o descripciones textuales. Nuestro método aborda dos desafíos centrales: (i) inferir topologías cinemáticas para objetos con altos GdL y (ii) estimar parámetros de articulaciones a partir de geometría estática. Para lograrlo, combinamos una búsqueda MCTS para la inferencia estructural con una optimización basada en geometría para el razonamiento articular, produciendo descripciones físicamente consistentes y funcionalmente válidas. Evaluamos Kinematify con diversas entradas de entornos tanto sintéticos como del mundo real, demostrando mejoras en la precisión del registro y la topología cinemática respecto a trabajos anteriores.
English
A deep understanding of kinematic structures and movable components is essential for enabling robots to manipulate objects and model their own articulated forms. Such understanding is captured through articulated objects, which are essential for tasks such as physical simulation, motion planning, and policy learning. However, creating these models, particularly for objects with high degrees of freedom (DoF), remains a significant challenge. Existing methods typically rely on motion sequences or strong assumptions from hand-curated datasets, which hinders scalability. In this paper, we introduce Kinematify, an automated framework that synthesizes articulated objects directly from arbitrary RGB images or textual descriptions. Our method addresses two core challenges: (i) inferring kinematic topologies for high-DoF objects and (ii) estimating joint parameters from static geometry. To achieve this, we combine MCTS search for structural inference with geometry-driven optimization for joint reasoning, producing physically consistent and functionally valid descriptions. We evaluate Kinematify on diverse inputs from both synthetic and real-world environments, demonstrating improvements in registration and kinematic topology accuracy over prior work.
PDF132December 1, 2025