ChatPaper.aiChatPaper

IGOR:画像目標表現は、具体的な制御ユニットであり、具体的なAIの基盤モデルにおいて重要です。

IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI

October 17, 2024
著者: Xiaoyu Chen, Junliang Guo, Tianyu He, Chuheng Zhang, Pushi Zhang, Derek Cathera Yang, Li Zhao, Jiang Bian
cs.AI

要旨

私たちは、Image-GOal Representations(IGOR)を導入し、人間とさまざまなロボット間で統一された意味論的に整合したアクション空間を学習することを目指しています。この統一された潜在的なアクション空間を通じて、IGORは大規模なロボットおよび人間の活動データ間での知識転送を可能にします。初期画像と目標状態との視覚的な変化を潜在的なアクションに圧縮することで、IGORはインターネット規模のビデオデータに対する潜在的なアクションラベルの生成を可能にします。この統一された潜在的なアクション空間により、ロボットと人間の両方によって実行されるさまざまなタスクにわたる基礎ポリシーとワールドモデルのトレーニングが可能となります。私たちは次のことを実証しています:(1)IGORは、人間とロボットの両方に対して意味論的に整合したアクション空間を学習し、物理的相互作用知識を表現するオブジェクトのさまざまな可能な動きを特徴付けます;(2)IGORは、潜在的なアクションモデルとワールドモデルを共同して使用することで、1つのビデオ内のオブジェクトの動きを他のビデオに「移行」させることができ、人間とロボットを越えて移動させることができます;(3)IGORは、基礎ポリシーモデルを介して潜在的なアクションを自然言語と整合させることを学習し、低レベルのポリシーモデルと統合して効果的なロボット制御を実現します。私たちは、IGORが人間からロボットへの知識転送と制御の新たな可能性を開くと信じています。
English
We introduce Image-GOal Representations (IGOR), aiming to learn a unified, semantically consistent action space across human and various robots. Through this unified latent action space, IGOR enables knowledge transfer among large-scale robot and human activity data. We achieve this by compressing visual changes between an initial image and its goal state into latent actions. IGOR allows us to generate latent action labels for internet-scale video data. This unified latent action space enables the training of foundation policy and world models across a wide variety of tasks performed by both robots and humans. We demonstrate that: (1) IGOR learns a semantically consistent action space for both human and robots, characterizing various possible motions of objects representing the physical interaction knowledge; (2) IGOR can "migrate" the movements of the object in the one video to other videos, even across human and robots, by jointly using the latent action model and world model; (3) IGOR can learn to align latent actions with natural language through the foundation policy model, and integrate latent actions with a low-level policy model to achieve effective robot control. We believe IGOR opens new possibilities for human-to-robot knowledge transfer and control.

Summary

AI-Generated Summary

PDF82November 13, 2024