ChatPaper.aiChatPaper

로봇 학습을 위한 사전 훈련된 비전 모델의 데이터 중심 재검토

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

March 10, 2025
저자: Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
cs.AI

초록

사전 학습된 비전 모델(PVMs)은 현대 로보틱스의 기초를 이루지만, 이들의 최적 구성은 여전히 명확하지 않습니다. 체계적인 평가를 통해 우리는 DINO와 iBOT이 MAE보다 시각운제어 및 인식 작업에서 우수한 성능을 보이지만, 비(단일)객체 중심(NOC) 데이터로 학습할 때 어려움을 겪는다는 것을 발견했습니다. 이러한 한계는 객체 중심 표현을 학습하는 능력이 감소한 것과 강한 상관관계가 있습니다. 이 연구는 비객체 중심 로보틱스 데이터셋에서 객체 중심 표현을 형성하는 능력이 PVMs의 성공 열쇠임을 보여줍니다. 이러한 발견에 영감을 받아, 우리는 객체성을 촉진하기 위해 프로토타입의 수를 줄이는 의미론적 병목을 도입하고, 다중 뷰 불변성을 촉진하기 위해 교차 뷰 일관성 정규화를 추가하여 객체 중심 표현을 유도하는 SlotMIM 방법을 설계했습니다. 우리의 실험은 객체 중심, 장면 중심, 웹 크롤링, 그리고 자기 중심 데이터에 대한 사전 학습을 포함합니다. 모든 설정에서 우리의 접근 방식은 전이 가능한 표현을 학습하며, 이미지 인식, 장면 이해, 그리고 로봇 학습 평가에서 이전 연구 대비 상당한 개선을 달성했습니다. 대규모 데이터셋으로 확장했을 때, 우리의 방법은 또한 우수한 데이터 효율성과 확장성을 보여줍니다. 우리의 코드와 모델은 https://github.com/CVMI-Lab/SlotMIM에서 공개적으로 이용 가능합니다.
English
Pre-trained vision models (PVMs) are fundamental to modern robotics, yet their optimal configuration remains unclear. Through systematic evaluation, we find that while DINO and iBOT outperform MAE across visuomotor control and perception tasks, they struggle when trained on non-(single-)object-centric (NOC) data--a limitation strongly correlated with their diminished ability to learn object-centric representations. This investigation indicates that the ability to form object-centric representations from the non-object-centric robotics dataset is the key to success for PVMs. Motivated by this discovery, we designed SlotMIM, a method that induces object-centric representations by introducing a semantic bottleneck to reduce the number of prototypes to encourage the emergence of objectness as well as cross-view consistency regularization for encouraging multiview invariance. Our experiments encompass pre-training on object-centric, scene-centric, web-crawled, and ego-centric data. Across all settings, our approach learns transferrable representations and achieves significant improvements over prior work in image recognition, scene understanding, and robot learning evaluations. When scaled up with million-scale datasets, our method also demonstrates superior data efficiency and scalability. Our code and models are publicly available at https://github.com/CVMI-Lab/SlotMIM.

Summary

AI-Generated Summary

PDF32March 11, 2025