ChatPaper.aiChatPaper

EBench: Элементарная диагностика универсальных политик мобильного манипулирования

EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies

June 20, 2026
Авторы: Ning Gao, Jinliang Zheng, Xing Gao, Haoxiang Ma, Hanqing Wang, Yukai Wang, Jiantong Chen, Zanxin Chen, Shujie Zhang, Mingda Jia, Xuekun Jiang, Zihou Zhu, Xinyu Li, Shuai Wang, Hao Li, Wenzhe Cai, Yuqiang Yang, Xudong Xu, Zhaoyang Lyu, Yao Mu, Tai Wang, Jiangmiao Pang, Jia Zeng, Weinan Zhang, Chunhua Shen
cs.AI

Аннотация

Мы представляем EBench — симуляционный эталонный тест, предназначенный для диагностики общих политик мобильных манипуляций, выходящей за рамки единого скалярного показателя успешности. EBench включает 26 разнообразных и сложных задач манипуляции, аннотированных по 5 измерениям способностей и 4 измерениям обобщения. Мы оцениваем современные общие модели манипуляций, включая π_0, π_{0.5}, XVLA и InternVLA-A1, и выявляем, что модели с близкими показателями успешности демонстрируют разительно разные профили способностей: π_{0.5} достигает наивысшего показателя успешности на тесте и наилучшего сохранения обучение-тест, тогда как InternVLA-A1 доминирует в мобильной манипуляции, но терпит крах на ловких задачах, а XVLA проявляет сильные стороны на разрозненном наборе атомарных навыков по сравнению с другими политиками. Помимо профилирования способностей, EBench анализирует способность к обобщению с 4 репрезентативных точек зрения, выявляя влияние различных факторов смещения распределения. Результаты раскрывают сильные и слабые стороны моделей, скрытые за общим показателем. Мы надеемся, что этот эталонный тест предоставит широкий набор диагностических сигналов для направления итераций по общим моделям манипуляций.
English
We present EBench, a simulation benchmark that diagnoses generalist mobile manipulation policies beyond a single success-rate scalar. EBench comprises 26 diverse and challenging manipulation tasks annotated along 5 capability dimensions and 4 generalization dimensions. We evaluate state-of-the-art generalist manipulation models including π_0, π_{0.5}, XVLA, and InternVLA-A1, and reveal that models with near success rates exhibit strikingly different capability profiles: π_{0.5} achieves the highest test success rate and the best train--test retention, whereas InternVLA-A1 dominates mobile manipulation but collapses on dexterous tasks, and XVLA exhibits strengths on a disjoint set of atomic skills compared to other policies. Beyond capability profiling, EBench analyzes the generalization ability from 4 representative perspectives, identifying the impact of different distribution shift factors. The results reveal strengths and weaknesses of models behind an overall score. We hope this benchmark offers a broad set of diagnostic signals to guide iteration on generalist manipulation models.