EBench: Элементарная диагностика универсальных политик мобильного манипулирования

Аннотация

Мы представляем EBench — симуляционный эталонный тест, предназначенный для диагностики общих политик мобильных манипуляций, выходящей за рамки единого скалярного показателя успешности. EBench включает 26 разнообразных и сложных задач манипуляции, аннотированных по 5 измерениям способностей и 4 измерениям обобщения. Мы оцениваем современные общие модели манипуляций, включая π_0, π_{0.5}, XVLA и InternVLA-A1, и выявляем, что модели с близкими показателями успешности демонстрируют разительно разные профили способностей: π_{0.5} достигает наивысшего показателя успешности на тесте и наилучшего сохранения обучение-тест, тогда как InternVLA-A1 доминирует в мобильной манипуляции, но терпит крах на ловких задачах, а XVLA проявляет сильные стороны на разрозненном наборе атомарных навыков по сравнению с другими политиками. Помимо профилирования способностей, EBench анализирует способность к обобщению с 4 репрезентативных точек зрения, выявляя влияние различных факторов смещения распределения. Результаты раскрывают сильные и слабые стороны моделей, скрытые за общим показателем. Мы надеемся, что этот эталонный тест предоставит широкий набор диагностических сигналов для направления итераций по общим моделям манипуляций.

English

We present EBench, a simulation benchmark that diagnoses generalist mobile manipulation policies beyond a single success-rate scalar. EBench comprises 26 diverse and challenging manipulation tasks annotated along 5 capability dimensions and 4 generalization dimensions. We evaluate state-of-the-art generalist manipulation models including π_0, π_{0.5}, XVLA, and InternVLA-A1, and reveal that models with near success rates exhibit strikingly different capability profiles: π_{0.5} achieves the highest test success rate and the best train--test retention, whereas InternVLA-A1 dominates mobile manipulation but collapses on dexterous tasks, and XVLA exhibits strengths on a disjoint set of atomic skills compared to other policies. Beyond capability profiling, EBench analyzes the generalization ability from 4 representative perspectives, identifying the impact of different distribution shift factors. The results reveal strengths and weaknesses of models behind an overall score. We hope this benchmark offers a broad set of diagnostic signals to guide iteration on generalist manipulation models.