ChatPaper.aiChatPaper

RobotArena infty: 실사-시뮬레이션 변환을 통한 확장 가능한 로봇 벤치마킹

RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation

October 27, 2025
저자: Yash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki
cs.AI

초록

로봇 전문가 집단 - 다양한 환경에서 다양한 작업을 수행할 수 있는 지시 가능 에이전트 - 의 발전을 위해서는 엄격하고 확장 가능한 평가가 필수적입니다. 그러나 로봇 정책의 실제 현장 테스트는 근본적으로 제한적입니다. 이는 노동 집약적이고, 속도가 느리며, 대규모로 실행 시 안전하지 않고, 재현하기 어렵습니다. 기존의 시뮬레이션 벤치마크도 유사한 한계를 지니는데, 동일한 합성 도메인 내에서 정책을 훈련 및 테스트하므로 실제 현장 시연이나 대체 시뮬레이션 환경에서 훈련된 모델을 평가할 수 없기 때문입니다. 정책의 범위와 복잡성이 증가함에 따라, 로봇공학에서 '성공'의 정의가 종종 실행 품질에 대한 미묘한 인간의 판단에 달려 있기 때문에 이러한 장벽은 더욱 강화됩니다. 본 논문에서는 VLA 평가를 온라인 인간 피드백이 강화된 대규모 시뮬레이션 환경으로 전환하여 이러한 과제를 극복하는 새로운 벤치마킹 프레임워크를 소개합니다. 비전-언어 모델, 2D-to-3D 생성 모델링, 미분 가능 렌더링 분야의 발전을 활용하여, 우리의 접근 방식은 널리 사용되는 로봇 데이터셋의 비디오 시연을 자동으로 시뮬레이션 대응체로 변환합니다. 이러한 디지털 트윈 내에서 우리는 자동화된 VLM 기반 점수화와 크라우드워커로부터 수집된 확장 가능한 인간 선호도 판단을 모두 사용하여 VLA 정책을 평가하며, 인간의 관여를 지루한 장면 설정, 재설정, 안전 감독에서 가벼운 선호도 비교로 전환합니다. 강건성을 측정하기 위해 텍스처 및 객체 배치와 같은 여러 축을 따라 시뮬레이션 환경을 체계적으로 교란하여 통제된 변동 하에서의 정책 일반화를 스트레스 테스트합니다. 그 결과 현재 로봇공학 환경에서 중요한 공백을 해소하는, 실제 현장 훈련 로봇 매니퓰레이션 정책을 위한 지속적으로 진화하고 재현 가능하며 확장 가능한 벤치마크가 마련됩니다.
English
The pursuit of robot generalists - instructable agents capable of performing diverse tasks across diverse environments - demands rigorous and scalable evaluation. Yet real-world testing of robot policies remains fundamentally constrained: it is labor-intensive, slow, unsafe at scale, and difficult to reproduce. Existing simulation benchmarks are similarly limited, as they train and test policies within the same synthetic domains and cannot assess models trained from real-world demonstrations or alternative simulation environments. As policies expand in scope and complexity, these barriers only intensify, since defining "success" in robotics often hinges on nuanced human judgments of execution quality. In this paper, we introduce a new benchmarking framework that overcomes these challenges by shifting VLA evaluation into large-scale simulated environments augmented with online human feedback. Leveraging advances in vision-language models, 2D-to-3D generative modeling, and differentiable rendering, our approach automatically converts video demonstrations from widely used robot datasets into simulated counterparts. Within these digital twins, we assess VLA policies using both automated VLM-guided scoring and scalable human preference judgments collected from crowdworkers, transforming human involvement from tedious scene setup, resetting, and safety supervision into lightweight preference comparisons. To measure robustness, we systematically perturb simulated environments along multiple axes, such as textures and object placements, stress-testing policy generalization under controlled variation. The result is a continuously evolving, reproducible, and scalable benchmark for real-world trained robot manipulation policies, addressing a critical missing capability in today's robotics landscape.
PDF81December 31, 2025