액트투골: 세계 모델에서 일반 목표 조건 정책으로
Act2Goal: From World Model To General Goal-conditioned Policy
December 29, 2025
저자: Pengfei Zhou, Liliang Chen, Shengcong Chen, Di Chen, Wenzhi Zhao, Rongjun Jin, Guanghui Ren, Jianlan Luo
cs.AI
초록
로봇 매니퓰레이션 작업을 표현력과 정밀성 모두를 갖춘 방식으로 명세화하는 것은 여전히 핵심적인 과제로 남아 있다. 시각적 목표는 간결하고 명확한 작업 명세를 제공하지만, 기존 목표-조건 정책은 작업 진행을 명시적으로 모델링하지 않은 단일 단계 행동 예측에 의존하기 때문에 장기간 지속되는 매니퓰레이션에서 어려움을 겪는 경우가 많다. 우리는 목표-조건 시각 세계 모델과 다중 시간尺度 제어를 통합한 일반적인 목표-조건 매니퓰레이션 정책인 Act2Goal을 제안한다. 현재 관측값과 목표 시각 목표가 주어지면, 세계 모델은 장기간 구조를 포착하는 중간 시각 상태들의 그럴듯한 연속을 생성한다. 이 시각적 계획을 강인한 실행으로 전환하기 위해, 우리는 다중 시간尺度 시간 해싱(MSTH)을 도입한다. 이는 상상된 궤적을 세분화된 폐루프 제어를 위한 조밀한 근위 프레임과 전역 작업 일관성을 고정하는 희소한 원위 프레임으로 분해한다. 이 정책은 엔드-투-엔드 크로스-어텐션을 통해 이러한 표현을 운동 제어와 결합하여 지역적 방해에 대해 반응성을 유지하면서도 일관된 장기간 행동을 가능하게 한다. Act2Goal은 새로운 객체, 공간 배치 및 환경에 대한 강력한 제로-샷 일반화 성능을 달성한다. 또한 LoRA 기반 미세 조정을 통한 후견적 목표 재설정으로 보상-자유 온라인 적응을 추가로 가능하게 하여 외부 감독 없이 신속한 자율 개선을 허용한다. 실제 로봇 실험 결과, Act2Goal은 분포 외 작업에서 성공률을 30%에서 90%로 향상시키며, 자율 상호작용 시작 후 몇 분 내에 도달함을 보여준다. 이는 다중 시간尺度 제어를 갖춘 목표-조건 세계 모델이 강인한 장기간 매니퓰레이션에 필요한 구조화된 지도를 제공함을 입증한다. 프로젝트 페이지: https://act2goal.github.io/
English
Specifying robotic manipulation tasks in a manner that is both expressive and precise remains a central challenge. While visual goals provide a compact and unambiguous task specification, existing goal-conditioned policies often struggle with long-horizon manipulation due to their reliance on single-step action prediction without explicit modeling of task progress. We propose Act2Goal, a general goal-conditioned manipulation policy that integrates a goal-conditioned visual world model with multi-scale temporal control. Given a current observation and a target visual goal, the world model generates a plausible sequence of intermediate visual states that captures long-horizon structure. To translate this visual plan into robust execution, we introduce Multi-Scale Temporal Hashing (MSTH), which decomposes the imagined trajectory into dense proximal frames for fine-grained closed-loop control and sparse distal frames that anchor global task consistency. The policy couples these representations with motor control through end-to-end cross-attention, enabling coherent long-horizon behavior while remaining reactive to local disturbances. Act2Goal achieves strong zero-shot generalization to novel objects, spatial layouts, and environments. We further enable reward-free online adaptation through hindsight goal relabeling with LoRA-based finetuning, allowing rapid autonomous improvement without external supervision. Real-robot experiments demonstrate that Act2Goal improves success rates from 30% to 90% on challenging out-of-distribution tasks within minutes of autonomous interaction, validating that goal-conditioned world models with multi-scale temporal control provide structured guidance necessary for robust long-horizon manipulation. Project page: https://act2goal.github.io/