FRAPPE: 다중 미래 표현 정렬을 통한 범용 정책에 세계 모델링 주입
FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment
February 19, 2026
저자: Han Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang
cs.AI
초록
환경 역학을 예측하는 VLA 모델 구현(월드 모델링으로 알려짐)은 로봇 추론 및 일반화 성능 향상에 필수적인 요소로 인식되어 왔습니다. 그러나 기존 방법론은 두 가지 주요 문제에 직면해 있습니다: 1. 훈련 목표가 모델이 픽셀 수준 재구성에 지나치게 집중하도록 하여 의미론적 학습과 일반화를 제한한다는 점, 2. 추론 과정에서 예측된 미래 관측값에 의존함에 따라 오류 누적이 빈번하게 발생한다는 점입니다. 이러한 과제를 해결하기 위해 우리는 병렬 점진적 확장을 통한 미래 표현 정렬(FRAPPE) 방법을 제안합니다. 우리의 방법은 두 단계의 미세 조정 전략을 채택합니다: 중간 훈련 단계에서는 모델이 미래 관측값의 잠재 표현을 예측하도록 학습하며, 후속 훈련 단계에서는 병렬적으로 계산 부하를 확장하고 여러 다양한 시각 기초 모델과의 표현 정렬을 동시에 수행합니다. 미세 조정 효율을 크게 개선하고 행동 주석 데이터에 대한 의존성을 줄임으로써, FRAPPE는 일반 목적 로봇 정책의 월드 인식 향상을 위한 확장 가능하고 데이터 효율적인 경로를 제공합니다. RoboTwin 벤치마크 및 실제 작업에 대한 실험 결과, FRAPPE가 최첨단 접근법을 능가하며 장기간 및 보이지 않은 시나리오에서도 강력한 일반화 성능을 보여줌을 확인했습니다.
English
Enabling VLA models to predict environmental dynamics, known as world modeling, has been recognized as essential for improving robotic reasoning and generalization. However, current approaches face two main issues: 1. The training objective forces models to over-emphasize pixel-level reconstruction, which constrains semantic learning and generalization 2. Reliance on predicted future observations during inference often leads to error accumulation. To address these challenges, we introduce Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Our method adopts a two-stage fine-tuning strategy: In the mid-training phase, the model learns to predict the latent representations of future observations; In the post-training phase, we expand the computational workload in parallel and align the representation simultaneously with multiple different visual foundation models. By significantly improving fine-tuning efficiency and reducing dependence on action-annotated data, FRAPPE provides a scalable and data-efficient pathway to enhance world-awareness in generalist robotic policies. Experiments on the RoboTwin benchmark and real-world tasks demonstrate that FRAPPE outperforms state-of-the-art approaches and shows strong generalization in long-horizon and unseen scenarios.