PhyCritic: 물리적 AI를 위한 멀티모달 비평 모델
PhyCritic: Multimodal Critic Models for Physical AI
February 11, 2026
저자: Tianyi Xiong, Shihao Wang, Guilin Liu, Yi Dong, Ming Li, Heng Huang, Jan Kautz, Zhiding Yu
cs.AI
초록
대규모 멀티모달 모델의 급속한 발전으로 개방형 평가와 선호도 정렬을 위해 신뢰할 수 있는 평가 및 비판 모델이 필수적으로 자리잡았으며, 이들은 모델 생성 응답을 평가하기 위해 쌍별 선호도, 수치 점수, 설명적 근거를 제공합니다. 그러나 기존 비판 모델들은 주로 캡셔닝이나 이미지 질의응답과 같은 일반적인 시각 영역에서 훈련되어, 인과 관계 추론 및 계획을 포함하는 물리적 AI 과제는 상당 부분 미개발된 상태로 남아 있습니다. 본 연구에서는 2단계 RLVR 파이프라인을 통해 물리적 AI에 최적화된 멀티모달 비판 모델인 PhyCritic을 소개합니다: 첫 번째 단계는 물리적 지향적 인지와 추론 능력을 향상시키는 물리적 기술 준비 단계이며, 두 번째 단계는 자기 참조적 비판 미세 조정 단계로, 비판 모델이 후보 응답들을 판단하기 전에 자체 예측을 내부 참조 자료로 생성하여 판단의 안정성과 물리적 정확성을 개선합니다. 물리적 및 일반 목적의 멀티모달 평가 벤치마크 전반에서 PhyCritic은 오픈소스 기준 모델들을 크게 능가하는 강력한 성능 향상을 달성했으며, 정책 모델로 적용될 때 물리적 기반 과제에서의 인지 및 추론 능력을 추가로 개선했습니다.
English
With the rapid development of large multimodal models, reliable judge and critic models have become essential for open-ended evaluation and preference alignment, providing pairwise preferences, numerical scores, and explanatory justifications for assessing model-generated responses. However, existing critics are primarily trained in general visual domains such as captioning or image question answering, leaving physical AI tasks involving perception, causal reasoning, and planning largely underexplored. We introduce PhyCritic, a multimodal critic model optimized for physical AI through a two-stage RLVR pipeline: a physical skill warmup stage that enhances physically oriented perception and reasoning, followed by self-referential critic finetuning, where the critic generates its own prediction as an internal reference before judging candidate responses, improving judgment stability and physical correctness. Across both physical and general-purpose multimodal judge benchmarks, PhyCritic achieves strong performance gains over open-source baselines and, when applied as a policy model, further improves perception and reasoning in physically grounded tasks.