PhyCritic: 物理AIのためのマルチモーダル批評モデル
PhyCritic: Multimodal Critic Models for Physical AI
February 11, 2026
著者: Tianyi Xiong, Shihao Wang, Guilin Liu, Yi Dong, Ming Li, Heng Huang, Jan Kautz, Zhiding Yu
cs.AI
要旨
大規模マルチモーダルモデルの急速な発展に伴い、信頼性の高い評価者・批評家モデルが、オープンエンドな評価と選好調整において不可欠となっている。これらはモデル生成応答を評価するために、ペアワイズ選好、数値スコア、説明的根拠を提供する。しかし、既存の批評家モデルは主に、キャプション生成や画像質問応答などの一般的な視覚領域で学習されており、知覚、因果推論、計画立案を含む物理AIタスクは未開拓のままである。本研究では、物理AIに最適化されたマルチモーダル批評家モデルPhyCriticを提案する。これは2段階のRLVRパイプラインを通じて構築される:物理スキル準備段階では物理指向の知覚と推論を強化し、その後自己参照的批評家ファインチューニングを実施する。後者では、批評家が候補応答を評価する前に自身の予測を内部参照として生成し、判断の安定性と物理的正確性を向上させる。物理的および汎用マルチモーダル評価ベンチマークにおいて、PhyCriticはオープンソースベースラインを大幅に上回る性能向上を達成し、政策モデルとして適用した場合、物理的基盤を持つタスクにおける知覚と推論をさらに改善する。
English
With the rapid development of large multimodal models, reliable judge and critic models have become essential for open-ended evaluation and preference alignment, providing pairwise preferences, numerical scores, and explanatory justifications for assessing model-generated responses. However, existing critics are primarily trained in general visual domains such as captioning or image question answering, leaving physical AI tasks involving perception, causal reasoning, and planning largely underexplored. We introduce PhyCritic, a multimodal critic model optimized for physical AI through a two-stage RLVR pipeline: a physical skill warmup stage that enhances physically oriented perception and reasoning, followed by self-referential critic finetuning, where the critic generates its own prediction as an internal reference before judging candidate responses, improving judgment stability and physical correctness. Across both physical and general-purpose multimodal judge benchmarks, PhyCritic achieves strong performance gains over open-source baselines and, when applied as a policy model, further improves perception and reasoning in physically grounded tasks.