PhyCritic: Мультимодальные критические модели для физического искусственного интеллекта
PhyCritic: Multimodal Critic Models for Physical AI
February 11, 2026
Авторы: Tianyi Xiong, Shihao Wang, Guilin Liu, Yi Dong, Ming Li, Heng Huang, Jan Kautz, Zhiding Yu
cs.AI
Аннотация
С быстрым развитием крупных мультимодальных моделей надежные модели-критики и оценщики стали необходимы для открытой оценки и согласования предпочтений, предоставляя парные сравнения, численные оценки и объясняющие обоснования для анализа сгенерированных моделями ответов. Однако существующие критики в основном обучаются в общих визуальных областях, таких как создание описаний или визуальные вопросы-ответы, оставляя задачи физического ИИ, связанные с восприятием, каузальными рассуждениями и планированием, практически неисследованными. Мы представляем PhyCritic, мультимодальную модель-критика, оптимизированную для физического ИИ через двухэтапный RLVR-конвейер: этап разогрева физических навыков, улучшающий физически ориентированное восприятие и рассуждения, с последующей самоссылочной донастройкой критика, когда модель генерирует собственный прогноз как внутренний ориентир перед оценкой кандидатных ответов, повышая стабильность суждений и физическую корректность. На бенчмарках как для физических, так и для общецелевых мультимодальных оценщиков PhyCritic демонстрирует значительное превосходство над открытыми базовыми моделями и, при применении в качестве политической модели, дополнительно улучшает восприятие и рассуждения в задачах с физической основой.
English
With the rapid development of large multimodal models, reliable judge and critic models have become essential for open-ended evaluation and preference alignment, providing pairwise preferences, numerical scores, and explanatory justifications for assessing model-generated responses. However, existing critics are primarily trained in general visual domains such as captioning or image question answering, leaving physical AI tasks involving perception, causal reasoning, and planning largely underexplored. We introduce PhyCritic, a multimodal critic model optimized for physical AI through a two-stage RLVR pipeline: a physical skill warmup stage that enhances physically oriented perception and reasoning, followed by self-referential critic finetuning, where the critic generates its own prediction as an internal reference before judging candidate responses, improving judgment stability and physical correctness. Across both physical and general-purpose multimodal judge benchmarks, PhyCritic achieves strong performance gains over open-source baselines and, when applied as a policy model, further improves perception and reasoning in physically grounded tasks.