ChatPaper.aiChatPaper

PhyCritic : Modèles critiques multimodaux pour l'intelligence artificielle physique

PhyCritic: Multimodal Critic Models for Physical AI

February 11, 2026
papers.authors: Tianyi Xiong, Shihao Wang, Guilin Liu, Yi Dong, Ming Li, Heng Huang, Jan Kautz, Zhiding Yu
cs.AI

papers.abstract

Avec le développement rapide des grands modèles multimodaux, des modèles évaluateurs et critiques fiables sont devenus essentiels pour l'évaluation ouverte et l'alignement des préférences, fournissant des préférences par paires, des scores numériques et des justifications explicatives pour évaluer les réponses générées par les modèles. Cependant, les critiques existants sont principalement entraînés dans des domaines visuels généraux tels que la légende d'images ou le question-réponse visuel, laissant les tâches d'IA physique impliquant la perception, le raisonnement causal et la planification largement sous-explorées. Nous présentons PhyCritic, un modèle critique multimodal optimisé pour l'IA physique grâce à un pipeline RLVR en deux étapes : une phase d'échauffement des compétences physiques qui améliore la perception et le raisonnement orientés vers le physique, suivie d'un affinage critique autoréférentiel, où le critique génère sa propre prédiction comme référence interne avant de juger les réponses candidates, améliorant ainsi la stabilité du jugement et l'exactitude physique. Sur des benchmarks d'évaluation multimodaux à la fois physiques et généralistes, PhyCritic obtient des gains de performance significatifs par rapport aux solutions open-source de référence et, lorsqu'il est appliqué comme modèle de politique, améliore encore la perception et le raisonnement dans les tâches ancrées dans le physique.
English
With the rapid development of large multimodal models, reliable judge and critic models have become essential for open-ended evaluation and preference alignment, providing pairwise preferences, numerical scores, and explanatory justifications for assessing model-generated responses. However, existing critics are primarily trained in general visual domains such as captioning or image question answering, leaving physical AI tasks involving perception, causal reasoning, and planning largely underexplored. We introduce PhyCritic, a multimodal critic model optimized for physical AI through a two-stage RLVR pipeline: a physical skill warmup stage that enhances physically oriented perception and reasoning, followed by self-referential critic finetuning, where the critic generates its own prediction as an internal reference before judging candidate responses, improving judgment stability and physical correctness. Across both physical and general-purpose multimodal judge benchmarks, PhyCritic achieves strong performance gains over open-source baselines and, when applied as a policy model, further improves perception and reasoning in physically grounded tasks.
PDF431February 13, 2026