PhyCritic: Modelli critici multimodali per l'intelligenza artificiale fisica

Abstract

Con il rapido sviluppo dei modelli multimodali di grandi dimensioni, modelli giudice e critico affidabili sono diventati essenziali per la valutazione a risposta aperta e l'allineamento delle preferenze, fornendo preferenze a coppie, punteggi numerici e giustificazioni esplicative per valutare le risposte generate dai modelli. Tuttavia, i critici esistenti sono principalmente addestrati in domini visivi generici come la descrizione immagini o il question answering su immagini, lasciando in gran parte inesplorati i compiti di intelligenza artificiale fisica che coinvolgono percezione, ragionamento causale e pianificazione. Introduciamo PhyCritic, un modello critico multimodale ottimizzato per l'IA fisica attraverso una pipeline RLVR in due fasi: una fase di riscaldamento delle abilità fisiche che potenzia la percezione e il ragionamento orientati alla fisica, seguita da un fine-tuning critico auto-referenziale, in cui il critico genera la propria previsione come riferimento interno prima di giudicare le risposte candidate, migliorando la stabilità del giudizio e la correttezza fisica. Su benchmark sia per giudici multimodali fisici che generici, PhyCritic ottiene consistenti miglioramenti prestazionali rispetto ai baseline open-source e, quando applicato come modello policy, migliora ulteriormente la percezione e il ragionamento in compiti radicati nella fisica.

English

With the rapid development of large multimodal models, reliable judge and critic models have become essential for open-ended evaluation and preference alignment, providing pairwise preferences, numerical scores, and explanatory justifications for assessing model-generated responses. However, existing critics are primarily trained in general visual domains such as captioning or image question answering, leaving physical AI tasks involving perception, causal reasoning, and planning largely underexplored. We introduce PhyCritic, a multimodal critic model optimized for physical AI through a two-stage RLVR pipeline: a physical skill warmup stage that enhances physically oriented perception and reasoning, followed by self-referential critic finetuning, where the critic generates its own prediction as an internal reference before judging candidate responses, improving judgment stability and physical correctness. Across both physical and general-purpose multimodal judge benchmarks, PhyCritic achieves strong performance gains over open-source baselines and, when applied as a policy model, further improves perception and reasoning in physically grounded tasks.

PhyCritic: Modelli critici multimodali per l'intelligenza artificiale fisica

PhyCritic: Multimodal Critic Models for Physical AI

Abstract

Support