PhyCritic: Multimodale Criticus-modellen voor Fysieke Kunstmatige Intelligentie

Samenvatting

Met de snelle ontwikkeling van grote multimodale modellen zijn betrouwbare beoordelings- en criticusmodellen essentieel geworden voor open-einde evaluatie en voorkeursafstemming. Ze bieden paarsgewijze voorkeuren, numerieke scores en verklarende rechtvaardigingen voor het beoordelen van door modellen gegenereerde reacties. Echter, bestaande criticusmodellen zijn voornamelijk getraind in algemene visuele domeinen zoals beeldbeschrijving of beeldvraagbeantwoording, waardoor fysieke AI-taken waarbij waarneming, causaal redeneren en planning centraal staan grotendeels onderbelicht blijven. Wij introduceren PhyCritic, een multimodaal criticusmodel geoptimaliseerd voor fysieke AI via een tweefasen RLVR-pijplijn: een opwarmfase voor fysieke vaardigheden die fysiek georiënteerde waarneming en redeneren verbetert, gevolgd door zelfreferentiële fijnafstemming van de criticus. Hierbij genereert de criticus zijn eigen voorspelling als interne referentie alvorens kandidaatreacties te beoordelen, wat de beoordelingsstabiliteit en fysieke correctheid verbetert. Op zowel fysieke als algemene multimodale beoordelingsbenchmarks behaalt PhyCritic aanzienlijke prestatieverbeteringen ten opzichte van open-source basislijnen en, wanneer toegepast als beleidsmodel, verbetert het verder de waarneming en redeneervaardigheden in fysiek onderbouwde taken.

English

With the rapid development of large multimodal models, reliable judge and critic models have become essential for open-ended evaluation and preference alignment, providing pairwise preferences, numerical scores, and explanatory justifications for assessing model-generated responses. However, existing critics are primarily trained in general visual domains such as captioning or image question answering, leaving physical AI tasks involving perception, causal reasoning, and planning largely underexplored. We introduce PhyCritic, a multimodal critic model optimized for physical AI through a two-stage RLVR pipeline: a physical skill warmup stage that enhances physically oriented perception and reasoning, followed by self-referential critic finetuning, where the critic generates its own prediction as an internal reference before judging candidate responses, improving judgment stability and physical correctness. Across both physical and general-purpose multimodal judge benchmarks, PhyCritic achieves strong performance gains over open-source baselines and, when applied as a policy model, further improves perception and reasoning in physically grounded tasks.

PhyCritic: Multimodale Criticus-modellen voor Fysieke Kunstmatige Intelligentie

PhyCritic: Multimodal Critic Models for Physical AI

Samenvatting

Support