PhyCritic: Multimodale Kritiker-Modelle für physikalische KI
PhyCritic: Multimodal Critic Models for Physical AI
February 11, 2026
papers.authors: Tianyi Xiong, Shihao Wang, Guilin Liu, Yi Dong, Ming Li, Heng Huang, Jan Kautz, Zhiding Yu
cs.AI
papers.abstract
Mit der rasanten Entwicklung großer multimodaler Modelle sind zuverlässige Bewertungs- und Kritikmodelle unerlässlich geworden für die offene Bewertung und Präferenzabstimmung, da sie paarweise Präferenzen, numerische Bewertungen und erklärende Begründungen zur Beurteilung modellgenerierter Antworten liefern. Bisherige Kritikmodelle werden jedoch primär in allgemeinen visuellen Domänen trainiert, wie etwa Bildbeschreibung oder Bildfragebeantwortung, wodurch physikalische KI-Aufgaben, die Wahrnehmung, kausales Schließen und Planung umfassen, weitgehend unerforscht bleiben. Wir stellen PhyCritic vor, ein multimodales Kritikmodell, das für physikalische KI durch eine zweistufige RLVR-Pipeline optimiert wurde: eine Initialisierungsphase für physikalische Fähigkeiten, die die physikalisch orientierte Wahrnehmung und Schlussfolgerung verbessert, gefolgt von einem selbstreferenziellen Feinabgleich des Kritikmodells, bei dem der Kritiker zunächst seine eigene Vorhersage als interne Referenz generiert, bevor er Kandidatenantworten bewertet. Dies verbessert die Urteilsstabilität und physikalische Korrektheit. Sowohl auf physikalischen als auch auf allgemeinen multimodalen Bewertungs-Benchmarks erzielt PhyCritic deutliche Leistungssteigerungen gegenüber Open-Source-Baselines und verbessert, wenn es als Policymodell eingesetzt wird, weiterhin die Wahrnehmung und das Schlussfolgern in physikalisch fundierten Aufgaben.
English
With the rapid development of large multimodal models, reliable judge and critic models have become essential for open-ended evaluation and preference alignment, providing pairwise preferences, numerical scores, and explanatory justifications for assessing model-generated responses. However, existing critics are primarily trained in general visual domains such as captioning or image question answering, leaving physical AI tasks involving perception, causal reasoning, and planning largely underexplored. We introduce PhyCritic, a multimodal critic model optimized for physical AI through a two-stage RLVR pipeline: a physical skill warmup stage that enhances physically oriented perception and reasoning, followed by self-referential critic finetuning, where the critic generates its own prediction as an internal reference before judging candidate responses, improving judgment stability and physical correctness. Across both physical and general-purpose multimodal judge benchmarks, PhyCritic achieves strong performance gains over open-source baselines and, when applied as a policy model, further improves perception and reasoning in physically grounded tasks.