ChatPaper.aiChatPaper

PhyCritic: Modelos Críticos Multimodales para la Inteligencia Artificial Física

PhyCritic: Multimodal Critic Models for Physical AI

February 11, 2026
Autores: Tianyi Xiong, Shihao Wang, Guilin Liu, Yi Dong, Ming Li, Heng Huang, Jan Kautz, Zhiding Yu
cs.AI

Resumen

Con el rápido desarrollo de los modelos multimodales grandes, los modelos críticos y evaluadores fiables se han vuelto esenciales para la evaluación de respuestas abiertas y la alineación de preferencias, proporcionando preferencias por pares, puntuaciones numéricas y justificaciones explicativas para valorar las respuestas generadas por los modelos. Sin embargo, los críticos existentes se entrenan principalmente en dominios visuales generales como la generación de descripciones o la respuesta a preguntas sobre imágenes, dejando en gran medida inexploradas las tareas de IA física que implican percepción, razonamiento causal y planificación. Presentamos PhyCritic, un modelo crítico multimodal optimizado para IA física mediante un pipeline RLVR en dos etapas: una etapa de calentamiento de habilidades físicas que mejora la percepción y el razonamiento orientados a la física, seguida de un ajuste fino crítico autorreferencial, donde el crítico genera su propia predicción como referencia interna antes de juzgar las respuestas candidatas, mejorando la estabilidad del juicio y la corrección física. Tanto en benchmarks de evaluación multimodal física como de propósito general, PhyCritic logra fuertes mejoras de rendimiento respecto a los baselines de código abierto y, cuando se aplica como modelo de política, mejora aún más la percepción y el razonamiento en tareas con base física.
English
With the rapid development of large multimodal models, reliable judge and critic models have become essential for open-ended evaluation and preference alignment, providing pairwise preferences, numerical scores, and explanatory justifications for assessing model-generated responses. However, existing critics are primarily trained in general visual domains such as captioning or image question answering, leaving physical AI tasks involving perception, causal reasoning, and planning largely underexplored. We introduce PhyCritic, a multimodal critic model optimized for physical AI through a two-stage RLVR pipeline: a physical skill warmup stage that enhances physically oriented perception and reasoning, followed by self-referential critic finetuning, where the critic generates its own prediction as an internal reference before judging candidate responses, improving judgment stability and physical correctness. Across both physical and general-purpose multimodal judge benchmarks, PhyCritic achieves strong performance gains over open-source baselines and, when applied as a policy model, further improves perception and reasoning in physically grounded tasks.
PDF431February 13, 2026