PhyCritic: Modelos Críticos Multimodais para Inteligência Artificial Física

Resumo

Com o rápido desenvolvimento de modelos multimodais de grande escala, modelos confiáveis de juiz e crítico tornaram-se essenciais para avaliação de respostas abertas e alinhamento de preferências, fornecendo preferências pareadas, pontuações numéricas e justificativas explicativas para avaliar respostas geradas por modelos. No entanto, os críticos existentes são principalmente treinados em domínios visuais gerais, como legendagem ou resposta a perguntas sobre imagens, deixando as tarefas de IA física que envolvem percepção, raciocínio causal e planeamento largamente inexploradas. Apresentamos o PhyCritic, um modelo crítico multimodal otimizado para IA física através de um pipeline RLVR em duas etapas: uma etapa de aquecimento de competências físicas que aprimora a perceção e o raciocínio orientados para a física, seguida de um afinamento crítico autorreferencial, onde o crítico gera a sua própria previsão como referência interna antes de julgar respostas candidatas, melhorando a estabilidade do julgamento e a correção física. Tanto em benchmarks de juízes multimodais físicos como de propósito geral, o PhyCritic alcança fortes ganhos de desempenho em relação às linhas de base de código aberto e, quando aplicado como modelo de política, melhora ainda mais a perceção e o raciocínio em tarefas com base física.

English

With the rapid development of large multimodal models, reliable judge and critic models have become essential for open-ended evaluation and preference alignment, providing pairwise preferences, numerical scores, and explanatory justifications for assessing model-generated responses. However, existing critics are primarily trained in general visual domains such as captioning or image question answering, leaving physical AI tasks involving perception, causal reasoning, and planning largely underexplored. We introduce PhyCritic, a multimodal critic model optimized for physical AI through a two-stage RLVR pipeline: a physical skill warmup stage that enhances physically oriented perception and reasoning, followed by self-referential critic finetuning, where the critic generates its own prediction as an internal reference before judging candidate responses, improving judgment stability and physical correctness. Across both physical and general-purpose multimodal judge benchmarks, PhyCritic achieves strong performance gains over open-source baselines and, when applied as a policy model, further improves perception and reasoning in physically grounded tasks.