ChatPaper.aiChatPaper

CompassJudger-2: Hacia un modelo juez generalista mediante recompensas verificables

CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards

July 12, 2025
Autores: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang Zhang, Kai Chen
cs.AI

Resumen

Recientemente, el papel de los LLM como evaluadores (LLM-as-judge) en la valoración de modelos de lenguaje grandes ha cobrado relevancia. Sin embargo, los modelos evaluadores actuales adolecen de una especialización estrecha y una robustez limitada, lo que socava su capacidad para realizar evaluaciones integrales. En este trabajo, presentamos CompassJudger-2, un novedoso modelo evaluador generalista que supera estas limitaciones mediante una estrategia de curación de datos multi-dominio impulsada por tareas. El núcleo de nuestro enfoque es supervisar tareas de juicio con recompensas verificables, guiando el razonamiento crítico intrínseco a través del muestreo por rechazo para fomentar capacidades de juicio robustas y generalizables. Introducimos un objetivo de aprendizaje refinado con una función de pérdida de gradiente de política con margen para mejorar el rendimiento. Empíricamente, CompassJudger-2 logra resultados superiores en múltiples benchmarks de evaluación y recompensas, y nuestro modelo de 7B demuestra una precisión de juicio competitiva con modelos significativamente más grandes como DeepSeek-V3 y Qwen3-235B-A22B. Además, proponemos JudgerBenchV2, un benchmark integral que evalúa la precisión de juicio en múltiples dominios y la consistencia en la clasificación para estandarizar la evaluación de modelos evaluadores. Estas contribuciones avanzan hacia un juicio robusto y escalable de LLM y establecen nuevos estándares de rendimiento y evaluación.
English
Recently, the role of LLM-as-judge in evaluating large language models has gained prominence. However, current judge models suffer from narrow specialization and limited robustness, undermining their capacity for comprehensive evaluations. In this work, we present CompassJudger-2, a novel generalist judge model that overcomes these limitations via a task-driven, multi-domain data curation strategy. Central to our approach is supervising judgment tasks with verifiable rewards, guiding intrinsic critical reasoning through rejection sampling to foster robust, generalizable judgment capabilities. We introduce a refined learning objective with margin policy gradient loss to enhance performance. Empirically, CompassJudger-2 achieves superior results across multiple judge and reward benchmarks, and our 7B model demonstrates competitive judgment accuracy with significantly larger models like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a comprehensive benchmark evaluating cross-domain judgment accuracy and rank consistency to standardize judge model evaluation. These contributions advance robust, scalable LLM judgment and establish new performance and evaluation standards.
PDF161July 15, 2025