Atla Selene Mini: Un Modelo de Evaluación de Propósito General

Resumen

Presentamos Atla Selene Mini, un modelo de lenguaje pequeño de última generación como juez (SLMJ). Selene Mini es un evaluador de propósito general que supera a los mejores SLMJs y a GPT-4o-mini en rendimiento general en 11 bancos de pruebas fuera de distribución, que abarcan puntuación absoluta, clasificación y tareas de preferencia pairwise. Es el modelo generativo de 8B con la puntuación más alta en RewardBench, superando a referencias sólidas como GPT-4o y jueces especializados. Para lograr esto, desarrollamos una estrategia de curación de datos basada en principios que aumenta conjuntos de datos públicos con críticas generadas sintéticamente y garantiza alta calidad mediante filtrado y abstracciones de conjunto de datos. Entrenamos nuestro modelo con una combinación de optimización de preferencia directa (DPO) y ajuste fino supervisado (SFT), y producimos un evaluador altamente adaptable que sobresale en escenarios del mundo real. Selene Mini muestra un acuerdo de cero disparos dramáticamente mejorado con evaluaciones de expertos humanos en conjuntos de datos de la industria financiera y médica. También es robusto ante variaciones en el formato de la solicitud. Los resultados preliminares indican que Selene Mini es el evaluador de mayor rango en un Arena de Jueces en vivo impulsado por la comunidad. Publicamos los pesos del modelo en HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) y Ollama para fomentar su adopción generalizada por la comunidad.

English

We introduce Atla Selene Mini, a state-of-the-art small language model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that outperforms the best SLMJs and GPT-4o-mini on overall performance across 11 out-of-distribution benchmarks, spanning absolute scoring, classification, and pairwise preference tasks. It is the highest-scoring 8B generative model on RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To achieve this, we develop a principled data curation strategy that augments public datasets with synthetically generated critiques and ensures high quality through filtering and dataset ablations. We train our model on a combined direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and produce a highly promptable evaluator that excels in real-world scenarios. Selene Mini shows dramatically improved zero-shot agreement with human expert evaluations on financial and medical industry datasets. It is also robust to variations in prompt format. Preliminary results indicate that Selene Mini is the top-ranking evaluator in a live, community-driven Judge Arena. We release the model weights on HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage widespread community adoption.