Atla Selene Mini: Un Modelo de Evaluación de Propósito General
Atla Selene Mini: A General Purpose Evaluation Model
January 27, 2025
Autores: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park
cs.AI
Resumen
Presentamos Atla Selene Mini, un modelo de lenguaje pequeño de última generación como juez (SLMJ). Selene Mini es un evaluador de propósito general que supera a los mejores SLMJs y a GPT-4o-mini en rendimiento general en 11 bancos de pruebas fuera de distribución, que abarcan puntuación absoluta, clasificación y tareas de preferencia pairwise. Es el modelo generativo de 8B con la puntuación más alta en RewardBench, superando a referencias sólidas como GPT-4o y jueces especializados. Para lograr esto, desarrollamos una estrategia de curación de datos basada en principios que aumenta conjuntos de datos públicos con críticas generadas sintéticamente y garantiza alta calidad mediante filtrado y abstracciones de conjunto de datos. Entrenamos nuestro modelo con una combinación de optimización de preferencia directa (DPO) y ajuste fino supervisado (SFT), y producimos un evaluador altamente adaptable que sobresale en escenarios del mundo real. Selene Mini muestra un acuerdo de cero disparos dramáticamente mejorado con evaluaciones de expertos humanos en conjuntos de datos de la industria financiera y médica. También es robusto ante variaciones en el formato de la solicitud. Los resultados preliminares indican que Selene Mini es el evaluador de mayor rango en un Arena de Jueces en vivo impulsado por la comunidad. Publicamos los pesos del modelo en HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) y Ollama para fomentar su adopción generalizada por la comunidad.
English
We introduce Atla Selene Mini, a state-of-the-art small language
model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that
outperforms the best SLMJs and GPT-4o-mini on overall performance across 11
out-of-distribution benchmarks, spanning absolute scoring, classification, and
pairwise preference tasks. It is the highest-scoring 8B generative model on
RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To
achieve this, we develop a principled data curation strategy that augments
public datasets with synthetically generated critiques and ensures high quality
through filtering and dataset ablations. We train our model on a combined
direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and
produce a highly promptable evaluator that excels in real-world scenarios.
Selene Mini shows dramatically improved zero-shot agreement with human expert
evaluations on financial and medical industry datasets. It is also robust to
variations in prompt format. Preliminary results indicate that Selene Mini is
the top-ranking evaluator in a live, community-driven Judge Arena. We release
the model weights on HuggingFace
(https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage
widespread community adoption.Summary
AI-Generated Summary