Atla Selene Mini : Un modèle d'évaluation à usage général

Résumé

Nous présentons Atla Selene Mini, un modèle linguistique de pointe de petite taille en tant que juge (SLMJ). Selene Mini est un évaluateur polyvalent qui surpasse les meilleurs SLMJs et GPT-4o-mini en termes de performances globales sur 11 benchmarks hors distribution, couvrant des tâches de notation absolue, de classification et de préférence par paire. Il s'agit du modèle génératif 8B le mieux noté sur RewardBench, dépassant des références solides telles que GPT-4o et des juges spécialisés. Pour y parvenir, nous développons une stratégie de curation de données fondée sur des principes qui enrichit les ensembles de données publics avec des critiques générées de manière synthétique et garantit une haute qualité grâce à la filtration et aux ablations des ensembles de données. Nous entraînons notre modèle sur une perte combinée d'optimisation de préférence directe (DPO) et de fine-tuning supervisé (SFT), et produisons un évaluateur hautement personnalisable qui excelle dans des scénarios réels. Selene Mini montre une amélioration spectaculaire de l'accord sans entraînement avec les évaluations d'experts humains sur des ensembles de données de l'industrie financière et médicale. Il est également robuste aux variations de format de requête. Les résultats préliminaires indiquent que Selene Mini est l'évaluateur le mieux classé dans une arène de juges en direct pilotée par la communauté. Nous mettons à disposition les poids du modèle sur HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) et Ollama pour encourager une adoption communautaire généralisée.

English

We introduce Atla Selene Mini, a state-of-the-art small language model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that outperforms the best SLMJs and GPT-4o-mini on overall performance across 11 out-of-distribution benchmarks, spanning absolute scoring, classification, and pairwise preference tasks. It is the highest-scoring 8B generative model on RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To achieve this, we develop a principled data curation strategy that augments public datasets with synthetically generated critiques and ensures high quality through filtering and dataset ablations. We train our model on a combined direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and produce a highly promptable evaluator that excels in real-world scenarios. Selene Mini shows dramatically improved zero-shot agreement with human expert evaluations on financial and medical industry datasets. It is also robust to variations in prompt format. Preliminary results indicate that Selene Mini is the top-ranking evaluator in a live, community-driven Judge Arena. We release the model weights on HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage widespread community adoption.