Atla Selene Mini: Un Modello di Valutazione a Scopo Generale

Abstract

Presentiamo Atla Selene Mini, un modello linguistico in miniatura all'avanguardia come giudice (SLMJ). Selene Mini è un valutatore generale che supera i migliori SLMJ e GPT-4o-mini sulle prestazioni complessive attraverso 11 benchmark out-of-distribution, che includono punteggi assoluti, classificazione e compiti di preferenza pairwise. È il modello generativo 8B con il punteggio più alto su RewardBench, superando basi solide come GPT-4o e giudici specializzati. Per raggiungere ciò, sviluppiamo una strategia di cura dati basata su principi che amplia i dataset pubblici con critiche generate sinteticamente e garantisce alta qualità attraverso filtraggio e ablation dei dataset. Alleniamo il nostro modello su una combinazione di ottimizzazione diretta delle preferenze (DPO) e sintonizzazione fine supervisionata (SFT), producendo un valutatore altamente promptabile che eccelle in scenari reali. Selene Mini mostra un accordo zero-shot drasticamente migliorato con le valutazioni degli esperti umani su dataset dell'industria finanziaria e medica. È inoltre robusto alle variazioni nel formato del prompt. I risultati preliminari indicano che Selene Mini è il valutatore di punta in un'arena giudiziaria live guidata dalla comunità. Rilasciamo i pesi del modello su HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) e Ollama per incoraggiare un'ampia adozione da parte della comunità.

English

We introduce Atla Selene Mini, a state-of-the-art small language model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that outperforms the best SLMJs and GPT-4o-mini on overall performance across 11 out-of-distribution benchmarks, spanning absolute scoring, classification, and pairwise preference tasks. It is the highest-scoring 8B generative model on RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To achieve this, we develop a principled data curation strategy that augments public datasets with synthetically generated critiques and ensures high quality through filtering and dataset ablations. We train our model on a combined direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and produce a highly promptable evaluator that excels in real-world scenarios. Selene Mini shows dramatically improved zero-shot agreement with human expert evaluations on financial and medical industry datasets. It is also robust to variations in prompt format. Preliminary results indicate that Selene Mini is the top-ranking evaluator in a live, community-driven Judge Arena. We release the model weights on HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage widespread community adoption.

Atla Selene Mini: Un Modello di Valutazione a Scopo Generale

Atla Selene Mini: A General Purpose Evaluation Model

Abstract

Support