Atla Selene Mini: Un Modello di Valutazione a Scopo Generale
Atla Selene Mini: A General Purpose Evaluation Model
January 27, 2025
Autori: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park
cs.AI
Abstract
Presentiamo Atla Selene Mini, un modello linguistico in miniatura all'avanguardia come giudice (SLMJ). Selene Mini è un valutatore generale che supera i migliori SLMJ e GPT-4o-mini sulle prestazioni complessive attraverso 11 benchmark out-of-distribution, che includono punteggi assoluti, classificazione e compiti di preferenza pairwise. È il modello generativo 8B con il punteggio più alto su RewardBench, superando basi solide come GPT-4o e giudici specializzati. Per raggiungere ciò, sviluppiamo una strategia di cura dati basata su principi che amplia i dataset pubblici con critiche generate sinteticamente e garantisce alta qualità attraverso filtraggio e ablation dei dataset. Alleniamo il nostro modello su una combinazione di ottimizzazione diretta delle preferenze (DPO) e sintonizzazione fine supervisionata (SFT), producendo un valutatore altamente promptabile che eccelle in scenari reali. Selene Mini mostra un accordo zero-shot drasticamente migliorato con le valutazioni degli esperti umani su dataset dell'industria finanziaria e medica. È inoltre robusto alle variazioni nel formato del prompt. I risultati preliminari indicano che Selene Mini è il valutatore di punta in un'arena giudiziaria live guidata dalla comunità. Rilasciamo i pesi del modello su HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) e Ollama per incoraggiare un'ampia adozione da parte della comunità.
English
We introduce Atla Selene Mini, a state-of-the-art small language
model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that
outperforms the best SLMJs and GPT-4o-mini on overall performance across 11
out-of-distribution benchmarks, spanning absolute scoring, classification, and
pairwise preference tasks. It is the highest-scoring 8B generative model on
RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To
achieve this, we develop a principled data curation strategy that augments
public datasets with synthetically generated critiques and ensures high quality
through filtering and dataset ablations. We train our model on a combined
direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and
produce a highly promptable evaluator that excels in real-world scenarios.
Selene Mini shows dramatically improved zero-shot agreement with human expert
evaluations on financial and medical industry datasets. It is also robust to
variations in prompt format. Preliminary results indicate that Selene Mini is
the top-ranking evaluator in a live, community-driven Judge Arena. We release
the model weights on HuggingFace
(https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage
widespread community adoption.Summary
AI-Generated Summary