Atla Selene Mini: Ein allgemeines Bewertungsmodell
Atla Selene Mini: A General Purpose Evaluation Model
January 27, 2025
Autoren: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park
cs.AI
Zusammenfassung
Wir stellen Atla Selene Mini vor, ein hochmodernes kleines Sprachmodell-als-Richter (SLMJ). Selene Mini ist ein allgemeiner Evaluierer, der die besten SLMJs und GPT-4o-mini in der Gesamtleistung übertrifft, und zwar über 11 Out-of-Distribution-Benchmarks hinweg, die absolute Bewertung, Klassifizierung und paarweise Präferenzaufgaben umfassen. Es handelt sich um das leistungsstärkste 8B-generative Modell auf RewardBench, das starke Baselines wie GPT-4o und spezialisierte Richter übertrifft. Um dies zu erreichen, entwickeln wir eine fundierte Datenkuratierungsstrategie, die öffentliche Datensätze mit synthetisch generierten Kritiken erweitert und durch Filterung und Datensatz-Ablationen eine hohe Qualität sicherstellt. Wir trainieren unser Modell mit einem kombinierten direkten Präferenzoptimierungs- (DPO) und überwachten Feinabstimmungs- (SFT) Verlust und erstellen einen äußerst anpassungsfähigen Evaluierer, der in realen Szenarien herausragende Leistungen erbringt. Selene Mini zeigt dramatisch verbesserte Übereinstimmung ohne vorheriges Training mit menschlichen Expertenbewertungen auf Finanz- und medizinischen Branchendatensätzen. Es ist auch robust gegenüber Variationen im Eingabeformat. Vorläufige Ergebnisse deuten darauf hin, dass Selene Mini der bestplatzierte Evaluierer in einer live, community-basierten Richter-Arena ist. Wir veröffentlichen die Modellgewichte auf HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) und Ollama, um eine weit verbreitete Community-Adoption zu fördern.
English
We introduce Atla Selene Mini, a state-of-the-art small language
model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that
outperforms the best SLMJs and GPT-4o-mini on overall performance across 11
out-of-distribution benchmarks, spanning absolute scoring, classification, and
pairwise preference tasks. It is the highest-scoring 8B generative model on
RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To
achieve this, we develop a principled data curation strategy that augments
public datasets with synthetically generated critiques and ensures high quality
through filtering and dataset ablations. We train our model on a combined
direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and
produce a highly promptable evaluator that excels in real-world scenarios.
Selene Mini shows dramatically improved zero-shot agreement with human expert
evaluations on financial and medical industry datasets. It is also robust to
variations in prompt format. Preliminary results indicate that Selene Mini is
the top-ranking evaluator in a live, community-driven Judge Arena. We release
the model weights on HuggingFace
(https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage
widespread community adoption.Summary
AI-Generated Summary