Atla Selene Mini: Ein allgemeines Bewertungsmodell

Zusammenfassung

Wir stellen Atla Selene Mini vor, ein hochmodernes kleines Sprachmodell-als-Richter (SLMJ). Selene Mini ist ein allgemeiner Evaluierer, der die besten SLMJs und GPT-4o-mini in der Gesamtleistung übertrifft, und zwar über 11 Out-of-Distribution-Benchmarks hinweg, die absolute Bewertung, Klassifizierung und paarweise Präferenzaufgaben umfassen. Es handelt sich um das leistungsstärkste 8B-generative Modell auf RewardBench, das starke Baselines wie GPT-4o und spezialisierte Richter übertrifft. Um dies zu erreichen, entwickeln wir eine fundierte Datenkuratierungsstrategie, die öffentliche Datensätze mit synthetisch generierten Kritiken erweitert und durch Filterung und Datensatz-Ablationen eine hohe Qualität sicherstellt. Wir trainieren unser Modell mit einem kombinierten direkten Präferenzoptimierungs- (DPO) und überwachten Feinabstimmungs- (SFT) Verlust und erstellen einen äußerst anpassungsfähigen Evaluierer, der in realen Szenarien herausragende Leistungen erbringt. Selene Mini zeigt dramatisch verbesserte Übereinstimmung ohne vorheriges Training mit menschlichen Expertenbewertungen auf Finanz- und medizinischen Branchendatensätzen. Es ist auch robust gegenüber Variationen im Eingabeformat. Vorläufige Ergebnisse deuten darauf hin, dass Selene Mini der bestplatzierte Evaluierer in einer live, community-basierten Richter-Arena ist. Wir veröffentlichen die Modellgewichte auf HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) und Ollama, um eine weit verbreitete Community-Adoption zu fördern.

English

We introduce Atla Selene Mini, a state-of-the-art small language model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that outperforms the best SLMJs and GPT-4o-mini on overall performance across 11 out-of-distribution benchmarks, spanning absolute scoring, classification, and pairwise preference tasks. It is the highest-scoring 8B generative model on RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To achieve this, we develop a principled data curation strategy that augments public datasets with synthetically generated critiques and ensures high quality through filtering and dataset ablations. We train our model on a combined direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and produce a highly promptable evaluator that excels in real-world scenarios. Selene Mini shows dramatically improved zero-shot agreement with human expert evaluations on financial and medical industry datasets. It is also robust to variations in prompt format. Preliminary results indicate that Selene Mini is the top-ranking evaluator in a live, community-driven Judge Arena. We release the model weights on HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage widespread community adoption.