ChatPaper.aiChatPaper

Atla Selene Mini: Ein allgemeines Bewertungsmodell

Atla Selene Mini: A General Purpose Evaluation Model

January 27, 2025
Autoren: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park
cs.AI

Zusammenfassung

Wir stellen Atla Selene Mini vor, ein hochmodernes kleines Sprachmodell-als-Richter (SLMJ). Selene Mini ist ein allgemeiner Evaluierer, der die besten SLMJs und GPT-4o-mini in der Gesamtleistung übertrifft, und zwar über 11 Out-of-Distribution-Benchmarks hinweg, die absolute Bewertung, Klassifizierung und paarweise Präferenzaufgaben umfassen. Es handelt sich um das leistungsstärkste 8B-generative Modell auf RewardBench, das starke Baselines wie GPT-4o und spezialisierte Richter übertrifft. Um dies zu erreichen, entwickeln wir eine fundierte Datenkuratierungsstrategie, die öffentliche Datensätze mit synthetisch generierten Kritiken erweitert und durch Filterung und Datensatz-Ablationen eine hohe Qualität sicherstellt. Wir trainieren unser Modell mit einem kombinierten direkten Präferenzoptimierungs- (DPO) und überwachten Feinabstimmungs- (SFT) Verlust und erstellen einen äußerst anpassungsfähigen Evaluierer, der in realen Szenarien herausragende Leistungen erbringt. Selene Mini zeigt dramatisch verbesserte Übereinstimmung ohne vorheriges Training mit menschlichen Expertenbewertungen auf Finanz- und medizinischen Branchendatensätzen. Es ist auch robust gegenüber Variationen im Eingabeformat. Vorläufige Ergebnisse deuten darauf hin, dass Selene Mini der bestplatzierte Evaluierer in einer live, community-basierten Richter-Arena ist. Wir veröffentlichen die Modellgewichte auf HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) und Ollama, um eine weit verbreitete Community-Adoption zu fördern.
English
We introduce Atla Selene Mini, a state-of-the-art small language model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that outperforms the best SLMJs and GPT-4o-mini on overall performance across 11 out-of-distribution benchmarks, spanning absolute scoring, classification, and pairwise preference tasks. It is the highest-scoring 8B generative model on RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To achieve this, we develop a principled data curation strategy that augments public datasets with synthetically generated critiques and ensures high quality through filtering and dataset ablations. We train our model on a combined direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and produce a highly promptable evaluator that excels in real-world scenarios. Selene Mini shows dramatically improved zero-shot agreement with human expert evaluations on financial and medical industry datasets. It is also robust to variations in prompt format. Preliminary results indicate that Selene Mini is the top-ranking evaluator in a live, community-driven Judge Arena. We release the model weights on HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage widespread community adoption.

Summary

AI-Generated Summary

PDF364January 30, 2025