Atla Selene Mini: Общецелевая модель оценки
Atla Selene Mini: A General Purpose Evaluation Model
January 27, 2025
Авторы: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park
cs.AI
Аннотация
Мы представляем Atla Selene Mini - современную модель-судью малого размера (SLMJ). Selene Mini - это универсальный оценщик, который превосходит лучшие SLMJ и GPT-4o-mini по общей производительности на 11 внеобучающих выборках, охватывающих абсолютное оценивание, классификацию и задачи парных предпочтений. Это самая эффективная 8B генеративная модель на RewardBench, превосходящая сильные базовые уровни, такие как GPT-4o и специализированные судьи. Для достижения этого мы разработали принципиальную стратегию курирования данных, которая дополняет общедоступные наборы данных синтетически сгенерированными критиками и обеспечивает высокое качество путем фильтрации и абляций наборов данных. Мы обучаем нашу модель на комбинированной прямой оптимизации предпочтений (DPO) и обучении с учителем (SFT), и создаем высокоадаптивный оценщик, который превосходит в реальных сценариях. Selene Mini показывает значительно улучшенное согласие "нулевого шота" с оценками экспертов по финансовым и медицинским наборам данных. Он также устойчив к вариациям формата запроса. Предварительные результаты показывают, что Selene Mini является лучшим оценщиком в живом, сообщественно-ориентированном соревновании Judge Arena. Мы выпускаем веса модели на HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) и Ollama, чтобы поощрить широкое принятие сообществом.
English
We introduce Atla Selene Mini, a state-of-the-art small language
model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that
outperforms the best SLMJs and GPT-4o-mini on overall performance across 11
out-of-distribution benchmarks, spanning absolute scoring, classification, and
pairwise preference tasks. It is the highest-scoring 8B generative model on
RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To
achieve this, we develop a principled data curation strategy that augments
public datasets with synthetically generated critiques and ensures high quality
through filtering and dataset ablations. We train our model on a combined
direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and
produce a highly promptable evaluator that excels in real-world scenarios.
Selene Mini shows dramatically improved zero-shot agreement with human expert
evaluations on financial and medical industry datasets. It is also robust to
variations in prompt format. Preliminary results indicate that Selene Mini is
the top-ranking evaluator in a live, community-driven Judge Arena. We release
the model weights on HuggingFace
(https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage
widespread community adoption.Summary
AI-Generated Summary