Atla Selene Mini: Общецелевая модель оценки

Аннотация

Мы представляем Atla Selene Mini - современную модель-судью малого размера (SLMJ). Selene Mini - это универсальный оценщик, который превосходит лучшие SLMJ и GPT-4o-mini по общей производительности на 11 внеобучающих выборках, охватывающих абсолютное оценивание, классификацию и задачи парных предпочтений. Это самая эффективная 8B генеративная модель на RewardBench, превосходящая сильные базовые уровни, такие как GPT-4o и специализированные судьи. Для достижения этого мы разработали принципиальную стратегию курирования данных, которая дополняет общедоступные наборы данных синтетически сгенерированными критиками и обеспечивает высокое качество путем фильтрации и абляций наборов данных. Мы обучаем нашу модель на комбинированной прямой оптимизации предпочтений (DPO) и обучении с учителем (SFT), и создаем высокоадаптивный оценщик, который превосходит в реальных сценариях. Selene Mini показывает значительно улучшенное согласие "нулевого шота" с оценками экспертов по финансовым и медицинским наборам данных. Он также устойчив к вариациям формата запроса. Предварительные результаты показывают, что Selene Mini является лучшим оценщиком в живом, сообщественно-ориентированном соревновании Judge Arena. Мы выпускаем веса модели на HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) и Ollama, чтобы поощрить широкое принятие сообществом.

English

We introduce Atla Selene Mini, a state-of-the-art small language model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that outperforms the best SLMJs and GPT-4o-mini on overall performance across 11 out-of-distribution benchmarks, spanning absolute scoring, classification, and pairwise preference tasks. It is the highest-scoring 8B generative model on RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To achieve this, we develop a principled data curation strategy that augments public datasets with synthetically generated critiques and ensures high quality through filtering and dataset ablations. We train our model on a combined direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and produce a highly promptable evaluator that excels in real-world scenarios. Selene Mini shows dramatically improved zero-shot agreement with human expert evaluations on financial and medical industry datasets. It is also robust to variations in prompt format. Preliminary results indicate that Selene Mini is the top-ranking evaluator in a live, community-driven Judge Arena. We release the model weights on HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage widespread community adoption.