ChatPaper.aiChatPaper

Atla Selene Mini: Общецелевая модель оценки

Atla Selene Mini: A General Purpose Evaluation Model

January 27, 2025
Авторы: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park
cs.AI

Аннотация

Мы представляем Atla Selene Mini - современную модель-судью малого размера (SLMJ). Selene Mini - это универсальный оценщик, который превосходит лучшие SLMJ и GPT-4o-mini по общей производительности на 11 внеобучающих выборках, охватывающих абсолютное оценивание, классификацию и задачи парных предпочтений. Это самая эффективная 8B генеративная модель на RewardBench, превосходящая сильные базовые уровни, такие как GPT-4o и специализированные судьи. Для достижения этого мы разработали принципиальную стратегию курирования данных, которая дополняет общедоступные наборы данных синтетически сгенерированными критиками и обеспечивает высокое качество путем фильтрации и абляций наборов данных. Мы обучаем нашу модель на комбинированной прямой оптимизации предпочтений (DPO) и обучении с учителем (SFT), и создаем высокоадаптивный оценщик, который превосходит в реальных сценариях. Selene Mini показывает значительно улучшенное согласие "нулевого шота" с оценками экспертов по финансовым и медицинским наборам данных. Он также устойчив к вариациям формата запроса. Предварительные результаты показывают, что Selene Mini является лучшим оценщиком в живом, сообщественно-ориентированном соревновании Judge Arena. Мы выпускаем веса модели на HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) и Ollama, чтобы поощрить широкое принятие сообществом.
English
We introduce Atla Selene Mini, a state-of-the-art small language model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that outperforms the best SLMJs and GPT-4o-mini on overall performance across 11 out-of-distribution benchmarks, spanning absolute scoring, classification, and pairwise preference tasks. It is the highest-scoring 8B generative model on RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To achieve this, we develop a principled data curation strategy that augments public datasets with synthetically generated critiques and ensures high quality through filtering and dataset ablations. We train our model on a combined direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and produce a highly promptable evaluator that excels in real-world scenarios. Selene Mini shows dramatically improved zero-shot agreement with human expert evaluations on financial and medical industry datasets. It is also robust to variations in prompt format. Preliminary results indicate that Selene Mini is the top-ranking evaluator in a live, community-driven Judge Arena. We release the model weights on HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage widespread community adoption.

Summary

AI-Generated Summary

PDF364January 30, 2025