Atla Selene Mini: Um Modelo de Avaliação de Propósito Geral
Atla Selene Mini: A General Purpose Evaluation Model
January 27, 2025
Autores: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park
cs.AI
Resumo
Apresentamos o Atla Selene Mini, um modelo de linguagem pequeno de última geração como juiz (SLMJ). Selene Mini é um avaliador de propósito geral que supera os melhores SLMJs e o GPT-4o-mini em desempenho geral em 11 benchmarks fora da distribuição, abrangendo pontuação absoluta, classificação e tarefas de preferência em pares. É o modelo generativo de 8B com a pontuação mais alta no RewardBench, superando baselines fortes como o GPT-4o e juízes especializados. Para alcançar isso, desenvolvemos uma estratégia de curadoria de dados fundamentada que aumenta conjuntos de dados públicos com críticas geradas sinteticamente e garante alta qualidade por meio de filtragem e ablações de conjuntos de dados. Treinamos nosso modelo em uma combinação de otimização de preferência direta (DPO) e ajuste fino supervisionado (SFT), e produzimos um avaliador altamente adaptável que se destaca em cenários do mundo real. Selene Mini demonstra um acordo de zero-shot dramaticamente melhorado com avaliações de especialistas humanos em conjuntos de dados da indústria financeira e médica. Também é robusto a variações no formato da solicitação. Resultados preliminares indicam que Selene Mini é o avaliador com a classificação mais alta em uma Arena de Juízes ao vivo e orientada pela comunidade. Disponibilizamos os pesos do modelo no HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) e no Ollama para incentivar a adoção generalizada pela comunidade.
English
We introduce Atla Selene Mini, a state-of-the-art small language
model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that
outperforms the best SLMJs and GPT-4o-mini on overall performance across 11
out-of-distribution benchmarks, spanning absolute scoring, classification, and
pairwise preference tasks. It is the highest-scoring 8B generative model on
RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To
achieve this, we develop a principled data curation strategy that augments
public datasets with synthetically generated critiques and ensures high quality
through filtering and dataset ablations. We train our model on a combined
direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and
produce a highly promptable evaluator that excels in real-world scenarios.
Selene Mini shows dramatically improved zero-shot agreement with human expert
evaluations on financial and medical industry datasets. It is also robust to
variations in prompt format. Preliminary results indicate that Selene Mini is
the top-ranking evaluator in a live, community-driven Judge Arena. We release
the model weights on HuggingFace
(https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage
widespread community adoption.Summary
AI-Generated Summary