Atla Selene Mini: Um Modelo de Avaliação de Propósito Geral

Resumo

Apresentamos o Atla Selene Mini, um modelo de linguagem pequeno de última geração como juiz (SLMJ). Selene Mini é um avaliador de propósito geral que supera os melhores SLMJs e o GPT-4o-mini em desempenho geral em 11 benchmarks fora da distribuição, abrangendo pontuação absoluta, classificação e tarefas de preferência em pares. É o modelo generativo de 8B com a pontuação mais alta no RewardBench, superando baselines fortes como o GPT-4o e juízes especializados. Para alcançar isso, desenvolvemos uma estratégia de curadoria de dados fundamentada que aumenta conjuntos de dados públicos com críticas geradas sinteticamente e garante alta qualidade por meio de filtragem e ablações de conjuntos de dados. Treinamos nosso modelo em uma combinação de otimização de preferência direta (DPO) e ajuste fino supervisionado (SFT), e produzimos um avaliador altamente adaptável que se destaca em cenários do mundo real. Selene Mini demonstra um acordo de zero-shot dramaticamente melhorado com avaliações de especialistas humanos em conjuntos de dados da indústria financeira e médica. Também é robusto a variações no formato da solicitação. Resultados preliminares indicam que Selene Mini é o avaliador com a classificação mais alta em uma Arena de Juízes ao vivo e orientada pela comunidade. Disponibilizamos os pesos do modelo no HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) e no Ollama para incentivar a adoção generalizada pela comunidade.

English

We introduce Atla Selene Mini, a state-of-the-art small language model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that outperforms the best SLMJs and GPT-4o-mini on overall performance across 11 out-of-distribution benchmarks, spanning absolute scoring, classification, and pairwise preference tasks. It is the highest-scoring 8B generative model on RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To achieve this, we develop a principled data curation strategy that augments public datasets with synthetically generated critiques and ensures high quality through filtering and dataset ablations. We train our model on a combined direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and produce a highly promptable evaluator that excels in real-world scenarios. Selene Mini shows dramatically improved zero-shot agreement with human expert evaluations on financial and medical industry datasets. It is also robust to variations in prompt format. Preliminary results indicate that Selene Mini is the top-ranking evaluator in a live, community-driven Judge Arena. We release the model weights on HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage widespread community adoption.

Atla Selene Mini: Um Modelo de Avaliação de Propósito Geral

Atla Selene Mini: A General Purpose Evaluation Model

Resumo

Support