ChatPaper.aiChatPaper

Atla Selene Mini: Un Modello di Valutazione a Scopo Generale

Atla Selene Mini: A General Purpose Evaluation Model

January 27, 2025
Autori: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park
cs.AI

Abstract

Presentiamo Atla Selene Mini, un modello linguistico in miniatura all'avanguardia come giudice (SLMJ). Selene Mini è un valutatore generale che supera i migliori SLMJ e GPT-4o-mini sulle prestazioni complessive attraverso 11 benchmark out-of-distribution, che includono punteggi assoluti, classificazione e compiti di preferenza pairwise. È il modello generativo 8B con il punteggio più alto su RewardBench, superando basi solide come GPT-4o e giudici specializzati. Per raggiungere ciò, sviluppiamo una strategia di cura dati basata su principi che amplia i dataset pubblici con critiche generate sinteticamente e garantisce alta qualità attraverso filtraggio e ablation dei dataset. Alleniamo il nostro modello su una combinazione di ottimizzazione diretta delle preferenze (DPO) e sintonizzazione fine supervisionata (SFT), producendo un valutatore altamente promptabile che eccelle in scenari reali. Selene Mini mostra un accordo zero-shot drasticamente migliorato con le valutazioni degli esperti umani su dataset dell'industria finanziaria e medica. È inoltre robusto alle variazioni nel formato del prompt. I risultati preliminari indicano che Selene Mini è il valutatore di punta in un'arena giudiziaria live guidata dalla comunità. Rilasciamo i pesi del modello su HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) e Ollama per incoraggiare un'ampia adozione da parte della comunità.
English
We introduce Atla Selene Mini, a state-of-the-art small language model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that outperforms the best SLMJs and GPT-4o-mini on overall performance across 11 out-of-distribution benchmarks, spanning absolute scoring, classification, and pairwise preference tasks. It is the highest-scoring 8B generative model on RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To achieve this, we develop a principled data curation strategy that augments public datasets with synthetically generated critiques and ensures high quality through filtering and dataset ablations. We train our model on a combined direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and produce a highly promptable evaluator that excels in real-world scenarios. Selene Mini shows dramatically improved zero-shot agreement with human expert evaluations on financial and medical industry datasets. It is also robust to variations in prompt format. Preliminary results indicate that Selene Mini is the top-ranking evaluator in a live, community-driven Judge Arena. We release the model weights on HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage widespread community adoption.

Summary

AI-Generated Summary

PDF364January 30, 2025