Quanti parametri servono per cambiare una lampadina? Valutazione delle prestazioni nel self-play di giochi conversazionali in funzione delle caratteristiche del modello
How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics
June 20, 2024
Autori: Nidhir Bhavsar, Jonathan Jordan, Sherzod Hakimov, David Schlangen
cs.AI
Abstract
Cosa rende buono un Large Language Model (LLM)? Che performi bene sui benchmark rilevanti, i quali si spera misurino, con una certa validità, la presenza di capacità che vengono messe alla prova anche nelle applicazioni reali. Ma cosa fa sì che il modello performi bene? Cosa conferisce a un modello le sue abilità? Prendiamo un tipo di benchmark introdotto di recente, progettato per mettere alla prova le capacità in un contesto orientato agli obiettivi e agentivo attraverso il self-play di giochi conversazionali, e analizziamo come le prestazioni si sviluppano in funzione delle caratteristiche del modello, come il numero di parametri o il tipo di addestramento. Scopriamo che, sebbene ci sia una chiara relazione tra il numero di parametri e le prestazioni, esiste ancora un'ampia variabilità nei punti di prestazione all'interno di una determinata fascia di dimensioni, che può essere spiegata da parametri di addestramento come la qualità e il metodo dei dati di fine-tuning. Da un punto di vista più pratico, troviamo anche un certo grado di imprevedibilità nelle prestazioni tra i diversi metodi di accesso, probabilmente dovuto a parametri di campionamento non esposti, e una, molto gradita, stabilità delle prestazioni contro almeno una moderata quantizzazione dei pesi durante l'inferenza.
English
What makes a good Large Language Model (LLM)? That it performs well on the
relevant benchmarks -- which hopefully measure, with some validity, the
presence of capabilities that are also challenged in real application. But what
makes the model perform well? What gives a model its abilities? We take a
recently introduced type of benchmark that is meant to challenge capabilities
in a goal-directed, agentive context through self-play of conversational games,
and analyse how performance develops as a function of model characteristics
like number of parameters, or type of training. We find that while there is a
clear relationship between number of parameters and performance, there is still
a wide spread of performance points within a given size bracket, which is to be
accounted for by training parameters such as fine-tuning data quality and
method. From a more practical angle, we also find a certain degree of
unpredictability about performance across access methods, possible due to
unexposed sampling parameters, and a, very welcome, performance stability
against at least moderate weight quantisation during inference.