ChatPaper.aiChatPaper

Quantos Parâmetros São Necessários Para Trocar uma Lâmpada? Avaliando o Desempenho no Autojogo de Jogos Conversacionais como uma Função das Características do Modelo

How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics

June 20, 2024
Autores: Nidhir Bhavsar, Jonathan Jordan, Sherzod Hakimov, David Schlangen
cs.AI

Resumo

O que torna um bom Modelo de Linguagem Grande (LLM)? Que ele se saia bem nos benchmarks relevantes - que esperançosamente medem, com alguma validade, a presença de capacidades que também são desafiadas em aplicações reais. Mas o que faz o modelo se sair bem? O que dá ao modelo suas habilidades? Nós consideramos um tipo de benchmark recentemente introduzido que visa desafiar capacidades em um contexto direcionado a objetivos, agentivo, por meio de autojogo de jogos conversacionais, e analisamos como o desempenho se desenvolve em função de características do modelo como número de parâmetros ou tipo de treinamento. Descobrimos que, embora exista uma relação clara entre o número de parâmetros e o desempenho, ainda há uma ampla gama de pontos de desempenho dentro de um determinado intervalo de tamanho, que deve ser considerada pelos parâmetros de treinamento, como qualidade dos dados de ajuste fino e método. De um ângulo mais prático, também encontramos um certo grau de imprevisibilidade sobre o desempenho entre os métodos de acesso, possivelmente devido a parâmetros de amostragem não expostos, e uma, muito bem-vinda, estabilidade de desempenho contra pelo menos uma quantização moderada de peso durante a inferência.
English
What makes a good Large Language Model (LLM)? That it performs well on the relevant benchmarks -- which hopefully measure, with some validity, the presence of capabilities that are also challenged in real application. But what makes the model perform well? What gives a model its abilities? We take a recently introduced type of benchmark that is meant to challenge capabilities in a goal-directed, agentive context through self-play of conversational games, and analyse how performance develops as a function of model characteristics like number of parameters, or type of training. We find that while there is a clear relationship between number of parameters and performance, there is still a wide spread of performance points within a given size bracket, which is to be accounted for by training parameters such as fine-tuning data quality and method. From a more practical angle, we also find a certain degree of unpredictability about performance across access methods, possible due to unexposed sampling parameters, and a, very welcome, performance stability against at least moderate weight quantisation during inference.
PDF91November 29, 2024