Сколько параметров нужно, чтобы поменять лампочку? Оценка производительности в самостоятельной игре в разговорные игры как функция характеристик модели.
How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics
June 20, 2024
Авторы: Nidhir Bhavsar, Jonathan Jordan, Sherzod Hakimov, David Schlangen
cs.AI
Аннотация
Что делает хорошую модель большого языка (LLM)? То, что она хорошо справляется с соответствующими эталонами - которые, надеемся, измеряют, с некоторой достоверностью, наличие способностей, которые также испытываются в реальном приложении. Но что делает модель хорошо справляющейся? Что дает модели ее способности? Мы берем недавно введенный тип эталонов, который предназначен для проверки способностей в контексте целеполагающего, агентивного взаимодействия через самостоятельную игру в разговорные игры, и анализируем, как развивается производительность в зависимости от характеристик модели, таких как количество параметров или тип обучения. Мы обнаруживаем, что хотя существует явная связь между количеством параметров и производительностью, все еще существует широкий разброс точек производительности в пределах заданного диапазона размеров, что должно быть объяснено параметрами обучения, такими как качество данных для настройки и метод. С более практической точки зрения, мы также обнаруживаем определенную степень непредсказуемости производительности при различных методах доступа, возможно, из-за неоткрытых параметров выборки, и, что очень важно, стабильность производительности по крайней мере при умеренной квантизации весов во время вывода.
English
What makes a good Large Language Model (LLM)? That it performs well on the
relevant benchmarks -- which hopefully measure, with some validity, the
presence of capabilities that are also challenged in real application. But what
makes the model perform well? What gives a model its abilities? We take a
recently introduced type of benchmark that is meant to challenge capabilities
in a goal-directed, agentive context through self-play of conversational games,
and analyse how performance develops as a function of model characteristics
like number of parameters, or type of training. We find that while there is a
clear relationship between number of parameters and performance, there is still
a wide spread of performance points within a given size bracket, which is to be
accounted for by training parameters such as fine-tuning data quality and
method. From a more practical angle, we also find a certain degree of
unpredictability about performance across access methods, possible due to
unexposed sampling parameters, and a, very welcome, performance stability
against at least moderate weight quantisation during inference.Summary
AI-Generated Summary