Исследование неопределенности в крупных языковых моделях, согласованных с человеком
Investigating Human-Aligned Large Language Model Uncertainty
March 16, 2025
Авторы: Kyle Moore, Jesse Roberts, Daryl Watson, Pamela Wisniewski
cs.AI
Аннотация
В последних исследованиях предпринимались попытки количественно оценить неопределенность больших языковых моделей, чтобы облегчить управление моделями и регулировать доверие пользователей. Предыдущие работы сосредоточены на мерах неопределенности, которые теоретически обоснованы или отражают среднее наблюдаемое поведение модели. В данной работе мы исследуем различные меры неопределенности с целью выявления тех, которые коррелируют с неопределенностью на уровне человеческих групп. Мы обнаруживаем, что байесовские меры и вариация мер энтропии, топ-k энтропия, как правило, согласуются с поведением человека в зависимости от размера модели. Мы также выясняем, что некоторые сильные меры снижают сходство с человеческим поведением при увеличении размера модели, однако, с помощью множественной линейной регрессии, мы обнаруживаем, что комбинирование нескольких мер неопределенности обеспечивает сопоставимое соответствие человеческому поведению с уменьшенной зависимостью от размера модели.
English
Recent work has sought to quantify large language model uncertainty to
facilitate model control and modulate user trust. Previous works focus on
measures of uncertainty that are theoretically grounded or reflect the average
overt behavior of the model. In this work, we investigate a variety of
uncertainty measures, in order to identify measures that correlate with human
group-level uncertainty. We find that Bayesian measures and a variation on
entropy measures, top-k entropy, tend to agree with human behavior as a
function of model size. We find that some strong measures decrease in
human-similarity with model size, but, by multiple linear regression, we find
that combining multiple uncertainty measures provide comparable human-alignment
with reduced size-dependency.Summary
AI-Generated Summary