Насколько управляемы большие языковые модели? Единая оценка на различных уровнях поведенческой гранулярности

Аннотация

Крупные языковые модели (LLM) все чаще применяются в социально значимых областях, однако их непредсказуемое поведение — от несоответствия намерениям до несогласованной личности — создает серьезные риски. Мы представляем SteerEval, иерархический бенчмарк для оценки управляемости LLM в трех областях: языковые особенности, тональность и личность. Каждая область структурирована на три уровня спецификации: L1 (что выражать), L2 (как выражать) и L3 (как реализовывать), что связывает поведенческие намерения высокого уровня с конкретным текстовым выводом. Используя SteerEval, мы систематически оцениваем современные методы управления, выявляя, что контроль часто ухудшается на более детальных уровнях. Наш бенчмарк предлагает принципиальный и интерпретируемый фреймворк для обеспечения безопасного и управляемого поведения LLM, служа основой для будущих исследований.

English

Large Language Models (LLMs) are increasingly deployed in socially sensitive domains, yet their unpredictable behaviors, ranging from misaligned intent to inconsistent personality, pose significant risks. We introduce SteerEval, a hierarchical benchmark for evaluating LLM controllability across three domains: language features, sentiment, and personality. Each domain is structured into three specification levels: L1 (what to express), L2 (how to express), and L3 (how to instantiate), connecting high-level behavioral intent to concrete textual output. Using SteerEval, we systematically evaluate contemporary steering methods, revealing that control often degrades at finer-grained levels. Our benchmark offers a principled and interpretable framework for safe and controllable LLM behavior, serving as a foundation for future research.

Насколько управляемы большие языковые модели? Единая оценка на различных уровнях поведенческой гранулярности

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Аннотация

Support