Wie kontrollierbar sind große Sprachmodelle? Eine einheitliche Evaluation über Verhaltensgranularitäten hinweg

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend in sozial sensiblen Bereichen eingesetzt, doch ihre unvorhersehbaren Verhaltensweisen – von fehlausgerichteten Absichten bis hin zu inkonsistenter Persönlichkeit – bergen erhebliche Risiken. Wir stellen SteerEval vor, einen hierarchischen Benchmark zur Bewertung der Steuerbarkeit von LLMs in drei Bereichen: Sprachmerkmale, Sentiment und Persönlichkeit. Jeder Bereich ist in drei Spezifikationsebenen strukturiert: L1 (was ausgedrückt werden soll), L2 (wie es ausgedrückt werden soll) und L3 (wie es instanziiert werden soll), die hochrangige Verhaltensabsichten mit konkreter textueller Ausgabe verbinden. Mit SteerEval evaluieren wir systematisch zeitgenössische Steuerungsmethoden und zeigen, dass die Kontrolle auf feiner granularen Ebenen oft abnimmt. Unser Benchmark bietet einen prinzipienbasierten und interpretierbaren Rahmen für sicheres und steuerbares LLM-Verhalten und dient als Grundlage für zukünftige Forschung.

English

Large Language Models (LLMs) are increasingly deployed in socially sensitive domains, yet their unpredictable behaviors, ranging from misaligned intent to inconsistent personality, pose significant risks. We introduce SteerEval, a hierarchical benchmark for evaluating LLM controllability across three domains: language features, sentiment, and personality. Each domain is structured into three specification levels: L1 (what to express), L2 (how to express), and L3 (how to instantiate), connecting high-level behavioral intent to concrete textual output. Using SteerEval, we systematically evaluate contemporary steering methods, revealing that control often degrades at finer-grained levels. Our benchmark offers a principled and interpretable framework for safe and controllable LLM behavior, serving as a foundation for future research.

Wie kontrollierbar sind große Sprachmodelle? Eine einheitliche Evaluation über Verhaltensgranularitäten hinweg

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Zusammenfassung

Support