Hoe Beïnvloedbaar Zijn Grote Taalmodellen? Een Uniforme Evaluatie over Gedragsgranulariteiten Heen

Samenvatting

Grote Taalmodellen (GTM's) worden steeds vaker ingezet in sociaal gevoelige domeinen, maar hun onvoorspelbare gedrag – variërend van niet-afgestemde intenties tot inconsistente persoonlijkheid – vormt een aanzienlijk risico. Wij introduceren SteerEval, een hiërarchische benchmark voor het evalueren van de bestuurbaarheid van GTM's op drie domeinen: taalkenmerken, sentiment en persoonlijkheid. Elk domein is gestructureerd in drie specificatieniveaus: L1 (wat uit te drukken), L2 (hoe uit te drukken) en L3 (hoe te concretiseren), waarbij hoogwaardige gedragsintentie wordt verbonden met concrete tekstuele output. Met SteerEval evalueren we systematisch hedendaagse stuurmethoden, waaruit blijkt dat controle vaak afneemt op fijnmazigere niveaus. Onze benchmark biedt een principieel en interpreteerbaar kader voor veilig en bestuurbaar GTM-gedrag, en dient als basis voor toekomstig onderzoek.

English

Large Language Models (LLMs) are increasingly deployed in socially sensitive domains, yet their unpredictable behaviors, ranging from misaligned intent to inconsistent personality, pose significant risks. We introduce SteerEval, a hierarchical benchmark for evaluating LLM controllability across three domains: language features, sentiment, and personality. Each domain is structured into three specification levels: L1 (what to express), L2 (how to express), and L3 (how to instantiate), connecting high-level behavioral intent to concrete textual output. Using SteerEval, we systematically evaluate contemporary steering methods, revealing that control often degrades at finer-grained levels. Our benchmark offers a principled and interpretable framework for safe and controllable LLM behavior, serving as a foundation for future research.

Hoe Beïnvloedbaar Zijn Grote Taalmodellen? Een Uniforme Evaluatie over Gedragsgranulariteiten Heen

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Samenvatting

Support