Quanto sono controllabili i grandi modelli linguistici? Una valutazione unificata attraverso le granularità comportamentali

Abstract

I modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in domini socialmente sensibili, nonostante i loro comportamenti imprevedibili, che spaziano da intenti disallineati a personalità incoerenti, pongano rischi significativi. Introduciamo SteerEval, un benchmark gerarchico per valutare la controllabilità degli LLM in tre domini: caratteristiche linguistiche, sentimenti e personalità. Ogni dominio è strutturato in tre livelli di specifica: L1 (cosa esprimere), L2 (come esprimere) e L3 (come istanziare), collegando l'intento comportamentale di alto livello all'output testuale concreto. Utilizzando SteerEval, valutiamo sistematicamente i metodi contemporanei di controllo, rivelando che la controllabilità spesso si degrada a livelli più granulari. Il nostro benchmark offre un framework strutturato e interpretabile per un comportamento degli LLM sicuro e controllabile, fungendo da base per la ricerca futura.

English

Large Language Models (LLMs) are increasingly deployed in socially sensitive domains, yet their unpredictable behaviors, ranging from misaligned intent to inconsistent personality, pose significant risks. We introduce SteerEval, a hierarchical benchmark for evaluating LLM controllability across three domains: language features, sentiment, and personality. Each domain is structured into three specification levels: L1 (what to express), L2 (how to express), and L3 (how to instantiate), connecting high-level behavioral intent to concrete textual output. Using SteerEval, we systematically evaluate contemporary steering methods, revealing that control often degrades at finer-grained levels. Our benchmark offers a principled and interpretable framework for safe and controllable LLM behavior, serving as a foundation for future research.

Quanto sono controllabili i grandi modelli linguistici? Una valutazione unificata attraverso le granularità comportamentali

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Abstract

Support