Dans quelle mesure les grands modèles de langage sont-ils contrôlables ? Une évaluation unifiée à travers les granularités comportementales

Résumé

Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des domaines socialement sensibles, mais leurs comportements imprévisibles, allant d'une intention non alignée à une personnalité incohérente, présentent des risques significatifs. Nous présentons SteerEval, un benchmark hiérarchique pour évaluer la contrôlabilité des LLM dans trois domaines : les caractéristiques linguistiques, le sentiment et la personnalité. Chaque domaine est structuré en trois niveaux de spécification : L1 (quoi exprimer), L2 (comment l'exprimer) et L3 (comment l'instancier), reliant l'intention comportementale de haut niveau à la production textuelle concrète. En utilisant SteerEval, nous évaluons systématiquement les méthodes de pilotage contemporaines, révélant que le contrôle se dégrade souvent aux niveaux les plus fins. Notre benchmark offre un cadre principiel et interprétable pour un comportement des LLM sûr et contrôlable, servant de fondement aux recherches futures.

English

Large Language Models (LLMs) are increasingly deployed in socially sensitive domains, yet their unpredictable behaviors, ranging from misaligned intent to inconsistent personality, pose significant risks. We introduce SteerEval, a hierarchical benchmark for evaluating LLM controllability across three domains: language features, sentiment, and personality. Each domain is structured into three specification levels: L1 (what to express), L2 (how to express), and L3 (how to instantiate), connecting high-level behavioral intent to concrete textual output. Using SteerEval, we systematically evaluate contemporary steering methods, revealing that control often degrades at finer-grained levels. Our benchmark offers a principled and interpretable framework for safe and controllable LLM behavior, serving as a foundation for future research.

Dans quelle mesure les grands modèles de langage sont-ils contrôlables ? Une évaluation unifiée à travers les granularités comportementales

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Résumé

Support