Quão Controláveis São os Grandes Modelos de Linguagem? Uma Avaliação Unificada através de Granularidades Comportamentais

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) estão cada vez mais implantados em domínios socialmente sensíveis, mas os seus comportamentos imprevisíveis, desde intenções desalinhadas até personalidades inconsistentes, representam riscos significativos. Apresentamos o SteerEval, um benchmark hierárquico para avaliar a controlabilidade dos LLMs em três domínios: características linguísticas, sentimento e personalidade. Cada domínio é estruturado em três níveis de especificação: L1 (o que expressar), L2 (como expressar) e L3 (como instanciar), conectando a intenção comportamental de alto nível à produção textual concreta. Utilizando o SteerEval, avaliamos sistematicamente métodos contemporâneos de direcionamento, revelando que o controle frequentemente se degrada em níveis mais refinados. O nosso benchmark oferece uma estrutura fundamentada e interpretável para um comportamento de LLM seguro e controlável, servindo como base para pesquisas futuras.

English

Large Language Models (LLMs) are increasingly deployed in socially sensitive domains, yet their unpredictable behaviors, ranging from misaligned intent to inconsistent personality, pose significant risks. We introduce SteerEval, a hierarchical benchmark for evaluating LLM controllability across three domains: language features, sentiment, and personality. Each domain is structured into three specification levels: L1 (what to express), L2 (how to express), and L3 (how to instantiate), connecting high-level behavioral intent to concrete textual output. Using SteerEval, we systematically evaluate contemporary steering methods, revealing that control often degrades at finer-grained levels. Our benchmark offers a principled and interpretable framework for safe and controllable LLM behavior, serving as a foundation for future research.

Quão Controláveis São os Grandes Modelos de Linguagem? Uma Avaliação Unificada através de Granularidades Comportamentais

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Resumo

Support