¿Qué Tan Controlables Son los Modelos de Lenguaje a Gran Escala? Una Evaluación Unificada a Través de Granularidades Conductuales

Resumen

Los Modelos de Lenguaje Grandes (LLM) se despliegan cada vez más en dominios socialmente sensibles, pero sus comportamientos impredecibles, que van desde intenciones desalineadas hasta personalidades inconsistentes, plantean riesgos significativos. Presentamos SteerEval, un benchmark jerárquico para evaluar la capacidad de control de los LLM en tres dominios: características lingüísticas, sentimiento y personalidad. Cada dominio se estructura en tres niveles de especificación: L1 (qué expresar), L2 (cómo expresar) y L3 (cómo instanciar), conectando la intención conductual de alto nivel con la salida textual concreta. Utilizando SteerEval, evaluamos sistemáticamente métodos contemporáneos de direccionamiento, revelando que el control a menudo se degrada en los niveles más detallados. Nuestro benchmark ofrece un marco interpretable y basado en principios para un comportamiento de LLM seguro y controlable, sirviendo como base para futuras investigaciones.

English

Large Language Models (LLMs) are increasingly deployed in socially sensitive domains, yet their unpredictable behaviors, ranging from misaligned intent to inconsistent personality, pose significant risks. We introduce SteerEval, a hierarchical benchmark for evaluating LLM controllability across three domains: language features, sentiment, and personality. Each domain is structured into three specification levels: L1 (what to express), L2 (how to express), and L3 (how to instantiate), connecting high-level behavioral intent to concrete textual output. Using SteerEval, we systematically evaluate contemporary steering methods, revealing that control often degrades at finer-grained levels. Our benchmark offers a principled and interpretable framework for safe and controllable LLM behavior, serving as a foundation for future research.

¿Qué Tan Controlables Son los Modelos de Lenguaje a Gran Escala? Una Evaluación Unificada a Través de Granularidades Conductuales

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Resumen

Support