SweEval: ¿Los LLM realmente juran? Un punto de referencia de seguridad para probar los límites en el uso empresarial
SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use
May 22, 2025
Autores: Hitesh Laxmichand Patel, Amit Agarwal, Arion Das, Bhargava Kumar, Srikant Panda, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae
cs.AI
Resumen
Los clientes empresariales están adoptando cada vez más los Modelos de Lenguaje de Gran Escala (LLMs) para tareas de comunicación críticas, como redactar correos electrónicos, elaborar propuestas de ventas y componer mensajes informales. Implementar estos modelos en diferentes regiones requiere que comprendan diversos contextos culturales y lingüísticos, y que generen respuestas seguras y respetuosas. Para aplicaciones empresariales, es crucial mitigar riesgos reputacionales, mantener la confianza y garantizar el cumplimiento normativo al identificar y manejar de manera efectiva el lenguaje inseguro u ofensivo. Para abordar esto, presentamos SweEval, un punto de referencia que simula escenarios del mundo real con variaciones en el tono (positivo o negativo) y el contexto (formal o informal). Las instrucciones indican explícitamente al modelo que incluya palabras malsonantes específicas al completar la tarea. Este punto de referencia evalúa si los LLMs cumplen o resisten dichas instrucciones inapropiadas y analiza su alineación con marcos éticos, matices culturales y capacidades de comprensión del lenguaje. Para avanzar en la investigación sobre la construcción de sistemas de IA éticamente alineados para uso empresarial y más allá, publicamos el conjunto de datos y el código: https://github.com/amitbcp/multilingual_profanity.
English
Enterprise customers are increasingly adopting Large Language Models (LLMs)
for critical communication tasks, such as drafting emails, crafting sales
pitches, and composing casual messages. Deploying such models across different
regions requires them to understand diverse cultural and linguistic contexts
and generate safe and respectful responses. For enterprise applications, it is
crucial to mitigate reputational risks, maintain trust, and ensure compliance
by effectively identifying and handling unsafe or offensive language. To
address this, we introduce SweEval, a benchmark simulating real-world scenarios
with variations in tone (positive or negative) and context (formal or
informal). The prompts explicitly instruct the model to include specific swear
words while completing the task. This benchmark evaluates whether LLMs comply
with or resist such inappropriate instructions and assesses their alignment
with ethical frameworks, cultural nuances, and language comprehension
capabilities. In order to advance research in building ethically aligned AI
systems for enterprise use and beyond, we release the dataset and code:
https://github.com/amitbcp/multilingual_profanity.Summary
AI-Generated Summary