SweEval: ¿Los LLM realmente juran? Un punto de referencia de seguridad para probar los límites en el uso empresarial

Resumen

Los clientes empresariales están adoptando cada vez más los Modelos de Lenguaje de Gran Escala (LLMs) para tareas de comunicación críticas, como redactar correos electrónicos, elaborar propuestas de ventas y componer mensajes informales. Implementar estos modelos en diferentes regiones requiere que comprendan diversos contextos culturales y lingüísticos, y que generen respuestas seguras y respetuosas. Para aplicaciones empresariales, es crucial mitigar riesgos reputacionales, mantener la confianza y garantizar el cumplimiento normativo al identificar y manejar de manera efectiva el lenguaje inseguro u ofensivo. Para abordar esto, presentamos SweEval, un punto de referencia que simula escenarios del mundo real con variaciones en el tono (positivo o negativo) y el contexto (formal o informal). Las instrucciones indican explícitamente al modelo que incluya palabras malsonantes específicas al completar la tarea. Este punto de referencia evalúa si los LLMs cumplen o resisten dichas instrucciones inapropiadas y analiza su alineación con marcos éticos, matices culturales y capacidades de comprensión del lenguaje. Para avanzar en la investigación sobre la construcción de sistemas de IA éticamente alineados para uso empresarial y más allá, publicamos el conjunto de datos y el código: https://github.com/amitbcp/multilingual_profanity.

English

Enterprise customers are increasingly adopting Large Language Models (LLMs) for critical communication tasks, such as drafting emails, crafting sales pitches, and composing casual messages. Deploying such models across different regions requires them to understand diverse cultural and linguistic contexts and generate safe and respectful responses. For enterprise applications, it is crucial to mitigate reputational risks, maintain trust, and ensure compliance by effectively identifying and handling unsafe or offensive language. To address this, we introduce SweEval, a benchmark simulating real-world scenarios with variations in tone (positive or negative) and context (formal or informal). The prompts explicitly instruct the model to include specific swear words while completing the task. This benchmark evaluates whether LLMs comply with or resist such inappropriate instructions and assesses their alignment with ethical frameworks, cultural nuances, and language comprehension capabilities. In order to advance research in building ethically aligned AI systems for enterprise use and beyond, we release the dataset and code: https://github.com/amitbcp/multilingual_profanity.

SweEval: ¿Los LLM realmente juran? Un punto de referencia de seguridad para probar los límites en el uso empresarial

SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use

Resumen

Support