AutoDetect : Vers un cadre unifié pour la détection automatisée des faiblesses dans les grands modèles de langage
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models
June 24, 2024
Auteurs: Jiale Cheng, Yida Lu, Xiaotao Gu, Pei Ke, Xiao Liu, Yuxiao Dong, Hongning Wang, Jie Tang, Minlie Huang
cs.AI
Résumé
Bien que les modèles de langage à grande échelle (LLMs) deviennent de plus en plus puissants, ils présentent encore des faiblesses significatives mais subtiles, telles que des erreurs dans le suivi d'instructions ou les tâches de codage. Comme ces erreurs inattendues pourraient avoir des conséquences graves dans des déploiements pratiques, il est crucial d'étudier systématiquement les limites des LLMs. Les approches traditionnelles de benchmarking ne peuvent pas identifier de manière exhaustive les déficiences spécifiques des modèles, tandis que les inspections manuelles sont coûteuses et non extensibles. Dans cet article, nous introduisons un cadre unifié, AutoDetect, pour exposer automatiquement les faiblesses des LLMs à travers diverses tâches. Inspiré par le processus d'évaluation éducative qui mesure les résultats d'apprentissage des étudiants, AutoDetect se compose de trois agents alimentés par des LLMs : Examinateur, Questionneur et Évaluateur. La collaboration entre ces trois agents est conçue pour réaliser une identification approfondie et complète des faiblesses. Notre cadre démontre un succès significatif dans la découverte de défauts, avec un taux de réussite d'identification dépassant 30% dans des modèles renommés tels que ChatGPT et Claude. Plus important encore, ces faiblesses identifiées peuvent guider des améliorations spécifiques des modèles, s'avérant plus efficaces que des méthodes d'augmentation de données non ciblées comme Self-Instruct. Notre approche a conduit à des améliorations substantielles dans des LLMs populaires, y compris la série Llama et Mistral-7b, augmentant leurs performances de plus de 10% sur plusieurs benchmarks. Le code et les données sont disponibles publiquement à l'adresse https://github.com/thu-coai/AutoDetect.
English
Although Large Language Models (LLMs) are becoming increasingly powerful,
they still exhibit significant but subtle weaknesses, such as mistakes in
instruction-following or coding tasks. As these unexpected errors could lead to
severe consequences in practical deployments, it is crucial to investigate the
limitations within LLMs systematically. Traditional benchmarking approaches
cannot thoroughly pinpoint specific model deficiencies, while manual
inspections are costly and not scalable. In this paper, we introduce a unified
framework, AutoDetect, to automatically expose weaknesses in LLMs across
various tasks. Inspired by the educational assessment process that measures
students' learning outcomes, AutoDetect consists of three LLM-powered agents:
Examiner, Questioner, and Assessor. The collaboration among these three agents
is designed to realize comprehensive and in-depth weakness identification. Our
framework demonstrates significant success in uncovering flaws, with an
identification success rate exceeding 30% in prominent models such as ChatGPT
and Claude. More importantly, these identified weaknesses can guide specific
model improvements, proving more effective than untargeted data augmentation
methods like Self-Instruct. Our approach has led to substantial enhancements in
popular LLMs, including the Llama series and Mistral-7b, boosting their
performance by over 10% across several benchmarks. Code and data are publicly
available at https://github.com/thu-coai/AutoDetect.Summary
AI-Generated Summary