AutoDetect : Vers un cadre unifié pour la détection automatisée des faiblesses dans les grands modèles de langage

papers.abstract

Bien que les modèles de langage à grande échelle (LLMs) deviennent de plus en plus puissants, ils présentent encore des faiblesses significatives mais subtiles, telles que des erreurs dans le suivi d'instructions ou les tâches de codage. Comme ces erreurs inattendues pourraient avoir des conséquences graves dans des déploiements pratiques, il est crucial d'étudier systématiquement les limites des LLMs. Les approches traditionnelles de benchmarking ne peuvent pas identifier de manière exhaustive les déficiences spécifiques des modèles, tandis que les inspections manuelles sont coûteuses et non extensibles. Dans cet article, nous introduisons un cadre unifié, AutoDetect, pour exposer automatiquement les faiblesses des LLMs à travers diverses tâches. Inspiré par le processus d'évaluation éducative qui mesure les résultats d'apprentissage des étudiants, AutoDetect se compose de trois agents alimentés par des LLMs : Examinateur, Questionneur et Évaluateur. La collaboration entre ces trois agents est conçue pour réaliser une identification approfondie et complète des faiblesses. Notre cadre démontre un succès significatif dans la découverte de défauts, avec un taux de réussite d'identification dépassant 30% dans des modèles renommés tels que ChatGPT et Claude. Plus important encore, ces faiblesses identifiées peuvent guider des améliorations spécifiques des modèles, s'avérant plus efficaces que des méthodes d'augmentation de données non ciblées comme Self-Instruct. Notre approche a conduit à des améliorations substantielles dans des LLMs populaires, y compris la série Llama et Mistral-7b, augmentant leurs performances de plus de 10% sur plusieurs benchmarks. Le code et les données sont disponibles publiquement à l'adresse https://github.com/thu-coai/AutoDetect.

English

Although Large Language Models (LLMs) are becoming increasingly powerful, they still exhibit significant but subtle weaknesses, such as mistakes in instruction-following or coding tasks. As these unexpected errors could lead to severe consequences in practical deployments, it is crucial to investigate the limitations within LLMs systematically. Traditional benchmarking approaches cannot thoroughly pinpoint specific model deficiencies, while manual inspections are costly and not scalable. In this paper, we introduce a unified framework, AutoDetect, to automatically expose weaknesses in LLMs across various tasks. Inspired by the educational assessment process that measures students' learning outcomes, AutoDetect consists of three LLM-powered agents: Examiner, Questioner, and Assessor. The collaboration among these three agents is designed to realize comprehensive and in-depth weakness identification. Our framework demonstrates significant success in uncovering flaws, with an identification success rate exceeding 30% in prominent models such as ChatGPT and Claude. More importantly, these identified weaknesses can guide specific model improvements, proving more effective than untargeted data augmentation methods like Self-Instruct. Our approach has led to substantial enhancements in popular LLMs, including the Llama series and Mistral-7b, boosting their performance by over 10% across several benchmarks. Code and data are publicly available at https://github.com/thu-coai/AutoDetect.

AutoDetect : Vers un cadre unifié pour la détection automatisée des faiblesses dans les grands modèles de langage

AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models

papers.abstract

Support