ChatPaper.aiChatPaper

Le Mirage de la Modification de Modèles : Réévaluation dans le Monde Réel

The Mirage of Model Editing: Revisiting Evaluation in the Wild

February 16, 2025
Auteurs: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng
cs.AI

Résumé

Malgré des résultats quasi parfaits dans les évaluations artificielles, l'efficacité de l'édition de modèles dans des applications réelles reste inexplorée. Pour combler cette lacune, nous proposons d'étudier l'édition de modèles dans le cadre de la réponse à des questions (QA) en établissant une pratique d'évaluation rigoureuse pour mesurer l'efficacité des méthodes d'édition à corriger les erreurs des LLMs. Cela comprend QAEdit, un nouveau benchmark dérivé de jeux de données QA populaires, et un cadre d'évaluation standardisé. Nos expériences d'édition unique indiquent que les méthodes d'édition actuelles performent nettement moins bien que ce qui était précédemment rapporté (38,5 % contre ~96 %). Grâce à une analyse modulaire et à des expériences contrôlées, nous démontrons que cette baisse de performance découle de problèmes dans les pratiques d'évaluation des recherches antérieures sur l'édition. Un problème clé est l'utilisation inappropriée du forçage enseignant (teacher forcing) lors des tests, qui empêche la propagation des erreurs en fournissant des tokens de vérité terrain (inaccessibles dans des scénarios réels) en entrée. De plus, nous simulons un déploiement réel par édition séquentielle, révélant que les approches actuelles échouent de manière spectaculaire avec seulement 1000 éditions. Notre analyse offre un réexamen fondamental à la fois de l'applicabilité réelle des méthodes d'édition de modèles existantes et de leurs pratiques d'évaluation, et établit un cadre d'évaluation rigoureux avec des insights clés pour faire progresser la recherche sur l'édition de modèles fiable et pratique.
English
Despite near-perfect results in artificial evaluations, the effectiveness of model editing in real-world applications remains unexplored. To bridge this gap, we propose to study model editing in question answering (QA) by establishing a rigorous evaluation practice to assess the effectiveness of editing methods in correcting LLMs' errors. It consists of QAEdit, a new benchmark derived from popular QA datasets, and a standardized evaluation framework. Our single editing experiments indicate that current editing methods perform substantially worse than previously reported (38.5% vs. ~96%). Through module analysis and controlled experiments, we demonstrate that this performance decline stems from issues in evaluation practices of prior editing research. One key issue is the inappropriate use of teacher forcing in testing prevents error propagation by feeding ground truth tokens (inaccessible in real-world scenarios) as input. Furthermore, we simulate real-world deployment by sequential editing, revealing that current approaches fail drastically with only 1000 edits. Our analysis provides a fundamental reexamination of both the real-world applicability of existing model editing methods and their evaluation practices, and establishes a rigorous evaluation framework with key insights to advance reliable and practical model editing research.

Summary

AI-Generated Summary

PDF102February 18, 2025