ChatPaper.aiChatPaper

Banco de Autocorrección: Revelando y Abordando el Punto Ciego de Autocorrección en los LLMs

Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs

July 3, 2025
Autores: Ken Tsui
cs.AI

Resumen

Aunque los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han vuelto transformadores, aún cometen errores y pueden explorar caminos de razonamiento improductivos. La autocorrección es una capacidad importante para un LLM confiable, particularmente un LLM autoregresivo. Si bien los LLMs pueden identificar errores en la entrada del usuario, exhiben un "Punto Ciego de Autocorrección" sistemático: no corrigen errores idénticos en sus propias salidas. Para estudiar sistemáticamente este fenómeno, presentamos Self-Correction Bench, un marco sistemático para medir este fenómeno mediante la inyección controlada de errores en tres niveles de complejidad. Al probar 14 modelos, encontramos una tasa promedio de punto ciego del 64,5%. Encontramos múltiples evidencias de que esta limitación está relacionada con la composición de los datos de entrenamiento: las demostraciones de entrenamiento humano muestran predominantemente respuestas sin errores en lugar de secuencias de corrección de errores, a diferencia de los modelos entrenados con aprendizaje por refuerzo (RL) que aprenden a corregir errores a través de retroalimentación de resultados. Notablemente, simplemente añadir "Espera" reduce los puntos ciegos en un 89,3%, lo que sugiere que la capacidad existe pero requiere activación. Nuestro trabajo destaca una limitación crítica en los LLMs actuales y ofrece posibles vías para mejorar su confiabilidad y fiabilidad.
English
Although large language models (LLMs) have become transformative, they still make mistakes and can explore unproductive reasoning paths. Self-correction is an important capability for a trustworthy LLM, particularly an autoregressive LLM. While LLMs can identify error in user input, they exhibit a systematic 'Self-Correction Blind Spot' - failing to correct identical error in their own outputs. To systematically study this phenomenon, we introduce Self-Correction Bench, a systematic framework to measure this phenomenon through controlled error injection at three complexity levels. Testing 14 models, we find an average 64.5% blind spot rate. We find multiple evidences that this limitation relates to training data composition: human training demonstrations predominantly show error-free responses rather than error-correction sequences, unlike RL-trained models that learn error correction through outcome feedback. Remarkably, simply appending "Wait" reduces blind spots by 89.3%, suggesting that the capability exists but requires activation. Our work highlights a critical limitation in current LLMs and offers potential avenues for improving their reliability and trustworthiness.
PDF53July 4, 2025