ChatPaper.aiChatPaper

Cadena-de-Pensamiento-Defensivo: El Razonamiento Estructurado Fomenta la Robustez en Modelos de Lenguaje de Gran Escala frente a la Corrupción de Referencias

Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption

April 29, 2025
Autores: Wenxiao Wang, Parsa Hosseini, Soheil Feizi
cs.AI

Resumen

El prompting de cadena de pensamiento ha demostrado un gran éxito al facilitar las capacidades de razonamiento de los modelos de lenguaje grandes. En este trabajo, exploramos cómo estas capacidades mejoradas de razonamiento pueden ser aprovechadas para mejorar la robustez de los modelos de lenguaje grandes en tareas que no están necesariamente centradas en el razonamiento. En particular, mostramos cómo una amplia gama de modelos de lenguaje grandes exhiben una mejora significativa en la robustez contra la corrupción de referencias utilizando un método simple llamado cadena de pensamiento defensivo, donde solo se proporcionan unos pocos ejemplos con razonamiento estructurado y defensivo como demostraciones. Empíricamente, las mejoras pueden ser asombrosas, especialmente dada la simplicidad y aplicabilidad del método. Por ejemplo, en la tarea de Natural Questions, la precisión de GPT-4o disminuye del 60% a tan solo el 3% con el prompting estándar cuando 1 de cada 10 referencias proporcionadas está corrupta debido a ataques de inyección de prompt. En contraste, GPT-4o utilizando el prompting de cadena de pensamiento defensivo mantiene una precisión del 50%.
English
Chain-of-thought prompting has demonstrated great success in facilitating the reasoning abilities of large language models. In this work, we explore how these enhanced reasoning abilities can be exploited to improve the robustness of large language models in tasks that are not necessarily reasoning-focused. In particular, we show how a wide range of large language models exhibit significantly improved robustness against reference corruption using a simple method called chain-of-defensive-thought, where only a few exemplars with structured and defensive reasoning are provided as demonstrations. Empirically, the improvements can be astounding, especially given the simplicity and applicability of the method. For example, in the Natural Questions task, the accuracy of GPT-4o degrades from 60% to as low as 3% with standard prompting when 1 out of 10 references provided is corrupted with prompt injection attacks. In contrast, GPT-4o using chain-of-defensive-thought prompting maintains an accuracy of 50%.
PDF32May 4, 2025