ChatPaper.aiChatPaper

Chain-of-Defensive-Thought: Gestructureerd Redeneren Bevordert Robuustheid in Grote Taalmodellen tegen Referentiecorruptie

Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption

April 29, 2025
Auteurs: Wenxiao Wang, Parsa Hosseini, Soheil Feizi
cs.AI

Samenvatting

Chain-of-thought prompting heeft grote successen laten zien in het bevorderen van de redeneervaardigheden van grote taalmodelen. In dit werk onderzoeken we hoe deze verbeterde redeneervaardigheden kunnen worden benut om de robuustheid van grote taalmodelen te vergroten bij taken die niet per se gericht zijn op redeneren. In het bijzonder laten we zien hoe een breed scala aan grote taalmodelen aanzienlijk verbeterde robuustheid vertoont tegen referentiecorruptie door een eenvoudige methode genaamd chain-of-defensive-thought, waarbij slechts enkele voorbeelden met gestructureerd en defensief redeneren worden aangeboden als demonstraties. Empirisch gezien kunnen de verbeteringen verbazingwekkend zijn, vooral gezien de eenvoud en toepasbaarheid van de methode. Bijvoorbeeld, in de Natural Questions-taak daalt de nauwkeurigheid van GPT-4o van 60% naar slechts 3% bij standaard prompting wanneer 1 van de 10 verstrekte referenties is gecorrumpeerd door prompt injection-aanvallen. Daarentegen behoudt GPT-4o bij gebruik van chain-of-defensive-thought prompting een nauwkeurigheid van 50%.
English
Chain-of-thought prompting has demonstrated great success in facilitating the reasoning abilities of large language models. In this work, we explore how these enhanced reasoning abilities can be exploited to improve the robustness of large language models in tasks that are not necessarily reasoning-focused. In particular, we show how a wide range of large language models exhibit significantly improved robustness against reference corruption using a simple method called chain-of-defensive-thought, where only a few exemplars with structured and defensive reasoning are provided as demonstrations. Empirically, the improvements can be astounding, especially given the simplicity and applicability of the method. For example, in the Natural Questions task, the accuracy of GPT-4o degrades from 60% to as low as 3% with standard prompting when 1 out of 10 references provided is corrupted with prompt injection attacks. In contrast, GPT-4o using chain-of-defensive-thought prompting maintains an accuracy of 50%.
PDF32May 4, 2025