Recursief Denk- en Antwoordproces voor LLM's en VLM's

Samenvatting

Think-Answer-redeneerders zoals DeepSeek-R1 hebben aanzienlijke vooruitgang geboekt door gebruik te maken van interpreteerbare interne redenering. Ondanks de frequente aanwezigheid van zelfreflectieve signalen zoals "Oeps!", blijven ze echter kwetsbaar voor uitvoerfouten tijdens enkelvoudige inferentie. Om deze beperking aan te pakken, stellen we een efficiënt Recursief Think-Answer-Proces (R-TAP) voor, dat modellen in staat stelt om iteratieve redeneercycli uit te voeren en nauwkeurigere antwoorden te genereren, voorbij conventionele enkelvoudige benaderingen. Centraal in deze aanpak staat een vertrouwensgenerator die de zekerheid van modelresponses evalueert en verdere verbeteringen begeleidt. Door twee complementaire beloningen te incorporeren - de Recursieve Vertrouwens-Toename Beloning en de Finale Antwoord-Vertrouwens Beloning - tonen we aan dat R-TAP-verbeterde modellen consequent conventionele enkelvoudige methoden overtreffen, zowel voor grote taalmodel(len (LLM's) als voor visie-taalmodel(len (VLM's). Bovendien blijkt uit analyse van de frequentie van "Oeps"-achtige uitdrukkingen in modelresponses dat R-TAP-toegepaste modellen aanzienlijk minder zelfreflectieve patronen vertonen, wat resulteert in stabielere en snellere redenering tijdens inferentie. We hopen dat R-TAP de weg effent naar de evolutie van efficiënte en verfijnde methoden om de redeneerprocessen van toekomstige AI te verbeteren.

English

Think-Answer reasoners such as DeepSeek-R1 have made notable progress by leveraging interpretable internal reasoning. However, despite the frequent presence of self-reflective cues like "Oops!", they remain vulnerable to output errors during single-pass inference. To address this limitation, we propose an efficient Recursive Think-Answer Process (R-TAP) that enables models to engage in iterative reasoning cycles and generate more accurate answers, going beyond conventional single-pass approaches. Central to this approach is a confidence generator that evaluates the certainty of model responses and guides subsequent improvements. By incorporating two complementary rewards-Recursively Confidence Increase Reward and Final Answer Confidence Reward-we show that R-TAP-enhanced models consistently outperform conventional single-pass methods for both large language models (LLMs) and vision-language models (VLMs). Moreover, by analyzing the frequency of "Oops"-like expressions in model responses, we find that R-TAP-applied models exhibit significantly fewer self-reflective patterns, resulting in more stable and faster inference-time reasoning. We hope R-TAP pave the way evolving into efficient and elaborated methods to refine the reasoning processes of future AI.

Recursief Denk- en Antwoordproces voor LLM's en VLM's

Recursive Think-Answer Process for LLMs and VLMs

Samenvatting

Support