Processus de réflexion-réponse récursif pour les LLM et VLM

Résumé

Les raisonneurs de type « Penser-Répondre » tels que DeepSeek-R1 ont réalisé des progrès notables en exploitant un raisonnement interne interprétable. Cependant, malgré la présence fréquente d'indices d'auto-réflexion comme « Oups ! », ils restent vulnérables aux erreurs de sortie lors d'une inférence en une seule passe. Pour remédier à cette limitation, nous proposons un processus récursif de pensée-réponse (R-TAP) efficace qui permet aux modèles de s'engager dans des cycles de raisonnement itératifs et de générer des réponses plus précises, dépassant ainsi les approches conventionnelles en une seule passe. Au cœur de cette approche se trouve un générateur de confiance qui évalue la certitude des réponses du modèle et guide les améliorations ultérieures. En incorporant deux récompenses complémentaires – la récompense d'augmentation récursive de la confiance et la récompense de confiance dans la réponse finale – nous montrons que les modèles améliorés par R-TAP surpassent constamment les méthodes conventionnelles en une seule passe, tant pour les grands modèles de langage (LLM) que pour les modèles vision-langage (VLM). De plus, en analysant la fréquence des expressions de type « Oups » dans les réponses des modèles, nous constatons que les modèles auxquels R-TAP est appliqué présentent significativement moins de schémas d'auto-réflexion, ce qui se traduit par un raisonnement en temps d'inférence plus stable et plus rapide. Nous espérons que R-TAP ouvrira la voie à l'évolution de méthodes efficaces et élaborées pour affiner les processus de raisonnement des futures IA.

English

Think-Answer reasoners such as DeepSeek-R1 have made notable progress by leveraging interpretable internal reasoning. However, despite the frequent presence of self-reflective cues like "Oops!", they remain vulnerable to output errors during single-pass inference. To address this limitation, we propose an efficient Recursive Think-Answer Process (R-TAP) that enables models to engage in iterative reasoning cycles and generate more accurate answers, going beyond conventional single-pass approaches. Central to this approach is a confidence generator that evaluates the certainty of model responses and guides subsequent improvements. By incorporating two complementary rewards-Recursively Confidence Increase Reward and Final Answer Confidence Reward-we show that R-TAP-enhanced models consistently outperform conventional single-pass methods for both large language models (LLMs) and vision-language models (VLMs). Moreover, by analyzing the frequency of "Oops"-like expressions in model responses, we find that R-TAP-applied models exhibit significantly fewer self-reflective patterns, resulting in more stable and faster inference-time reasoning. We hope R-TAP pave the way evolving into efficient and elaborated methods to refine the reasoning processes of future AI.

Processus de réflexion-réponse récursif pour les LLM et VLM

Recursive Think-Answer Process for LLMs and VLMs

Résumé

Support