Proceso de Pensamiento-Respuesta Recursivo para LLM y VLM

Resumen

Los razonadores de tipo "Pensar-Responder", como DeepSeek-R1, han logrado avances notables al aprovechar un razonamiento interno interpretable. Sin embargo, a pesar de la frecuente presencia de pistas autorreflexivas como "¡Oops!", estos sistemas siguen siendo vulnerables a errores en la salida durante la inferencia de pasada única. Para abordar esta limitación, proponemos un Proceso Recursivo de Pensar-Responder (R-TAP, por sus siglas en inglés) eficiente, que permite a los modelos participar en ciclos de razonamiento iterativos y generar respuestas más precisas, yendo más allá de los enfoques convencionales de pasada única. Es central en este enfoque un generador de confianza que evalúa la certeza de las respuestas del modelo y guía las mejoras subsiguientes. Al incorporar dos recompensas complementarias —la Recompensa por Aumento Recursivo de la Confianza y la Recompensa por Confianza en la Respuesta Final— demostramos que los modelos potenciados por R-TAP superan consistentemente a los métodos convencionales de pasada única, tanto para modelos de lenguaje grande (LLM) como para modelos de lenguaje visual (VLM). Además, al analizar la frecuencia de expresiones similares a "Oops" en las respuestas del modelo, encontramos que los modelos con R-TAP aplicado exhiben significativamente menos patrones autorreflexivos, lo que resulta en un razonamiento en tiempo de inferencia más estable y rápido. Esperamos que R-TAP allane el camino para evolucionar hacia métodos eficientes y elaborados que refinen los procesos de razonamiento de la IA futura.

English

Think-Answer reasoners such as DeepSeek-R1 have made notable progress by leveraging interpretable internal reasoning. However, despite the frequent presence of self-reflective cues like "Oops!", they remain vulnerable to output errors during single-pass inference. To address this limitation, we propose an efficient Recursive Think-Answer Process (R-TAP) that enables models to engage in iterative reasoning cycles and generate more accurate answers, going beyond conventional single-pass approaches. Central to this approach is a confidence generator that evaluates the certainty of model responses and guides subsequent improvements. By incorporating two complementary rewards-Recursively Confidence Increase Reward and Final Answer Confidence Reward-we show that R-TAP-enhanced models consistently outperform conventional single-pass methods for both large language models (LLMs) and vision-language models (VLMs). Moreover, by analyzing the frequency of "Oops"-like expressions in model responses, we find that R-TAP-applied models exhibit significantly fewer self-reflective patterns, resulting in more stable and faster inference-time reasoning. We hope R-TAP pave the way evolving into efficient and elaborated methods to refine the reasoning processes of future AI.

Proceso de Pensamiento-Respuesta Recursivo para LLM y VLM

Recursive Think-Answer Process for LLMs and VLMs

Resumen

Support