El Pensamiento Inverso Hace que los LLMs Sean Razonadores Más Fuertes
Reverse Thinking Makes LLMs Stronger Reasoners
November 29, 2024
Autores: Justin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister
cs.AI
Resumen
El pensamiento inverso juega un papel crucial en el razonamiento humano. Los humanos pueden razonar no solo de un problema a una solución, sino también al revés, es decir, comenzar desde la solución y razonar hacia el problema. Esto a menudo mejora el rendimiento general del razonamiento al permitir comprobaciones de consistencia entre su pensamiento hacia adelante y hacia atrás. Para habilitar a los Modelos de Lenguaje Grandes (LLMs) para realizar el pensamiento inverso, presentamos el Pensamiento Mejorado por Reversión (RevThink), un marco compuesto por aumento de datos y objetivos de aprendizaje. En RevThink, aumentamos el conjunto de datos recolectando razonamientos estructurados hacia adelante y hacia atrás de un modelo docente, que consiste en: (1) la pregunta original, (2) el razonamiento hacia adelante, (3) la pregunta hacia atrás y (4) el razonamiento hacia atrás. Luego empleamos tres objetivos para entrenar un modelo estudiante más pequeño de manera de aprendizaje multitarea: (a) generar razonamientos hacia adelante a partir de una pregunta, (b) generar una pregunta hacia atrás a partir de una pregunta y (c) generar razonamientos hacia atrás a partir de la pregunta hacia atrás. Experimentos en 12 conjuntos de datos que abarcan el sentido común, matemáticas y razonamiento lógico muestran una mejora promedio del 13.53% sobre el rendimiento de cero disparos del modelo estudiante y una mejora del 6.84% sobre las líneas base más fuertes de destilación de conocimiento. Además, nuestro método demuestra eficiencia de muestra: utilizando solo el 10% del razonamiento correcto hacia adelante de los datos de entrenamiento, supera un método estándar de ajuste fino entrenado con 10 veces más razonamiento hacia adelante. RevThink también exhibe una fuerte generalización a conjuntos de datos retenidos fuera de la distribución.
English
Reverse thinking plays a crucial role in human reasoning. Humans can reason
not only from a problem to a solution but also in reverse, i.e., start from the
solution and reason towards the problem. This often enhances overall reasoning
performance as it enables consistency checks between their forward and backward
thinking. To enable Large Language Models (LLMs) to perform reverse thinking,
we introduce Reverse-Enhanced Thinking (RevThink), a framework composed of data
augmentation and learning objectives. In RevThink, we augment the dataset by
collecting structured forward-backward reasoning from a teacher model,
consisting of: (1) the original question, (2) forward reasoning, (3) backward
question, and (4) backward reasoning. We then employ three objectives to train
a smaller student model in a multi-task learning fashion: (a) generate forward
reasoning from a question, (b) generate a backward question from a question,
and (c) generate backward reasoning from the backward question. Experiments
across 12 datasets covering commonsense, math, and logical reasoning show an
average 13.53% improvement over the student model's zero-shot performance and a
6.84% improvement over the strongest knowledge distillation baselines.
Moreover, our method demonstrates sample efficiency -- using only 10% of the
correct forward reasoning from the training data, it outperforms a standard
fine-tuning method trained on 10x more forward reasoning. RevThink also
exhibits strong generalization to out-of-distribution held-out datasets.Summary
AI-Generated Summary