ChatPaper.aiChatPaper

Aprender a razonar mediante Mezcla-de-Pensamientos para el razonamiento lógico

Learning to Reason via Mixture-of-Thought for Logical Reasoning

May 21, 2025
Autores: Tong Zheng, Lichang Chen, Simeng Han, R. Thomas McCoy, Heng Huang
cs.AI

Resumen

Los seres humanos utilizan de manera natural múltiples modalidades de razonamiento para aprender y resolver problemas lógicos, es decir, diferentes formatos de representación como el lenguaje natural, el código y la lógica simbólica. En contraste, la mayoría de los enfoques basados en modelos de lenguaje grandes (LLM, por sus siglas en inglés) operan con una única modalidad de razonamiento durante el entrenamiento, típicamente el lenguaje natural. Aunque algunos métodos han explorado la selección o aumento de modalidades en el momento de la inferencia, el proceso de entrenamiento sigue siendo ciego a las modalidades, lo que limita la sinergia entre ellas. Para llenar este vacío, proponemos Mixture-of-Thought (MoT), un marco que permite a los LLM razonar a través de tres modalidades complementarias: lenguaje natural, código y una nueva modalidad simbólica, la tabla de verdad, que enumera sistemáticamente casos lógicos y mitiga parcialmente modos de fallo clave en el razonamiento basado en lenguaje natural. MoT adopta un diseño de dos fases: (1) entrenamiento auto-evolutivo de MoT, que aprende conjuntamente a partir de racionalidades auto-generadas y filtradas en todas las modalidades; y (2) inferencia de MoT, que aprovecha plenamente la sinergia de las tres modalidades para producir mejores predicciones. Los experimentos en benchmarks de razonamiento lógico, como FOLIO y ProofWriter, demuestran que nuestro marco MoT supera consistentemente y de manera significativa a los fuertes baselines de LLM con enfoques de cadena de pensamiento de una sola modalidad, logrando una mejora promedio de hasta +11.7 puntos porcentuales en precisión. Análisis adicionales muestran que nuestro marco MoT beneficia tanto las etapas de entrenamiento como de inferencia; que es particularmente efectivo en problemas de razonamiento lógico más difíciles; y que las diferentes modalidades aportan fortalezas complementarias, con el razonamiento basado en tablas de verdad ayudando a superar cuellos de botella clave en la inferencia basada en lenguaje natural.
English
Human beings naturally utilize multiple reasoning modalities to learn and solve logical problems, i.e., different representational formats such as natural language, code, and symbolic logic. In contrast, most existing LLM-based approaches operate with a single reasoning modality during training, typically natural language. Although some methods explored modality selection or augmentation at inference time, the training process remains modality-blind, limiting synergy among modalities. To fill in this gap, we propose Mixture-of-Thought (MoT), a framework that enables LLMs to reason across three complementary modalities: natural language, code, and a newly introduced symbolic modality, truth-table, which systematically enumerates logical cases and partially mitigates key failure modes in natural language reasoning. MoT adopts a two-phase design: (1) self-evolving MoT training, which jointly learns from filtered, self-generated rationales across modalities; and (2) MoT inference, which fully leverages the synergy of three modalities to produce better predictions. Experiments on logical reasoning benchmarks including FOLIO and ProofWriter demonstrate that our MoT framework consistently and significantly outperforms strong LLM baselines with single-modality chain-of-thought approaches, achieving up to +11.7pp average accuracy gain. Further analyses show that our MoT framework benefits both training and inference stages; that it is particularly effective on harder logical reasoning problems; and that different modalities contribute complementary strengths, with truth-table reasoning helping to overcome key bottlenecks in natural language inference.

Summary

AI-Generated Summary

PDF122May 22, 2025