ChatPaper.aiChatPaper

Apprendre à raisonner via un mélange de pensées pour le raisonnement logique

Learning to Reason via Mixture-of-Thought for Logical Reasoning

May 21, 2025
Auteurs: Tong Zheng, Lichang Chen, Simeng Han, R. Thomas McCoy, Heng Huang
cs.AI

Résumé

Les êtres humains utilisent naturellement plusieurs modalités de raisonnement pour apprendre et résoudre des problèmes logiques, c'est-à-dire différents formats de représentation tels que le langage naturel, le code et la logique symbolique. En revanche, la plupart des approches existantes basées sur les modèles de langage (LLM) opèrent avec une seule modalité de raisonnement pendant l'entraînement, généralement le langage naturel. Bien que certaines méthodes aient exploré la sélection ou l'augmentation de modalités au moment de l'inférence, le processus d'entraînement reste aveugle aux modalités, limitant ainsi la synergie entre elles. Pour combler cette lacune, nous proposons Mixture-of-Thought (MoT), un cadre qui permet aux LLM de raisonner à travers trois modalités complémentaires : le langage naturel, le code et une nouvelle modalité symbolique introduite, la table de vérité, qui énumère systématiquement les cas logiques et atténue partiellement les principaux modes d'échec dans le raisonnement en langage naturel. MoT adopte une conception en deux phases : (1) l'entraînement auto-évolutif de MoT, qui apprend conjointement à partir de justifications auto-générées et filtrées à travers les modalités ; et (2) l'inférence MoT, qui tire pleinement parti de la synergie des trois modalités pour produire de meilleures prédictions. Les expériences sur des benchmarks de raisonnement logique, notamment FOLIO et ProofWriter, démontrent que notre cadre MoT surpasse de manière constante et significative les LLM de référence utilisant des approches de chaîne de pensée à modalité unique, avec un gain moyen de précision allant jusqu'à +11,7 points de pourcentage. Des analyses approfondies montrent que notre cadre MoT profite à la fois aux étapes d'entraînement et d'inférence ; qu'il est particulièrement efficace sur les problèmes de raisonnement logique plus difficiles ; et que les différentes modalités apportent des forces complémentaires, le raisonnement par table de vérité aidant à surmonter les principaux goulets d'étranglement dans l'inférence en langage naturel.
English
Human beings naturally utilize multiple reasoning modalities to learn and solve logical problems, i.e., different representational formats such as natural language, code, and symbolic logic. In contrast, most existing LLM-based approaches operate with a single reasoning modality during training, typically natural language. Although some methods explored modality selection or augmentation at inference time, the training process remains modality-blind, limiting synergy among modalities. To fill in this gap, we propose Mixture-of-Thought (MoT), a framework that enables LLMs to reason across three complementary modalities: natural language, code, and a newly introduced symbolic modality, truth-table, which systematically enumerates logical cases and partially mitigates key failure modes in natural language reasoning. MoT adopts a two-phase design: (1) self-evolving MoT training, which jointly learns from filtered, self-generated rationales across modalities; and (2) MoT inference, which fully leverages the synergy of three modalities to produce better predictions. Experiments on logical reasoning benchmarks including FOLIO and ProofWriter demonstrate that our MoT framework consistently and significantly outperforms strong LLM baselines with single-modality chain-of-thought approaches, achieving up to +11.7pp average accuracy gain. Further analyses show that our MoT framework benefits both training and inference stages; that it is particularly effective on harder logical reasoning problems; and that different modalities contribute complementary strengths, with truth-table reasoning helping to overcome key bottlenecks in natural language inference.

Summary

AI-Generated Summary

PDF122May 22, 2025