Leren redeneren via Mixture-of-Thought voor logisch redeneren
Learning to Reason via Mixture-of-Thought for Logical Reasoning
May 21, 2025
Auteurs: Tong Zheng, Lichang Chen, Simeng Han, R. Thomas McCoy, Heng Huang
cs.AI
Samenvatting
Mensen maken van nature gebruik van meerdere redeneerwijzen om te leren en logische problemen op te lossen, zoals verschillende representatieformaten zoals natuurlijke taal, code en symbolische logica. In tegenstelling hiermee werken de meeste bestaande LLM-gebaseerde benaderingen tijdens de training met een enkele redeneerwijze, meestal natuurlijke taal. Hoewel sommige methoden de selectie of uitbreiding van modaliteiten tijdens de inferentie hebben onderzocht, blijft het trainingsproces modaliteitsblind, wat de synergie tussen modaliteiten beperkt. Om deze kloof te overbruggen, stellen we Mixture-of-Thought (MoT) voor, een raamwerk dat LLM's in staat stelt te redeneren over drie complementaire modaliteiten: natuurlijke taal, code en een nieuw geïntroduceerde symbolische modaliteit, de waarheidstabel, die logische gevallen systematisch opsomt en belangrijke foutmodi in redeneren met natuurlijke taal gedeeltelijk verhelpt. MoT hanteert een tweefasig ontwerp: (1) zelfontwikkelende MoT-training, die gezamenlijk leert van gefilterde, zelf gegenereerde redeneringen over modaliteiten heen; en (2) MoT-inferentie, die volledig gebruikmaakt van de synergie van drie modaliteiten om betere voorspellingen te produceren. Experimenten op logische redeneerbenchmarks, waaronder FOLIO en ProofWriter, tonen aan dat ons MoT-raamwerk consistent en significant beter presteert dan sterke LLM-baselines met single-modality chain-of-thought benaderingen, met een gemiddelde nauwkeurigheidswinst van tot +11,7 procentpunten. Verdere analyses laten zien dat ons MoT-raamwerk zowel de trainings- als de inferentiefasen ten goede komt; dat het vooral effectief is bij moeilijkere logische redeneerproblemen; en dat verschillende modaliteiten complementaire sterktes bijdragen, waarbij redeneren met waarheidstabellen helpt om belangrijke knelpunten in redeneren met natuurlijke taal te overwinnen.
English
Human beings naturally utilize multiple reasoning modalities to learn and
solve logical problems, i.e., different representational formats such as
natural language, code, and symbolic logic. In contrast, most existing
LLM-based approaches operate with a single reasoning modality during training,
typically natural language. Although some methods explored modality selection
or augmentation at inference time, the training process remains modality-blind,
limiting synergy among modalities. To fill in this gap, we propose
Mixture-of-Thought (MoT), a framework that enables LLMs to reason across three
complementary modalities: natural language, code, and a newly introduced
symbolic modality, truth-table, which systematically enumerates logical cases
and partially mitigates key failure modes in natural language reasoning. MoT
adopts a two-phase design: (1) self-evolving MoT training, which jointly learns
from filtered, self-generated rationales across modalities; and (2) MoT
inference, which fully leverages the synergy of three modalities to produce
better predictions. Experiments on logical reasoning benchmarks including FOLIO
and ProofWriter demonstrate that our MoT framework consistently and
significantly outperforms strong LLM baselines with single-modality
chain-of-thought approaches, achieving up to +11.7pp average accuracy gain.
Further analyses show that our MoT framework benefits both training and
inference stages; that it is particularly effective on harder logical reasoning
problems; and that different modalities contribute complementary strengths,
with truth-table reasoning helping to overcome key bottlenecks in natural
language inference.