ChatPaper.aiChatPaper

Naar System 2 Redeneren in LLM's: Leren Hoe te Denken Met Meta Keten-van-Denken

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

January 8, 2025
Auteurs: Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn
cs.AI

Samenvatting

We stellen een nieuw kader voor, Meta Chain-of-Thought (Meta-CoT), dat het traditionele Chain-of-Thought (CoT) uitbreidt door expliciet het onderliggende redeneren te modelleren dat nodig is om tot een bepaalde CoT te komen. We presenteren empirisch bewijs van state-of-the-art modellen die gedrag vertonen dat consistent is met in-context zoeken, en onderzoeken methoden voor het produceren van Meta-CoT via procesbegeleiding, synthetische gegevensgeneratie en zoekalgoritmen. Ten slotte schetsen we een concreet proces voor het trainen van een model om Meta-CoTs te produceren, waarbij instructieafstemming wordt geïntegreerd met gelinieerde zoektracés en versterkend leren na de training. Tot slot bespreken we openstaande onderzoeksvragen, waaronder schaalwetten, verifier-rollen en de mogelijkheid om nieuwe redeneeralgoritmen te ontdekken. Dit werk biedt een theoretische en praktische routekaart om Meta-CoT mogelijk te maken in LLMs, waardoor de weg wordt vrijgemaakt voor krachtiger en menselijker redeneren in kunstmatige intelligentie.
English
We propose a novel framework, Meta Chain-of-Thought (Meta-CoT), which extends traditional Chain-of-Thought (CoT) by explicitly modeling the underlying reasoning required to arrive at a particular CoT. We present empirical evidence from state-of-the-art models exhibiting behaviors consistent with in-context search, and explore methods for producing Meta-CoT via process supervision, synthetic data generation, and search algorithms. Finally, we outline a concrete pipeline for training a model to produce Meta-CoTs, incorporating instruction tuning with linearized search traces and reinforcement learning post-training. Finally, we discuss open research questions, including scaling laws, verifier roles, and the potential for discovering novel reasoning algorithms. This work provides a theoretical and practical roadmap to enable Meta-CoT in LLMs, paving the way for more powerful and human-like reasoning in artificial intelligence.

Summary

AI-Generated Summary

PDF972January 9, 2025