ChatPaper.aiChatPaper

Hacia el Razonamiento del Sistema 2 en LLMs: Aprendiendo Cómo Pensar con Meta Cadena de Pensamiento

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

January 8, 2025
Autores: Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn
cs.AI

Resumen

Proponemos un nuevo marco, Meta Cadena de Pensamiento (Meta-CoT), que extiende la Cadena de Pensamiento tradicional (CoT) al modelar explícitamente el razonamiento subyacente necesario para llegar a una CoT particular. Presentamos evidencia empírica de modelos de vanguardia que exhiben comportamientos consistentes con la búsqueda en contexto, y exploramos métodos para producir Meta-CoT a través de supervisión de procesos, generación de datos sintéticos y algoritmos de búsqueda. Finalmente, esbozamos un pipeline concreto para entrenar un modelo que produzca Meta-CoTs, incorporando ajuste de instrucciones con trazas de búsqueda linealizadas y aprendizaje por refuerzo post-entrenamiento. Además, discutimos preguntas de investigación abiertas, incluyendo leyes de escalado, roles de verificador y el potencial para descubrir nuevos algoritmos de razonamiento. Este trabajo proporciona una hoja de ruta teórica y práctica para habilitar Meta-CoT en LLMs, allanando el camino para un razonamiento más potente y similar al humano en la inteligencia artificial.
English
We propose a novel framework, Meta Chain-of-Thought (Meta-CoT), which extends traditional Chain-of-Thought (CoT) by explicitly modeling the underlying reasoning required to arrive at a particular CoT. We present empirical evidence from state-of-the-art models exhibiting behaviors consistent with in-context search, and explore methods for producing Meta-CoT via process supervision, synthetic data generation, and search algorithms. Finally, we outline a concrete pipeline for training a model to produce Meta-CoTs, incorporating instruction tuning with linearized search traces and reinforcement learning post-training. Finally, we discuss open research questions, including scaling laws, verifier roles, and the potential for discovering novel reasoning algorithms. This work provides a theoretical and practical roadmap to enable Meta-CoT in LLMs, paving the way for more powerful and human-like reasoning in artificial intelligence.

Summary

AI-Generated Summary

PDF972January 9, 2025