ChatPaper.aiChatPaper

Más allá del '¡Ajá!': Hacia una alineación sistemática de meta-habilidades en modelos de razonamiento a gran escala

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

May 15, 2025
Autores: Zhiyuan Hu, Yibo Wang, Hanze Dong, Yuhui Xu, Amrita Saha, Caiming Xiong, Bryan Hooi, Junnan Li
cs.AI

Resumen

Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) ya poseen una capacidad latente para el razonamiento de cadenas largas de pensamiento. Trabajos previos han demostrado que el aprendizaje por refuerzo (RL) basado en resultados puede elicitar incidentalmente comportamientos de razonamiento avanzado, como la autocorrección, el retroceso y fenómenos de verificación, a menudo denominados el "momento eureka" del modelo. Sin embargo, el momento y la consistencia de estos comportamientos emergentes siguen siendo impredecibles e incontrolables, lo que limita la escalabilidad y la confiabilidad de las capacidades de razonamiento de los LRMs. Para abordar estas limitaciones, vamos más allá de la dependencia de indicaciones y "momentos eureka" coincidentes. En su lugar, alineamos explícitamente los modelos con tres meta-habilidades: deducción, inducción y abducción, utilizando tareas autogeneradas y autoverificables. Nuestro pipeline de tres etapas—alineación individual, fusión en el espacio de parámetros y aprendizaje por refuerzo específico del dominio—mejora el rendimiento en más de un 10% en comparación con líneas base ajustadas por instrucción. Además, el RL específico del dominio a partir del punto de control alineado produce una ganancia promedio adicional del 2% en el techo de rendimiento en benchmarks de matemáticas, programación y ciencias, demostrando que la alineación explícita de meta-habilidades ofrece una base escalable y confiable para el razonamiento. El código está disponible en: https://github.com/zhiyuanhubj/Meta-Ability-Alignment.
English
Large reasoning models (LRMs) already possess a latent capacity for long chain-of-thought reasoning. Prior work has shown that outcome-based reinforcement learning (RL) can incidentally elicit advanced reasoning behaviors such as self-correction, backtracking, and verification phenomena often referred to as the model's "aha moment". However, the timing and consistency of these emergent behaviors remain unpredictable and uncontrollable, limiting the scalability and reliability of LRMs' reasoning capabilities. To address these limitations, we move beyond reliance on prompts and coincidental "aha moments". Instead, we explicitly align models with three meta-abilities: deduction, induction, and abduction, using automatically generated, self-verifiable tasks. Our three stage-pipeline individual alignment, parameter-space merging, and domain-specific reinforcement learning, boosting performance by over 10\% relative to instruction-tuned baselines. Furthermore, domain-specific RL from the aligned checkpoint yields an additional 2\% average gain in the performance ceiling across math, coding, and science benchmarks, demonstrating that explicit meta-ability alignment offers a scalable and dependable foundation for reasoning. Code is available at: https://github.com/zhiyuanhubj/Meta-Ability-Alignment
PDF1193May 16, 2025