Más allá del '¡Ajá!': Hacia una alineación sistemática de meta-habilidades en modelos de razonamiento a gran escala
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
May 15, 2025
Autores: Zhiyuan Hu, Yibo Wang, Hanze Dong, Yuhui Xu, Amrita Saha, Caiming Xiong, Bryan Hooi, Junnan Li
cs.AI
Resumen
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) ya poseen una capacidad latente para el razonamiento de cadenas largas de pensamiento. Trabajos previos han demostrado que el aprendizaje por refuerzo (RL) basado en resultados puede elicitar incidentalmente comportamientos de razonamiento avanzado, como la autocorrección, el retroceso y fenómenos de verificación, a menudo denominados el "momento eureka" del modelo. Sin embargo, el momento y la consistencia de estos comportamientos emergentes siguen siendo impredecibles e incontrolables, lo que limita la escalabilidad y la confiabilidad de las capacidades de razonamiento de los LRMs. Para abordar estas limitaciones, vamos más allá de la dependencia de indicaciones y "momentos eureka" coincidentes. En su lugar, alineamos explícitamente los modelos con tres meta-habilidades: deducción, inducción y abducción, utilizando tareas autogeneradas y autoverificables. Nuestro pipeline de tres etapas—alineación individual, fusión en el espacio de parámetros y aprendizaje por refuerzo específico del dominio—mejora el rendimiento en más de un 10% en comparación con líneas base ajustadas por instrucción. Además, el RL específico del dominio a partir del punto de control alineado produce una ganancia promedio adicional del 2% en el techo de rendimiento en benchmarks de matemáticas, programación y ciencias, demostrando que la alineación explícita de meta-habilidades ofrece una base escalable y confiable para el razonamiento. El código está disponible en: https://github.com/zhiyuanhubj/Meta-Ability-Alignment.
English
Large reasoning models (LRMs) already possess a latent capacity for long
chain-of-thought reasoning. Prior work has shown that outcome-based
reinforcement learning (RL) can incidentally elicit advanced reasoning
behaviors such as self-correction, backtracking, and verification phenomena
often referred to as the model's "aha moment". However, the timing and
consistency of these emergent behaviors remain unpredictable and
uncontrollable, limiting the scalability and reliability of LRMs' reasoning
capabilities. To address these limitations, we move beyond reliance on prompts
and coincidental "aha moments". Instead, we explicitly align models with three
meta-abilities: deduction, induction, and abduction, using automatically
generated, self-verifiable tasks. Our three stage-pipeline individual
alignment, parameter-space merging, and domain-specific reinforcement learning,
boosting performance by over 10\% relative to instruction-tuned baselines.
Furthermore, domain-specific RL from the aligned checkpoint yields an
additional 2\% average gain in the performance ceiling across math, coding, and
science benchmarks, demonstrating that explicit meta-ability alignment offers a
scalable and dependable foundation for reasoning. Code is available at:
https://github.com/zhiyuanhubj/Meta-Ability-Alignment