Más allá del '¡Ajá!': Hacia una alineación sistemática de meta-habilidades en modelos de razonamiento a gran escalaBeyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large
Reasoning Models
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) ya poseen una capacidad latente para el razonamiento de cadenas largas de pensamiento. Trabajos previos han demostrado que el aprendizaje por refuerzo (RL) basado en resultados puede elicitar incidentalmente comportamientos de razonamiento avanzado, como la autocorrección, el retroceso y fenómenos de verificación, a menudo denominados el "momento eureka" del modelo. Sin embargo, el momento y la consistencia de estos comportamientos emergentes siguen siendo impredecibles e incontrolables, lo que limita la escalabilidad y la confiabilidad de las capacidades de razonamiento de los LRMs. Para abordar estas limitaciones, vamos más allá de la dependencia de indicaciones y "momentos eureka" coincidentes. En su lugar, alineamos explícitamente los modelos con tres meta-habilidades: deducción, inducción y abducción, utilizando tareas autogeneradas y autoverificables. Nuestro pipeline de tres etapas—alineación individual, fusión en el espacio de parámetros y aprendizaje por refuerzo específico del dominio—mejora el rendimiento en más de un 10% en comparación con líneas base ajustadas por instrucción. Además, el RL específico del dominio a partir del punto de control alineado produce una ganancia promedio adicional del 2% en el techo de rendimiento en benchmarks de matemáticas, programación y ciencias, demostrando que la alineación explícita de meta-habilidades ofrece una base escalable y confiable para el razonamiento. El código está disponible en: https://github.com/zhiyuanhubj/Meta-Ability-Alignment.