TTCS: Síntesis de Currículo en Tiempo de Prueba para la Autoevolución

Resumen

El Entrenamiento en Tiempo de Prueba (Test-Time Training) ofrece una forma prometedora de mejorar la capacidad de razonamiento de los modelos de lenguaje grandes (LLM) adaptando el modelo utilizando únicamente las preguntas de prueba. Sin embargo, los métodos existentes tienen dificultades con problemas de razonamiento complejos por dos razones: las preguntas de prueba en bruto a menudo son demasiado difíciles para producir pseudoetiquetas de alta calidad, y el tamaño limitado de los conjuntos de prueba hace que las actualizaciones continuas en línea sean propensas a la inestabilidad. Para abordar estas limitaciones, proponemos TTCS, un marco de entrenamiento en tiempo de prueba de co-evolución. Específicamente, TTCS inicializa dos políticas a partir del mismo modelo preentrenado: un sintetizador de preguntas y un resolvedor de razonamiento. Estas políticas evolucionan mediante una optimización iterativa: el sintetizador genera variantes de preguntas progresivamente más desafiantes condicionadas por las preguntas de prueba, creando un currículo estructurado adaptado a la capacidad actual del resolvedor, mientras que el resolvedor se actualiza a sí mismo utilizando recompensas de auto-consistencia calculadas a partir de múltiples respuestas muestreadas tanto en las preguntas de prueba originales como en las preguntas sintéticas. Crucialmente, la retroalimentación del resolvedor guía al sintetizador para generar preguntas alineadas con la capacidad actual del modelo, y las variantes de preguntas generadas a su vez estabilizan el entrenamiento en tiempo de prueba del resolvedor. Los experimentos muestran que TTCS fortalece consistentemente la capacidad de razonamiento en puntos de referencia matemáticos desafiantes y se transfiere a tareas de dominio general a través de diferentes arquitecturas de LLM, destacando un camino escalable hacia la construcción dinámica de currículos en tiempo de prueba para la auto-evolución. Nuestro código y detalles de implementación están disponibles en https://github.com/XMUDeepLIT/TTCS.

English

Test-Time Training offers a promising way to improve the reasoning ability of large language models (LLMs) by adapting the model using only the test questions. However, existing methods struggle with difficult reasoning problems for two reasons: raw test questions are often too difficult to yield high-quality pseudo-labels, and the limited size of test sets makes continuous online updates prone to instability. To address these limitations, we propose TTCS, a co-evolving test-time training framework. Specifically, TTCS initializes two policies from the same pretrained model: a question synthesizer and a reasoning solver. These policies evolve through iterative optimization: the synthesizer generates progressively challenging question variants conditioned on the test questions, creating a structured curriculum tailored to the solver's current capability, while the solver updates itself using self-consistency rewards computed from multiple sampled responses on both original test and synthetic questions. Crucially, the solver's feedback guides the synthesizer to generate questions aligned with the model's current capability, and the generated question variants in turn stabilize the solver's test-time training. Experiments show that TTCS consistently strengthens the reasoning ability on challenging mathematical benchmarks and transfers to general-domain tasks across different LLM backbones, highlighting a scalable path towards dynamically constructing test-time curricula for self-evolving. Our code and implementation details are available at https://github.com/XMUDeepLIT/TTCS.

TTCS: Síntesis de Currículo en Tiempo de Prueba para la Autoevolución

TTCS: Test-Time Curriculum Synthesis for Self-Evolving

Resumen

Support