TTCS : Synthèse de Curriculum en Temps de Test pour une Auto-Évolution

papers.abstract

L'apprentissage au moment du test (Test-Time Training) offre une voie prometteuse pour améliorer la capacité de raisonnement des grands modèles de langage (LLM) en adaptant le modèle en utilisant uniquement les questions de test. Cependant, les méthodes existantes peinent avec les problèmes de raisonnement difficiles pour deux raisons : les questions de test brutes sont souvent trop difficiles pour produire des pseudo-étiquettes de haute qualité, et la taille limitée des ensembles de test rend les mises à jour continues en ligne sujettes à l'instabilité. Pour remédier à ces limitations, nous proposons TTCS, un cadre d'apprentissage au moment du test à évolution conjointe. Concrètement, TTCS initialise deux politiques à partir du même modèle pré-entraîné : un synthétiseur de questions et un solveur de raisonnement. Ces politiques évoluent grâce à une optimisation itérative : le synthétiseur génère des variantes de questions progressivement plus difficiles conditionnées par les questions de test, créant un curriculum structuré adapté aux capacités actuelles du solveur, tandis que le solveur se met à jour en utilisant des récompenses d'auto-cohérence calculées à partir de multiples réponses échantillonnées sur les questions de test originales et les questions synthétiques. Fait crucial, les retours du solveur guident le synthétiseur pour générer des questions alignées sur les capacités actuelles du modèle, et les variantes de questions générées stabilisent à leur tour l'apprentissage du solveur au moment du test. Les expériences montrent que TTCS renforce constamment la capacité de raisonnement sur des benchmarks mathématiques difficiles et se transfère à des tâches du domaine général à travers différentes architectures de LLM, mettant en lumière une voie évolutive pour construire dynamiquement des curricula au moment du test permettant l'auto-évolution. Notre code et les détails de mise en œuvre sont disponibles à l'adresse https://github.com/XMUDeepLIT/TTCS.

English

Test-Time Training offers a promising way to improve the reasoning ability of large language models (LLMs) by adapting the model using only the test questions. However, existing methods struggle with difficult reasoning problems for two reasons: raw test questions are often too difficult to yield high-quality pseudo-labels, and the limited size of test sets makes continuous online updates prone to instability. To address these limitations, we propose TTCS, a co-evolving test-time training framework. Specifically, TTCS initializes two policies from the same pretrained model: a question synthesizer and a reasoning solver. These policies evolve through iterative optimization: the synthesizer generates progressively challenging question variants conditioned on the test questions, creating a structured curriculum tailored to the solver's current capability, while the solver updates itself using self-consistency rewards computed from multiple sampled responses on both original test and synthetic questions. Crucially, the solver's feedback guides the synthesizer to generate questions aligned with the model's current capability, and the generated question variants in turn stabilize the solver's test-time training. Experiments show that TTCS consistently strengthens the reasoning ability on challenging mathematical benchmarks and transfers to general-domain tasks across different LLM backbones, highlighting a scalable path towards dynamically constructing test-time curricula for self-evolving. Our code and implementation details are available at https://github.com/XMUDeepLIT/TTCS.

TTCS : Synthèse de Curriculum en Temps de Test pour une Auto-Évolution

TTCS: Test-Time Curriculum Synthesis for Self-Evolving

papers.abstract

Support