TTCS: Test-Time Curriculum Synthese voor Zelf-Evoluerende Systemen

Samenvatting

Test-Time Training biedt een veelbelovende manier om het redeneervermogen van grote taalmmodellen (LLM's) te verbeteren door het model aan te passen met alleen de testvragen. Bestaande methoden kampen echter met moeilijke redeneerproblemen om twee redenen: onbewerkte testvragen zijn vaak te moeilijk om hoogwaardige pseudo-labels op te leveren, en de beperkte omvang van testsets maakt continue online updates gevoelig voor instabiliteit. Om deze beperkingen aan te pakken, stellen wij TTCS voor, een co-evoluerend test-time training raamwerk. Concreet initialiseert TTCS twee beleidsregels vanuit hetzelfde voorgetrainde model: een vraag-synthesizer en een redeneer-oplosser. Deze beleidsregels evolueren door middel van iteratieve optimalisatie: de synthesizer genereert geleidelijk uitdagendere vraagvarianten, geconditioneerd op de testvragen, waardoor een gestructureerd curriculum ontstaat dat is afgestemd op de huidige capaciteit van de oplosser, terwijl de oplosser zichzelf bijwerkt met behulp van zelfconsistentie-beloningen berekend uit meerdere bemonsterde antwoorden op zowel originele test- als synthetische vragen. Cruciaal is dat de feedback van de oplosser de synthesizer leidt om vragen te genereren die aansluiten bij de huidige capaciteit van het model, en de gegenereerde vraagvarianten stabiliseren op hun beurt de test-time training van de oplosser. Experimenten tonen aan dat TTCS consistent het redeneervermogen op uitdagende wiskundige benchmarks versterkt en overdraagt naar algemene-domeintaken over verschillende LLM-backbones heen, wat een schaalbaar pad belicht naar het dynamisch construeren van test-time curricula voor zelf-evolutie. Onze code en implementatiedetails zijn beschikbaar op https://github.com/XMUDeepLIT/TTCS.

English

Test-Time Training offers a promising way to improve the reasoning ability of large language models (LLMs) by adapting the model using only the test questions. However, existing methods struggle with difficult reasoning problems for two reasons: raw test questions are often too difficult to yield high-quality pseudo-labels, and the limited size of test sets makes continuous online updates prone to instability. To address these limitations, we propose TTCS, a co-evolving test-time training framework. Specifically, TTCS initializes two policies from the same pretrained model: a question synthesizer and a reasoning solver. These policies evolve through iterative optimization: the synthesizer generates progressively challenging question variants conditioned on the test questions, creating a structured curriculum tailored to the solver's current capability, while the solver updates itself using self-consistency rewards computed from multiple sampled responses on both original test and synthetic questions. Crucially, the solver's feedback guides the synthesizer to generate questions aligned with the model's current capability, and the generated question variants in turn stabilize the solver's test-time training. Experiments show that TTCS consistently strengthens the reasoning ability on challenging mathematical benchmarks and transfers to general-domain tasks across different LLM backbones, highlighting a scalable path towards dynamically constructing test-time curricula for self-evolving. Our code and implementation details are available at https://github.com/XMUDeepLIT/TTCS.

TTCS: Test-Time Curriculum Synthese voor Zelf-Evoluerende Systemen

TTCS: Test-Time Curriculum Synthesis for Self-Evolving

Samenvatting

Support