Many-Shot CoT-ICL: In-Context Learning daadwerkelijk laten leren

Samenvatting

In-context leren (ICL) past grote taalmodellen (LLM's) aan nieuwe taken aan door conditionering op demonstraties in de prompt zonder parameterupdates. Met lang-contextmodellen kan many-shot ICL tientallen tot honderden voorbeelden gebruiken en prestaties behalen die vergelijkbaar zijn met finetuning, maar het huidige begrip van het schalingsgedrag is grotendeels afkomstig van niet-redeneertaken. We bestuderen many-shot keten-van-gedachte in-context leren (CoT-ICL) voor redeneren en tonen aan dat standaard many-shot regels niet overdraagbaar zijn. Bij niet-redeneer- en redeneergerichte LLM's en bij niet-redeneer- en redeneertaken vinden we: (i) een instellingsafhankelijk schalingseffect, waarbij het verhogen van het aantal CoT-demonstraties instabiel is voor niet-redeneer-LLM's en vooral gunstig is voor redeneergerichte LLM's; (ii) gelijkenisgebaseerde zoekopdracht helpt bij niet-redeneertaken maar faalt bij redeneren, omdat semantische gelijkenis de procedurele (d.w.z. CoT) compatibiliteit slecht voorspelt; en (iii) een ordeningsschalingseffect, waarbij de prestatievariantie toeneemt met meer CoT-demonstraties. We interpreteren dit gedrag door many-shot CoT-ICL te beschouwen als in-context testtijd-leren in plaats van geschaalde patroonherkenning, en stellen twee principes voor: (i) demonstraties moeten gemakkelijk te begrijpen zijn voor het doelmodel, en (ii) ze moeten worden geordend om een soepele conceptuele progressie te ondersteunen. Geleid door dit principe stellen we Curvilineaire Demonstratieselectie (CDS) voor, een eenvoudige ordeningsmethode die tot een winst van 5,42 procentpunt oplevert bij geometrie met 64 demonstraties. Over het algemeen herkaderen onze resultaten het lange contextvenster van een ophaalbuffer naar een gestructureerd curriculum voor in-context testtijd-leren.

English

In-context learning (ICL) adapts large language models (LLMs) to new tasks by conditioning on demonstrations in the prompt without parameter updates. With long-context models, many-shot ICL can use dozens to hundreds of examples and achieve performance comparable to fine-tuning, yet current understanding of its scaling behavior is largely derived from non-reasoning tasks. We study many-shot chain-of-thought in-context learning (CoT-ICL) for reasoning and show that standard many-shot rules do not transfer. Across non-reasoning and reasoning-oriented LLMs and across non-reasoning and reasoning tasks, we find: (i) a setting-dependent scaling effect, where increasing the number of CoT demonstrations is unstable for non-reasoning LLMs and benefits mainly reasoning-oriented LLMs; (ii) similarity-based retrieval helps on non-reasoning tasks but fails on reasoning, since semantic similarity poorly predicts procedural (i.e., CoT) compatibility; and (iii) an order-scaling effect, where performance variance grows with more CoT demonstrations. We interpret these behaviors by viewing many-shot CoT-ICL as in-context test-time learning rather than scaled pattern matching, and suggests two principles: (i) demonstrations should be easy for the target model to understand, and (ii) they should be ordered to support a smooth conceptual progression. Guided by the principle, we propose Curvilinear Demonstration Selection (CDS), a simple ordering method that yields up to a 5.42 percentage-point gain on geometry with 64 demonstrations. Overall, our results reframe the long context window from a retrieval buffer into a structured curriculum for in-context test-time learning.