Внутреннее тестовое обучение на месте

Аннотация

Статическая парадигма «обучить, затем развернуть» фундаментально ограничивает способность больших языковых моделей (LLM) динамически адаптировать свои веса в ответ на непрерывные потоки новой информации, присущие реальным задачам. Обучение во время тестирования (TTT) предлагает убедительную альтернативу, обновляя подмножество параметров модели (быстрые веса) на этапе вывода, однако его потенциал в современной экосистеме LLM ограничен критическими барьерами, включая архитектурную несовместимость, вычислительную неэффективность и несогласованные цели для быстрых весов в задачах языкового моделирования. В данной работе мы представляем In-Place Test-Time Training (In-Place TTT) — фреймворк, который наделяет LLM способностью к обучению во время тестирования без изменения архитектуры. In-Place TTT использует финальную проекционную матрицу повсеместно распространенных MLP-блоков в качестве адаптируемых быстрых весов, что позволяет осуществлять «бесшовное» улучшение LLM без затратного переобучения с нуля. Кроме того, мы заменяем общую цель реконструкции TTT на специализированную, теоретически обоснованную цель, явно согласованную с задачей предсказания следующего токена, лежащей в основе авторегрессионного языкового моделирования. Эта принципиальная цель в сочетании с эффективным механизмом поблочного обновления приводит к высокомасштабируемому алгоритму, совместимому с контекстным параллелизмом. Многочисленные эксперименты подтверждают эффективность нашего фреймворка: в качестве бесшовного улучшения он позволяет модели с 4 миллиардами параметров достигать превосходной производительности на задачах с контекстом до 128 тысяч токенов, а при предварительном обучении с нуля — стабильно превосходить конкурентоспособные подходы, связанные с TTT. Результаты абляционных исследований дополнительно дают глубокое понимание наших проектных решений. В совокупности наши результаты устанавливают In-Place TTT в качестве многообещающего шага к парадигме непрерывного обучения в LLM.

English

The static ``train then deploy" paradigm fundamentally limits Large Language Models (LLMs) from dynamically adapting their weights in response to continuous streams of new information inherent in real-world tasks. Test-Time Training (TTT) offers a compelling alternative by updating a subset of model parameters (fast weights) at inference time, yet its potential in the current LLM ecosystem is hindered by critical barriers including architectural incompatibility, computational inefficiency and misaligned fast weight objectives for language modeling. In this work, we introduce In-Place Test-Time Training (In-Place TTT), a framework that seamlessly endows LLMs with Test-Time Training ability. In-Place TTT treats the final projection matrix of the ubiquitous MLP blocks as its adaptable fast weights, enabling a ``drop-in" enhancement for LLMs without costly retraining from scratch. Furthermore, we replace TTT's generic reconstruction objective with a tailored, theoretically-grounded objective explicitly aligned with the Next-Token-Prediction task governing autoregressive language modeling. This principled objective, combined with an efficient chunk-wise update mechanism, results in a highly scalable algorithm compatible with context parallelism. Extensive experiments validate our framework's effectiveness: as an in-place enhancement, it enables a 4B-parameter model to achieve superior performance on tasks with contexts up to 128k, and when pretrained from scratch, it consistently outperforms competitive TTT-related approaches. Ablation study results further provide deeper insights on our design choices. Collectively, our results establish In-Place TTT as a promising step towards a paradigm of continual learning in LLMs.