ChatPaper.aiChatPaper

TPTT: 사전 학습된 트랜스포머를 타이탄으로 변환하기

TPTT: Transforming Pretrained Transformer into Titans

June 21, 2025
저자: Fabien Furfaro
cs.AI

초록

대규모 언어 모델(LLM)의 최근 발전은 자연어 처리 분야에서 놀라운 진전을 이뤄냈지만, 특히 장문맥 추론에서의 계산 및 메모리 요구량은 여전히 큰 과제로 남아 있습니다. 본 연구에서는 사전 학습된 Transformer 모델을 개선하기 위한 새로운 프레임워크인 TPTT(Transforming Pretrained Transformer into Titans)를 소개합니다. TPTT는 효율적인 선형화 어텐션 메커니즘과 고급 메모리 관리 기술을 활용하며, Memory as Gate(MaG)와 혼합 선형화 어텐션(LiZA)과 같은 기법을 사용합니다. 이 프레임워크는 Hugging Face Transformers 라이브러리와 완벽하게 호환되어, 전체 재학습 없이도 파라미터 효율적 미세 조정(LoRA)을 통해 모든 인과적 LLM을 원활하게 적용할 수 있습니다. 약 10억 개의 파라미터를 가진 모델을 대상으로 MMLU 벤치마크에서 TPTT의 효과를 입증했으며, 효율성과 정확도 모두에서 상당한 개선을 관찰했습니다. 예를 들어, Titans-Llama-3.2-1B는 기준 모델 대비 Exact Match(EM)에서 20%의 성능 향상을 달성했습니다. 통계적 분석 및 최신 최첨단 방법과의 비교를 통해 TPTT의 실용적 확장성과 견고성을 확인했습니다. 코드는 https://github.com/fabienfrfr/tptt에서 확인할 수 있으며, Python 패키지는 https://pypi.org/project/tptt/에서 제공됩니다.
English
Recent advances in large language models (LLMs) have led to remarkable progress in natural language processing, but their computational and memory demands remain a significant challenge, particularly for long-context inference. We introduce TPTT (Transforming Pretrained Transformer into Titans), a novel framework for enhancing pretrained Transformer models with efficient linearized attention mechanisms and advanced memory management. TPTT employs techniques such as Memory as Gate (MaG) and mixed linearized attention (LiZA). It is fully compatible with the Hugging Face Transformers library, enabling seamless adaptation of any causal LLM through parameter-efficient fine-tuning (LoRA) without full retraining. We show the effectiveness of TPTT on the MMLU benchmark with models of approximately 1 billion parameters, observing substantial improvements in both efficiency and accuracy. For instance, Titans-Llama-3.2-1B achieves a 20% increase in Exact Match (EM) over its baseline. Statistical analyses and comparisons with recent state-of-the-art methods confirm the practical scalability and robustness of TPTT. Code is available at https://github.com/fabienfrfr/tptt . Python package at https://pypi.org/project/tptt/ .
PDF21June 24, 2025