Transformer^2: 自己適応型LLMs
Transformer^2: Self-adaptive LLMs
January 9, 2025
著者: Qi Sun, Edoardo Cetin, Yujin Tang
cs.AI
要旨
自己適応型の大規模言語モデル(LLM)は、従来のファインチューニング手法によって引き起こされる課題を解決することを目指しています。これらの手法は、しばしば計算量が多く、多様なタスクを処理する能力において静的です。我々は、未知のタスクに対してLLMをリアルタイムで自己適応させる革新的なフレームワークである「\implname」を紹介します。推論中、\implnameは、まずディスパッチシステムがタスクの特性を識別し、その後、強化学習を用いてトレーニングされたタスク固有の「専門家」ベクトルを動的に混合して、入力プロンプトに対するターゲットとなる動作を得ます。我々の手法は、LoRAなどの普及しているアプローチを上回り、より少ないパラメータと高い効率を実現しています。また、\implnameは、ビジョン-言語タスクを含むさまざまなLLMアーキテクチャやモダリティに対して汎用性を示しています。\implnameは、LLMの適応性とタスク固有のパフォーマンスを向上させるためのスケーラブルで効率的なソリューションを提供し、真にダイナミックで自己組織化されたAIシステムへの道を開いています。
English
Self-adaptive large language models (LLMs) aim to solve the challenges posed
by traditional fine-tuning methods, which are often computationally intensive
and static in their ability to handle diverse tasks. We introduce \implname, a
novel self-adaptation framework that adapts LLMs for unseen tasks in real-time
by selectively adjusting only the singular components of their weight matrices.
During inference, \implname employs a two-pass mechanism: first, a dispatch
system identifies the task properties, and then task-specific "expert" vectors,
trained using reinforcement learning, are dynamically mixed to obtain targeted
behavior for the incoming prompt. Our method outperforms ubiquitous approaches
such as LoRA, with fewer parameters and greater efficiency. \implname
demonstrates versatility across different LLM architectures and modalities,
including vision-language tasks. \implname represents a significant leap
forward, offering a scalable, efficient solution for enhancing the adaptability
and task-specific performance of LLMs, paving the way for truly dynamic,
self-organizing AI systems.Summary
AI-Generated Summary