ChatPaper.aiChatPaper

エッジでの効率的な推論

Efficient Reasoning on the Edge

March 17, 2026
著者: Yelysei Bondarenko, Thomas Hehn, Rob Hesselink, Romain Lepert, Fabio Valerio Massoli, Evgeny Mironov, Leyla Mirvakhabova, Tribhuvanesh Orekondy, Spyridon Stasis, Andrey Kuzmin, Anna Kuzina, Markus Nagel, Ankita Nayak, Corrado Rainone, Ork de Rooij, Paul N Whatmough, Arash Behboodi, Babak Ehteshami Bejnordi
cs.AI

要旨

思考連鎖推論を備えた大規模言語モデル(LLM)は、複雑な問題解決タスクにおいて最先端の性能を達成しているが、冗長な推論過程と大きなコンテキスト要件により、エッジデプロイには非現実的である。これらの課題には、高いトークン生成コスト、大きなKVキャッシュフットプリント、モバイルデバイス向けの小型モデルへの推論能力の蒸留時の非効率性が含まれる。既存のアプローチは、大規模モデルから小型モデルへの冗長で様式的に反復的な推論過程の蒸頼に依存することが多く、オンデバイス推論には望ましくない。本研究では、LoRAアダプタと教師ありファインチューニングを組み合わせた軽量な手法を提案し、小型LLMでの推論を実現する。さらに、これらのアダプタに対する強化学習による予算強制を導入し、精度低下を最小限に抑えつつ応答長を大幅に短縮する。メモリ制約のあるデコード問題に対処するため、並列テスト時スケーリングを活用し、遅延の小幅な増加で精度を向上させる。最後に、必要な時のみ推論を活性化する動的アダプタ切替機構と、プロンプトエンコーディング時のKVキャッシュ共有戦略を提示し、オンデバイス推論における初回トークン応答時間を短縮する。Qwen2.5-7Bを用いた実験により、本手法が厳しいリソース制約下で効率的かつ正確な推論を実現し、LLM推論のモバイルシナリオへの実用化を可能にすることを示す。モバイルデバイス上で動作する実証動画はプロジェクトページで公開している。
English
Large language models (LLMs) with chain-of-thought reasoning achieve state-of-the-art performance across complex problem-solving tasks, but their verbose reasoning traces and large context requirements make them impractical for edge deployment. These challenges include high token generation costs, large KV-cache footprints, and inefficiencies when distilling reasoning capabilities into smaller models for mobile devices. Existing approaches often rely on distilling reasoning traces from larger models into smaller models, which are verbose and stylistically redundant, undesirable for on-device inference. In this work, we propose a lightweight approach to enable reasoning in small LLMs using LoRA adapters combined with supervised fine-tuning. We further introduce budget forcing via reinforcement learning on these adapters, significantly reducing response length with minimal accuracy loss. To address memory-bound decoding, we exploit parallel test-time scaling, improving accuracy at minor latency increase. Finally, we present a dynamic adapter-switching mechanism that activates reasoning only when needed and a KV-cache sharing strategy during prompt encoding, reducing time-to-first-token for on-device inference. Experiments on Qwen2.5-7B demonstrate that our method achieves efficient, accurate reasoning under strict resource constraints, making LLM reasoning practical for mobile scenarios. Videos demonstrating our solution running on mobile devices are available on our project page.
PDF142March 19, 2026