에지에서의 효율적 추론
Efficient Reasoning on the Edge
March 17, 2026
저자: Yelysei Bondarenko, Thomas Hehn, Rob Hesselink, Romain Lepert, Fabio Valerio Massoli, Evgeny Mironov, Leyla Mirvakhabova, Tribhuvanesh Orekondy, Spyridon Stasis, Andrey Kuzmin, Anna Kuzina, Markus Nagel, Ankita Nayak, Corrado Rainone, Ork de Rooij, Paul N Whatmough, Arash Behboodi, Babak Ehteshami Bejnordi
cs.AI
초록
체인 오브 사고 추론 능력을 갖춘 대규모 언어 모델(LLM)은 복잡한 문제 해결 과제에서 최첨단 성능을 달성하지만, 장황한 추론 흔적과 큰 맥락 요구 사항으로 인해 에지 환경 배포에는 비실용적입니다. 이러한 과제에는 높은 토큰 생성 비용, 큰 KV 캐시 공간 점유, 모바일 기기를 위한 소형 모델로 추론 능력을 추출할 때의 비효율성이 포함됩니다. 기존 접근법은 대형 모델에서 소형 모델로 장황하고 스타일적으로 중복된 추론 흔적을 추출하는 데 의존하는 경우가 많으며, 이는 온디바이스 추론에는 바람직하지 않습니다. 본 연구에서는 LoRA 어댑터와 지도 미세 조정을 결합하여 소형 LLM의 추론 능력을 활성화하는 경량 접근법을 제안합니다. 또한 이러한 어댑터에 강화 학습을 통한 예산 강제를 도입하여 정확도 손실을 최소화하면서 응답 길이를 크게 줄입니다. 메모리 한계 디코딩 문제를 해결하기 위해 병렬 테스트 타임 스케일링을 활용하여 약간의 지연 시간 증가만으로 정확도를 향상시킵니다. 마지막으로 필요할 때만 추론을 활성화하는 동적 어댑터 전환 메커니즘과 프롬프트 인코딩 시 KV 캐시 공유 전략을 제시하여 온디바이스 추론의 첫 토큰까지의 시간을 단축합니다. Qwen2.5-7B에 대한 실험 결과, 우리의 방법이 엄격한 자원 제약 조건 하에서도 효율적이고 정확한 추론을 달성하여 모바일 시나리오에 LLM 추론을 실용적으로 만드는 것을 확인했습니다. 모바일 기기에서 구동되는 우리 솔루션의 데모 영상은 프로젝트 페이지에서 확인할 수 있습니다.
English
Large language models (LLMs) with chain-of-thought reasoning achieve state-of-the-art performance across complex problem-solving tasks, but their verbose reasoning traces and large context requirements make them impractical for edge deployment. These challenges include high token generation costs, large KV-cache footprints, and inefficiencies when distilling reasoning capabilities into smaller models for mobile devices. Existing approaches often rely on distilling reasoning traces from larger models into smaller models, which are verbose and stylistically redundant, undesirable for on-device inference. In this work, we propose a lightweight approach to enable reasoning in small LLMs using LoRA adapters combined with supervised fine-tuning. We further introduce budget forcing via reinforcement learning on these adapters, significantly reducing response length with minimal accuracy loss. To address memory-bound decoding, we exploit parallel test-time scaling, improving accuracy at minor latency increase. Finally, we present a dynamic adapter-switching mechanism that activates reasoning only when needed and a KV-cache sharing strategy during prompt encoding, reducing time-to-first-token for on-device inference. Experiments on Qwen2.5-7B demonstrate that our method achieves efficient, accurate reasoning under strict resource constraints, making LLM reasoning practical for mobile scenarios. Videos demonstrating our solution running on mobile devices are available on our project page.