Raisonnement efficace en périphérie

Résumé

Les grands modèles de langage (LLM) avec raisonnement en chaîne de pensée atteignent des performances de pointe sur des tâches complexes de résolution de problèmes, mais leurs traces de raisonnement verbeuses et leurs besoins importants en contexte les rendent impraticables pour un déploiement en périphérie. Ces défis incluent les coûts élevés de génération de tokens, les empreintes mémoire importantes du cache KV et les inefficacités lors de la distillation des capacités de raisonnement dans des modèles plus petits pour appareils mobiles. Les approches existantes reposent souvent sur la distillation des traces de raisonnement de modèles plus grands vers des modèles plus petits, qui sont verbeuses et stylistiquement redondantes, ce qui est indésirable pour l'inférence sur appareil. Dans ce travail, nous proposons une approche légère pour activer le raisonnement dans les petits LLM en utilisant des adaptateurs LoRA combinés à un fine-tuning supervisé. Nous introduisons également un forçage budgétaire via apprentissage par renforcement sur ces adaptateurs, réduisant significativement la longueur des réponses avec une perte de précision minimale. Pour adresser le décodage limité par la mémoire, nous exploitons la mise à l'échelle parallèle au moment du test, améliorant la précision avec une faible augmentation de latence. Enfin, nous présentons un mécanisme dynamique de commutation d'adaptateurs qui active le raisonnement uniquement lorsque nécessaire et une stratégie de partage du cache KV lors de l'encodage des prompts, réduisant le temps jusqu'au premier token pour l'inférence sur appareil. Les expériences sur Qwen2.5-7B démontrent que notre méthode permet un raisonnement efficace et précis sous des contraintes de ressources strictes, rendant le raisonnement des LLM praticable pour les scénarios mobiles. Des vidéos démontrant notre solution fonctionnant sur des appareils mobiles sont disponibles sur notre page projet.

English

Large language models (LLMs) with chain-of-thought reasoning achieve state-of-the-art performance across complex problem-solving tasks, but their verbose reasoning traces and large context requirements make them impractical for edge deployment. These challenges include high token generation costs, large KV-cache footprints, and inefficiencies when distilling reasoning capabilities into smaller models for mobile devices. Existing approaches often rely on distilling reasoning traces from larger models into smaller models, which are verbose and stylistically redundant, undesirable for on-device inference. In this work, we propose a lightweight approach to enable reasoning in small LLMs using LoRA adapters combined with supervised fine-tuning. We further introduce budget forcing via reinforcement learning on these adapters, significantly reducing response length with minimal accuracy loss. To address memory-bound decoding, we exploit parallel test-time scaling, improving accuracy at minor latency increase. Finally, we present a dynamic adapter-switching mechanism that activates reasoning only when needed and a KV-cache sharing strategy during prompt encoding, reducing time-to-first-token for on-device inference. Experiments on Qwen2.5-7B demonstrate that our method achieves efficient, accurate reasoning under strict resource constraints, making LLM reasoning practical for mobile scenarios. Videos demonstrating our solution running on mobile devices are available on our project page.

Raisonnement efficace en périphérie

Efficient Reasoning on the Edge

Résumé

Support