Raciocínio Eficiente na Borda

Resumo

Modelos de linguagem de grande escala (LLMs) com raciocínio em cadeia de pensamento alcançam desempenho de ponta em tarefas complexas de resolução de problemas. No entanto, seus rastros de raciocínio verbosos e grandes requisitos de contexto tornam-nos impraticáveis para implantação em dispositivos de borda. Esses desafios incluem altos custos de geração de tokens, grandes pegadas de cache KV e ineficiências ao destilar capacidades de raciocínio em modelos menores para dispositivos móveis. As abordagens existentes frequentemente dependem da destilação de rastros de raciocínio de modelos maiores para modelos menores, que são verbosos e estilisticamente redundantes, sendo indesejáveis para inferência no dispositivo. Neste trabalho, propomos uma abordagem leve para habilitar o raciocínio em pequenos LLMs usando adaptadores LoRA combinados com ajuste fino supervisionado. Introduzimos ainda o *budget forcing* via aprendizado por reforço nesses adaptadores, reduzindo significativamente o comprimento da resposta com perda mínima de precisão. Para abordar a decodificação limitada por memória, exploramos o dimensionamento paralelo em tempo de teste, melhorando a precisão com um pequeno aumento de latência. Finalmente, apresentamos um mecanismo dinâmico de comutação de adaptadores que ativa o raciocínio apenas quando necessário e uma estratégia de compartilhamento de cache KV durante a codificação do *prompt*, reduzindo o tempo para o primeiro token na inferência no dispositivo. Experimentos no Qwen2.5-7B demonstram que nosso método alcança raciocínio eficiente e preciso sob restrições rigorosas de recursos, tornando o raciocínio de LLMs prático para cenários móveis. Vídeos demonstrando nossa solução em execução em dispositivos móveis estão disponíveis em nossa página do projeto.

English

Large language models (LLMs) with chain-of-thought reasoning achieve state-of-the-art performance across complex problem-solving tasks, but their verbose reasoning traces and large context requirements make them impractical for edge deployment. These challenges include high token generation costs, large KV-cache footprints, and inefficiencies when distilling reasoning capabilities into smaller models for mobile devices. Existing approaches often rely on distilling reasoning traces from larger models into smaller models, which are verbose and stylistically redundant, undesirable for on-device inference. In this work, we propose a lightweight approach to enable reasoning in small LLMs using LoRA adapters combined with supervised fine-tuning. We further introduce budget forcing via reinforcement learning on these adapters, significantly reducing response length with minimal accuracy loss. To address memory-bound decoding, we exploit parallel test-time scaling, improving accuracy at minor latency increase. Finally, we present a dynamic adapter-switching mechanism that activates reasoning only when needed and a KV-cache sharing strategy during prompt encoding, reducing time-to-first-token for on-device inference. Experiments on Qwen2.5-7B demonstrate that our method achieves efficient, accurate reasoning under strict resource constraints, making LLM reasoning practical for mobile scenarios. Videos demonstrating our solution running on mobile devices are available on our project page.

Raciocínio Eficiente na Borda

Efficient Reasoning on the Edge

Resumo

Support