Razonamiento Eficiente en el Dispositivo

Resumen

Los modelos de lenguaje grande (LLM) con razonamiento en cadena de pensamiento logran un rendimiento de vanguardia en tareas complejas de resolución de problemas, pero sus trazas de razonamiento verbosas y sus grandes requisitos de contexto los hacen poco prácticos para su implementación en dispositivos de borde. Estos desafíos incluyen altos costos de generación de tokens, grandes huellas de caché KV e ineficiencias al destilar capacidades de razonamiento en modelos más pequeños para dispositivos móviles. Los enfoques existentes a menudo dependen de destilar trazas de razonamiento de modelos más grandes a modelos más pequeños, las cuales son verbosas y estilísticamente redundantes, algo indeseable para la inferencia en el dispositivo. En este trabajo, proponemos un enfoque liviano para habilitar el razonamiento en LLM pequeños utilizando adaptadores LoRA combinados con ajuste fino supervisado. Además, introducimos la aplicación de un presupuesto forzado mediante aprendizaje por refuerzo en estos adaptadores, reduciendo significativamente la longitud de la respuesta con una pérdida mínima de precisión. Para abordar la decodificación limitada por memoria, explotamos el escalado paralelo en tiempo de prueba, mejorando la precisión con un aumento menor de la latencia. Finalmente, presentamos un mecanismo dinámico de conmutación de adaptadores que activa el razonamiento solo cuando es necesario y una estrategia de compartición de la caché KV durante la codificación del prompt, reduciendo el tiempo hasta el primer token para la inferencia en el dispositivo. Los experimentos en Qwen2.5-7B demuestran que nuestro método logra un razonamiento eficiente y preciso bajo estrictas restricciones de recursos, haciendo práctico el razonamiento de LLM para escenarios móviles. Los videos que demuestran nuestra solución ejecutándose en dispositivos móviles están disponibles en nuestra página del proyecto.

English

Large language models (LLMs) with chain-of-thought reasoning achieve state-of-the-art performance across complex problem-solving tasks, but their verbose reasoning traces and large context requirements make them impractical for edge deployment. These challenges include high token generation costs, large KV-cache footprints, and inefficiencies when distilling reasoning capabilities into smaller models for mobile devices. Existing approaches often rely on distilling reasoning traces from larger models into smaller models, which are verbose and stylistically redundant, undesirable for on-device inference. In this work, we propose a lightweight approach to enable reasoning in small LLMs using LoRA adapters combined with supervised fine-tuning. We further introduce budget forcing via reinforcement learning on these adapters, significantly reducing response length with minimal accuracy loss. To address memory-bound decoding, we exploit parallel test-time scaling, improving accuracy at minor latency increase. Finally, we present a dynamic adapter-switching mechanism that activates reasoning only when needed and a KV-cache sharing strategy during prompt encoding, reducing time-to-first-token for on-device inference. Experiments on Qwen2.5-7B demonstrate that our method achieves efficient, accurate reasoning under strict resource constraints, making LLM reasoning practical for mobile scenarios. Videos demonstrating our solution running on mobile devices are available on our project page.

Razonamiento Eficiente en el Dispositivo

Efficient Reasoning on the Edge

Resumen

Support