V-Seek: Aceleración del razonamiento de modelos de lenguaje grandes (LLM) en plataformas RISC-V de clase servidor con hardware abierto
V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms
March 21, 2025
Autores: Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini
cs.AI
Resumen
El reciente crecimiento exponencial de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ha dependido de sistemas basados en GPU. Sin embargo, las CPU están surgiendo como una alternativa flexible y de menor costo, especialmente cuando se enfocan en cargas de trabajo de inferencia y razonamiento. RISC-V está ganando rápidamente terreno en este ámbito, dado su conjunto de instrucciones (ISA) abierto y neutral respecto a proveedores. No obstante, el hardware RISC-V para cargas de trabajo de LLMs y el ecosistema de software correspondiente no están completamente maduros y optimizados, debido a la necesidad de ajustes específicos del dominio. Este artículo tiene como objetivo llenar este vacío, centrándose en optimizar la inferencia de LLMs en el Sophon SG2042, la primera CPU comercial de muchos núcleos RISC-V con capacidades de procesamiento vectorial.
En dos LLMs recientes de última generación optimizados para razonamiento, DeepSeek R1 Distill Llama 8B y DeepSeek R1 Distill QWEN 14B, logramos 4.32/2.29 tokens por segundo para la generación de tokens y 6.54/3.68 tokens por segundo para el procesamiento de prompts, con una aceleración de hasta 2.9x/3.0x en comparación con nuestra línea base.
English
The recent exponential growth of Large Language Models (LLMs) has relied on
GPU-based systems. However, CPUs are emerging as a flexible and lower-cost
alternative, especially when targeting inference and reasoning workloads.
RISC-V is rapidly gaining traction in this area, given its open and
vendor-neutral ISA. However, the RISC-V hardware for LLM workloads and the
corresponding software ecosystem are not fully mature and streamlined, given
the requirement of domain-specific tuning. This paper aims at filling this gap,
focusing on optimizing LLM inference on the Sophon SG2042, the first
commercially available many-core RISC-V CPU with vector processing
capabilities.
On two recent state-of-the-art LLMs optimized for reasoning, DeepSeek R1
Distill Llama 8B and DeepSeek R1 Distill QWEN 14B, we achieve 4.32/2.29 token/s
for token generation and 6.54/3.68 token/s for prompt processing, with a speed
up of up 2.9x/3.0x compared to our baseline.Summary
AI-Generated Summary