V-Seek : Accélération du raisonnement des LLM sur des plateformes serveur RISC-V à matériel ouvert
V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms
March 21, 2025
Auteurs: Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini
cs.AI
Résumé
La croissance exponentielle récente des modèles de langage de grande taille (LLMs) s'est appuyée sur des systèmes basés sur des GPU. Cependant, les CPU émergent comme une alternative flexible et à moindre coût, en particulier pour les charges de travail d'inférence et de raisonnement. Le RISC-V gagne rapidement du terrain dans ce domaine, grâce à son architecture d'ensemble d'instructions (ISA) ouverte et indépendante des fournisseurs. Cependant, le matériel RISC-V pour les charges de travail LLM et l'écosystème logiciel correspondant ne sont pas encore pleinement matures et optimisés, en raison de la nécessité d'un réglage spécifique au domaine. Cet article vise à combler cette lacune, en se concentrant sur l'optimisation de l'inférence des LLM sur le Sophon SG2042, le premier CPU RISC-V multi-cœur commercialement disponible avec des capacités de traitement vectoriel.
Sur deux LLM récents de pointe optimisés pour le raisonnement, DeepSeek R1 Distill Llama 8B et DeepSeek R1 Distill QWEN 14B, nous obtenons 4,32/2,29 tokens/s pour la génération de tokens et 6,54/3,68 tokens/s pour le traitement des invites, avec une accélération allant jusqu'à 2,9x/3,0x par rapport à notre référence de base.
English
The recent exponential growth of Large Language Models (LLMs) has relied on
GPU-based systems. However, CPUs are emerging as a flexible and lower-cost
alternative, especially when targeting inference and reasoning workloads.
RISC-V is rapidly gaining traction in this area, given its open and
vendor-neutral ISA. However, the RISC-V hardware for LLM workloads and the
corresponding software ecosystem are not fully mature and streamlined, given
the requirement of domain-specific tuning. This paper aims at filling this gap,
focusing on optimizing LLM inference on the Sophon SG2042, the first
commercially available many-core RISC-V CPU with vector processing
capabilities.
On two recent state-of-the-art LLMs optimized for reasoning, DeepSeek R1
Distill Llama 8B and DeepSeek R1 Distill QWEN 14B, we achieve 4.32/2.29 token/s
for token generation and 6.54/3.68 token/s for prompt processing, with a speed
up of up 2.9x/3.0x compared to our baseline.Summary
AI-Generated Summary