ChatPaper.aiChatPaper

V-Seek: Versnelling van LLM-redenering op open-hardware serverklasse RISC-V-platforms

V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms

March 21, 2025
Auteurs: Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini
cs.AI

Samenvatting

De recente exponentiële groei van Large Language Models (LLM's) is voornamelijk gebaseerd op GPU-systemen. CPU's komen echter naar voren als een flexibel en kosteneffectief alternatief, met name gericht op inferentie- en redeneerworkloads. RISC-V wint snel aan populariteit op dit gebied, dankzij zijn open en leveranciersonafhankelijke ISA. De RISC-V-hardware voor LLM-workloads en het bijbehorende software-ecosysteem zijn echter nog niet volledig volwassen en gestroomlijnd, gezien de noodzaak van domeinspecifieke optimalisatie. Dit artikel beoogt deze kloof te dichten door zich te richten op het optimaliseren van LLM-inferentie op de Sophon SG2042, de eerste commercieel beschikbare many-core RISC-V CPU met vectorverwerkingsmogelijkheden. Op twee recente state-of-the-art LLM's die zijn geoptimaliseerd voor redeneren, DeepSeek R1 Distill Llama 8B en DeepSeek R1 Distill QWEN 14B, behalen we 4,32/2,29 tokens/s voor token-generatie en 6,54/3,68 tokens/s voor promptverwerking, met een versnelling van maximaal 2,9x/3,0x vergeleken met onze baseline.
English
The recent exponential growth of Large Language Models (LLMs) has relied on GPU-based systems. However, CPUs are emerging as a flexible and lower-cost alternative, especially when targeting inference and reasoning workloads. RISC-V is rapidly gaining traction in this area, given its open and vendor-neutral ISA. However, the RISC-V hardware for LLM workloads and the corresponding software ecosystem are not fully mature and streamlined, given the requirement of domain-specific tuning. This paper aims at filling this gap, focusing on optimizing LLM inference on the Sophon SG2042, the first commercially available many-core RISC-V CPU with vector processing capabilities. On two recent state-of-the-art LLMs optimized for reasoning, DeepSeek R1 Distill Llama 8B and DeepSeek R1 Distill QWEN 14B, we achieve 4.32/2.29 token/s for token generation and 6.54/3.68 token/s for prompt processing, with a speed up of up 2.9x/3.0x compared to our baseline.

Summary

AI-Generated Summary

PDF62March 25, 2025