ChatPaper.aiChatPaper

V-Seek: Ускорение логических рассуждений в крупных языковых моделях на серверных платформах с открытой архитектурой RISC-V

V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms

March 21, 2025
Авторы: Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini
cs.AI

Аннотация

Недавний экспоненциальный рост крупных языковых моделей (LLM) в значительной степени опирался на системы, основанные на GPU. Однако CPU начинают рассматриваться как гибкая и более экономичная альтернатива, особенно для задач вывода и логического рассуждения. Архитектура RISC-V быстро набирает популярность в этой области благодаря своей открытой и независимой от поставщиков системе команд (ISA). Тем не менее, аппаратное обеспечение RISC-V для работы с LLM и соответствующая программная экосистема пока не полностью зрелы и оптимизированы, что связано с необходимостью специфической настройки для данной области. Данная статья направлена на заполнение этого пробела, сосредоточившись на оптимизации вывода LLM на процессоре Sophon SG2042 — первом коммерчески доступном многоядерном CPU на базе RISC-V с поддержкой векторной обработки. На двух современных LLM, оптимизированных для логического рассуждения — DeepSeek R1 Distill Llama 8B и DeepSeek R1 Distill QWEN 14B — мы достигаем скорости генерации токенов 4,32/2,29 токенов в секунду и обработки промптов 6,54/3,68 токенов в секунду, что обеспечивает ускорение до 2,9x/3,0x по сравнению с базовым уровнем.
English
The recent exponential growth of Large Language Models (LLMs) has relied on GPU-based systems. However, CPUs are emerging as a flexible and lower-cost alternative, especially when targeting inference and reasoning workloads. RISC-V is rapidly gaining traction in this area, given its open and vendor-neutral ISA. However, the RISC-V hardware for LLM workloads and the corresponding software ecosystem are not fully mature and streamlined, given the requirement of domain-specific tuning. This paper aims at filling this gap, focusing on optimizing LLM inference on the Sophon SG2042, the first commercially available many-core RISC-V CPU with vector processing capabilities. On two recent state-of-the-art LLMs optimized for reasoning, DeepSeek R1 Distill Llama 8B and DeepSeek R1 Distill QWEN 14B, we achieve 4.32/2.29 token/s for token generation and 6.54/3.68 token/s for prompt processing, with a speed up of up 2.9x/3.0x compared to our baseline.

Summary

AI-Generated Summary

PDF62March 25, 2025