ChatPaper.aiChatPaper

V-Seek: Acelerando o Raciocínio de LLMs em Plataformas RISC-V de Classe Servidor com Hardware Aberto

V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms

March 21, 2025
Autores: Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini
cs.AI

Resumo

O crescimento exponencial recente dos Modelos de Linguagem de Grande Escala (LLMs) tem dependido de sistemas baseados em GPU. No entanto, as CPUs estão surgindo como uma alternativa flexível e de menor custo, especialmente quando o foco está em cargas de trabalho de inferência e raciocínio. O RISC-V está rapidamente ganhando tração nessa área, dada sua ISA aberta e neutra em relação a fornecedores. No entanto, o hardware RISC-V para cargas de trabalho de LLMs e o ecossistema de software correspondente ainda não estão totalmente maduros e otimizados, considerando a necessidade de ajustes específicos para o domínio. Este artigo visa preencher essa lacuna, focando na otimização da inferência de LLMs no Sophon SG2042, o primeiro CPU comercialmente disponível com múltiplos núcleos RISC-V e capacidades de processamento vetorial. Em dois LLMs recentes e de ponta otimizados para raciocínio, o DeepSeek R1 Distill Llama 8B e o DeepSeek R1 Distill QWEN 14B, alcançamos 4,32/2,29 tokens/s para geração de tokens e 6,54/3,68 tokens/s para processamento de prompts, com uma aceleração de até 2,9x/3,0x em comparação com nossa linha de base.
English
The recent exponential growth of Large Language Models (LLMs) has relied on GPU-based systems. However, CPUs are emerging as a flexible and lower-cost alternative, especially when targeting inference and reasoning workloads. RISC-V is rapidly gaining traction in this area, given its open and vendor-neutral ISA. However, the RISC-V hardware for LLM workloads and the corresponding software ecosystem are not fully mature and streamlined, given the requirement of domain-specific tuning. This paper aims at filling this gap, focusing on optimizing LLM inference on the Sophon SG2042, the first commercially available many-core RISC-V CPU with vector processing capabilities. On two recent state-of-the-art LLMs optimized for reasoning, DeepSeek R1 Distill Llama 8B and DeepSeek R1 Distill QWEN 14B, we achieve 4.32/2.29 token/s for token generation and 6.54/3.68 token/s for prompt processing, with a speed up of up 2.9x/3.0x compared to our baseline.

Summary

AI-Generated Summary

PDF62March 25, 2025