ChatPaper.aiChatPaper

Quando la Vita Ti Offre Campioni: I Vantaggi di Scalare la Potenza di Calcolo per l'Inferenza nei Modelli Linguistici Multilingue

When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs

June 25, 2025
Autori: Ammar Khairi, Daniel D'souza, Ye Shen, Julia Kreutzer, Sara Hooker
cs.AI

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno spostato l'attenzione verso il ridimensionamento del calcolo in fase di inferenza, migliorando le prestazioni senza dover riaddestrare il modello. Un approccio comune consiste nel campionare più output in parallelo e selezionarne uno come output finale. Tuttavia, il lavoro svolto finora si è concentrato sull'inglese e su un numero limitato di domini, come la matematica e il codice. Al contrario, siamo particolarmente interessati a tecniche che si generalizzano su compiti aperti, compiti formalmente verificabili e su più lingue. In questo lavoro, studiamo come ridimensionare in modo robusto il calcolo in fase di inferenza per compiti generativi aperti in un contesto multilingue e multi-task. I nostri risultati dimostrano che sia la strategia di campionamento basata sulla variazione della temperatura che la strategia di selezione devono essere adattate per tenere conto di domini diversi e di contesti linguistici variati. Valutiamo i metodi di selezione esistenti, rivelando che le strategie efficaci in inglese spesso non si generalizzano su altre lingue. Proponiamo nuove strategie di campionamento e selezione specificamente adattate per scenari di inferenza multilingue e multi-task, e dimostriamo che producono miglioramenti significativi su più lingue e compiti. In particolare, i nostri metodi combinati di campionamento e selezione portano a un aumento medio di +6,8 nei tassi di vittoria per i nostri modelli da 8B sui prompt di m-ArenaHard-v2.0, rispetto a modelli proprietari come Gemini. Su scala più ampia, Command-A (modello da 111B) equipaggiato con i nostri metodi, mostra un miglioramento di +9,0 nei tassi di vittoria sullo stesso benchmark con soli cinque campioni rispetto al decoding a singolo campione, un aumento sostanziale a costi minimi. I nostri risultati sottolineano la necessità di approcci consapevoli della lingua e del compito per il calcolo in fase di inferenza, con l'obiettivo di democratizzare i miglioramenti delle prestazioni nelle lingue sottorappresentate.
English
Recent advancements in large language models (LLMs) have shifted focus toward scaling inference-time compute, improving performance without retraining the model. A common approach is to sample multiple outputs in parallel, and select one of these as the final output. However, work to date has focused on English and a handful of domains such as math and code. In contrast, we are most interested in techniques that generalize across open-ended tasks, formally verifiable tasks, and across languages. In this work, we study how to robustly scale inference-time compute for open-ended generative tasks in a multilingual, multi-task setting. Our findings show that both sampling strategy based on temperature variation and selection strategy must be adapted to account for diverse domains and varied language settings. We evaluate existing selection methods, revealing that strategies effective in English often fail to generalize across languages. We propose novel sampling and selection strategies specifically adapted for multilingual and multi-task inference scenarios, and show they yield notable gains across languages and tasks. In particular, our combined sampling and selection methods lead to an average +6.8 jump in win-rates for our 8B models on m-ArenaHard-v2.0 prompts, against proprietary models such as Gemini. At larger scale, Command-A (111B model) equipped with our methods, shows +9.0 improvement in win-rates on the same benchmark with just five samples against single-sample decoding, a substantial increase at minimal cost. Our results underscore the need for language- and task-aware approaches to inference-time compute, aiming to democratize performance improvements in underrepresented languages.
PDF81June 26, 2025