샘플이 주어졌을 때: 다국어 대형 언어 모델의 추론 계산 확장의 이점
When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs
June 25, 2025
저자: Ammar Khairi, Daniel D'souza, Ye Shen, Julia Kreutzer, Sara Hooker
cs.AI
초록
최근 대규모 언어 모델(LLM)의 발전은 모델을 재학습하지 않고도 성능을 개선하기 위해 추론 시점의 컴퓨팅 자원 확장에 초점을 맞추고 있습니다. 일반적인 접근 방식은 여러 출력을 병렬로 샘플링한 후 그 중 하나를 최종 출력으로 선택하는 것입니다. 그러나 지금까지의 연구는 주로 영어와 수학, 코드 등 소수 도메인에 집중되어 왔습니다. 이와 대조적으로, 우리는 개방형 작업, 형식적으로 검증 가능한 작업, 그리고 다양한 언어에 걸쳐 일반화 가능한 기술에 가장 관심이 있습니다. 본 연구에서는 다국어 및 다중 작업 환경에서 개방형 생성 작업을 위한 추론 시점 컴퓨팅 자원을 견고하게 확장하는 방법을 탐구합니다.
우리의 연구 결과는 다양한 도메인과 언어 설정을 고려하기 위해 온도 변동 기반 샘플링 전략과 선택 전략 모두를 조정해야 함을 보여줍니다. 기존 선택 방법을 평가한 결과, 영어에서 효과적인 전략들이 다른 언어로 일반화되지 못하는 경우가 많음을 확인했습니다. 우리는 다국어 및 다중 작업 추론 시나리오에 특화된 새로운 샘플링 및 선택 전략을 제안하고, 이러한 전략이 다양한 언어와 작업에서 상당한 성능 향상을 가져옴을 입증합니다. 특히, 우리의 통합 샘플링 및 선택 방법은 8B 모델에서 m-ArenaHard-v2.0 프롬프트에 대해 Gemini와 같은 독점 모델 대비 평균 +6.8의 승률 상승을 이끌어냈습니다. 더 큰 규모에서는 Command-A(111B 모델)가 우리의 방법을 적용하여 단일 샘플 디코딩 대비 단 5개의 샘플로 동일 벤치마크에서 +9.0의 승률 개선을 보였으며, 이는 최소 비용으로 상당한 증가를 나타냅니다. 우리의 결과는 저대표 언어에서의 성능 개선을 민주화하기 위해 언어 및 작업 인식 추론 시점 컴퓨팅 접근법의 필요성을 강조합니다.
English
Recent advancements in large language models (LLMs) have shifted focus toward
scaling inference-time compute, improving performance without retraining the
model. A common approach is to sample multiple outputs in parallel, and select
one of these as the final output. However, work to date has focused on English
and a handful of domains such as math and code. In contrast, we are most
interested in techniques that generalize across open-ended tasks, formally
verifiable tasks, and across languages. In this work, we study how to robustly
scale inference-time compute for open-ended generative tasks in a multilingual,
multi-task setting.
Our findings show that both sampling strategy based on temperature variation
and selection strategy must be adapted to account for diverse domains and
varied language settings. We evaluate existing selection methods, revealing
that strategies effective in English often fail to generalize across languages.
We propose novel sampling and selection strategies specifically adapted for
multilingual and multi-task inference scenarios, and show they yield notable
gains across languages and tasks. In particular, our combined sampling and
selection methods lead to an average +6.8 jump in win-rates for our 8B models
on m-ArenaHard-v2.0 prompts, against proprietary models such as Gemini. At
larger scale, Command-A (111B model) equipped with our methods, shows +9.0
improvement in win-rates on the same benchmark with just five samples against
single-sample decoding, a substantial increase at minimal cost. Our results
underscore the need for language- and task-aware approaches to inference-time
compute, aiming to democratize performance improvements in underrepresented
languages.