대규모 언어 모델의 출력 다양성에 대한 사고 언어의 영향
Language of Thought Shapes Output Diversity in Large Language Models
January 16, 2026
저자: Shaoyang Xu, Wenxuan Zhang
cs.AI
초록
대규모 언어 모델에서 출력 다양성은 다양성과 창의성의 기반이 되므로 매우 중요합니다. 본 연구에서는 모델 사고 과정에서 사용되는 언어, 즉 사고 언어를 제어함으로써 출력 다양성의 새로운 구조적 원천을 제공할 수 있음을 밝힙니다. 우리의 예비 연구에 따르면, 서로 다른 사고 언어는 모델의 사고 공간 내에서 각기 다른 영역을 차지합니다. 이러한 관찰을 바탕으로 우리는 다언어 사고 하에서 두 가지 반복 샘플링 전략(단일 언어 샘플링과 혼합 언어 샘플링)을 연구하고, 사용된 사고 언어와 무관하게 영어로 제어된 출력물에 대한 다양성 평가를 수행합니다. 광범위한 실험을 통해 사고 언어를 영어에서 비영어권 언어로 전환하면 출력 다양성이 지속적으로 증가하며, 사고 공간에서 영어와 거리가 먼 언어일수록 더 큰 다양성 향상을 가져온다는 명확하고 일관된 양의 상관관계를 입증합니다. 더 나아가 여러 사고 언어에서 샘플을 통합하면 구성적 효과를 통해 추가적인 개선이 이루어지며, 언어적 이질성으로 샘플링 규모를 확장하면 모델의 다양성 상한선이 확장됨을 보여줍니다. 마지막으로, 이러한 연구 결과가 다원적 조정 시나리오에서 실질적인 이점으로 이어져 LLM 출력에서 문화적 지식과 가치 지향의 폭을 더 넓히는 것을 확인합니다. 우리의 코드는 https://github.com/iNLP-Lab/Multilingual-LoT-Diversity에서 공개되어 있습니다.
English
Output diversity is crucial for Large Language Models as it underpins pluralism and creativity. In this work, we reveal that controlling the language used during model thinking-the language of thought-provides a novel and structural source of output diversity. Our preliminary study shows that different thinking languages occupy distinct regions in a model's thinking space. Based on this observation, we study two repeated sampling strategies under multilingual thinking-Single-Language Sampling and Mixed-Language Sampling-and conduct diversity evaluation on outputs that are controlled to be in English, regardless of the thinking language used. Across extensive experiments, we demonstrate that switching the thinking language from English to non-English languages consistently increases output diversity, with a clear and consistent positive correlation such that languages farther from English in the thinking space yield larger gains. We further show that aggregating samples across multiple thinking languages yields additional improvements through compositional effects, and that scaling sampling with linguistic heterogeneity expands the model's diversity ceiling. Finally, we show that these findings translate into practical benefits in pluralistic alignment scenarios, leading to broader coverage of cultural knowledge and value orientations in LLM outputs. Our code is publicly available at https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.