大規模言語モデルにおける思考言語が出力多様性に与える影響
Language of Thought Shapes Output Diversity in Large Language Models
January 16, 2026
著者: Shaoyang Xu, Wenxuan Zhang
cs.AI
要旨
大規模言語モデルにおいて、出力の多様性は多元性と創造性を支える重要な要素である。本研究では、モデルの思考過程で使用される言語(思考言語)を制御することが、出力多様性の新たかつ構造的な源泉となることを明らかにする。予備調査により、異なる思考言語がモデルの思考空間内で異なる領域を占めることが確認された。この知見に基づき、我々は多言語思考下での二つの反復サンプリング戦略(単一言語サンプリングと混合言語サンプリング)を検討し、思考言語にかかわらず英語で出力されるテキストの多様性評価を実施した。大規模な実験を通じて、思考言語を英語から非英語に切り替えることで出力多様性が一貫して向上し、思考空間において英語から遠い言語ほど多様性の向上幅が大きいという明確な正の相関関係が確認された。さらに、複数の思考言語にわたってサンプルを集約することで合成的効果による追加的な改善が得られること、および言語的多様性を拡大したサンプリングによってモデルの多様性上限が拡張されることを実証する。最後に、これらの発見が多元的アライメントシナリオにおいて実用的な利点をもたらし、LLM出力における文化的知識と価値観のカバレッジが広がることを示す。コードはhttps://github.com/iNLP-Lab/Multilingual-LoT-Diversityで公開されている。
English
Output diversity is crucial for Large Language Models as it underpins pluralism and creativity. In this work, we reveal that controlling the language used during model thinking-the language of thought-provides a novel and structural source of output diversity. Our preliminary study shows that different thinking languages occupy distinct regions in a model's thinking space. Based on this observation, we study two repeated sampling strategies under multilingual thinking-Single-Language Sampling and Mixed-Language Sampling-and conduct diversity evaluation on outputs that are controlled to be in English, regardless of the thinking language used. Across extensive experiments, we demonstrate that switching the thinking language from English to non-English languages consistently increases output diversity, with a clear and consistent positive correlation such that languages farther from English in the thinking space yield larger gains. We further show that aggregating samples across multiple thinking languages yields additional improvements through compositional effects, and that scaling sampling with linguistic heterogeneity expands the model's diversity ceiling. Finally, we show that these findings translate into practical benefits in pluralistic alignment scenarios, leading to broader coverage of cultural knowledge and value orientations in LLM outputs. Our code is publicly available at https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.