A Linguagem do Pensamento Molda a Diversidade de Saída em Modelos de Linguagem de Grande Escala

Resumo

A diversidade de saída é crucial para os Grandes Modelos de Linguagem, pois sustenta o pluralismo e a criatividade. Neste trabalho, revelamos que controlar a linguagem utilizada durante o pensamento do modelo - a linguagem do pensamento - constitui uma fonte nova e estrutural de diversidade na saída. Nosso estudo preliminar mostra que diferentes linguagens de pensamento ocupam regiões distintas no espaço de pensamento de um modelo. Com base nessa observação, estudamos duas estratégias de amostragem repetida sob pensamento multilíngue - Amostragem de Linguagem Única e Amostragem de Linguagem Mista - e realizamos uma avaliação de diversidade em saídas controladas para serem em inglês, independentemente da linguagem de pensamento utilizada. Através de extensivos experimentos, demonstramos que alternar a linguagem de pensamento do inglês para línguas não inglesas aumenta consistentemente a diversidade da saída, com uma correlação positiva clara e consistente, de modo que línguas mais distantes do inglês no espaço de pensamento produzem ganhos maiores. Mostramos ainda que agregar amostras de múltiplas linguagens de pensamento produz melhorias adicionais através de efeitos composicionais, e que escalonar a amostragem com heterogeneidade linguística expande o limite de diversidade do modelo. Finalmente, demonstramos que essas descobertas se traduzem em benefícios práticos em cenários de alinhamento pluralístico, levando a uma cobertura mais ampla de conhecimento cultural e orientações de valor nas saídas dos LLMs. Nosso código está publicamente disponível em https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.

English

Output diversity is crucial for Large Language Models as it underpins pluralism and creativity. In this work, we reveal that controlling the language used during model thinking-the language of thought-provides a novel and structural source of output diversity. Our preliminary study shows that different thinking languages occupy distinct regions in a model's thinking space. Based on this observation, we study two repeated sampling strategies under multilingual thinking-Single-Language Sampling and Mixed-Language Sampling-and conduct diversity evaluation on outputs that are controlled to be in English, regardless of the thinking language used. Across extensive experiments, we demonstrate that switching the thinking language from English to non-English languages consistently increases output diversity, with a clear and consistent positive correlation such that languages farther from English in the thinking space yield larger gains. We further show that aggregating samples across multiple thinking languages yields additional improvements through compositional effects, and that scaling sampling with linguistic heterogeneity expands the model's diversity ceiling. Finally, we show that these findings translate into practical benefits in pluralistic alignment scenarios, leading to broader coverage of cultural knowledge and value orientations in LLM outputs. Our code is publicly available at https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.

A Linguagem do Pensamento Molda a Diversidade de Saída em Modelos de Linguagem de Grande Escala

Language of Thought Shapes Output Diversity in Large Language Models

Resumo

Support