Onderzoek naar hallucinaties in gesprekken voor talen met beperkte bronnen

Samenvatting

Grote Taalmodellen (LLMs) hebben een opmerkelijke vaardigheid getoond in het genereren van tekst die sterk lijkt op menselijk geschreven tekst. Ze produceren echter vaak feitelijk onjuiste uitspraken, een probleem dat doorgaans wordt aangeduid als 'hallucinatie'. Het aanpakken van hallucinatie is cruciaal voor het verbeteren van de betrouwbaarheid en effectiviteit van LLMs. Hoewel veel onderzoek zich heeft gericht op hallucinaties in het Engels, breidt onze studie dit onderzoek uit naar conversatiegegevens in drie talen: Hindi, Farsi en Mandarijn. We bieden een uitgebreide analyse van een dataset om zowel feitelijke als linguïstische fouten in deze talen te onderzoeken voor GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 en Qwen-3. We ontdekten dat LLMs zeer weinig gehallucineerde reacties produceren in het Mandarijn, maar een aanzienlijk hoger aantal hallucinaties genereren in het Hindi en Farsi.

English

Large Language Models (LLMs) have demonstrated remarkable proficiency in generating text that closely resemble human writing. However, they often generate factually incorrect statements, a problem typically referred to as 'hallucination'. Addressing hallucination is crucial for enhancing the reliability and effectiveness of LLMs. While much research has focused on hallucinations in English, our study extends this investigation to conversational data in three languages: Hindi, Farsi, and Mandarin. We offer a comprehensive analysis of a dataset to examine both factual and linguistic errors in these languages for GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 and Qwen-3. We found that LLMs produce very few hallucinated responses in Mandarin but generate a significantly higher number of hallucinations in Hindi and Farsi.

Onderzoek naar hallucinaties in gesprekken voor talen met beperkte bronnen

Investigating Hallucination in Conversations for Low Resource Languages

Samenvatting

Support