RetrieveGPT: Het Samenvoegen van Prompts en Wiskundige Modellen voor Verbeterde Informatie-ontsluiting van Code-Mixing

Samenvatting

Codemixen, de integratie van lexicale en grammaticale elementen uit meerdere talen binnen één zin, is een wijdverspreid taalkundig fenomeen, dat vooral veel voorkomt in meertalige samenlevingen. In India voeren sociale mediagebruikers vaak gemengde gesprekken in het Romeinse schrift, met name onder migrantengemeenschappen die online groepen vormen om relevante lokale informatie te delen. Dit artikel richt zich op de uitdagingen van het extraheren van relevante informatie uit gemengde gesprekken, specifiek binnen het in Romeinse transliteratie geschreven Bengaals vermengd met Engels. Deze studie presenteert een nieuwe aanpak om deze uitdagingen aan te pakken door een mechanisme te ontwikkelen om automatisch de meest relevante antwoorden uit gemengde gesprekken te identificeren. Wij hebben geëxperimenteerd met een dataset bestaande uit vragen en documenten van Facebook, en Query Relevance-bestanden (QRels) om deze taak te ondersteunen. Onze resultaten tonen de effectiviteit van onze aanpak aan bij het extraheren van relevante informatie uit complexe, gemengde digitale gesprekken, wat bijdraagt aan het bredere vakgebied van natuurlijke taalverwerking in meertalige en informele tekstomgevingen. Wij gebruiken GPT-3.5 Turbo via prompting en benutten het sequentiële karakter van relevante documenten om een wiskundig model op te stellen dat helpt bij het detecteren van relevante documenten die bij een vraag horen.

English

Code-mixing, the integration of lexical and grammatical elements from multiple languages within a single sentence, is a widespread linguistic phenomenon, particularly prevalent in multilingual societies. In India, social media users frequently engage in code-mixed conversations using the Roman script, especially among migrant communities who form online groups to share relevant local information. This paper focuses on the challenges of extracting relevant information from code-mixed conversations, specifically within Roman transliterated Bengali mixed with English. This study presents a novel approach to address these challenges by developing a mechanism to automatically identify the most relevant answers from code-mixed conversations. We have experimented with a dataset comprising of queries and documents from Facebook, and Query Relevance files (QRels) to aid in this task. Our results demonstrate the effectiveness of our approach in extracting pertinent information from complex, code-mixed digital conversations, contributing to the broader field of natural language processing in multilingual and informal text environments. We use GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant documents to frame a mathematical model which helps to detect relevant documents corresponding to a query.

RetrieveGPT: Het Samenvoegen van Prompts en Wiskundige Modellen voor Verbeterde Informatie-ontsluiting van Code-Mixing

RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

Samenvatting

Support