RetrieveGPT: Het Samenvoegen van Prompts en Wiskundige Modellen voor Verbeterde Informatie-ontsluiting van Code-Mixing
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval
November 7, 2024
Auteurs: Aniket Deroy, Subhankar Maity
cs.AI
Samenvatting
Codemixen, de integratie van lexicale en grammaticale elementen uit meerdere talen binnen één zin, is een wijdverspreid taalkundig fenomeen, dat vooral veel voorkomt in meertalige samenlevingen. In India voeren sociale mediagebruikers vaak gemengde gesprekken in het Romeinse schrift, met name onder migrantengemeenschappen die online groepen vormen om relevante lokale informatie te delen. Dit artikel richt zich op de uitdagingen van het extraheren van relevante informatie uit gemengde gesprekken, specifiek binnen het in Romeinse transliteratie geschreven Bengaals vermengd met Engels. Deze studie presenteert een nieuwe aanpak om deze uitdagingen aan te pakken door een mechanisme te ontwikkelen om automatisch de meest relevante antwoorden uit gemengde gesprekken te identificeren. Wij hebben geëxperimenteerd met een dataset bestaande uit vragen en documenten van Facebook, en Query Relevance-bestanden (QRels) om deze taak te ondersteunen. Onze resultaten tonen de effectiviteit van onze aanpak aan bij het extraheren van relevante informatie uit complexe, gemengde digitale gesprekken, wat bijdraagt aan het bredere vakgebied van natuurlijke taalverwerking in meertalige en informele tekstomgevingen. Wij gebruiken GPT-3.5 Turbo via prompting en benutten het sequentiële karakter van relevante documenten om een wiskundig model op te stellen dat helpt bij het detecteren van relevante documenten die bij een vraag horen.
English
Code-mixing, the integration of lexical and grammatical elements from
multiple languages within a single sentence, is a widespread linguistic
phenomenon, particularly prevalent in multilingual societies. In India, social
media users frequently engage in code-mixed conversations using the Roman
script, especially among migrant communities who form online groups to share
relevant local information. This paper focuses on the challenges of extracting
relevant information from code-mixed conversations, specifically within Roman
transliterated Bengali mixed with English. This study presents a novel approach
to address these challenges by developing a mechanism to automatically identify
the most relevant answers from code-mixed conversations. We have experimented
with a dataset comprising of queries and documents from Facebook, and Query
Relevance files (QRels) to aid in this task. Our results demonstrate the
effectiveness of our approach in extracting pertinent information from complex,
code-mixed digital conversations, contributing to the broader field of natural
language processing in multilingual and informal text environments. We use
GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant
documents to frame a mathematical model which helps to detect relevant
documents corresponding to a query.