RetrieveGPT: Fusione di Prompt e Modelli Matematici per un Recupero delle Informazioni in Codice Misto Potenziato
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval
November 7, 2024
Autori: Aniket Deroy, Subhankar Maity
cs.AI
Abstract
Il code-mixing, ovvero l'integrazione di elementi lessicali e grammaticali provenienti da più lingue all'interno di una singola frase, è un fenomeno linguistico diffuso, particolarmente prevalente nelle società multilingue. In India, gli utenti dei social media partecipano frequentemente a conversazioni con code-mixing utilizzando l'alfabeto latino, specialmente tra le comunità di migranti che formano gruppi online per condividere informazioni locali rilevanti. Questo articolo si concentra sulle sfide legate all'estrazione di informazioni pertinenti da conversazioni con code-mixing, in particolare nel bengali traslitterato in caratteri latini misto a inglese. Questo studio presenta un approccio innovativo per affrontare queste sfide, sviluppando un meccanismo per identificare automaticamente le risposte più rilevanti da conversazioni con code-mixing. Abbiamo sperimentato con un dataset composto da query e documenti provenienti da Facebook, e file di Rilevanza delle Query (QRels) per supportare questo compito. I nostri risultati dimostrano l'efficacia del nostro approccio nell'estrarre informazioni pertinenti da conversazioni digitali complesse e caratterizzate da code-mixing, contribuendo al più ampio campo dell'elaborazione del linguaggio naturale in ambienti multilingue e con testi informali. Utilizziamo GPT-3.5 Turbo tramite prompt sfruttando inoltre la natura sequenziale dei documenti rilevanti per formulare un modello matematico che aiuta a rilevare i documenti pertinenti corrispondenti a una query.
English
Code-mixing, the integration of lexical and grammatical elements from
multiple languages within a single sentence, is a widespread linguistic
phenomenon, particularly prevalent in multilingual societies. In India, social
media users frequently engage in code-mixed conversations using the Roman
script, especially among migrant communities who form online groups to share
relevant local information. This paper focuses on the challenges of extracting
relevant information from code-mixed conversations, specifically within Roman
transliterated Bengali mixed with English. This study presents a novel approach
to address these challenges by developing a mechanism to automatically identify
the most relevant answers from code-mixed conversations. We have experimented
with a dataset comprising of queries and documents from Facebook, and Query
Relevance files (QRels) to aid in this task. Our results demonstrate the
effectiveness of our approach in extracting pertinent information from complex,
code-mixed digital conversations, contributing to the broader field of natural
language processing in multilingual and informal text environments. We use
GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant
documents to frame a mathematical model which helps to detect relevant
documents corresponding to a query.