RetrieveGPT: Fusione di Prompt e Modelli Matematici per un Recupero delle Informazioni in Codice Misto Potenziato

Abstract

Il code-mixing, ovvero l'integrazione di elementi lessicali e grammaticali provenienti da più lingue all'interno di una singola frase, è un fenomeno linguistico diffuso, particolarmente prevalente nelle società multilingue. In India, gli utenti dei social media partecipano frequentemente a conversazioni con code-mixing utilizzando l'alfabeto latino, specialmente tra le comunità di migranti che formano gruppi online per condividere informazioni locali rilevanti. Questo articolo si concentra sulle sfide legate all'estrazione di informazioni pertinenti da conversazioni con code-mixing, in particolare nel bengali traslitterato in caratteri latini misto a inglese. Questo studio presenta un approccio innovativo per affrontare queste sfide, sviluppando un meccanismo per identificare automaticamente le risposte più rilevanti da conversazioni con code-mixing. Abbiamo sperimentato con un dataset composto da query e documenti provenienti da Facebook, e file di Rilevanza delle Query (QRels) per supportare questo compito. I nostri risultati dimostrano l'efficacia del nostro approccio nell'estrarre informazioni pertinenti da conversazioni digitali complesse e caratterizzate da code-mixing, contribuendo al più ampio campo dell'elaborazione del linguaggio naturale in ambienti multilingue e con testi informali. Utilizziamo GPT-3.5 Turbo tramite prompt sfruttando inoltre la natura sequenziale dei documenti rilevanti per formulare un modello matematico che aiuta a rilevare i documenti pertinenti corrispondenti a una query.

English

Code-mixing, the integration of lexical and grammatical elements from multiple languages within a single sentence, is a widespread linguistic phenomenon, particularly prevalent in multilingual societies. In India, social media users frequently engage in code-mixed conversations using the Roman script, especially among migrant communities who form online groups to share relevant local information. This paper focuses on the challenges of extracting relevant information from code-mixed conversations, specifically within Roman transliterated Bengali mixed with English. This study presents a novel approach to address these challenges by developing a mechanism to automatically identify the most relevant answers from code-mixed conversations. We have experimented with a dataset comprising of queries and documents from Facebook, and Query Relevance files (QRels) to aid in this task. Our results demonstrate the effectiveness of our approach in extracting pertinent information from complex, code-mixed digital conversations, contributing to the broader field of natural language processing in multilingual and informal text environments. We use GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant documents to frame a mathematical model which helps to detect relevant documents corresponding to a query.

RetrieveGPT: Fusione di Prompt e Modelli Matematici per un Recupero delle Informazioni in Codice Misto Potenziato

RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

Abstract

Support