RetrieveGPT : Fusion des invites et des modèles mathématiques pour une recherche d'information en code-mixte améliorée

Résumé

Le mélange de codes, qui consiste à intégrer des éléments lexicaux et grammaticaux issus de plusieurs langues au sein d'une même phrase, est un phénomène linguistique répandu, particulièrement prévalent dans les sociétés multilingues. En Inde, les utilisateurs des réseaux sociaux s'engagent fréquemment dans des conversations en mélange de codes utilisant l'alphabet latin, notamment parmi les communautés migrantes qui forment des groupes en ligne pour partager des informations locales pertinentes. Cet article se concentre sur les défis liés à l'extraction d'informations pertinentes à partir de conversations en mélange de codes, spécifiquement dans le cas du bengali translittéré en alphabet latin mélangé à l'anglais. Cette étude présente une approche novatrice pour relever ces défis en développant un mécanisme permettant d'identifier automatiquement les réponses les plus pertinentes dans des conversations en mélange de codes. Nous avons expérimenté avec un ensemble de données comprenant des requêtes et des documents issus de Facebook, ainsi que des fichiers de pertinence de requêtes (QRels) pour faciliter cette tâche. Nos résultats démontrent l'efficacité de notre approche pour extraire des informations pertinentes à partir de conversations numériques complexes en mélange de codes, contribuant ainsi au domaine plus large du traitement automatique des langues dans des environnements multilingues et de textes informels. Nous utilisons GPT-3.5 Turbo via des prompts, tout en exploitant la nature séquentielle des documents pertinents pour élaborer un modèle mathématique qui aide à détecter les documents pertinents correspondant à une requête.

English

Code-mixing, the integration of lexical and grammatical elements from multiple languages within a single sentence, is a widespread linguistic phenomenon, particularly prevalent in multilingual societies. In India, social media users frequently engage in code-mixed conversations using the Roman script, especially among migrant communities who form online groups to share relevant local information. This paper focuses on the challenges of extracting relevant information from code-mixed conversations, specifically within Roman transliterated Bengali mixed with English. This study presents a novel approach to address these challenges by developing a mechanism to automatically identify the most relevant answers from code-mixed conversations. We have experimented with a dataset comprising of queries and documents from Facebook, and Query Relevance files (QRels) to aid in this task. Our results demonstrate the effectiveness of our approach in extracting pertinent information from complex, code-mixed digital conversations, contributing to the broader field of natural language processing in multilingual and informal text environments. We use GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant documents to frame a mathematical model which helps to detect relevant documents corresponding to a query.