RetrieveGPT : Fusion des invites et des modèles mathématiques pour une recherche d'information en code-mixte améliorée
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval
November 7, 2024
papers.authors: Aniket Deroy, Subhankar Maity
cs.AI
papers.abstract
Le mélange de codes, qui consiste à intégrer des éléments lexicaux et grammaticaux issus de plusieurs langues au sein d'une même phrase, est un phénomène linguistique répandu, particulièrement prévalent dans les sociétés multilingues. En Inde, les utilisateurs des réseaux sociaux s'engagent fréquemment dans des conversations en mélange de codes utilisant l'alphabet latin, notamment parmi les communautés migrantes qui forment des groupes en ligne pour partager des informations locales pertinentes. Cet article se concentre sur les défis liés à l'extraction d'informations pertinentes à partir de conversations en mélange de codes, spécifiquement dans le cas du bengali translittéré en alphabet latin mélangé à l'anglais. Cette étude présente une approche novatrice pour relever ces défis en développant un mécanisme permettant d'identifier automatiquement les réponses les plus pertinentes dans des conversations en mélange de codes. Nous avons expérimenté avec un ensemble de données comprenant des requêtes et des documents issus de Facebook, ainsi que des fichiers de pertinence de requêtes (QRels) pour faciliter cette tâche. Nos résultats démontrent l'efficacité de notre approche pour extraire des informations pertinentes à partir de conversations numériques complexes en mélange de codes, contribuant ainsi au domaine plus large du traitement automatique des langues dans des environnements multilingues et de textes informels. Nous utilisons GPT-3.5 Turbo via des prompts, tout en exploitant la nature séquentielle des documents pertinents pour élaborer un modèle mathématique qui aide à détecter les documents pertinents correspondant à une requête.
English
Code-mixing, the integration of lexical and grammatical elements from
multiple languages within a single sentence, is a widespread linguistic
phenomenon, particularly prevalent in multilingual societies. In India, social
media users frequently engage in code-mixed conversations using the Roman
script, especially among migrant communities who form online groups to share
relevant local information. This paper focuses on the challenges of extracting
relevant information from code-mixed conversations, specifically within Roman
transliterated Bengali mixed with English. This study presents a novel approach
to address these challenges by developing a mechanism to automatically identify
the most relevant answers from code-mixed conversations. We have experimented
with a dataset comprising of queries and documents from Facebook, and Query
Relevance files (QRels) to aid in this task. Our results demonstrate the
effectiveness of our approach in extracting pertinent information from complex,
code-mixed digital conversations, contributing to the broader field of natural
language processing in multilingual and informal text environments. We use
GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant
documents to frame a mathematical model which helps to detect relevant
documents corresponding to a query.