RetrieveGPT: Kombination von Prompts und mathematischen Modellen zur verbesserten Code-Mixed-Informationsrückgewinnung
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval
November 7, 2024
papers.authors: Aniket Deroy, Subhankar Maity
cs.AI
papers.abstract
Code-Mixing, die Integration lexikalischer und grammatikalischer Elemente aus mehreren Sprachen innerhalb eines einzelnen Satzes, ist ein weit verbreitetes linguistisches Phänomen, das insbesondere in mehrsprachigen Gesellschaften häufig auftritt. In Indien führen Nutzer sozialer Medien häufig Code-Mixing-Gespräche in lateinischer Schrift, insbesondere unter Migrantengemeinschaften, die Online-Gruppen bilden, um relevante lokale Informationen auszutauschen. Dieser Artikel konzentriert sich auf die Herausforderungen der Extraktion relevanter Informationen aus Code-Mixing-Gesprächen, speziell innerhalb von in lateinischer Schrift transliteriertem Bengalisch, das mit Englisch gemischt ist. Diese Studie präsentiert einen neuartigen Ansatz zur Bewältigung dieser Herausforderungen, indem ein Mechanismus entwickelt wird, um automatisch die relevantesten Antworten aus Code-Mixing-Gesprächen zu identifizieren. Wir haben mit einem Datensatz experimentiert, der Anfragen und Dokumente von Facebook sowie Query-Relevance-Dateien (QRels) umfasst, um diese Aufgabe zu unterstützen. Unsere Ergebnisse demonstrieren die Effektivität unseres Ansatzes bei der Extraktion relevanter Informationen aus komplexen, Code-Mixing-digitalen Gesprächen und tragen damit zum breiteren Feld der natürlichen Sprachverarbeitung in mehrsprachigen und informellen Textumgebungen bei. Wir verwenden GPT-3.5 Turbo über Prompting sowie die sequenzielle Natur relevanter Dokumente, um ein mathematisches Modell zu formulieren, das dabei hilft, relevante Dokumente zu einer Anfrage zu identifizieren.
English
Code-mixing, the integration of lexical and grammatical elements from
multiple languages within a single sentence, is a widespread linguistic
phenomenon, particularly prevalent in multilingual societies. In India, social
media users frequently engage in code-mixed conversations using the Roman
script, especially among migrant communities who form online groups to share
relevant local information. This paper focuses on the challenges of extracting
relevant information from code-mixed conversations, specifically within Roman
transliterated Bengali mixed with English. This study presents a novel approach
to address these challenges by developing a mechanism to automatically identify
the most relevant answers from code-mixed conversations. We have experimented
with a dataset comprising of queries and documents from Facebook, and Query
Relevance files (QRels) to aid in this task. Our results demonstrate the
effectiveness of our approach in extracting pertinent information from complex,
code-mixed digital conversations, contributing to the broader field of natural
language processing in multilingual and informal text environments. We use
GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant
documents to frame a mathematical model which helps to detect relevant
documents corresponding to a query.