ChatPaper.aiChatPaper

RetrieveGPT: 코드 혼합 정보 검색 향상을 위한 프롬프트와 수학적 모델의 융합

RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

November 7, 2024
저자: Aniket Deroy, Subhankar Maity
cs.AI

초록

코드 혼합(code-mixing)은 단일 문장 내에서 여러 언어의 어휘 및 문법적 요소를 통합하는 것으로, 특히 다중언어 사회에서 널리 관찰되는 언어적 현상이다. 인도에서는 소셜 미디어 사용자들이 로마자 표기를 사용하여 코드 혼합 대화를 빈번히 나누며, 특히 이주민 커뮤니티가 관련 지역 정보를 공유하기 위해 온라인 그룹을 형성하는 경우가 많다. 본 논문은 로마자로 음역된 벵골어와 영어가 혼합된 코드 혼합 대화에서 관련 정보를 추출하는 데 따른 어려움에 초점을 맞춘다. 이 연구는 코드 혼합 대화에서 가장 관련성 높은 답변을 자동으로 식별하기 위한 메커니즘을 개발하여 이러한 문제를 해결하는 새로운 접근 방식을 제시한다. 페이스북에서 수집한 질문과 문서 데이터셋 및 질문 관련성 파일(QRels)을 활용하여 실험을 진행하였으며, 그 결과 복잡한 코드 혼합 디지털 대화에서 적절한 정보를 추출하는 데 있어 본 접근 방식의 효과성을 입증하였다. 이는 다중언어 및 비형식적 텍스트 환경에서의 자연어 처리 분야에 기여한다. 우리는 GPT-3.5 Turbo를 프롬프팅 방식으로 활용하고, 관련 문서의 순차적 특성을 활용하여 질문에 해당하는 관련 문서를 탐지하는 데 도움을 주는 수학적 모델을 구축하였다.
English
Code-mixing, the integration of lexical and grammatical elements from multiple languages within a single sentence, is a widespread linguistic phenomenon, particularly prevalent in multilingual societies. In India, social media users frequently engage in code-mixed conversations using the Roman script, especially among migrant communities who form online groups to share relevant local information. This paper focuses on the challenges of extracting relevant information from code-mixed conversations, specifically within Roman transliterated Bengali mixed with English. This study presents a novel approach to address these challenges by developing a mechanism to automatically identify the most relevant answers from code-mixed conversations. We have experimented with a dataset comprising of queries and documents from Facebook, and Query Relevance files (QRels) to aid in this task. Our results demonstrate the effectiveness of our approach in extracting pertinent information from complex, code-mixed digital conversations, contributing to the broader field of natural language processing in multilingual and informal text environments. We use GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant documents to frame a mathematical model which helps to detect relevant documents corresponding to a query.
PDF173December 4, 2025