ChatPaper.aiChatPaper

BERT-VBD: 베트남어 다중 문서 요약 프레임워크

BERT-VBD: Vietnamese Multi-Document Summarization Framework

September 18, 2024
저자: Tuan-Cuong Vuong, Trang Mai Xuan, Thien Van Luong
cs.AI

초록

다중 문서 요약(Multi-Document Summarization, MDS) 과제에 대처하기 위해 다양한 방법이 제안되어 왔으며, 추출적 및 생성적 요약 기술을 아우르고 있습니다. 그러나 각 접근 방식에는 각각의 한계가 있어 오직 한 가지에만 의존하는 것은 효과적이지 않습니다. 최근에 주목받고 있는 유망한 전략은 추출적 및 생성적 요약 기법을 융합하는 것입니다. 이 도메인에서 다양한 연구가 있음에도 불구하고, 특히 베트남어 처리 문맥에서 결합된 방법론에 대한 연구는 부족합니다. 본 논문은 추출적 및 생성적 기술을 통합하는 두 구성 요소 파이프라인 아키텍처를 활용하는 혁신적인 베트남어 MDS 프레임워크를 제시합니다. 첫 번째 구성 요소는 각 문서 내에서 주요 문장을 식별하기 위해 추출적 접근 방식을 사용합니다. 이는 사이메스 및 트리플 네트워크 구조를 사용하여 의미론적으로 유의미한 구절 임베딩을 도출하는 사전 훈련된 BERT 네트워크의 수정을 통해 달성됩니다. 두 번째 구성 요소는 생성적 요약을 위해 VBD-LLaMA2-7B-50b 모델을 활용하며, 최종 요약 문서를 생성합니다. 우리가 제안하는 프레임워크는 VN-MDS 데이터셋에서 39.6%의 ROUGE-2 점수를 달성하며 최첨단 베이스라인을 능가하는 긍정적인 성능을 보여줍니다.
English
In tackling the challenge of Multi-Document Summarization (MDS), numerous methods have been proposed, spanning both extractive and abstractive summarization techniques. However, each approach has its own limitations, making it less effective to rely solely on either one. An emerging and promising strategy involves a synergistic fusion of extractive and abstractive summarization methods. Despite the plethora of studies in this domain, research on the combined methodology remains scarce, particularly in the context of Vietnamese language processing. This paper presents a novel Vietnamese MDS framework leveraging a two-component pipeline architecture that integrates extractive and abstractive techniques. The first component employs an extractive approach to identify key sentences within each document. This is achieved by a modification of the pre-trained BERT network, which derives semantically meaningful phrase embeddings using siamese and triplet network structures. The second component utilizes the VBD-LLaMA2-7B-50b model for abstractive summarization, ultimately generating the final summary document. Our proposed framework demonstrates a positive performance, attaining ROUGE-2 scores of 39.6% on the VN-MDS dataset and outperforming the state-of-the-art baselines.

Summary

AI-Generated Summary

PDF12November 16, 2024