ViMRHP: 인간-AI 협업 주석을 통한 다중모드 리뷰 유용성 예측을 위한 베트남어 벤치마크 데이터셋
ViMRHP: A Vietnamese Benchmark Dataset for Multimodal Review Helpfulness Prediction via Human-AI Collaborative Annotation
May 12, 2025
저자: Truc Mai-Thanh Nguyen, Dat Minh Nguyen, Son T. Luu, Kiet Van Nguyen
cs.AI
초록
다중모달 리뷰 유용성 예측(Multimodal Review Helpfulness Prediction, MRHP)은 특히 전자상거래 플랫폼에서 추천 시스템의 핵심 과제입니다. 사용자 생성 리뷰의 유용성을 판단하는 것은 사용자 경험을 향상시키고 소비자의 의사결정을 개선하는 데 기여합니다. 그러나 기존 데이터셋은 주로 영어와 인도네시아어에 집중되어 있어, 베트남어와 같은 저자원 언어의 경우 언어적 다양성이 부족한 실정입니다. 본 논문에서는 베트남어 MRHP 작업을 위한 대규모 벤치마크 데이터셋인 ViMRHP(Vietnamese Multimodal Review Helpfulness Prediction)를 소개합니다. 이 데이터셋은 4개 도메인을 포괄하며, 2천 개의 제품과 4만 6천 개의 리뷰를 포함합니다. 한편, 대규모 데이터셋 구축에는 상당한 시간과 비용이 소요됩니다. 이를 위해, 우리는 주석 작업 과정을 최적화하기 위해 AI를 활용하여 ViMRHP 데이터셋 구축을 지원합니다. AI 지원을 통해 주석 작업 시간이 단축되었으며(작업당 90~120초에서 20~40초로 감소), 데이터 품질을 유지하면서 전체 비용을 약 65% 절감할 수 있었습니다. 그러나 복잡한 주석 작업에서 AI 생성 주석은 여전히 한계를 보이며, 이에 대한 상세한 성능 분석을 통해 추가적으로 검토합니다. ViMRHP 실험에서는 인간 검증 주석과 AI 생성 주석에 대한 베이스라인 모델을 평가하여 품질 차이를 분석합니다. ViMRHP 데이터셋은 https://github.com/trng28/ViMRHP에서 공개되어 있습니다.
English
Multimodal Review Helpfulness Prediction (MRHP) is an essential task in
recommender systems, particularly in E-commerce platforms. Determining the
helpfulness of user-generated reviews enhances user experience and improves
consumer decision-making. However, existing datasets focus predominantly on
English and Indonesian, resulting in a lack of linguistic diversity, especially
for low-resource languages such as Vietnamese. In this paper, we introduce
ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction), a large-scale
benchmark dataset for MRHP task in Vietnamese. This dataset covers four
domains, including 2K products with 46K reviews. Meanwhile, a large-scale
dataset requires considerable time and cost. To optimize the annotation
process, we leverage AI to assist annotators in constructing the ViMRHP
dataset. With AI assistance, annotation time is reduced (90 to 120 seconds per
task down to 20 to 40 seconds per task) while maintaining data quality and
lowering overall costs by approximately 65%. However, AI-generated annotations
still have limitations in complex annotation tasks, which we further examine
through a detailed performance analysis. In our experiment on ViMRHP, we
evaluate baseline models on human-verified and AI-generated annotations to
assess their quality differences. The ViMRHP dataset is publicly available at
https://github.com/trng28/ViMRHPSummary
AI-Generated Summary