ChatPaper.aiChatPaper

WikiAutoGen: 다중 모달 위키피디아 스타일 기사 생성 기술

WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation

March 24, 2025
저자: Zhongyu Yang, Jun Chen, Dannong Xu, Junjie Fei, Xiaoqian Shen, Liangbing Zhao, Chun-Mei Feng, Mohamed Elhoseiny
cs.AI

초록

지식 발견과 수집은 전통적으로 고품질의 결과물을 보장하기 위해 상당한 인간의 노력이 필요한 지능 집약적인 작업입니다. 최근 연구에서는 인터넷에서 정보를 검색하고 종합하여 위키피디아 스타일의 문서를 자동으로 생성하기 위한 다중 에이전트 프레임워크를 탐구해 왔습니다. 그러나 이러한 방법들은 주로 텍스트만을 대상으로 한 생성에 초점을 맞추고 있어, 정보성과 참여도를 높이는 데 중요한 다중 양식 콘텐츠의 중요성을 간과하고 있습니다. 본 연구에서는 자동화된 다중 양식 위키피디아 스타일 문서 생성을 위한 새로운 시스템인 WikiAutoGen을 소개합니다. 기존 접근법과 달리, WikiAutoGen은 텍스트와 함께 관련 이미지를 검색하고 통합하여 생성된 콘텐츠의 깊이와 시각적 매력을 풍부하게 합니다. 또한, 사실적 정확성과 포괄성을 더욱 개선하기 위해, 검색된 콘텐츠를 다양한 관점에서 비판적으로 평가하여 신뢰성, 폭넓음, 일관성 등을 강화하는 다중 관점 자기 반성 메커니즘을 제안합니다. 추가적으로, 더 도전적인 주제에 대한 다중 양식 지식 생성을 평가하기 위해 텍스트와 이미지 기반 표현이 짝을 이루는 위키피디아 문서로 구성된 WikiSeek 벤치마크를 소개합니다. 실험 결과, WikiAutoGen은 WikiSeek 벤치마크에서 기존 방법들보다 8%-29% 더 우수한 성능을 보이며, 더 정확하고 일관적이며 시각적으로 풍부한 위키피디아 스타일 문서를 생성합니다. 생성된 예시 일부는 https://wikiautogen.github.io/에서 확인할 수 있습니다.
English
Knowledge discovery and collection are intelligence-intensive tasks that traditionally require significant human effort to ensure high-quality outputs. Recent research has explored multi-agent frameworks for automating Wikipedia-style article generation by retrieving and synthesizing information from the internet. However, these methods primarily focus on text-only generation, overlooking the importance of multimodal content in enhancing informativeness and engagement. In this work, we introduce WikiAutoGen, a novel system for automated multimodal Wikipedia-style article generation. Unlike prior approaches, WikiAutoGen retrieves and integrates relevant images alongside text, enriching both the depth and visual appeal of generated content. To further improve factual accuracy and comprehensiveness, we propose a multi-perspective self-reflection mechanism, which critically assesses retrieved content from diverse viewpoints to enhance reliability, breadth, and coherence, etc. Additionally, we introduce WikiSeek, a benchmark comprising Wikipedia articles with topics paired with both textual and image-based representations, designed to evaluate multimodal knowledge generation on more challenging topics. Experimental results show that WikiAutoGen outperforms previous methods by 8%-29% on our WikiSeek benchmark, producing more accurate, coherent, and visually enriched Wikipedia-style articles. We show some of our generated examples in https://wikiautogen.github.io/ .

Summary

AI-Generated Summary

PDF112March 26, 2025