ChatPaper.aiChatPaper

Woodpecker: 다중모달 대형 언어 모델을 위한 환각 현상 교정

Woodpecker: Hallucination Correction for Multimodal Large Language Models

October 24, 2023
저자: Shukang Yin, Chaoyou Fu, Sirui Zhao, Tong Xu, Hao Wang, Dianbo Sui, Yunhang Shen, Ke Li, Xing Sun, Enhong Chen
cs.AI

초록

환각(hallucination)은 빠르게 진화하는 멀티모달 대형 언어 모델(MLLMs) 위에 드리운 큰 그림자로, 생성된 텍스트가 이미지 내용과 불일치하는 현상을 의미합니다. 환각을 완화하기 위해 기존 연구들은 주로 특정 데이터로 모델을 재학습시키는 지시 튜닝(instruction-tuning) 방식을 사용해 왔습니다. 본 논문에서는 이러한 접근과는 다른 길을 제시하며, 훈련이 필요 없는 방법인 Woodpecker를 소개합니다. 딱따구리가 나무를 치료하듯, 이 방법은 생성된 텍스트에서 환각을 찾아내고 수정합니다. 구체적으로, Woodpecker는 다섯 단계로 구성됩니다: 핵심 개념 추출, 질문 구성, 시각 지식 검증, 시각 주장 생성, 그리고 환각 수정. 사후 보완 방식으로 구현된 Woodpecker는 다양한 MLLMs에 쉽게 적용할 수 있으며, 다섯 단계의 중간 출력을 통해 해석 가능합니다. 우리는 Woodpecker를 정량적 및 정성적으로 평가하며 이 새로운 패러다임의 엄청난 잠재력을 보여줍니다. POPE 벤치마크에서 우리의 방법은 기준 모델인 MiniGPT-4/mPLUG-Owl 대비 정확도에서 각각 30.66%/24.33%의 향상을 달성했습니다. 소스 코드는 https://github.com/BradyFU/Woodpecker에서 공개되었습니다.
English
Hallucination is a big shadow hanging over the rapidly evolving Multimodal Large Language Models (MLLMs), referring to the phenomenon that the generated text is inconsistent with the image content. In order to mitigate hallucinations, existing studies mainly resort to an instruction-tuning manner that requires retraining the models with specific data. In this paper, we pave a different way, introducing a training-free method named Woodpecker. Like a woodpecker heals trees, it picks out and corrects hallucinations from the generated text. Concretely, Woodpecker consists of five stages: key concept extraction, question formulation, visual knowledge validation, visual claim generation, and hallucination correction. Implemented in a post-remedy manner, Woodpecker can easily serve different MLLMs, while being interpretable by accessing intermediate outputs of the five stages. We evaluate Woodpecker both quantitatively and qualitatively and show the huge potential of this new paradigm. On the POPE benchmark, our method obtains a 30.66%/24.33% improvement in accuracy over the baseline MiniGPT-4/mPLUG-Owl. The source code is released at https://github.com/BradyFU/Woodpecker.
PDF171December 15, 2024