ChatPaper.aiChatPaper

머리부터 꼬리까지: 적응형 데이터 보정을 통한 대규모 시각-언어 모델의 균형 잡힌 표현 추구

From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration

March 17, 2025
저자: Mingyang Song, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI

초록

대형 시각-언어 모델(LVLMs)은 시각적 이해와 언어 생성을 결합하는 데 있어 상당한 진전을 이루었습니다. 그러나 이러한 성공에도 불구하고, LVLMs의 학습 데이터는 여전히 장기 꼬리(Long-Tail, LT) 문제로 인해 데이터 분포가 심각하게 불균형한 상태입니다. 기존 연구들은 주로 CLIP나 ViT와 같은 전통적인 VLM 아키텍처와 인식 및 분류와 같은 특정 작업에 초점을 맞추어 왔습니다. 반면, LVLM(예: LLaVA)과 더 일반적인 작업(예: 시각적 질문 응답 및 시각적 추론)에 대한 탐구는 아직 미흡한 상태입니다. 본 논문에서는 먼저 LVLMs의 LT 문제를 심층적으로 분석하고, 두 가지 핵심 원인을 규명합니다: 주요 개념의 과다 표현과 소수 개념의 과소 표현. 이러한 관찰을 바탕으로, 우리는 적응형 데이터 정제 프레임워크(Adaptive Data Refinement Framework, ADR)를 제안합니다. ADR은 데이터 재균형(Data Rebalancing, DR)과 데이터 합성(Data Synthesis, DS) 두 단계로 구성됩니다. DR 단계에서는 엔티티 분포를 기반으로 중복 데이터를 적응적으로 재균형화하며, DS 단계에서는 디노이징 확산 확률 모델(Denoising Diffusion Probabilistic Models, DDPMs)과 부족한 이미지를 활용하여 과소 표현된 부분을 보완합니다. 11개의 벤치마크에 걸친 포괄적인 평가를 통해, 우리가 제안한 ADR은 학습 데이터의 장기 꼬리 문제를 효과적으로 완화하며, LLaVA 1.5의 평균 성능을 상대적으로 4.36% 향상시켰습니다. 이는 학습 데이터 양을 증가시키지 않고 달성한 결과입니다.
English
Large Vision-Language Models (LVLMs) have achieved significant progress in combining visual comprehension with language generation. Despite this success, the training data of LVLMs still suffers from Long-Tail (LT) problems, where the data distribution is highly imbalanced. Previous works have mainly focused on traditional VLM architectures, i.e., CLIP or ViT, and specific tasks such as recognition and classification. Nevertheless, the exploration of LVLM (e.g. LLaVA) and more general tasks (e.g. Visual Question Answering and Visual Reasoning) remains under-explored. In this paper, we first conduct an in-depth analysis of the LT issues in LVLMs and identify two core causes: the overrepresentation of head concepts and the underrepresentation of tail concepts. Based on the above observation, we propose an Adaptive Data Refinement Framework (ADR), which consists of two stages: Data Rebalancing (DR) and Data Synthesis (DS). In the DR stage, we adaptively rebalance the redundant data based on entity distributions, while in the DS stage, we leverage Denoising Diffusion Probabilistic Models (DDPMs) and scarce images to supplement underrepresented portions. Through comprehensive evaluations across eleven benchmarks, our proposed ADR effectively mitigates the long-tail problem in the training data, improving the average performance of LLaVA 1.5 relatively by 4.36%, without increasing the training data volume.

Summary

AI-Generated Summary

PDF92March 24, 2025