頭から尾まで:適応的データキャリブレーションによる大規模視覚言語モデルのバランスの取れた表現に向けて
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration
March 17, 2025
著者: Mingyang Song, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI
要旨
大規模視覚言語モデル(LVLM)は、視覚理解と言語生成を組み合わせることで大きな進展を遂げています。しかし、この成功にもかかわらず、LVLMの学習データは依然としてロングテール(LT)問題に悩まされており、データ分布が非常に不均衡です。これまでの研究は主に、CLIPやViTなどの従来のVLMアーキテクチャや、認識や分類といった特定のタスクに焦点を当ててきました。それにもかかわらず、LVLM(例:LLaVA)やより一般的なタスク(例:視覚的質問応答や視覚的推論)の探求はまだ十分に行われていません。本論文では、まずLVLMにおけるLT問題を詳細に分析し、その核心的な原因として、主要概念の過剰表現と尾部概念の過小表現の2つを特定します。この観察に基づき、我々は適応的データ精製フレームワーク(ADR)を提案します。ADRは、データリバランス(DR)とデータ合成(DS)の2段階で構成されています。DR段階では、エンティティ分布に基づいて冗長なデータを適応的にリバランスし、DS段階では、Denoising Diffusion Probabilistic Models(DDPM)と希少な画像を活用して過小表現されている部分を補完します。11のベンチマークにわたる包括的な評価を通じて、提案するADRは学習データのロングテール問題を効果的に緩和し、LLaVA 1.5の平均性能を相対的に4.36%向上させることが示されました。これは、学習データ量を増やすことなく達成されています。
English
Large Vision-Language Models (LVLMs) have achieved significant progress in
combining visual comprehension with language generation. Despite this success,
the training data of LVLMs still suffers from Long-Tail (LT) problems, where
the data distribution is highly imbalanced. Previous works have mainly focused
on traditional VLM architectures, i.e., CLIP or ViT, and specific tasks such as
recognition and classification. Nevertheless, the exploration of LVLM (e.g.
LLaVA) and more general tasks (e.g. Visual Question Answering and Visual
Reasoning) remains under-explored. In this paper, we first conduct an in-depth
analysis of the LT issues in LVLMs and identify two core causes: the
overrepresentation of head concepts and the underrepresentation of tail
concepts. Based on the above observation, we propose an Adaptive
Data Refinement Framework (ADR), which
consists of two stages: Data Rebalancing (DR)
and Data Synthesis (DS). In the DR stage, we
adaptively rebalance the redundant data based on entity distributions, while in
the DS stage, we leverage Denoising Diffusion Probabilistic Models (DDPMs) and
scarce images to supplement underrepresented portions. Through comprehensive
evaluations across eleven benchmarks, our proposed ADR effectively mitigates
the long-tail problem in the training data, improving the average performance
of LLaVA 1.5 relatively by 4.36%, without increasing the training data volume.Summary
AI-Generated Summary