ChatPaper.aiChatPaper

SymDPO:シンボルデモンストレーション直接選好最適化による大規模マルチモーダルモデルのインコンテキスト学習の強化

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

November 17, 2024
著者: Hongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI

要旨

言語モデルが拡大し続ける中、大規模言語モデル(LLMs)はインコンテキストラーニング(ICL)における新たな能力を示し、少数のインコンテキストデモンストレーション(ICDs)を接頭辞として使用することで言語タスクを解決する能力を持つようになりました。これらの進歩に触発され、研究者はこれらの手法を拡張し、ICL機能を備えた大規模マルチモーダルモデル(LMMs)を開発しています。しかしながら、既存のLMMsは重要な問題に直面しています。それは、しばしばマルチモーダルデモンストレーションにおける視覚的コンテキストを効果的に活用できず、代わりに単にテキストパターンに従ってしまうことです。これは、LMMsがマルチモーダルデモンストレーションとモデルの出力との間で効果的な整合性を達成していないことを示しています。この問題に対処するために、私たちはSymbol Demonstration Direct Preference Optimization(SymDPO)を提案します。具体的には、SymDPOは、インスタンス内のテキスト回答をランダムなシンボルで置き換えることによってマルチモーダルデモンストレーションを構築する従来のパラダイムを打破することを目指しています。これにより、モデルはデモンストレーション画像を注意深く理解し、画像とシンボルとの関係を確立して正しく質問に答えることができます。私たちはこの手法の効果を複数のベンチマークで検証し、SymDPOを使用することで、LMMsが例文内のマルチモーダルコンテキストをより効果的に理解し、この知識を活用して質問により良く答えることができることを示しています。
English
As language models continue to scale, Large Language Models (LLMs) have exhibited emerging capabilities in In-Context Learning (ICL), enabling them to solve language tasks by prefixing a few in-context demonstrations (ICDs) as context. Inspired by these advancements, researchers have extended these techniques to develop Large Multimodal Models (LMMs) with ICL capabilities. However, existing LMMs face a critical issue: they often fail to effectively leverage the visual context in multimodal demonstrations and instead simply follow textual patterns. This indicates that LMMs do not achieve effective alignment between multimodal demonstrations and model outputs. To address this problem, we propose Symbol Demonstration Direct Preference Optimization (SymDPO). Specifically, SymDPO aims to break the traditional paradigm of constructing multimodal demonstrations by using random symbols to replace text answers within instances. This forces the model to carefully understand the demonstration images and establish a relationship between the images and the symbols to answer questions correctly. We validate the effectiveness of this method on multiple benchmarks, demonstrating that with SymDPO, LMMs can more effectively understand the multimodal context within examples and utilize this knowledge to answer questions better.

Summary

AI-Generated Summary

PDF113November 21, 2024