ChatPaper.aiChatPaper

MMEvol: Het versterken van multimodale grote taalmodellen met Evol-Instruct

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

September 9, 2024
Auteurs: Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li
cs.AI

Samenvatting

De ontwikkeling van Multimodale Grote Taalmodellen (MLLM's) heeft aanzienlijke vooruitgang geboekt. Echter, de hoeveelheid en kwaliteit van multimodale instructiedata zijn naar voren gekomen als significante knelpunten in hun voortgang. Het handmatig creëren van multimodale instructiedata is zowel tijdrovend als inefficiënt, wat uitdagingen met zich meebrengt bij het produceren van instructies van hoge complexiteit. Bovendien leidt het destilleren van instructiedata uit black-box commerciële modellen (bijv. GPT-4o, GPT-4V) vaak tot simplistische instructiedata, wat de prestaties beperkt tot die van deze modellen. De uitdaging van het samenstellen van diverse en complexe instructiedata blijft aanzienlijk. Wij stellen MMEvol voor, een nieuw multimodaal instructiedata-evolutiekader dat fijnmazige perceptie-evolutie, cognitieve redeneringsevolutie en interactie-evolutie combineert. Deze iteratieve aanpak doorbreekt knelpunten in datakwaliteit om een complex en divers dataset van beeld-tekstinstructies te genereren, waardoor MLLM's worden voorzien van verbeterde mogelijkheden. Beginnend met een initiële set instructies, SEED-163K, gebruiken we MMEvol om systematisch de diversiteit van instructietypen te vergroten, redeneerstappen te integreren om cognitieve mogelijkheden te verbeteren, en gedetailleerde informatie uit afbeeldingen te extraheren om visueel begrip en robuustheid te verbeteren. Om de effectiviteit van onze data uitgebreid te evalueren, trainen we LLaVA-NeXT met behulp van de geëvolueerde data en voeren we experimenten uit over 13 visie-taal taken. Vergeleken met de baseline getraind met seeddata, behaalt onze aanpak een gemiddelde nauwkeurigheidsverbetering van 3,1 punten en bereikt state-of-the-art (SOTA) prestaties op 9 van deze taken.
English
The development of Multimodal Large Language Models (MLLMs) has seen significant advancements. However, the quantity and quality of multimodal instruction data have emerged as significant bottlenecks in their progress. Manually creating multimodal instruction data is both time-consuming and inefficient, posing challenges in producing instructions of high complexity. Moreover, distilling instruction data from black-box commercial models (e.g., GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains performance to that of these models. The challenge of curating diverse and complex instruction data remains substantial. We propose MMEvol, a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution. This iterative approach breaks through data quality bottlenecks to generate a complex and diverse image-text instruction dataset, thereby empowering MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broadens the diversity of instruction types, integrates reasoning steps to enhance cognitive capabilities, and extracts detailed information from images to improve visual understanding and robustness. To comprehensively evaluate the effectiveness of our data, we train LLaVA-NeXT using the evolved data and conduct experiments across 13 vision-language tasks. Compared to the baseline trained with seed data, our approach achieves an average accuracy improvement of 3.1 points and reaches state-of-the-art (SOTA) performance on 9 of these tasks.
PDF493November 16, 2024