Geniet van het Spektakel: Mixture-of-Resolution Aanpassing voor Multimodale Grote Taalmodellen
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models
March 5, 2024
Auteurs: Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji
cs.AI
Samenvatting
Ondanks opmerkelijke vooruitgang zijn bestaande multimodale grote taalmodellen (MLLMs) nog steeds inferieur in gedetailleerde visuele herkenning. In tegenstelling tot eerdere werken bestuderen we dit probleem vanuit het perspectief van beeldresolutie en tonen we aan dat een combinatie van visuele kenmerken met lage en hoge resolutie dit tekort effectief kan verminderen. Op basis van deze observatie stellen we een nieuwe en efficiënte methode voor MLLMs voor, genaamd Mixture-of-Resolution Adaptation (MRA). In het bijzonder gebruikt MRA twee visuele paden voor afbeeldingen met verschillende resoluties, waarbij visuele informatie met hoge resolutie wordt ingebed in het pad met lage resolutie via de nieuwe mixture-of-resolution adapters (MR-Adapters). Dit ontwerp vermindert ook aanzienlijk de invoerreekslengte van MLLMs. Om MRA te valideren, passen we het toe op een recent MLLM genaamd LLaVA, en noemen we het nieuwe model LLaVA-HR. We voeren uitgebreide experimenten uit op 11 visie-taal (VL) taken, die aantonen dat LLaVA-HR bestaande MLLMs overtreft op 8 VL taken, bijvoorbeeld +9,4% op TextVQA. Belangrijker is dat zowel de training als de inferentie van LLaVA-HR efficiënt blijven met MRA, bijvoorbeeld 20 trainingsuren en 3 keer snellere inferentie dan LLaVA-1.5. Broncodes zijn vrijgegeven op: https://github.com/luogen1996/LLaVA-HR.
English
Despite remarkable progress, existing multimodal large language models
(MLLMs) are still inferior in granular visual recognition. Contrary to previous
works, we study this problem from the perspective of image resolution, and
reveal that a combination of low- and high-resolution visual features can
effectively mitigate this shortcoming. Based on this observation, we propose a
novel and efficient method for MLLMs, termed Mixture-of-Resolution Adaptation
(MRA). In particular, MRA adopts two visual pathways for images with different
resolutions, where high-resolution visual information is embedded into the
low-resolution pathway via the novel mixture-of-resolution adapters
(MR-Adapters). This design also greatly reduces the input sequence length of
MLLMs. To validate MRA, we apply it to a recent MLLM called LLaVA, and term the
new model LLaVA-HR. We conduct extensive experiments on 11 vision-language (VL)
tasks, which show that LLaVA-HR outperforms existing MLLMs on 8 VL tasks, e.g.,
+9.4% on TextVQA. More importantly, both training and inference of LLaVA-HR
remain efficient with MRA, e.g., 20 training hours and 3times inference
speed than LLaVA-1.5. Source codes are released at:
https://github.com/luogen1996/LLaVA-HR.