ChatPaper.aiChatPaper

Migliorare il senso comune visivo nei modelli linguistici attraverso la generazione multipla di immagini

Improving Visual Commonsense in Language Models via Multiple Image Generation

June 19, 2024
Autori: Guy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim
cs.AI

Abstract

Il ragionamento basato sul senso comune è fondamentalmente radicato nella conoscenza multimodale. Tuttavia, i grandi modelli linguistici (LLM) esistenti sono principalmente addestrati utilizzando solo dati testuali, limitando la loro capacità di incorporare informazioni visive essenziali. Al contrario, i modelli linguistici visivi, che eccellono in compiti orientati al visivo, spesso falliscono in compiti non visivi come il ragionamento di base sul senso comune. Questa divergenza evidenzia una sfida critica: l'integrazione di una solida comprensione visiva con il ragionamento linguistico basato sul testo. A tal fine, introduciamo un metodo volto a migliorare il senso comune visivo degli LLM. Nello specifico, il nostro metodo genera più immagini basate sul prompt di testo in input e le integra nel processo decisionale del modello mescolando le loro probabilità di previsione. Per facilitare la modellazione linguistica multimodale fondata, utilizziamo uno strato di fusione tardiva che combina le caratteristiche visive proiettate con l'output di un LLM pre-addestrato condizionato solo sul testo. Questo strato di fusione tardiva consente previsioni basate su una conoscenza completa immagine-testo, nonché solo sul testo quando necessario. Valutiamo il nostro approccio utilizzando diversi compiti di ragionamento visivo basato sul senso comune insieme a compiti tradizionali di NLP, tra cui il ragionamento di senso comune e la comprensione della lettura. I nostri risultati sperimentali dimostrano una superiorità significativa rispetto alle baseline esistenti. Quando applicato ai recenti LLM all'avanguardia (ad esempio, Llama3), osserviamo miglioramenti non solo nel senso comune visivo ma anche nei benchmark tradizionali di NLP. Codice e modelli sono disponibili su https://github.com/guyyariv/vLMIG.
English
Commonsense reasoning is fundamentally based on multimodal knowledge. However, existing large language models (LLMs) are primarily trained using textual data only, limiting their ability to incorporate essential visual information. In contrast, Visual Language Models, which excel at visually-oriented tasks, often fail at non-visual tasks such as basic commonsense reasoning. This divergence highlights a critical challenge - the integration of robust visual understanding with foundational text-based language reasoning. To this end, we introduce a method aimed at enhancing LLMs' visual commonsense. Specifically, our method generates multiple images based on the input text prompt and integrates these into the model's decision-making process by mixing their prediction probabilities. To facilitate multimodal grounded language modeling, we employ a late-fusion layer that combines the projected visual features with the output of a pre-trained LLM conditioned on text only. This late-fusion layer enables predictions based on comprehensive image-text knowledge as well as text only when this is required. We evaluate our approach using several visual commonsense reasoning tasks together with traditional NLP tasks, including common sense reasoning and reading comprehension. Our experimental results demonstrate significant superiority over existing baselines. When applied to recent state-of-the-art LLMs (e.g., Llama3), we observe improvements not only in visual common sense but also in traditional NLP benchmarks. Code and models are available under https://github.com/guyyariv/vLMIG.
PDF132December 2, 2024