ChatPaper.aiChatPaper

Prismatische VLMs: Onderzoek naar het Ontwerpruimte van Visueel-Gekonditioneerde Taalmodellen

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

February 12, 2024
Auteurs: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
cs.AI

Samenvatting

Visueel geconditioneerde taalmodellen (VLMs) worden steeds vaker toegepast in toepassingen zoals visuele dialoog, scènebegrip en robotische taakplanning; een adoptie die een overvloed aan nieuwe modellen heeft gestimuleerd, zoals LLaVa, InstructBLIP en PaLI-3. Ondanks het grote aantal nieuwe releases worden belangrijke ontwerpbeslissingen rond beeldvoorbewerking, architectuur en optimalisatie onvoldoende onderzocht, wat het begrip van welke factoren bijdragen aan modelprestaties bemoeilijkt - een uitdaging die verder wordt gecompliceerd door het ontbreken van objectieve, consistente evaluaties. Om deze lacunes aan te pakken, stellen we eerst een reeks gestandaardiseerde evaluaties samen die visuele vraagbeantwoording, objectlokalisatie op basis van taal en gerichte uitdagingssets omvatten die eigenschappen zoals hallucinatie onderzoeken; evaluaties die gekalibreerd, gedetailleerd inzicht bieden in de mogelijkheden van een VLM. Ten tweede onderzoeken we VLMs grondig langs belangrijke ontwerpassen, waaronder vooraf getrainde visuele representaties en het kwantificeren van de afwegingen tussen het gebruik van basis- versus instruct-afgestemde taalmodellen, onder andere. We koppelen onze analyse aan drie bronbijdragen: (1) een uniform raamwerk voor het evalueren van VLMs, (2) geoptimaliseerde, flexibele code voor VLM-training, en (3) checkpoints voor alle modellen, inclusief een familie van VLMs op de 7-13B schaal die strikt beter presteren dan InstructBLIP en LLaVa v1.5, de state-of-the-art in open-source VLMs.
English
Visually-conditioned language models (VLMs) have seen growing adoption in applications such as visual dialogue, scene understanding, and robotic task planning; adoption that has fueled a wealth of new models such as LLaVa, InstructBLIP, and PaLI-3. Despite the volume of new releases, key design decisions around image preprocessing, architecture, and optimization are under-explored, making it challenging to understand what factors account for model performance - a challenge further complicated by the lack of objective, consistent evaluations. To address these gaps, we first compile a suite of standardized evaluations spanning visual question answering, object localization from language, and targeted challenge sets that probe properties such as hallucination; evaluations that provide calibrated, fine-grained insight into a VLM's capabilities. Second, we rigorously investigate VLMs along key design axes, including pretrained visual representations and quantifying the tradeoffs of using base vs. instruct-tuned language models, amongst others. We couple our analysis with three resource contributions: (1) a unified framework for evaluating VLMs, (2) optimized, flexible code for VLM training, and (3) checkpoints for all models, including a family of VLMs at the 7-13B scale that strictly outperform InstructBLIP and LLaVa v1.5, the state-of-the-art in open-source VLMs.
PDF152December 15, 2024