ChatPaper.aiChatPaper

Razonamiento basado en gráficos: Transferencia de capacidades de LLMs a VLMs

Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

March 19, 2024
Autores: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma
cs.AI

Resumen

Los modelos de visión-lenguaje (VLMs) están logrando un rendimiento cada vez más sólido en tareas multimodales. Sin embargo, las capacidades de razonamiento siguen siendo limitadas, especialmente en los VLMs más pequeños, mientras que las de los modelos de lenguaje grandes (LLMs) han experimentado numerosas mejoras. Proponemos una técnica para transferir capacidades de los LLMs a los VLMs. En la recientemente introducida ChartQA, nuestro método obtiene un rendimiento de vanguardia cuando se aplica al VLM PaLI3-5B de chen2023pali3, al mismo tiempo que permite un rendimiento mucho mejor en PlotQA y FigureQA. Primero mejoramos la representación de gráficos continuando la etapa de preentrenamiento utilizando una versión mejorada de la tarea de traducción de gráficos a tablas de liu2023deplot. Luego proponemos construir un conjunto de datos 20 veces más grande que el conjunto de entrenamiento original. Para mejorar las capacidades generales de razonamiento y las operaciones numéricas, sintetizamos trazas de razonamiento utilizando la representación tabular de los gráficos. Por último, nuestro modelo se ajusta mediante la pérdida multitarea introducida por hsieh2023distilling. Nuestra variante ChartPaLI-5B supera incluso a modelos 10 veces más grandes como PaLIX-55B sin utilizar un sistema OCR previo, manteniendo el tiempo de inferencia constante en comparación con la línea base PaLI3-5B. Cuando las razones se refinan aún más con un simple prompt de "programa-de-pensamiento" de chen2023program, nuestro modelo supera al recientemente introducido Gemini Ultra y GPT-4V.
English
Vision-language models (VLMs) are achieving increasingly strong performance on multimodal tasks. However, reasoning capabilities remain limited particularly for smaller VLMs, while those of large-language models (LLMs) have seen numerous improvements. We propose a technique to transfer capabilities from LLMs to VLMs. On the recently introduced ChartQA, our method obtains state-of-the-art performance when applied on the PaLI3-5B VLM by chen2023pali3, while also enabling much better performance on PlotQA and FigureQA. We first improve the chart representation by continuing the pre-training stage using an improved version of the chart-to-table translation task by liu2023deplot. We then propose constructing a 20x larger dataset than the original training set. To improve general reasoning capabilities and improve numerical operations, we synthesize reasoning traces using the table representation of charts. Lastly, our model is fine-tuned using the multitask loss introduced by hsieh2023distilling. Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B without using an upstream OCR system, while keeping inference time constant compared to the PaLI3-5B baseline. When rationales are further refined with a simple program-of-thought prompt chen2023program, our model outperforms the recently introduced Gemini Ultra and GPT-4V.

Summary

AI-Generated Summary

PDF111December 15, 2024