Vision-Flan: Escalando Tareas Etiquetadas por Humanos en el Ajuste de Instrucciones Visuales
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning
February 18, 2024
Autores: Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang
cs.AI
Resumen
A pesar de las capacidades notables de los modelos de visión-lenguaje (VLMs) como asistentes visuales versátiles, persisten dos desafíos sustanciales en los marcos existentes de VLMs: (1) la falta de diversidad de tareas en el preentrenamiento y el ajuste fino de instrucciones visuales, y (2) los errores de anotación y sesgos en los datos de ajuste fino de instrucciones sintetizados por GPT-4. Ambos desafíos conducen a problemas como la pobre generalización, alucinaciones y el olvido catastrófico. Para abordar estos desafíos, construimos Vision-Flan, el conjunto de datos de ajuste fino de instrucciones visuales más diverso disponible públicamente hasta la fecha, que comprende 187 tareas diversas y 1,664,261 instancias obtenidas de conjuntos de datos académicos, y cada tarea está acompañada por una instrucción escrita por expertos. Además, proponemos un marco de ajuste fino de instrucciones en dos etapas, en el que los VLMs se ajustan primero en Vision-Flan y luego se ajustan adicionalmente en datos sintetizados por GPT-4. Encontramos que este marco de ajuste fino en dos etapas supera significativamente el marco tradicional de ajuste fino de instrucciones visuales de una sola etapa y logra un rendimiento de vanguardia en una amplia gama de benchmarks de evaluación multimodal. Finalmente, realizamos análisis en profundidad para comprender el ajuste fino de instrucciones visuales y nuestros hallazgos revelan que: (1) los datos sintetizados por GPT-4 no mejoran sustancialmente las capacidades de los VLMs, sino que modulan las respuestas del modelo hacia formatos preferidos por los humanos; (2) una cantidad mínima (por ejemplo, 1,000) de datos sintetizados por GPT-4 puede alinear efectivamente las respuestas de los VLMs con las preferencias humanas; (3) el ajuste fino de instrucciones visuales ayuda principalmente a los modelos de lenguaje grandes (LLMs) a comprender las características visuales.
English
Despite vision-language models' (VLMs) remarkable capabilities as versatile
visual assistants, two substantial challenges persist within the existing VLM
frameworks: (1) lacking task diversity in pretraining and visual instruction
tuning, and (2) annotation error and bias in GPT-4 synthesized instruction
tuning data. Both challenges lead to issues such as poor generalizability,
hallucination, and catastrophic forgetting. To address these challenges, we
construct Vision-Flan, the most diverse publicly available visual instruction
tuning dataset to date, comprising 187 diverse tasks and 1,664,261 instances
sourced from academic datasets, and each task is accompanied by an
expert-written instruction. In addition, we propose a two-stage instruction
tuning framework, in which VLMs are firstly finetuned on Vision-Flan and
further tuned on GPT-4 synthesized data. We find this two-stage tuning
framework significantly outperforms the traditional single-stage visual
instruction tuning framework and achieves the state-of-the-art performance
across a wide range of multi-modal evaluation benchmarks. Finally, we conduct
in-depth analyses to understand visual instruction tuning and our findings
reveal that: (1) GPT-4 synthesized data does not substantially enhance VLMs'
capabilities but rather modulates the model's responses to human-preferred
formats; (2) A minimal quantity (e.g., 1,000) of GPT-4 synthesized data can
effectively align VLM responses with human-preference; (3) Visual instruction
tuning mainly helps large-language models (LLMs) to understand visual features.