ChatPaper.aiChatPaper

DeepSeek-VL: Rumo à Compreensão de Visão e Linguagem no Mundo Real

DeepSeek-VL: Towards Real-World Vision-Language Understanding

March 8, 2024
Autores: Haoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan
cs.AI

Resumo

Apresentamos o DeepSeek-VL, um Modelo de Visão e Linguagem (VL) de código aberto projetado para aplicações práticas de compreensão visual e linguística. Nossa abordagem é estruturada em torno de três dimensões principais: Buscamos garantir que nossos dados sejam diversos, escaláveis e cubram extensivamente cenários do mundo real, incluindo capturas de tela da web, PDFs, OCR, gráficos e conteúdo baseado em conhecimento, visando uma representação abrangente de contextos práticos. Além disso, criamos uma taxonomia de casos de uso a partir de cenários reais de usuários e construímos um conjunto de dados de ajuste de instruções de acordo. O ajuste fino com esse conjunto de dados melhora substancialmente a experiência do usuário do modelo em aplicações práticas. Considerando a eficiência e as demandas da maioria dos cenários do mundo real, o DeepSeek-VL incorpora um codificador visual híbrido que processa eficientemente imagens de alta resolução (1024 x 1024), mantendo um custo computacional relativamente baixo. Essa escolha de design garante a capacidade do modelo de capturar informações semânticas críticas e detalhadas em diversas tarefas visuais. Postulamos que um Modelo de Visão e Linguagem proficiente deve, antes de tudo, possuir fortes habilidades linguísticas. Para garantir a preservação das capacidades do LLM durante o pré-treinamento, investigamos uma estratégia eficaz de pré-treinamento VL, integrando o treinamento do LLM desde o início e gerenciando cuidadosamente a dinâmica competitiva observada entre as modalidades de visão e linguagem. A família DeepSeek-VL (tanto os modelos de 1,3B quanto 7B) demonstra experiências de usuário superiores como um chatbot de visão e linguagem em aplicações do mundo real, alcançando desempenho de ponta ou competitivo em uma ampla gama de benchmarks visuais e linguísticos no mesmo tamanho de modelo, enquanto mantém um desempenho robusto em benchmarks centrados em linguagem. Disponibilizamos publicamente os modelos de 1,3B e 7B para fomentar inovações baseadas nesse modelo de fundação.
English
We present DeepSeek-VL, an open-source Vision-Language (VL) Model designed for real-world vision and language understanding applications. Our approach is structured around three key dimensions: We strive to ensure our data is diverse, scalable, and extensively covers real-world scenarios including web screenshots, PDFs, OCR, charts, and knowledge-based content, aiming for a comprehensive representation of practical contexts. Further, we create a use case taxonomy from real user scenarios and construct an instruction tuning dataset accordingly. The fine-tuning with this dataset substantially improves the model's user experience in practical applications. Considering efficiency and the demands of most real-world scenarios, DeepSeek-VL incorporates a hybrid vision encoder that efficiently processes high-resolution images (1024 x 1024), while maintaining a relatively low computational overhead. This design choice ensures the model's ability to capture critical semantic and detailed information across various visual tasks. We posit that a proficient Vision-Language Model should, foremost, possess strong language abilities. To ensure the preservation of LLM capabilities during pretraining, we investigate an effective VL pretraining strategy by integrating LLM training from the beginning and carefully managing the competitive dynamics observed between vision and language modalities. The DeepSeek-VL family (both 1.3B and 7B models) showcases superior user experiences as a vision-language chatbot in real-world applications, achieving state-of-the-art or competitive performance across a wide range of visual-language benchmarks at the same model size while maintaining robust performance on language-centric benchmarks. We have made both 1.3B and 7B models publicly accessible to foster innovations based on this foundation model.
PDF464December 15, 2024