Construção e melhor compreensão de modelos visão-linguagem: insights e direções futurasBuilding and better understanding vision-language models: insights and
future directions
O campo dos modelos visão-linguagem (VLMs), que recebem imagens e textos como entradas e produzem textos como saídas, está evoluindo rapidamente e ainda não chegou a um consenso sobre vários aspectos-chave do pipeline de desenvolvimento, incluindo dados, arquitetura e métodos de treinamento. Este artigo pode ser visto como um tutorial para a construção de um VLM. Começamos fornecendo uma visão abrangente das abordagens de ponta atuais, destacando os pontos fortes e fracos de cada uma, abordando os principais desafios no campo e sugerindo direções de pesquisa promissoras para áreas pouco exploradas. Em seguida, percorremos os passos práticos para construir o Idefics3-8B, um VLM poderoso que supera significativamente seu antecessor Idefics2-8B, sendo treinado de forma eficiente, exclusivamente em conjuntos de dados abertos e usando um pipeline direto. Esses passos incluem a criação do Docmatix, um conjunto de dados para melhorar as capacidades de compreensão de documentos, que é 240 vezes maior do que os conjuntos de dados disponíveis anteriormente. Lançamos o modelo juntamente com os conjuntos de dados criados para seu treinamento.