mPLUG-DocOwl 1.5 : Apprentissage unifié de la structure pour la compréhension de documents sans OCRmPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document
Understanding
L'information structurelle est cruciale pour comprendre la sémantique des images riches en texte, telles que les documents, les tableaux et les graphiques. Les modÚles de langage multimodaux (MLLMs) existants pour la compréhension visuelle de documents sont dotés de capacités de reconnaissance de texte, mais manquent de compétences générales de compréhension structurelle pour les images de documents riches en texte. Dans ce travail, nous soulignons l'importance de l'information structurelle dans la compréhension visuelle de documents et proposons l'apprentissage unifié de la structure pour améliorer les performances des MLLMs. Notre apprentissage unifié de la structure comprend des tùches d'analyse structurelle et des tùches de localisation de texte à plusieurs niveaux de granularité, couvrant 5 domaines : document, page web, tableau, graphique et image naturelle. Pour mieux encoder l'information structurelle, nous concevons un module vision-texte simple et efficace, H-Reducer, qui permet non seulement de préserver les informations de mise en page, mais aussi de réduire la longueur des caractéristiques visuelles en fusionnant les patches adjacents horizontalement via la convolution, permettant ainsi au modÚle de langage de comprendre plus efficacement les images haute résolution. De plus, en construisant des séquences de texte sensibles à la structure et des paires de texte et de boßtes englobantes à plusieurs niveaux de granularité pour des images riches en texte disponibles publiquement, nous créons un ensemble d'entraßnement complet, DocStruct4M, pour soutenir l'apprentissage de la structure. Enfin, nous construisons un petit ensemble de données de réglage de raisonnement de haute qualité, DocReason25K, pour déclencher la capacité d'explication détaillée dans le domaine des documents. Notre modÚle DocOwl 1.5 atteint des performances de pointe sur 10 benchmarks de compréhension visuelle de documents, améliorant les performances SOTA des MLLMs avec un modÚle de langage de 7B de plus de 10 points sur 5/10 benchmarks. Nos codes, modÚles et ensembles de données sont disponibles publiquement à l'adresse suivante : https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.