ChatPaper.aiChatPaper

Génération Structurée Multimodale : Rapport Technique du 2ème Défi MMFM de CVPR

Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report

June 17, 2024
Auteurs: Franz Louis Cesista
cs.AI

Résumé

Les modèles de fondation multimodaux (MMFMs) ont démontré des performances remarquables sur diverses tâches de vision par ordinateur et de traitement du langage naturel. Cependant, leurs performances sur des tâches spécifiques telles que la compréhension de documents restent limitées. Ils nécessitent également plus de ressources de calcul, de temps et d'ingénierie pour être affinés et déployés par rapport aux modèles unimodaux traditionnels. Dans ce rapport, nous présentons la Génération Structurée Multimodale, un cadre général qui contraint les logits de sortie des MMFMs figés pour les forcer à raisonner avant de répondre avec des sorties structurées que les API en aval peuvent analyser et utiliser. Nous fournissons un compte rendu détaillé de notre approche, incluant les détails techniques, les discussions théoriques et les résultats d'évaluation finale dans le 2e défi des Modèles de Fondation Multimodaux organisé par la conférence Computer Vision and Pattern Recognition (CVPR). Notre approche a obtenu le deuxième meilleur score sur l'ensemble de test caché pour la Phase 2 et le troisième meilleur score global. Cela démontre la capacité de la méthode à généraliser à des tâches inédites. Et que l'ingénierie simple peut surpasser les étapes de modélisation coûteuses et complexes, comme nous l'avons initialement discuté dans notre article, Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use. Tous nos scripts, étapes de déploiement et résultats d'évaluation sont accessibles sur https://github.com/leloykun/MMFM-Challenge.
English
Multimodal Foundation Models (MMFMs) have shown remarkable performance on various computer vision and natural language processing tasks. However, their performance on particular tasks such as document understanding is still limited. They also require more compute, time, and engineering resources to finetune and deploy compared to traditional, unimodal models. In this report, we present Multimodal Structured Generation, a general framework which constrains the output logits of frozen MMFMs to force them to reason before responding with structured outputs that downstream APIs can parse and use. We provide a detailed account of our approach, including the technical details, theoretical discussions, and final evaluation results in the 2nd Multimodal Foundation Models Challenge hosted by the Computer Vision and Pattern Recognition (CVPR) conference. Our approach achieved the second highest score in the hidden test set for Phase 2 and third highest overall. This shows the method's ability to generalize to unseen tasks. And that simple engineering can beat expensive & complicated modelling steps as we first discussed in our paper, Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use. All of our scripts, deployment steps, and evaluation results can be accessed in https://github.com/leloykun/MMFM-Challenge

Summary

AI-Generated Summary

PDF41November 29, 2024