ChatPaper.aiChatPaper

マルチモーダル構造化生成:CVPR第2回MMFMチャレンジ技術報告書

Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report

June 17, 2024
著者: Franz Louis Cesista
cs.AI

要旨

マルチモーダル基盤モデル(MMFM)は、様々なコンピュータビジョンおよび自然言語処理タスクにおいて顕著な性能を示しています。しかし、文書理解などの特定のタスクにおける性能はまだ限定的です。また、従来の単一モーダルモデルと比較して、ファインチューニングやデプロイに必要な計算リソース、時間、エンジニアリングリソースがより多く必要です。本報告書では、凍結されたMMFMの出力ロジットを制約し、構造化された出力を返す前に推論を強制する一般的なフレームワークである「マルチモーダル構造化生成」を紹介します。私たちのアプローチについて、技術的詳細、理論的考察、およびComputer Vision and Pattern Recognition(CVPR)カンファレンスが主催する第2回マルチモーダル基盤モデルチャレンジにおける最終評価結果を詳細に説明します。私たちのアプローチは、Phase 2の隠れたテストセットで2番目に高いスコアを獲得し、全体では3番目に高いスコアを達成しました。これは、この手法が未見のタスクに一般化できる能力を示しています。また、私たちが以前の論文「Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use」で最初に議論したように、シンプルなエンジニアリングが高価で複雑なモデリングステップを上回ることができることを示しています。私たちのすべてのスクリプト、デプロイ手順、および評価結果は、https://github.com/leloykun/MMFM-Challenge でアクセスできます。
English
Multimodal Foundation Models (MMFMs) have shown remarkable performance on various computer vision and natural language processing tasks. However, their performance on particular tasks such as document understanding is still limited. They also require more compute, time, and engineering resources to finetune and deploy compared to traditional, unimodal models. In this report, we present Multimodal Structured Generation, a general framework which constrains the output logits of frozen MMFMs to force them to reason before responding with structured outputs that downstream APIs can parse and use. We provide a detailed account of our approach, including the technical details, theoretical discussions, and final evaluation results in the 2nd Multimodal Foundation Models Challenge hosted by the Computer Vision and Pattern Recognition (CVPR) conference. Our approach achieved the second highest score in the hidden test set for Phase 2 and third highest overall. This shows the method's ability to generalize to unseen tasks. And that simple engineering can beat expensive & complicated modelling steps as we first discussed in our paper, Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use. All of our scripts, deployment steps, and evaluation results can be accessed in https://github.com/leloykun/MMFM-Challenge

Summary

AI-Generated Summary

PDF41November 29, 2024