白川オムニ技術レポートBaichuan-Omni Technical Report
GPT-4oの顕著なマルチモーダル機能とインタラクティブな体験は、実用的な応用における重要な役割を強調していますが、高性能なオープンソースの相当物が不足しています。本論文では、画像、ビデオ、音声、テキストのモダリティを同時に処理および分析し、高度なマルチモーダルなインタラクティブ体験と強力な性能を提供する、初のオープンソース7Bマルチモーダル大規模言語モデル(MLLM)であるBaichuan-Omniを紹介します。我々は、7Bモデルから始まり、オーディオ、画像、ビデオ、テキストのモダリティを横断的に整列させ、マルチタスクのファインチューニングを行う2つの段階を経る効果的なマルチモーダルトレーニングスキーマを提案します。このアプローチにより、言語モデルが視覚と音声データを効果的に処理できるようになります。様々なオムニモーダルおよびマルチモーダルのベンチマークで強力なパフォーマンスを示し、この貢献がマルチモーダル理解とリアルタイムインタラクションの推進においてオープンソースコミュニティに競争力のあるベースラインとなることを目指しています。