翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらし、多くの既存タスクにおいて最先端の性能を向上させ、新たな能力を発現させてきた。しかし、LLMは半構造化ドキュメントからの情報抽出にはまだ成功しておらず、これは多くのドキュメント処理ワークフローの核心をなすもので、視覚的にリッチなドキュメント(VRD)から所定のターゲットスキーマに基づいて主要なエンティティを抽出する作業である。このタスクにおけるLLMの採用を妨げてきた主な障壁は、高品質な抽出に不可欠なレイアウト情報のエンコードがLLMに欠けていること、および回答が虚構ではないことを保証するグラウンディング機構の欠如であった。本論文では、任意のLLMをドキュメント情報抽出に適応させるための方法論であるLanguage Model-based Document Information Extraction and Localization(LMDX)を紹介する。LMDXは、単一、繰り返し、階層的なエンティティの抽出を、トレーニングデータの有無にかかわらず行うことができ、グラウンディング保証を提供し、ドキュメント内でのエンティティの位置情報を特定する。特に、LMDXをPaLM 2-S LLMに適用し、VRDUおよびCORDベンチマークで評価を行い、新たな最先端の性能を確立し、LMDXが高品質でデータ効率の良いパーサーの作成を可能にすることを示す。
本論文では、拡散U-Netの未開拓の可能性を明らかにし、生成品質を大幅に向上させる「フリーランチ」としての役割を探求します。まず、U-Netアーキテクチャがノイズ除去プロセスにどのように寄与しているかを調査し、その主なバックボーンが主にノイズ除去に寄与している一方で、スキップ接続はデコーダモジュールに高周波特徴を導入し、ネットワークがバックボーンの意味論を見落とす原因となっていることを特定しました。この発見を活かし、追加のトレーニングやファインチューニングを必要とせずに生成品質を向上させるシンプルで効果的な手法「FreeU」を提案します。私たちの重要な洞察は、U-Netのスキップ接続とバックボーンの特徴マップからの寄与を戦略的に再重み付けし、U-Netアーキテクチャの両コンポーネントの強みを活用することです。画像および動画生成タスクでの有望な結果は、FreeUが既存の拡散モデル(例:Stable Diffusion、DreamBooth、ModelScope、Rerender、ReVersion)に容易に統合でき、わずか数行のコードで生成品質を向上できることを示しています。必要なのは、推論中に2つのスケーリング係数を調整することだけです。プロジェクトページ:https://chenyangsi.top/FreeU/。
本論文は、DreamLLMを紹介する。これは、多様なマルチモーダル大規模言語モデル(MLLM)を実現する学習フレームワークであり、これまで見過ごされがちだったマルチモーダル理解と生成の相乗効果を初めて活用したものである。DreamLLMは、2つの基本原理に基づいて動作する。第一に、言語と画像の事後分布を生のマルチモーダル空間で直接サンプリングすることによる生成モデリングに焦点を当てる。このアプローチにより、CLIPのような外部特徴抽出器に伴う制約や情報損失を回避し、より徹底したマルチモーダル理解が得られる。第二に、DreamLLMは、テキストと画像の内容に加えて、非構造化レイアウトもモデル化した生の交互文書の生成を促進する。これにより、DreamLLMはすべての条件付き、周辺、および結合マルチモーダル分布を効果的に学習することができる。その結果、DreamLLMは自由形式の交互コンテンツを生成できる初のMLLMとなった。包括的な実験により、DreamLLMがゼロショットマルチモーダルジェネラリストとして優れた性能を発揮し、強化された学習の相乗効果から大きな成果を得ていることが明らかになった。
Kosmos-2.5を紹介します。これは、テキストが豊富な画像の機械読み取りのためのマルチモーダルリテラシーモデルです。大規模なテキスト豊富な画像で事前学習されたKosmos-2.5は、2つの異なるが協調的な転写タスクに優れています:(1) 空間認識テキストブロックの生成。各テキストブロックに画像内の空間座標を割り当てます。(2) スタイルと構造をマークダウン形式で捉えた構造化テキスト出力の生成。この統一されたマルチモーダルリテラシー能力は、共有Transformerアーキテクチャ、タスク固有のプロンプト、柔軟なテキスト表現を通じて実現されています。Kosmos-2.5を、エンドツーエンドのドキュメントレベルのテキスト認識と画像からマークダウンへのテキスト生成で評価します。さらに、このモデルは、教師ありファインチューニングを通じて異なるプロンプトを用いたテキスト豊富な画像理解タスクに容易に適応可能であり、テキストが豊富な画像を含む実世界のアプリケーションのための汎用ツールとなります。この研究は、マルチモーダル大規模言語モデルの将来のスケーリングへの道も開きます。
妥当ではあるが誤った事実情報を生成する現象、いわゆる「ハルシネーション」は、大規模言語モデルにおける未解決の問題である。本研究では、言語モデルが自身の回答を熟考し、誤りを修正する能力について検討する。我々は「検証の連鎖(Chain-of-Verification: CoVe)」手法を開発した。この手法では、モデルはまず(i)初期回答を草案し、(ii)その草案を事実確認するための検証質問を計画し、(iii)他の回答に影響されないよう独立してそれらの質問に回答し、(iv)最終的な検証済み回答を生成する。実験において、CoVeがWikidataからのリスト形式の質問、閉じた書籍形式のMultiSpanQA、長文生成など様々なタスクにおいてハルシネーションを減少させることを示す。
AIコミュニティは、大規模なマルチモーダルデータセットを原動力として、強力な基盤モデルの開発において大きな進展を遂げてきました。しかし、音声表現学習の分野では、現在の音声-言語データセットは、データ量の不足、内容の単純さ、収集プロセスの煩雑さといった制約に直面しています。これらの課題に対処するため、我々は一連の公開ツールやAPIを基盤とした革新的で自動化された音声キャプション生成パイプラインを提案し、Auto-ACDと名付けた大規模で高品質な音声-言語データセットを構築しました。このデータセットは190万以上の音声-テキストペアで構成されています。提案されたデータセットの有効性を実証するため、我々は人気のあるモデルをこのデータセットで学習させ、音声-言語検索、音声キャプショニング、環境分類といった様々な下流タスクにおいて性能向上を示しました。さらに、我々は新たなテストセットを確立し、音声-テキストタスクのためのベンチマークを提供します。提案されたデータセットはhttps://auto-acd.github.io/で公開される予定です。
近年、大規模言語モデル(LLMs)はその卓越した性能と汎化能力から、研究コミュニティにおいて大きな注目を集めています。本論文では、LLMsを組み込んだ音声認識モデルを文脈化するための新たな手法を紹介します。私たちのアプローチは、事前学習済みのLLMに基づいて、音声認識をマルチモーダルな言語モデリングタスクとして定式化します。システムは、オーディオ特徴量と、必要に応じて文脈情報としてのテキストトークンを受け取り、デコーダのみの方式で文字起こしを完成させるように訓練されます。その結果、システムは訓練中に非構造化された文脈情報を活用する方法を暗黙的に学習するよう促されます。実験結果から、追加のテキスト文脈が提供された場合に6%のWER(単語誤り率)改善が示されました。さらに、私たちの手法は競争力のある性能を発揮し、ベースラインの文脈化されたRNN-Tシステムと比較して、全体で7.5%、希少語においては17%のWER改善を達成しました。このベースラインシステムは、25倍以上の大規模な音声データセットで訓練されています。全体として、アダプターを介して少数の学習可能なパラメータを追加するだけで、事前学習済みのLLMに文脈化された音声認識能力を付与しつつ、テキストのみの入力機能を維持できることを実証しました。
Languini Kitchenは、研究コレクティブとコードベースの両方として機能し、限られた計算リソースを持つ研究者が言語モデリング分野に有意義な貢献ができるよう設計されています。本稿では、アクセラレータ時間に基づく等価な計算量でモデル比較を可能にする実験プロトコルを紹介します。モデルが訓練されるトークン数は、モデルのスループットと選択された計算クラスによって定義されます。特に、このアプローチでは、総パラメータ数や浮動小数点演算数に影響を与える重要なハイパーパラメータに対する制約を回避しています。評価のために、既存の学術ベンチマークを品質、多様性、文書長の点で凌駕する大規模で多様かつ高品質な書籍データセットを前処理します。これを用いて、さまざまな計算量レベルでの実験を通じて推定された経験的スケーリングトレンドに基づいて手法を比較します。また、本稿では2つのベースラインモデルを提供します:GPT-2アーキテクチャに基づくフィードフォワードモデルと、10倍のスループットを実現する新規LSTMのリカレントモデルです。GPTベースラインはすべての計算量レベルでより良いパープレキシティを達成しますが、LSTMベースラインは予測可能でより有利なスケーリング則を示します。これは、改善されたスループットと、テストパープレキシティを同じだけ減少させるために必要な訓練トークン数が少ないためです。両モデルのスケーリング則を外挿すると、約50,000アクセラレータ時間で交差します。本研究が、有意義で再現可能な言語モデリング研究の基盤となることを期待しています。
ニューラルラジアンスフィールド(NeRF)の最近の進展により、頭部のポーズ、表情、視点方向を制御しながら動的なポートレートシーンの再構築と再アニメーションが可能になりました。しかし、このようなモデルの学習では、変形領域(例えば顔)における測光的一貫性が前提とされています。つまり、頭部のポーズや表情の変化に伴って顔が変形する際に、均一な照明が維持されなければなりません。このようなビデオフレーム間の測光的一貫性は、スタジオ環境であっても維持するのが難しく、その結果、作成された再アニメーション可能なニューラルポートレートは、再アニメーション時にアーティファクトが発生しやすくなります。本研究では、実世界の撮影条件下で完全に制御可能な3Dポートレートの作成を可能にするシステム、CoDyNeRFを提案します。CoDyNeRFは、正規空間における動的外観モデルを通じて照明依存効果を近似することを学習します。このモデルは、予測された表面法線、表情、および頭部ポーズの変形に基づいて条件付けられます。表面法線の予測は、3DMM法線をガイドとして使用し、頭部の法線に対する粗い事前情報として機能します。頭部ポーズや表情の変化によって引き起こされる剛体および非剛体変形のため、直接的な法線の予測が困難な場合に有効です。スマートフォンで撮影した短いビデオのみを使用して学習を行い、明示的な頭部ポーズと表情制御を備えたポートレートシーンの自由視点合成と、リアルな照明効果を実現する本手法の有効性を実証します。プロジェクトページはこちらをご覧ください: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html