翻訳付きの日次キュレーションされたAI研究論文
マルチモーダルな人間の入力に対して自然で意味のある応答を生成することは、大規模視覚言語モデル(LVLM)の基本的な能力である。現在のオープンソースLVLMは、単一ターン・単一画像入力のような簡略化されたシナリオでは有望な性能を示すが、マルチターン・マルチ画像を含む長い文脈履歴に従う指示といった現実世界の会話シナリオでは不十分である。既存のLVLMベンチマークは主に単一選択問題や短い応答に焦点を当てており、現実世界の人間-AIインタラクションアプリケーションにおけるLVLMの能力を適切に評価していない。そこで、我々はMMDUという包括的なベンチマークと、MMDU-45kという大規模な指示チューニングデータセットを導入し、マルチターン・マルチ画像会話におけるLVLMの能力を評価・改善することを目指す。我々はクラスタリングアルゴリズムを用いて、オープンソースのWikipediaから関連する画像とテキスト記述を見つけ出し、GPT-4oモデルの支援を受けた人間のアノテーターによって質問-回答ペアを構築した。MMDUは最大18kの画像+テキストトークン、20枚の画像、27ターンを有し、これまでのベンチマークの少なくとも5倍の長さであり、現在のLVLMに挑戦を投げかけている。MMDUを使用した15の代表的なLVLMの詳細な分析により、オープンソースLVLMは会話指示チューニングデータの不足により、クローズドソースのモデルに遅れをとっていることが明らかになった。我々は、MMDU-45kでオープンソースLVLMをファインチューニングすることで、このギャップを大幅に解消し、より長く正確な会話を生成し、MMDUおよび既存のベンチマーク(MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%)のスコアを向上させることを実証した。我々の貢献は、現在のLVLMモデルと現実世界のアプリケーション要求とのギャップを埋める道を開くものである。このプロジェクトはhttps://github.com/Liuziyu77/MMDUで公開されている。
言語モデルの改善を目的とした制御されたデータセット実験のためのテストベッドとして、DataComp for Language Models (DCLM)を導入します。DCLMの一環として、Common Crawlから抽出された240Tトークンの標準化されたコーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、および53の多様な下流評価タスクを提供します。DCLMベンチマークの参加者は、412Mから7Bパラメータまでのモデルスケールで、重複排除、フィルタリング、データ混合などのデータキュレーション戦略を実験できます。DCLMのベースラインとして、広範な実験を行い、モデルベースのフィルタリングが高品質なトレーニングセットを構築する鍵であることを発見しました。その結果得られたデータセット、DCLM-Baselineは、2.6Tのトレーニングトークンで7Bパラメータの言語モデルをゼロからトレーニングし、MMLUで64%の5-shot精度を達成します。オープンデータ言語モデルの従来の最先端であったMAP-Neoと比較して、DCLM-BaselineはMMLUで6.6ポイントの改善を示し、40%少ない計算量でトレーニングされました。また、ベースラインモデルはMistral-7B-v0.3およびLlama 3 8BとMMLUで同等の性能(63% & 66%)を示し、53の自然言語理解タスクの平均でも同様の性能を発揮しながら、Llama 3 8Bよりも6.6倍少ない計算量でトレーニングされました。これらの結果は、言語モデルのトレーニングにおけるデータセット設計の重要性を強調し、データキュレーションに関するさらなる研究の出発点を提供します。
直接選好最適化(DPO)は、大規模言語モデル(LLM)のアラインメントにおいて有効な手法であることが示されています。最近の研究では、DPOをマルチモーダルなシナリオに適用しようと試みられていますが、一貫した改善を達成するのが難しいことが判明しています。比較実験を通じて、マルチモーダル選好最適化における無条件選好問題を特定しました。この問題では、モデルが画像条件を無視してしまいます。この問題に対処するため、我々はmDPOを提案します。これは、言語のみの選好を過度に優先することを防ぎ、画像選好も最適化するマルチモーダルDPOの目的関数です。さらに、選ばれた応答に対して報酬が正になるように強制する報酬アンカーを導入し、相対選好最適化に内在する問題である選好確率の低下を回避します。異なるサイズの2つのマルチモーダルLLMと3つの広く使用されているベンチマークでの実験により、mDPOがマルチモーダル選好最適化における無条件選好問題を効果的に解決し、特に幻覚(hallucination)の減少においてモデルの性能を大幅に向上させることが実証されました。
大規模言語モデル(LLM)は、追加のメモリモジュールなしでユーザーとの長期的な対話中に長い対話履歴を処理することが可能である。しかし、その応答は過去の情報を見落としたり、誤って思い出したりする傾向がある。本論文では、LLM時代におけるメモリ拡張型応答生成を再考する。従来の研究は古くなったメモリを排除することに焦点を当てていたが、我々はそのようなメモリが過去の出来事の展開を理解するための文脈的な手がかりを提供し、応答生成に役立つと主張する。我々は、Theanineというフレームワークを提案する。これは、関連する過去の出来事の展開と因果関係を示す一連のメモリである「メモリタイムライン」を用いてLLMの応答生成を拡張するものである。Theanineとともに、長期的な会話におけるG-Evalの限界に対処するための反事実駆動型質問応答パイプラインであるTeaFarmを紹介する。我々の手法の補足ビデオとTeaFarm評価用のTeaBagデータセットはhttps://theanine-693b0.web.app/にて公開されている。
近年、再構築や生成によって作成された3Dアセットは、手作業で制作されたアセットと同等の品質に達し、その置換可能性が注目されています。しかし、この可能性はほとんど実現されていません。なぜなら、これらのアセットは常に3D産業アプリケーションで使用するためにメッシュに変換する必要があり、現在のメッシュ抽出手法で生成されるメッシュは、人間のアーティストが作成したメッシュ(Artist-Created Meshes, AMs)に比べて著しく劣っているからです。具体的には、現在のメッシュ抽出手法は密な面に依存し、幾何学的特徴を無視するため、非効率性、複雑な後処理、および低い表現品質を引き起こします。これらの問題を解決するため、我々はMeshAnythingを提案します。これは、メッシュ抽出を生成問題として扱い、指定された形状に整合したAMsを生成するモデルです。MeshAnythingは、任意の3D表現形式の3DアセットをAMsに変換することで、様々な3Dアセット生産手法と統合可能であり、3D産業全体での応用を強化します。MeshAnythingのアーキテクチャは、VQ-VAEと形状条件付きデコーダのみのトランスフォーマーで構成されています。まず、VQ-VAEを使用してメッシュの語彙を学習し、その後、この語彙に基づいて形状条件付きデコーダのみのトランスフォーマーを訓練し、形状条件付き自己回帰メッシュ生成を行います。我々の広範な実験により、本手法は数百倍少ない面数でAMsを生成し、ストレージ、レンダリング、シミュレーションの効率を大幅に向上させながら、従来手法と同等の精度を達成することが示されました。
大規模言語モデル(LLM)が大量の事実知識を保持できることが最近観察されているにもかかわらず、それらが事前学習を通じてどのように事実知識を獲得するかについてのメカニズムは十分に理解されていません。本研究は、LLMが事前学習中にどのように事実知識を獲得するかを調査することで、このギャップを埋めることを目指しています。その結果、事前学習中の事実知識獲得のダイナミクスに関するいくつかの重要な知見が明らかになりました。まず、直感に反して、より多くのデータで事前学習を行っても、モデルの事実知識を獲得し維持する能力に有意な向上は見られませんでした。次に、訓練ステップ数と、記憶および事実知識の一般化の忘却との間にはべき乗則の関係があり、重複した訓練データで訓練されたLLMはより速く忘却する傾向があります。第三に、より大きなバッチサイズでLLMを訓練することで、モデルの忘却に対する頑健性を向上させることができます。全体として、我々の観察は、LLMの事前学習における事実知識の獲得が、事前学習データに含まれる事実知識の確率を各ステップで徐々に増加させることによって起こることを示唆しています。しかし、この増加はその後の忘却によって希釈されます。この解釈に基づいて、我々は、LLMの長尾知識に対するパフォーマンスの低さや、事前学習コーパスの重複排除の利点など、最近観察されたLLMの振る舞いに対して説得力のある説明を提供できることを示します。
近年の大規模言語モデルは視覚機能を備えるよう進化し、画像や動画、視覚と言語が交錯するコンテンツを理解できるようになりました。しかし、これらの大規模マルチモーダルモデルの学習方法は、通常、動画を事前に決められたクリップとして扱うため、ストリーミング動画入力を効果的かつ効率的に処理することができません。本論文では、連続的な動画ストリーム内で時間的に整合性のある長文脈のリアルタイム会話を可能にする、新たなLearning-In-Video-Stream(LIVE)フレームワークを提案します。私たちのLIVEフレームワークは、動画ストリーミング対話を実現するための包括的なアプローチを包含しており、(1) 連続的なストリーミング入力に対する言語モデリングを実行するように設計された訓練目標、(2) オフラインの時間的アノテーションをストリーミング対話形式に変換するデータ生成スキーム、(3) 実世界の動画ストリームにおけるモデルの応答を高速化する最適化された推論パイプライン、から構成されます。私たちのLIVEフレームワークを用いて、Llama-2/Llama-3を基盤としたVideoLLM-onlineモデルを構築し、ストリーミング動画処理におけるその顕著な利点を実証しました。例えば、平均して、私たちのモデルはA100 GPU上で5分間の動画クリップにおけるストリーミング対話を10 FPS以上でサポートできます。さらに、認識、キャプション生成、予測などの公開オフライン動画ベンチマークにおいても最先端の性能を示しています。コード、モデル、データ、デモはhttps://showlab.github.io/videollm-onlineで公開されています。
大規模言語モデル(LLM)の展開は、特にコンテキスト長が増加するにつれて、Key-Value(KV)キャッシュの膨大なメモリ要件によってしばしば妨げられます。既存のKVキャッシュサイズを削減するアプローチには、モデルを微調整して圧縮戦略を学習させる方法や、アテンションスコアを活用してシーケンス長を短縮する方法があります。私たちは、デコーダのみのTransformerベースのモデルにおけるアテンション分布を分析し、ほとんどの層でアテンションの割り当てパターンが一貫していることを観察しました。驚くべきことに、キャッシュされたKVペアに対するL_2ノルムとアテンションスコアの間に明確な相関関係があることがわかりました。具体的には、キー埋め込みのL_2ノルムが低い場合、デコード中に高いアテンションスコアが得られる傾向があります。この発見は、KVペアの影響が、クエリされる前にキー埋め込み自体によって決定される可能性を示唆しています。この観察に基づいて、私たちはキー埋め込みのL_2ノルムに基づいてKVキャッシュを圧縮します。実験結果は、このシンプルな戦略が、言語モデリングや針を探すタスクではKVキャッシュサイズを50%削減し、パスキー検索タスクでは90%削減できることを示しています。しかも、精度を損なうことなく実現できます。
デコーダのみのトランスフォーマーに基づく大規模言語モデル(LLM)は、CLIPやT5シリーズのモデルと比較して優れたテキスト理解能力を示しています。しかし、現在の先進的なLLMをテキストから画像への拡散モデルに活用するためのパラダイムはまだ探求の余地があります。私たちは、LLMを直接プロンプトエンコーダとして使用すると、画像生成におけるプロンプト追従能力が著しく低下するという異常な現象を観察しました。この問題の背後には、主に2つの障害があることを特定しました。1つは、LLMの次のトークン予測トレーニングと拡散モデルに必要な識別可能なプロンプト特徴との間の不一致です。もう1つは、デコーダのみのアーキテクチャによって導入される本質的な位置バイアスです。この問題に対処するため、私たちはLLMの能力を最大限に活用するための新しいフレームワークを提案します。慎重に設計された使用ガイドラインを通じて、プロンプトエンコーディングのためのテキスト表現能力を効果的に向上させ、その本質的な位置バイアスを排除します。これにより、最先端のLLMをテキストから画像生成モデルに柔軟に統合することが可能になります。さらに、複数のLLMを私たちのフレームワークに融合するための効果的な方法も提供します。トランスフォーマーアーキテクチャが示す優れた性能とスケーリング能力を考慮し、私たちはこのフレームワークに基づいてLLM-Infused Diffusion Transformer(LI-DiT)をさらに設計しました。モデルサイズとデータサイズにわたってLI-DiTを検証するための広範な実験を実施しました。LLMの本質的な能力と私たちの革新的な設計の恩恵を受け、LI-DiTのプロンプト理解性能は、Stable Diffusion 3、DALL-E 3、Midjourney V6などの最先端のオープンソースモデルおよび主流のクローズドソース商用モデルを容易に凌駕します。強力なLI-DiT-10Bは、さらなる最適化とセキュリティチェックの後に利用可能になります。
非音声や非言語的な音声を認識し理解することは、周囲との相互作用を助ける意思決定を行う上で不可欠である。本論文では、高度な音声理解能力と複雑な推論能力を備えた新たな汎用大規模音声言語モデル(LALM)であるGAMAを提案する。GAMAは、カスタムAudio Q-Formerや音声エンコーダの複数層から特徴を集約する多層集約器など、複数のタイプの音声表現をLLMと統合することで構築される。大規模な音声言語データセットでGAMAをファインチューニングし、音声理解能力を強化する。次に、入力音声に対して複雑な推論を要求する指示を含む合成生成された指示チューニング(IT)データセットであるCompA-R(複雑音声推論のための指示チューニング)を提案する。GAMAをCompA-Rで指示チューニングし、入力音声のイベントタグを活用して高レベルの意味的証拠を提供するソフトプロンプトを追加することで、複雑な推論能力を付与する。最後に、複雑な推論を必要とするオープンエンドの音声質問応答においてLALMの能力を評価するための人間によるラベル付き評価データセットであるCompA-R-testも提案する。自動評価と専門家による人間評価を通じて、GAMAが多様な音声理解タスクにおいて文献中の他の全てのLALMを1%から84%の差で上回ることを示す。さらに、CompA-RでITされたGAMAは、その複雑な推論能力と指示追従能力において優れていることが証明される。
画像とテキストの自由形式な交互配列を特徴とするマルチモーダル交互データセットは、最先端の大規模マルチモーダルモデル(LMM)のトレーニングにおいて極めて重要です。オープンソースのLMMが急速に進化しているにもかかわらず、大規模で多様なオープンソースのマルチモーダル交互データセットは依然として著しく不足しています。これに対応して、私たちはこれまでで最も大規模かつ多様なオープンソースのマルチモーダル交互データセットであるMINT-1Tを紹介します。MINT-1Tは1兆のテキストトークンと30億の画像を含み、既存のオープンソースデータセットから10倍のスケールアップを実現しています。さらに、PDFやArXiv論文など、これまで未活用だったソースも含めています。マルチモーダル交互データセットのスケーリングには多大なエンジニアリング努力が必要であるため、データキュレーションプロセスを共有し、データセットを公開することはコミュニティにとって大きな利益となります。私たちの実験では、MINT-1TでトレーニングされたLMMが、以前の主要なデータセットであるOBELICSでトレーニングされたモデルの性能に匹敵することが示されています。私たちのデータとコードはhttps://github.com/mlfoundations/MINT-1Tで公開されます。
マルチモーダル大規模言語モデル(MLLMs)は、画像や3Dデータに対する優れた理解能力を示してきました。しかし、これらのモダリティはいずれも、物体の外観と形状を包括的に捉える点で課題を抱えています。一方、単純な多層パーセプトロン(MLP)の重み内に情報を符号化するニューラルラジアンスフィールド(NeRF)は、物体の形状とフォトリアルな外観を同時に表現するモダリティとして、急速に普及しつつあります。本論文では、NeRFをMLLMに取り込むことの実現可能性と有効性を検証します。我々は、NeRFキャプショニングやQ&Aといった新たなタスクを実行可能な、初の汎用NeRF言語アシスタント「LLaNA」を開発しました。特に、本手法はNeRFのMLPの重みを直接処理することで、画像をレンダリングしたり3Dデータ構造を具現化することなく、表現された物体に関する情報を抽出します。さらに、人間の介入なしで、様々なNeRF言語タスク向けのテキスト注釈付きNeRFデータセットを構築しました。このデータセットに基づき、本手法のNeRF理解能力を評価するためのベンチマークを開発しました。結果は、NeRFの重みを処理することが、NeRFから2Dまたは3D表現を抽出する手法よりも優れていることを示しています。
大規模な視覚言語モデルのトレーニングには、大量の高品質な画像とテキストのペアが必要です。しかし、既存のウェブスクレイピングされたデータセットはノイズが多く、詳細な画像記述が不足しています。このギャップを埋めるため、我々はPixelProseを導入しました。これは1600万以上の合成生成されたキャプションからなる包括的なデータセットで、最先端の視覚言語モデルを活用して詳細かつ正確な記述を実現しています。データの整合性を確保するため、児童性的虐待素材(CSAM)、個人識別情報(PII)、有害性を含む問題のあるコンテンツを厳密に分析しました。さらに、透かしの有無や美的スコアなどの貴重なメタデータを提供し、データセットのさらなるフィルタリングを支援します。PixelProseが将来の視覚言語研究にとって貴重なリソースとなることを願っています。PixelProseはhttps://huggingface.co/datasets/tomg-group-umd/pixelproseで利用可能です。
人間のフィードバックによる強化学習(RLHF)は、大規模言語モデル(LLM)を人間の価値観により密接に整合させるための有望な解決策です。オフポリシーの選好最適化は、他のモデルから選好データを取得するため、コスト効率とスケーラビリティの観点から広く採用されています。しかし、オフポリシーの選好最適化では、データ収集に使用されるポリシーとターゲットポリシーの間に分布のギャップが生じ、最適化が不十分になることがよくあります。本論文では、オフポリシーの選好データを用いてオンポリシー学習をシミュレートすることで、この問題を緩和する新しい戦略を提案します。私たちのWeighted Preference Optimization(WPO)メソッドは、現在のポリシー下での確率に基づいて選好ペアを再重み付けすることで、オフポリシーデータをオンポリシーデータに近づけるように適応させます。この方法は、分布のギャップ問題を解決するだけでなく、追加コストをかけずに最適化プロセスを強化します。私たちは、Alpaca Eval 2やMT-benchを含む指示追従ベンチマークでこの方法を検証しました。WPOは、Alpaca Eval 2でDirect Preference Optimization(DPO)を最大5.6%上回るだけでなく、Llama-3-8B-Instructに基づいてGPT-4-turboに対して48.6%という驚異的な長さ制御勝率を達成し、リーダーボード上で最強の8Bモデルとなりました。コードとモデルはhttps://github.com/wzhouad/WPOで公開します。
既存の言語モデルファインチューニングパラダイムは、知識編集シナリオにおいて脆弱性を示します。このシナリオでは、モデルは大規模な再トレーニングなしに新しい情報を取り込む必要があります。この脆弱性は、過学習、性能低下、不自然な言語生成を引き起こすことがよくあります。この問題に対処するため、我々はConsistent In-Context Editing(ICE)という新しいアプローチを提案します。ICEは、モデルの文脈内学習能力を活用し、ワンホットターゲットではなく文脈的分布に向けてチューニングを行います。ICEは、ターゲットと手順の両方を含むシンプルな最適化フレームワークを導入し、勾配ベースのチューニング手法の堅牢性と有効性を向上させます。我々は、知識編集の4つの重要な側面(精度、局所性、汎化性、言語品質)においてICEの分析的な洞察を提供し、その利点を示します。4つのデータセットにわたる実験結果は、ICEの有効性を確認し、更新された情報を組み込みながらモデルの整合性を維持する継続的編集の可能性を示しています。
ワールドモデルは、異なるアクションに対する世界の未来の状態をシミュレートします。これにより、インタラクティブなコンテンツ作成が容易になり、現実に基づいた長期的な推論の基盤が提供されます。現在の基盤モデルは、一般的なワールドモデルの能力を完全には満たしていません。大規模言語モデル(LLM)は、言語モダリティへの依存と物理世界に対する理解の限界によって制約されており、ビデオモデルは世界シミュレーションに対するインタラクティブなアクション制御を欠いています。本論文は、一般的なワールドモデルの構築に向けて一歩を進め、Pandoraというハイブリッド自己回帰-拡散モデルを紹介します。Pandoraはビデオを生成して世界の状態をシミュレートし、自由テキストのアクションによるリアルタイム制御を可能にします。Pandoraは、大規模な事前学習と指示チューニングを通じて、ドメイン汎用性、ビデオの一貫性、制御性を実現します。重要な点として、Pandoraは、事前学習済みのLLM(7B)とビデオモデルを統合することで、ゼロからの学習コストを回避し、追加の軽量なファインチューニングのみを必要とします。Pandoraによる多様なドメイン(屋内/屋外、自然/都市、人間/ロボット、2D/3Dなど)にわたる広範な出力を示します。結果は、より大規模なトレーニングによる強力な一般的ワールドモデルの構築の大きな可能性を示しています。
最近の視覚言語モデル(VLM)におけるブレークスルーは、現実世界のマルチモーダル相互作用における人間の選好をベンチマークする必要性を強調しています。このギャップに対処するため、私たちはオンラインプラットフォーム「WildVision-Arena(WV-Arena)」を立ち上げ、VLMを評価するための人間の選好データを収集しました。WV-Arenaの8,000件のユーザー提出から500件の高品質なサンプルを選び、WV-Benchをキュレーションしました。WV-Benchでは、GPT-4を審判として使用し、各VLMをClaude-3-Sonnetと比較し、WV-ArenaのEloスコアとのSpearman相関が0.94を達成しました。これは、MMVet、MMMU、MMStarなどの他のベンチマークを大幅に上回る結果です。 20,000件の現実世界の相互作用の包括的な分析により、トップパフォーマンスのVLMの失敗事例に関する重要な洞察が明らかになりました。例えば、GPT-4Vは、Reka-Flash、Opus、Yi-VL-Plusなどの他の多くのモデルを単純な視覚認識や推論タスクで上回っていますが、微妙な文脈の手がかり、空間推論、視覚的想像力、専門領域の知識において依然として課題に直面しています。さらに、現在のVLMは、意図的に挑発された場合の幻覚や安全性に関する問題を示しています。私たちは、VLM分野の研究をさらに進めるために、チャットデータとフィードバックデータを公開します。
本論文では、L4GMを紹介します。これは、単一ビデオ入力からアニメーション化されたオブジェクトを生成する初の4D大規模再構成モデルであり、わずか1秒の単一フォワードパスで処理を行います。成功の鍵は、Objaverseからキュレーションされたレンダリング済みアニメーションオブジェクトを含む多視点ビデオの新規データセットです。このデータセットは、44,000の多様なオブジェクトと110,000のアニメーションを48の視点でレンダリングし、合計12Mのビデオと300Mのフレームを提供します。スケーラビリティを考慮してL4GMをシンプルに保ち、多視点画像入力から3Dガウシアン楕円体を出力する事前学習済み3D大規模再構成モデルであるLGMの上に直接構築します。L4GMは、低フレームレートでサンプリングされたビデオフレームからフレームごとの3Dガウシアンスプラッティング表現を出力し、その後、表現を高フレームレートにアップサンプリングして時間的な滑らかさを実現します。時間的な一貫性を学習するために、ベースのLGMに時間的自己注意層を追加し、タイムステップごとの多視点レンダリング損失を利用してモデルを訓練します。表現は、中間の3Dガウシアン表現を生成する補間モデルを訓練することで、より高いフレームレートにアップサンプリングされます。L4GMは、合成データのみで訓練されているにもかかわらず、実世界のビデオに対して非常に良い汎化性能を示し、高品質なアニメーション3Dアセットを生成することが実証されています。
現実世界では、文書はさまざまなフォーマットとモダリティで整理されています。従来の検索パイプラインでは、インデックス作成のための入力を準備するために、文書解析技術やコンテンツ抽出モジュールを個別に設計する必要がありました。このプロセスは煩雑で、エラーが発生しやすく、情報の損失も生じます。この問題を解決するため、我々は「Document Screenshot Embedding(DSE)」という新しい検索パラダイムを提案します。DSEは、文書のスクリーンショットを統一された入力フォーマットとして扱い、コンテンツ抽出の前処理を必要とせず、文書内のすべての情報(テキスト、画像、レイアウトなど)を保持します。DSEは、大規模な視覚-言語モデルを活用して、文書スクリーンショットを直接的に密な表現にエンコードし、検索を行います。 本手法を評価するため、まずWiki-SSデータセットを作成しました。これは、Natural Questionsデータセットの質問に答えるためのコーパスとして、130万件のWikipediaウェブページのスクリーンショットを収集したものです。このようなテキスト中心の文書検索設定において、DSEは解析に依存する他のテキスト検索手法と比較して競争力のある効果を示しました。例えば、DSEはトップ1検索精度においてBM25を17ポイント上回りました。さらに、スライド検索という混合モダリティタスクでは、DSEはOCRテキスト検索手法をnDCG@10において15ポイント以上大きく上回りました。これらの実験結果から、DSEが多様なタイプの文書に対して有効な検索パラダイムであることが示されました。モデルのチェックポイント、コード、およびWiki-SSコレクションは公開される予定です。
大規模マルチモーダル言語モデル(MLM)のベンチマークは、特定の能力を評価するのではなく、モデルの一般的な能力を同時に評価するために用いられるようになりました。その結果、開発者が自身のアプリケーションに適したモデルを特定しようとする際、多数のベンチマークに圧倒され、どのベンチマークの結果が特定のユースケースに最も反映されているかについて不確かなままとなっています。本論文では、ユーザーのニーズに合わせたベンチマークを生成するベンチマーク生成エンジン「Task-Me-Anything」を紹介します。Task-Me-Anythingは、視覚的アセットの拡張可能な分類体系を維持し、プログラム的に多数のタスクインスタンスを生成することができます。さらに、計算予算内で効率的にMLMの性能に関するユーザーのクエリにアルゴリズム的に対処します。このエンジンは、113Kの画像、10Kの動画、2Kの3Dオブジェクトアセット、365以上のオブジェクトカテゴリ、655の属性、および335の関係を含んでいます。MLMの知覚能力を評価するための750Mの画像/動画質問応答ペアを生成することができます。Task-Me-Anythingは、重要な洞察を明らかにしています:オープンソースのMLMはオブジェクトと属性の認識に優れているが、空間的および時間的理解に欠けていること、各モデルが独自の強みと弱みを示すこと、より大きなモデルは一般的に性能が良いが例外も存在すること、そしてGPT4oが回転/移動するオブジェクトの認識や色の識別に課題を示すことです。
コンピュータビジョンの最新のフロンティアの一つとして、3Dビデオ生成のタスクが挙げられます。これは、シーンの時間変化する3D表現を生成するものです。動的な3Dシーンを生成するために、現在の手法では、時間と視点の両方にわたる一貫性を共同で最適化することにより、3Dの時間的ダイナミクスを明示的にモデル化しています。本論文では、現在のアプローチのように、時間にわたる多視点一貫性を明示的に強制する必要があるのか、あるいは各タイムステップの3D表現を独立して生成するだけで十分なのかを検証します。そこで我々は、Vid3Dというモデルを提案します。このモデルは、2Dビデオ拡散を活用して3Dビデオを生成するもので、まずビデオの時間的ダイナミクスの2D「シード」を生成し、その後シードビデオの各タイムステップの3D表現を独立して生成します。Vid3Dを2つの最先端の3Dビデオ生成手法と比較評価した結果、Vid3Dは3Dの時間的ダイナミクスを明示的にモデル化していないにもかかわらず、同等の結果を達成することがわかりました。さらに、Vid3Dの品質がフレームごとに生成される視点の数にどのように依存するかを検証しました。視点が少ない場合に若干の品質低下が観察されましたが、性能の低下は軽微なものでした。これらの結果から、高品質な動的3Dシーンを生成するために3Dの時間的知識が必要ない可能性が示唆され、このタスクに対するよりシンプルな生成アルゴリズムの実現が期待されます。
ニューラルネットワークは、少なくともパラメータ数と同数のサンプルを含む訓練セットに適合できると広く信じられており、過剰パラメータ化モデルと過少パラメータ化モデルの概念を支えています。しかし実際には、オプティマイザや正則化器を含む訓練手続きを通じてアクセス可能な解しか見つからず、柔軟性が制限されます。さらに、アーキテクチャに組み込まれた関数クラスの正確なパラメータ化は、その損失曲面を形成し、見つかる極小値に影響を与えます。本研究では、ニューラルネットワークが実際にデータに適合する能力を検証します。我々の調査結果は以下の通りです:(1)標準的なオプティマイザは、パラメータ数よりも大幅に少ないサンプル数の訓練セットにしか適合できない極小値を見つける、(2)畳み込みネットワークは、ランダムにラベル付けされたデータにおいても、MLPやViTよりもパラメータ効率が高い、(3)確率的訓練は正則化効果があると考えられているが、SGDは実際にはフルバッチ勾配降下法よりも多くの訓練データに適合する極小値を見つける、(4)正しくラベル付けされたサンプルと誤ってラベル付けされたサンプルに適合する能力の差は、汎化性能を予測する指標となり得る、(5)ReLU活性化関数は、深層アーキテクチャにおける勾配消失や勾配爆発を防ぐために設計されているにもかかわらず、より多くのデータに適合する極小値を見つける結果をもたらす。
我々は、創造的タスク向けの新規マルチモーダル選好データセットを提示する。このデータセットは、過去8年間にわたってThe New Yorkerの週刊漫画キャプションコンテストのクラウドソーシング評価データから収集された、220万以上のキャプションに対する2億5千万件以上の人間の評価で構成されている。このユニークなデータセットは、ユーモラスなキャプション生成のためのマルチモーダル大規模言語モデルと選好ベースのファインチューニングアルゴリズムの開発と評価を支援する。我々は、GPT4と人間の判断を活用してランキングベースの評価戦略を確立し、モデル生成キャプションの品質を判断するための新規ベンチマークを提案する。実験結果は、RLHFやDPOなどの現在のファインチューニング手法が創造的タスクに適用された際の限界を浮き彫りにしている。さらに、GPT4やClaudeのような最先端のモデルでさえ、ユーモラスなキャプション生成においてトップの人間の参加者に及ばないことを示す。この大規模なデータ収集活動を締めくくるにあたり、我々は研究コミュニティに選好データセット全体を公開し、AIによるユーモア生成と評価のさらなる進展を促進する。
言語モデル(LMs)の急速な台頭により、その利用はさまざまなアプリケーションに拡大しています。しかし、モデルサイズの制約、関連コスト、またはプロプライエタリな制限のため、最先端(SOTA)の大規模言語モデル(LLMs)を常に利用できるとは限りません。オープンで小規模なLMsが登場するにつれ、より多くのアプリケーションがその能力を活用できるようになりましたが、適切なLMを選択することは難しい課題です。本研究では、10の小規模でオープンなLMsの出力の意味的正確性について、タスクタイプ、アプリケーションドメイン、推論タイプの3つの側面にわたる詳細な実験分析を行い、多様なプロンプトスタイルを使用しています。特定の要件に応じて最も効果的なモデルとプロンプトスタイルが異なることを示します。私たちの分析は、ユースケースやその他の制約に基づいて戦略的に選択するための3段階のスキーマを用いて、LMsとプロンプトスタイルの比較評価を提供します。また、適切に活用すれば、これらのLMsがDeepSeek-v2、GPT-3.5-Turbo、GPT-4oなどのSOTA LLMsと競合し、時には凌駕することも可能であることを示します。
アテンションベースのトランスフォーマーは、長距離依存関係をモデル化し、可変長の入力シーケンスを処理する能力から、多くの深層学習分野で標準的なアーキテクチャとなっています。しかし、二次複雑性を持つアテンションメカニズムは、トランスフォーマーアーキテクチャにおける重要なボトルネックです。このアルゴリズムはデコーダーにおいて単方向であり、過剰パラメータ化されたデコーダーのみのモデルでは静的なパターンに収束します。私はこの問題に対処するため、アテンションまたは活性化の代替として生成関数を開発しました。これは各トークンを前のトークンと比較することで、依然として自己回帰的な特性を保持しています。nanoGPTを用いたテスト環境では、より小さなモデルでありながら、より小さい損失が得られました。さらに、平均コンテキストベクトルを組み込むことで、損失はさらに低下します。このアテンション代替の概念は、GNU AGPL v3ライセンスの下でhttps://gitlab.com/Bachstelze/causal_generationにて公開されています。
多種多様な大規模言語モデル(LLMs)は、表形式の質問応答タスクを文脈的に分析する際に共通の課題に直面しています。これらの課題は、(1) 大規模な表に対する有限のコンテキストウィンドウ、(2) セル境界に対するトークン化パターンの多面的な不一致、(3) gpt-3.5-turboなどの外部モデルを使用する過程でのデータ機密性に起因する様々な制約から生じています。我々は、この課題に対する潜在的な解決策として、「HiddenTables」と呼ばれる協力ゲームを提案します。本質的に、「HiddenTables」は、コード生成LLM「Solver」と、LLMエージェントが表形式の質問応答タスクを解決する能力を評価する「Oracle」の間でプレイされます。このゲームは自然言語スキーマに基づいており、重要なことに、基盤となるデータの安全性を確保します。我々は、多様な表セットに対する実証実験を提供し、具体的な表スキーマが提供された場合に、LLMが複雑なクエリを一般化して実行すること、合成的依存関係を処理すること、自然言語をプログラムコマンドに整合させることにおいて集団的に無能であることを示します。エンコーダベースのモデルとは異なり、我々は「HiddenTables」の境界を行数に制限されないように押し広げたため、プロンプトトークンと完了トークンの効率が向上しています。我々のインフラストラクチャは、116,671の質問-表-回答トリプレットにまたがり、様々な質問分類に対する追加の細分化とラベルを提供する新しいデータセット「PyQTax」を生み出しました。したがって、LLMの表形式質問応答タスクにおける欠陥に関する学術的貢献と並行して、「HiddenTables」は、LLMがデータセキュリティを確保し、生成コストを最小化しながら大規模なデータセットとどのように相互作用できるかを具体的に示すものです。
事前学習用の高品質なデータを選択することは、言語モデルの下流タスク性能を形作る上で極めて重要です。主要な課題は、この最適なサブセットを特定することにあり、この問題は一般に扱いにくいと考えられているため、スケーラブルで効果的なヒューリスティックが必要とされます。本研究では、CoLoR-Filter(Conditional Loss Reduction Filtering)というデータ選択手法を提案します。この手法は、経験的ベイズに着想を得たアプローチを活用し、2つの補助モデルの相対的な損失値に基づいて、シンプルで計算効率の良い選択基準を導出します。 モデリングの理論的根拠に加えて、CoLoR-Filterを2つの言語モデリングタスクで実証的に評価しました:(1)C4からデータを選択し、Booksへのドメイン適応を評価する場合と、(2)C4からデータを選択し、複数の下流の多肢選択式質問応答タスクを評価する場合です。我々は、より積極的にサブセットを選択する場合と、小さな補助モデルを使用して大きなターゲットモデルのためのデータを選択する場合の両方で、良好なスケーリングを示しました。一つの注目すべき結果として、150Mパラメータの補助モデルのペアを使用して選択されたCoLoR-Filterデータは、1.2Bパラメータのターゲットモデルを訓練し、25Bのランダムに選択されたトークンで訓練された1.2Bパラメータモデルと同等の性能を達成しました。この際、Booksでは25倍少ないデータ、下流タスクでは11倍少ないデータを使用しました。 コード: https://github.com/davidbrandfonbrener/color-filter-olmo フィルタリングされたデータ: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
生成型3Dペインティングは、高解像度3Dアセットの管理と再利用において最も生産性を向上させる技術の一つです。テキストから画像への変換モデルが消費者向けハードウェアで推論可能になって以来、3Dペインティング手法の性能は着実に向上し、現在ではほぼ頭打ちの状態に近づいています。これらのモデルの多くの中核には、潜在空間でのノイズ除去拡散があり、これは本質的に時間のかかる反復プロセスです。最近では、生成を加速し、サンプリングの反復回数を桁違いに削減するための複数の技術が開発されています。これらの技術は2D生成画像向けに設計されており、3Dに拡張するための手法は提供されていません。本論文では、この欠点を解決するために、Latent Consistency Model(LCM)をタスクに適応させることを提案します。提案モデルの強みと弱みを分析し、定量的および定性的に評価します。Objaverseデータセットのサンプルに基づく研究では、我々の3Dペインティング手法はすべての評価で強い選好を得ています。ソースコードはhttps://github.com/kongdai123/consistency2で公開されています。
大規模言語モデル(LLM)の行動を制御するために人間の選好を活用することは、近年顕著な成功を収めています。しかしながら、データの選択とラベル付けは依然としてこれらのシステムのボトルネックであり、特に大規模な場合にはその傾向が顕著です。したがって、人間のフィードバックを取得するために最も有益なポイントを選択することは、選好ラベル付けのコストを大幅に削減し、LLMのさらなる発展を促す可能性があります。ベイジアンアクティブラーニングは、この課題に対処するための原則的なフレームワークを提供し、さまざまな設定で顕著な成功を収めています。しかし、選好モデリングにこれを適用する以前の試みは、そのような期待に応えることができませんでした。本研究では、単純な認識的不確実性の推定が冗長なサンプルの取得につながることを明らかにします。これを解決するために、選好モデリングのためのベイジアンアクティブラーニング(BAL-PM)を提案します。これは、選好モデルに基づいて認識的不確実性が高いポイントをターゲットとするだけでなく、使用するLLMが生成する特徴空間において取得されたプロンプト分布のエントロピーを最大化することを目指す新しい確率的取得ポリシーです。特に、我々の実験では、BAL-PMが2つの人気のある人間の選好データセットにおいて33%から68%少ない選好ラベルを必要とし、以前の確率的ベイジアン取得ポリシーを上回ることを示しています。