翻訳付きの日次キュレーションされたAI研究論文
昨年、マルチモーダルアーキテクチャはAIベースのアプローチとソリューションにおいて革命をもたらし、大規模言語モデル(LLM)の能力を拡張しました。我々は、事前学習済みのLLMと視覚モダリティ用のアダプターに基づくOmniFusionモデルを提案します。テキストと視覚データのより良い結合を実現するため、いくつかのアーキテクチャ設計原則を評価・比較しました:MLPおよびトランスフォーマーアダプター、様々なCLIP ViTベースのエンコーダー(SigLIP、InternVITなど)、それらの融合アプローチ、画像エンコーディング方法(画像全体またはタイルエンコーディング)、そして2つの7B LLM(独自モデルとオープンソースのMistral)です。8つの視覚言語ベンチマークでの実験により、オープンソースのLLaVAのようなソリューションと比較して、様々なVQAタスクにおいて最良のOmniFusion設定が最高スコアを達成しました:VizWiz、Pope、MM-Vet、ScienceQA、MMBench、TextVQA、VQAv2、MMMU。また、OmniFusionが家事、観光、文化、医療、手書きおよびスキャンされた数式認識など、様々な分野で詳細な回答を提供する多様な状況を提案します。MistralベースのOmniFusionモデルは、重み、トレーニング、推論スクリプトが利用可能なオープンソースソリューションであり、https://github.com/AIRI-Institute/OmniFusion で公開されています。
大規模なデコーダー専用言語モデル(LLM)は、現在のほとんどのNLPタスクとベンチマークにおいて最先端のモデルです。しかし、テキスト埋め込みタスク(豊かな文脈化された表現を必要とする)において、これらのモデルがコミュニティに採用されるのはまだ遅々としています。本研究では、任意のデコーダー専用LLMを強力なテキストエンコーダーに変換するシンプルな教師なしアプローチであるLLM2Vecを紹介します。LLM2Vecは、次の3つのシンプルなステップで構成されます:1) 双方向アテンションの有効化、2) マスクされた次トークン予測、3) 教師なしコントラスティブ学習。1.3Bから7Bパラメータまでの3つの人気LLMにLLM2Vecを適用し、変換されたモデルを英語の単語レベルおよびシーケンスレベルのタスクで評価することで、その有効性を実証します。単語レベルのタスクではエンコーダー専用モデルを大きく上回り、Massive Text Embeddings Benchmark(MTEB)において新しい教師なしの最先端性能を達成しました。さらに、LLM2Vecを教師ありコントラスティブ学習と組み合わせることで、公開されているデータのみで学習するモデルの中でMTEBにおける最先端性能を達成しました。私たちの強力な実験結果と詳細な分析は、LLMが高価な適応やGPT-4生成の合成データを必要とせず、パラメータ効率の良い方法で普遍的なテキストエンコーダーに効果的に変換できることを示しています。
私たちは、RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を発表します。私たちのアーキテクチャ設計の進歩には、多頭行列値状態と動的再帰メカニズムが含まれており、これらはRNNの推論効率特性を維持しながら表現力を向上させます。また、1.12兆トークンからなる新しい多言語コーパスと、貪欲マッチングに基づく高速トークナイザーを導入し、多言語対応を強化しました。0.46億から75億パラメータまでの4つのEagleモデルと、16億および31億パラメータの2つのFinchモデルをトレーニングし、それらが幅広いベンチマークで競争力のある性能を達成することを確認しました。すべてのモデルをApache 2.0ライセンスの下でHuggingFaceに公開しています。モデルは以下にあります: https://huggingface.co/RWKV トレーニングコードは以下にあります: https://github.com/RWKV/RWKV-LM 推論コードは以下にあります: https://github.com/RWKV/ChatRWKV 時間並列トレーニングコードは以下にあります: https://github.com/RWKV/RWKV-infctx-trainer
大規模視覚言語モデル(LVLM)分野は大きな進展を遂げてきたものの、解像度の制約により細粒度の視覚内容を理解する上での課題がその進歩を妨げてきました。最近の取り組みでは、LVLMの高解像度理解能力を向上させることが目指されてきましたが、約1500×1500ピクセルに制限され、比較的狭い解像度範囲に留まっています。本論文は、LVLMの解像度能力を4K HD(3840×1600)以上に引き上げる画期的な探求であるInternLM-XComposer2-4KHDを紹介します。同時に、超高解像度が必ずしもすべてのシナリオで必要ではないことを考慮し、336ピクセルから4K標準までの多様な解像度を幅広くサポートし、適用範囲を大幅に拡大しています。具体的には、本研究はパッチ分割パラダイムを進化させ、新しい拡張機能である自動パッチ設定を伴う動的解像度を導入します。これは、事前学習済みのVision Transformer(ViT)(336×336)に基づいてパッチ数を自動的に変化させ、レイアウトを設定しながら、トレーニング画像のアスペクト比を維持し、336ピクセルから4K標準までの動的トレーニング解像度を実現します。我々の研究は、トレーニング解像度を4K HDまでスケールアップすることで、改善の上限に達することなく一貫した性能向上が得られることを実証しています。InternLM-XComposer2-4KHDは、16のベンチマークのうち10においてGPT-4VやGemini Proに匹敵し、あるいは凌駕する優れた能力を示しています。7BパラメータのInternLM-XComposer2-4KHDモデルシリーズは、https://github.com/InternLM/InternLM-XComposer で公開されています。
大規模言語モデル(LLMs)の開発、特に1兆パラメータ規模のモデルに対する関心が高まる中で、リソース効率と実用的なコスト、特に実験の莫大な費用に対する懸念が生じています。この状況は、リソース効率の良い代替手段としての小規模言語モデル(SLMs)の可能性を探求する重要性を浮き彫りにしています。この文脈において、我々はMiniCPMを紹介します。具体的には、1.2Bおよび2.4Bの非埋め込みパラメータバージョンは、それぞれのカテゴリーで優れた性能を発揮するだけでなく、7B-13B規模のLLMsと同等の能力を示します。SLMsに焦点を当てつつ、我々のアプローチは、将来のLLM研究においてモデルとデータの両次元でのスケーラビリティを示しています。モデルスケーリングに関しては、安定した最適なスケーリングを実現するために大規模なモデル風洞実験を採用しています。データスケーリングに関しては、連続的なトレーニングとドメイン適応に適したWarmup-Stable-Decay(WSD)学習率スケジューラ(LRS)を導入しています。WSD LRSで発生した興味深いトレーニングダイナミクスについて詳細な分析を提示します。WSD LRSを用いることで、モデルとデータの両軸での大規模な再トレーニング実験なしに、データ-モデルスケーリング法則を効率的に研究できるようになり、Chinchilla Optimalよりもはるかに高い計算最適なデータ-モデル比率を導き出しました。さらに、MiniCPMファミリーを紹介します。これにはMiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kが含まれ、その優れた性能により、MiniCPMの多様なSLMアプリケーションにおける基盤がさらに固まります。MiniCPMモデルはhttps://github.com/OpenBMB/MiniCPMで公開されています。
命令チューニングは、大規模言語モデル(LLM)を特定のタスク命令に適合させるための鍵として登場し、次のトークン予測という目的とユーザーの実際の目標との間の不一致を緩和しています。人間によるデータ収集や注釈付けの労力と時間コストを削減するため、研究者たちはLLMを利用して命令に沿った合成データを生成する方法を探り始めています。最近の研究では、多様な命令を生成し、LLMを適用して命令の複雑さを増すことに焦点が当てられていますが、下流のユースケースがしばしば無視されています。異なるターゲット命令分布やLLMにおいて、より良い命令追従能力を引き出すために高品質なデータをどのように調整すべきかはまだ明らかではありません。この目的のために、我々はCodecLMを導入します。これは、異なる下流命令分布やLLMに適応的に高品質な合成データを生成するための一般的なフレームワークです。エンコード・デコードの原則に基づき、LLMをコーデックとして利用し、データ生成プロセスをガイドします。まず、シード命令をメタデータにエンコードします。メタデータは、ターゲット命令分布を捕捉するためにその場で生成される簡潔なキーワードです。次に、メタデータをデコードして、調整された命令を作成します。また、デコード中にSelf-RubricsとContrastive Filteringを導入し、データ効率の良いサンプルを調整します。4つのオープンドメイン命令追従ベンチマークでの広範な実験により、CodecLMの有効性が現在の最先端技術を上回ることが検証されました。
本論文では、大規模言語モデル(LLM)を音楽の事前学習に応用する方法を探求します。音楽モデリングにおけるMIDIの普及は広く知られていますが、我々の研究結果は、LLMがABC記譜法と本質的に高い親和性を持つことを示唆しています。ABC記譜法はLLMの設計と強みにより適合しており、これにより音楽作曲におけるモデルの性能が向上します。生成時に異なるトラック間で小節がずれるという課題に対処するため、我々は同期型マルチトラックABC記譜法(SMT-ABC記譜法)の開発を提案します。これは、複数の音楽トラック間の一貫性を維持することを目的としています。我々の貢献として、最大8192トークンを処理可能な一連のモデルを開発し、トレーニングデータセットの90%のシンボリック音楽データをカバーします。さらに、シンボリック音楽スケーリング則(SMS則)がモデル性能に与える影響についても探求します。結果は、音楽生成の将来の研究に向けた有望な方向性を示しており、オープンソースの貢献を通じてコミュニティ主導の研究に広範なリソースを提供します。
3D生成モデリングの進化は、2D拡散モデルの採用によって大きく推進されてきました。しかし、この進歩にもかかわらず、最適化プロセス自体の煩雑さが効率性における重大な障壁となっています。本論文では、モデル学習を必要とせずに3D生成を普遍的に高速化するHash3Dを紹介します。Hash3Dの核心は、近接するカメラ位置と拡散タイムステップからレンダリングされた画像において、特徴マップの冗長性が広く存在するという洞察にあります。これらの特徴マップを近接するタイムステップとカメラ角度間で効果的にハッシュ化し再利用することで、Hash3Dは冗長な計算を大幅に防ぎ、3D生成タスクにおける拡散モデルの推論を加速します。これは、適応型グリッドベースのハッシュ化を通じて実現されます。驚くべきことに、この特徴共有メカニズムは生成速度を向上させるだけでなく、合成された3Dオブジェクトの滑らかさと視点一貫性も向上させます。5つのテキストから3Dおよび3つの画像から3Dモデルをカバーした実験により、Hash3Dが最適化を1.3倍から4倍高速化する汎用性を実証しました。さらに、Hash3Dを3Dガウシアンスプラッティングと統合することで、3Dモデルの作成が大幅に高速化され、テキストから3Dへの処理が約10分、画像から3Dへの変換が約30秒に短縮されました。プロジェクトページはhttps://adamdad.github.io/hash3D/にあります。
大規模言語モデル(LLM)が広く利用可能であるにもかかわらず、多様な言語におけるその能力と利用可能性には依然として大きな隔たりが存在します。これらの課題に対処するための一つのアプローチとして、既存の事前学習済みLLMを取得し、新しい言語で継続的に学習させる方法があります。先行研究では言語適応の実験が行われてきましたが、ベストプラクティスや方法論に関する多くの疑問が未解決のままです。本論文では、LLMの新たな言語への適応に関する包括的な調査を提示します。本研究では、語彙拡張、直接選好最適化、低リソース言語における人間の意図との整合性のためのデータ不足問題など、このプロセスの主要な構成要素を網羅しています。これらの実験を9言語と2つのパラメータ規模(7Bと70B)でスケールして実施しました。我々のモデルをLlama 2、Aya-101、XGLM、BLOOMおよび既存の言語専門家と比較し、これまでに公表されたすべてのベースラインを上回る結果を示しました。さらに、今後の研究を促進するため、すべての評価コードとチェックポイントを公開しています。
テキストから3D生成は、大規模なテキストから画像への拡散モデルを通じて顕著な成功を収めてきました。しかしながら、この手法を都市規模にスケールアップするためのパラダイムは存在しません。都市シーンは、多数の要素、複雑な配置関係、そして広大なスケールを特徴としており、曖昧なテキスト記述の解釈可能性が効果的なモデル最適化の障壁となっています。本研究では、これらの制約を克服するために、テキストから3D生成のパラダイムに構成的な3Dレイアウト表現を導入し、追加の事前情報として活用します。これは、単純な幾何学的構造と明示的な配置関係を持つ一連の意味的プリミティブから構成され、テキスト記述を補完し、操縦可能な生成を可能にします。これに基づいて、2つの改良を提案します。(1) モデル最適化の不備に対処するために、レイアウトガイド付き変分スコア蒸留を導入します。これは、3Dレイアウトの幾何学的および意味的制約をスコア蒸留サンプリングプロセスに条件付けします。(2) 都市シーンの無制限な性質に対処するために、3Dシーンをスケーラブルハッシュグリッド構造で表現し、都市シーンの拡大するスケールに適応します。大規模な実験により、本フレームワークが1000m以上の走行距離をカバーする大規模都市シーンへのテキストから3D生成を初めてスケールアップできる能力を実証しました。また、様々なシーン編集デモンストレーションを提示し、操縦可能な都市シーン生成の力を示します。ウェブサイト: https://urbanarchitect.github.io。
本論文では、新規視点合成において高品質でフォトリアルな結果を実現するシーン表現手法である3D Gaussian Splatting(3DGS)におけるAdaptive Density Control(ADC)の限界に取り組む。ADCは、3D点プリミティブの自動管理のために導入され、密度化と剪定を制御するが、密度化ロジックに一定の制約がある。我々の主な貢献は、3DGSにおける密度制御のためにより原理的でピクセル誤差駆動の定式化を提案し、補助的なピクセル単位の誤差関数を密度化の基準として活用することである。さらに、シーンごとに生成されるプリミティブの総数を制御するメカニズムを導入し、クローン操作中のADCの現在の不透明度処理戦略におけるバイアスを修正する。我々のアプローチは、手法の効率を損なうことなく、様々なベンチマークシーンにおいて一貫した品質向上をもたらす。
2D拡散モデルの急速な発展に支えられ、3Dコンテンツ生成は最近大きな進歩を遂げています。有望な解決策の一つは、事前学習済みの2D拡散モデルを微調整し、その多視点画像生成能力を活用することです。生成された多視点画像は、fast-NeRFや大規模再構成モデルなどの手法を用いて正確な3Dモデルに変換されます。しかし、一貫性の欠如や生成解像度の制限により、このような手法の生成結果はまだ複雑なテクスチャや幾何学的構造を欠いています。この問題を解決するため、我々はMagic-Boostを提案します。これは、多視点条件付き拡散モデルであり、短時間のSDS最適化(約15分)を通じて粗い生成結果を大幅に改善します。従来のテキストや単一画像ベースの拡散モデルと比較して、Magic-Boostは疑似合成された多視点画像から高い一貫性を持つ画像を生成する強力な能力を示します。入力画像のアイデンティティにうまく整合する正確なSDSガイダンスを提供し、初期生成結果の幾何学的構造とテクスチャの局所的な詳細を豊かにします。大規模な実験により、Magic-Boostが粗い入力を大幅に向上させ、豊かな幾何学的およびテクスチャの詳細を持つ高品質な3Dアセットを生成することが示されています。(プロジェクトページ: https://magic-research.github.io/magic-boost/)
手で操作される物体(すなわち、マニプランダ)は、実世界のRGB画像や動画から再構築する際に特に困難を伴います。手が物体の大部分を隠してしまうだけでなく、物体が画像のごく少数のピクセルにしか映らないことが多いためです。しかし、この状況においては2つの強力なアンカーが存在します。(1)推定された3D手は物体の位置とスケールを明確にするのに役立ち、(2)マニプランダの集合はすべての可能な物体に比べて小さいという点です。これらの洞察を踏まえ、我々は大規模言語/視覚モデルと3D物体データセットの最近のブレークスルーに基づいて、手持ち物体の再構築を行うスケーラブルなパラダイムを提案します。我々のモデル、MCC-Hand-Object(MCC-HO)は、単一のRGB画像と推定された3D手を入力として、手と物体の形状を同時に再構築します。その後、GPT-4(V)を使用して画像内の物体に一致する3D物体モデルを検索し、そのモデルをネットワークが推定した形状に剛体変換して整列させます。我々はこの整列を「検索拡張再構築(Retrieval-Augmented Reconstruction, RAR)」と呼びます。実験により、MCC-HOは実験室およびインターネットデータセットにおいて最先端の性能を達成することが示され、RARが手と物体の相互作用を捉えた実世界画像の3Dラベルを自動的に取得するためにどのように使用できるかを示します。
大規模言語モデル(LLMs)が多様なタスクに適用可能であることは多くの研究で示されているが、データ汚染や記憶化という重要な問題はしばしば軽視されてきた。本研究では、この懸念を表形式データに焦点を当てて取り組む。具体的には、言語モデルが訓練中に特定の表形式データセットを「見た」かどうかを評価するための様々な手法を導入する。この調査により、LLMsが多くの人気のある表形式データセットをそのまま記憶していることが明らかになった。次に、訓練中に見たデータセットと訓練後にリリースされたデータセットに対するLLMsのFew-shot学習性能を比較する。その結果、LLMsは訓練中に見たデータセットでより良い性能を示し、記憶化が過剰適合を引き起こしていることが示唆された。一方で、LLMsは新しいデータセットにおいても一定の性能を発揮し、データ変換に対して驚くほど頑健であることがわかった。さらに、LLMsの文脈内統計学習能力を調査する。ファインチューニングなしでは、その能力は限定的であることが判明した。これは、新しいデータセットに対するFew-shot性能の多くがLLMsの世界知識によるものであることを示唆している。全体として、評価データセットが事前訓練中に見られたかどうかをテストすることの重要性が浮き彫りになった。我々は、開発した曝露テストを「tabmemcheck」Pythonパッケージとしてhttps://github.com/interpretml/LLM-Tabular-Memorization-Checkerで公開している。