翻訳付きの日次キュレーションされたAI研究論文
大規模言語・視覚モデル(LLVM)の急速な発展は、視覚的指示チューニングの進歩によって推進されてきた。最近では、オープンソースのLLVMが高品質な視覚的指示チューニングデータセットを整備し、追加の視覚エンコーダーや複数のコンピュータビジョンモデルを活用することで、強力なクローズドソースのLLVMとの性能差を縮めている。これらの進展は、基本的な画像理解、常識や非物体概念(例:チャート、図表、記号、標識、数学問題)に関する実世界の知識、複雑な質問を解決するための段階的な手順など、多様な能力に必要な多面的な情報に起因している。この多面的な情報を基に、我々は新しい効率的なLLVMであるMambaベースの根拠トラバーサル(Meteor)を提案し、多面的な根拠を活用して理解と回答能力を強化する。豊富な情報を含む長い根拠を埋め込むために、線形時間計算量で逐次データを処理可能なMambaアーキテクチャを採用する。我々は、根拠の効率的な埋め込みを促進する新しい概念である根拠トラバーサルを導入する。その後、バックボーンのマルチモーダル言語モデル(MLM)を訓練し、根拠の助けを借りて回答を生成する。これらのステップを通じて、Meteorは、モデルサイズを拡大したり、追加の視覚エンコーダーやコンピュータビジョンモデルを採用することなく、多様な能力を必要とする複数の評価ベンチマークにおいて、視覚言語性能の大幅な向上を達成する。
高解像度の大規模マルチモーダルモデル(LMM)は、過剰な視覚トークンと二次的な視覚的複雑性という課題に直面しています。現在の高解像度LMMは、二次的な複雑性に対処しながらも、依然として過剰な視覚トークンを生成します。しかし、視覚トークンの冗長性が主要な問題であり、これがより大きな計算負荷を引き起こします。この問題を緩和するため、我々はConvLLaVAを提案します。ConvLLaVAは、Vision Transformer(ViT)の代わりに、階層型バックボーンであるConvNeXtをLMMの視覚エンコーダとして採用します。ConvLLaVAは、高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの生成を効果的に防ぎます。ConvLLaVAの能力を向上させるため、我々は2つの重要な最適化を提案します。低解像度で事前学習されたConvNeXtは、高解像度に直接適用すると性能が低下するため、このギャップを埋めるために更新します。さらに、ConvNeXtの元の圧縮率は、より高解像度の入力に対して不十分であるため、視覚トークンをさらに圧縮するための連続ステージを訓練し、冗長性を削減します。これらの最適化により、ConvLLaVAは1536x1536解像度の入力に対して576個の視覚トークンしか生成せず、任意のアスペクト比の画像を処理可能です。実験結果は、我々の手法が主流のベンチマークにおいて最先端のモデルと競争力のある性能を達成することを示しています。ConvLLaVAモデルシリーズは、https://github.com/alibaba/conv-llava で公開されています。
我々は、トランスフォーマーがパラメトリック知識を暗黙的に推論する能力を学習できるかどうかを研究する。これは、最も優れた言語モデルでさえも苦手とするスキルである。代表的な推論タイプである合成と比較に焦点を当て、トランスフォーマーが暗黙的推論を学習できるが、それはグロッキング(過学習をはるかに超えた長期訓練)を通じてのみ可能であることを一貫して見出した。また、推論タイプによって一般化のレベルも異なることが明らかとなった:分布外の例に直面した場合、トランスフォーマーは合成に対して体系的に一般化することに失敗するが、比較では成功する。我々は、訓練全体を通じてモデルの内部を詳細に調査し、以下のことを明らかにする分析実験を行った:1)グロッキングのメカニズム、例えば一般化回路の形成と、一般化回路と記憶回路の相対的な効率の関係、2)体系性と一般化回路の構成との関連性。我々の発見は、暗黙的推論をより良く誘導するためのデータと訓練設定の指針となり、トランスフォーマーアーキテクチャの潜在的な改善、例えば層間の知識共有を促進することを示唆する。さらに、大規模な探索空間を伴う難しい推論タスクにおいて、非パラメトリックメモリに基づくGPT-4-TurboとGemini-1.5-Proは、プロンプトスタイルや検索拡張に関わらず大きく失敗するのに対し、完全にグロッキングされたトランスフォーマーはほぼ完璧な精度を達成できることを示し、複雑な推論におけるパラメトリックメモリの力を実証した。
本技術報告書では、多言語対応の言語モデルファミリーであるAya 23を紹介する。Aya 23は、最近リリースされたAyaモデル(Ust\"un et al., 2024)を基盤としており、高性能な事前学習済みモデルと新たに公開されたAyaコレクション(Singh et al., 2024)を組み合わせることに焦点を当てている。その結果、23の言語に対応する強力な多言語大規模言語モデルが構築され、世界人口の約半数に及ぶ最先端の言語モデリング能力が拡張された。Ayaモデルは101の言語をカバーしていたが、Aya 23は「深さ vs 広さ」の実験として、事前学習中に含まれる言語数を減らし、その分の容量を割り当てる影響を探求している。Aya 23は、カバーする言語において、以前の大規模多言語モデルであるAya 101を上回るだけでなく、Gemma、Mistral、Mixtralなどの広く使用されているモデルをも、多岐にわたる識別タスクおよび生成タスクにおいて凌駕している。我々は、多言語進展へのアクセス拡大への継続的な取り組みの一環として、8Bおよび35Bモデルのオープンウェイトを公開する。
大規模言語モデル(LLM)はその規模の大きさから、事前学習に多大な計算コストを要します。モデル成長(Model Growth)は、より小さなモデルを活用して大規模モデルの学習を加速する有望なアプローチとして登場しました。しかし、効率的なLLM事前学習におけるこれらのモデル成長手法の実用性はまだ十分に検証されていません。本研究では、3つの重要な課題(O1)包括的評価の欠如、(O2)スケーリングにおける実用性の未検証、(O3)経験的ガイドラインの不足を特定しました。O1に対処するため、既存のアプローチを4つの基本的な成長オペレーターに分類し、標準化されたLLM事前学習環境で系統的に評価しました。その結果、G_{stack}と呼ばれる深さ方向のスタッキングオペレーターが、学習の顕著な加速をもたらし、強力なベースラインと比較して損失の減少と8つの標準NLPベンチマークでの全体的な性能向上を示すことが明らかになりました。これらの有望な結果に基づき、O2とO3に深く取り組むため、G_{stack}に関する広範な実験を行いました。O2(未検証のスケーラビリティ)については、G_{stack}がスケーラブルであり、成長後の7B LLMや750BトークンでのLLM事前学習において一貫して良好な性能を発揮することを示しました。例えば、300Bトークンを使用して従来通り学習した7Bモデルと比較すると、G_{stack}モデルは194Bトークンで同じ損失に収束し、54.6%の高速化を実現しました。さらに、O3(経験的ガイドラインの不足)に対処するため、G_{stack}の成長タイミングと成長係数を決定するガイドラインを形式化し、一般的なLLM事前学習において実用的なものとしました。また、G_{stack}に関する詳細な議論と包括的なアブレーション研究も提供しています。私たちのコードと事前学習済みモデルはhttps://llm-stacking.github.io/で公開されています。
最適化の停止ステップTを指定する必要がない既存の学習率スケジュールは、Tに依存する学習率スケジュールに大きく劣っています。本論文では、スケジュールの使用を完全に避けることでこの停止時間を不要にしつつ、凸問題から大規模な深層学習問題に至る幅広い問題群において、スケジュールと比較して最先端の性能を発揮するアプローチを提案します。我々のSchedule-Freeアプローチは、モーメンタムを備えた標準的なオプティマイザに対して追加のハイパーパラメータを導入しません。本手法は、スケジュールと反復平均化を統合する新たな理論から直接導かれたものです。本手法のオープンソース実装は以下で公開されています (https://github.com/facebookresearch/schedule_free)。
AutoCoderを紹介します。これは、Human Evalベンチマークテストにおいて、GPT-4 Turbo(2024年4月版)およびGPT-4oをpass@1で初めて上回った大規模言語モデルです(90.9%対90.2%)。さらに、AutoCoderはGPT-4 TurboやGPT-4oと比べて、より多機能なコードインタプリタを提供します。そのコードインタプリタは、組み込みパッケージに限定されることなく、外部パッケージをインストールすることが可能です。AutoCoderのトレーニングデータは、エージェント間の相互作用と外部コード実行検証を組み合わせたシステムによって作成されたマルチターン対話データセットであり、この手法を「AIEV-Instruct」(エージェント相互作用と実行検証による指示チューニング)と呼びます。従来の大規模コードデータセット生成方法と比較して、AIEV-Instructはプロプライエタリな大規模モデルへの依存を軽減し、実行検証済みのコードデータセットを提供します。コードとデモ動画はhttps://github.com/bin123apple/AutoCoderで公開されています。
本論文では、CraftsManと名付けた新しい生成型3Dモデリングシステムを提案する。このシステムは、形状の多様性が高く、規則的なメッシュトポロジーと詳細な表面を持つ高精細な3Dジオメトリを生成し、さらにインタラクティブな方法でジオメトリを洗練することが可能である。3D生成技術の大幅な進展にもかかわらず、既存の手法は依然として最適化プロセスの長時間化、不規則なメッシュトポロジー、ノイズの多い表面、ユーザー編集の受け入れ難さといった課題に直面しており、これらが3Dモデリングソフトウェアへの広範な採用と実装を妨げている。我々の研究は、職人が通常、作品の全体像をまず大まかに形作り、その後表面の詳細を仕上げるというプロセスに着想を得ている。具体的には、ラテントセットベースの3D表現から学習されたラテント空間で動作する3Dネイティブな拡散モデルを採用し、規則的なメッシュトポロジーを持つ粗いジオメトリを数秒で生成する。特に、このプロセスではテキストプロンプトまたは参照画像を入力として受け取り、強力なマルチビュー(MV)拡散モデルを活用して粗いジオメトリの複数のビューを生成し、それらを我々のMV条件付き3D拡散モデルに供給して3Dジオメトリを生成することで、堅牢性と汎用性を大幅に向上させている。その後、法線ベースのジオメトリリファイナーを使用して表面の詳細を大幅に強化する。このリファインメントは自動的に行うことも、ユーザーが提供した編集とインタラクティブに行うことも可能である。広範な実験により、我々の手法が既存の手法と比較して優れた品質の3Dアセットを生成する上で高い効果を発揮することが実証された。ホームページ:https://craftsman3d.github.io/、コード:https://github.com/wyysf-98/CraftsMan
自己教師あり特徴は現代の機械学習システムの基盤をなすものである。これらは通常、構築とキュレーションに多大な人的労力を要するデータコレクション上で事前学習される。この手動プロセスは、教師あり学習で遭遇するものと同様の制約を有しており、例えば、クラウドソーシングによるデータ選択はコストと時間がかかり、データセット規模の拡大を妨げている。本研究では、自己教師あり事前学習のための高品質データセットの自動キュレーション問題を考察する。我々は、そのようなデータセットは大規模で多様かつバランスが取れているべきだと主張し、これらの基準を全て満たすデータセットを構築するためのクラスタリングベースのアプローチを提案する。我々の手法は、データ概念間で均一に分布するクラスタを得るために、大規模で多様なデータリポジトリ上でk-meansを階層的に繰り返し適用し、その後これらのクラスタから階層的でバランスの取れたサンプリングを行うというものである。ウェブ画像、衛星画像、テキストという3つの異なるデータ領域での大規模な実験により、我々の自動キュレーションデータセットで学習した特徴量は、非キュレーションデータで学習したものを上回り、手動キュレーションデータで学習したものと同等かそれ以上の性能を示すことが確認された。
ワールドモデルは、モデルベースのエージェントが想像上の環境内でインタラクティブに探索、推論、計画を行い、現実世界の意思決定を可能にします。しかし、インタラクティブ性の高い要求は、ビデオ生成モデルの最近の進展を大規模なワールドモデルの開発に活用する上で課題を生んでいます。本研究では、Interactive VideoGPT(iVideoGPT)を紹介します。これは、視覚的観察、行動、報酬といったマルチモーダル信号をトークンのシーケンスに統合し、次のトークン予測を通じてエージェントのインタラクティブな体験を促進するスケーラブルな自己回帰型トランスフォーマーフレームワークです。iVideoGPTは、高次元の視覚的観察を効率的に離散化する新しい圧縮トークン化技術を特徴としています。そのスケーラブルなアーキテクチャを活用し、数百万の人間およびロボットの操作軌跡に対してiVideoGPTを事前学習させ、幅広い下流タスクのインタラクティブなワールドモデルとして適応可能な汎用的な基盤を確立しました。これには、行動条件付きビデオ予測、視覚的計画、モデルベース強化学習が含まれ、iVideoGPTは最先端の手法と比較して競争力のある性能を達成しています。本研究は、生成ビデオモデルと実用的なモデルベース強化学習アプリケーションの間のギャップを埋めるインタラクティブな汎用ワールドモデルの開発を推進します。
言語モデル(LM)は長年にわたり自動音声認識(ASR)システムの結果を改善するために使用されてきたが、ASRシステムが犯すエラーを認識していない。エラー修正モデルはASRのエラーを修正するために設計されているが、教師付き訓練データの不足により、従来のLMを大きく上回る改善はほとんど見られなかった。本論文では、大量の合成データを用いて訓練されたスケーラブルなエラー修正モデルであるDenoising LM(DLM)を提案し、従来の試みを大幅に上回りつつ、新たな最先端のASR性能を達成する。テキスト音声合成(TTS)システムを使用して音声を合成し、それをASRシステムに入力してノイズの多い仮説を生成し、それらを元のテキストとペアにしてDLMを訓練する。DLMにはいくつかの重要な要素がある:(i)スケールアップされたモデルとデータ、(ii)複数話者TTSシステムの使用、(iii)複数のノイズ増強戦略の組み合わせ、(iv)新しいデコーディング技術。Transformer-CTC ASRを使用して、DLMはLibrispeechのtest-cleanで1.5%の単語誤り率(WER)、test-otherで3.3%のWERを達成し、これは我々の知る限り、外部音声データを使用しない設定での最高の報告値であり、外部音声データを使用する自己教師あり手法と同等の性能を示す。さらに、単一のDLMは異なるASRに適用可能であり、従来のLMに基づくビームサーチ再スコアリングの性能を大幅に上回る。これらの結果は、適切に調査されたエラー修正モデルが従来のLMに取って代わる可能性があり、ASRシステムの新たな精度レベルへの鍵を握っていることを示している。
大規模言語モデルは、多様なソースから得られたデータの活用により、卓越した汎化能力を示す。しかし、この多様なデータを統合する従来の手法は、理論的根拠に欠けたヒューリスティックなスキームに大きく依存している。本研究では、データ混合のための低コストな代理指標に基づく戦略を調査することで、これらの制約に取り組み、データキュレーションを効率化してトレーニング効率を向上させることを目指す。具体的には、データ量と混合比率の二変量スケーリング挙動を正確にモデル化する統一的なスケーリング則「BiMix」を提案する。体系的な実験を行い、BiMixの予測力と基本原理に関する実証的証拠を提供する。特に、エントロピー駆動型のトレーニング不要なデータ混合が、よりリソース集約的な手法と同等またはそれ以上の性能を達成できることを明らかにした。我々の定量的な知見が、コスト効率の良い言語モデリングにおけるさらなる適切な研究開発に光を当てることを期待する。
高ダイナミックレンジ(HDR)新視点合成(NVS)は、HDR撮影技術を用いて新たな視点から写実的な画像を生成することを目的としている。レンダリングされたHDR画像は、通常の低ダイナミックレンジ(LDR)画像よりも広い輝度範囲を捉え、シーンの詳細をより多く含んでいる。既存のHDR NVS手法は主にNeRFに基づいており、長時間のトレーニングと低速の推論速度が課題となっている。本論文では、新たなフレームワークであるHigh Dynamic Range Gaussian Splatting(HDR-GS)を提案し、効率的に新たなHDRビューをレンダリングし、ユーザーが指定した露出時間でLDR画像を再構築する。具体的には、球面調和関数を用いてHDR色をフィットし、MLPベースのトーンマッパーを使用してLDR色をレンダリングするDual Dynamic Range(DDR)ガウス点群モデルを設計する。HDRとLDRの色は、2つの並列微分可能ラスタライゼーション(PDR)プロセスに供給され、HDRとLDRビューを再構築する。HDR NVSにおける3Dガウススプラッティングベース手法の研究のためのデータ基盤を確立するため、カメラパラメータを再調整し、ガウス点群の初期位置を計算する。実験結果は、HDR-GSがLDRおよびHDR NVSにおいて、最先端のNeRFベース手法をそれぞれ3.84 dBおよび1.91 dB上回り、1000倍の推論速度を享受し、トレーニング時間の6.3%のみを必要とすることを示している。