翻訳付きの日次キュレーションされたAI研究論文
人工汎用知能(AGI)モデルとその前段階となるシステムの能力と振る舞いを分類するためのフレームワークを提案します。このフレームワークでは、AGIの性能、汎用性、自律性のレベルを導入します。このフレームワークが、自動運転のレベルと同様に、モデルを比較し、リスクを評価し、AGIへの進捗を測定するための共通言語を提供することで有用となることを期待しています。フレームワークを開発するために、既存のAGIの定義を分析し、有用なAGIのオントロジーが満たすべき6つの原則を抽出しました。これらの原則には、メカニズムではなく能力に焦点を当てること、汎用性と性能を別々に評価すること、そして終点ではなくAGIへの道筋に沿った段階を定義することが含まれます。これらの原則を踏まえ、能力の深さ(性能)と幅(汎用性)に基づいて「AGIのレベル」を提案し、現在のシステムがこのオントロジーにどのように適合するかを考察します。これらのレベルに対してAGIモデルの振る舞いと能力を定量化する将来のベンチマークの要件について議論します。最後に、これらのAGIのレベルが自律性やリスクなどの展開上の考慮事項とどのように相互作用するかを議論し、高度な能力を持つAIシステムを責任を持って安全に展開するために、人間とAIの相互作用パラダイムを慎重に選択することの重要性を強調します。
大規模マルチモーダルモデル(LMMs)は、大規模言語モデルを視覚領域に拡張したものです。初期のLMMsの取り組みでは、全体画像とテキストプロンプトを使用して、根拠のないテキスト応答を生成していました。ごく最近では、領域レベルのLMMsが視覚的に根拠のある応答を生成するために使用されています。しかし、これらのモデルは一度に単一のオブジェクトカテゴリのみを参照するか、ユーザーが入力で領域を指定する必要があるか、または密なピクセル単位のオブジェクト接地を提供できないという制限があります。本研究では、対応するオブジェクトセグメンテーションマスクとシームレスに絡み合った自然言語応答を生成できる最初のモデルであるGrounding LMM(GLaMM)を紹介します。GLaMMは、会話に現れるオブジェクトを接地するだけでなく、テキストとオプションの視覚プロンプト(関心領域)の両方を入力として受け入れる柔軟性を持っています。これにより、ユーザーはテキストと視覚の両方の領域で、さまざまな粒度レベルでモデルと対話することができます。視覚的に根拠のある詳細な会話を生成するという新しい設定のための標準的なベンチマークが不足しているため、私たちは独自に作成した接地会話を用いた包括的な評価プロトコルを導入します。私たちが提案するGrounded Conversation Generation(GCG)タスクは、大規模な自然シーンにおける密な接地概念を必要とします。この目的のために、私たちは自動注釈パイプラインを使用して、セグメンテーションマスクが利用可能な810Mの領域に接地された7.5Mのユニークな概念を含む密に注釈されたGrounding-anything Dataset(GranD)を提案します。GCGに加えて、GLaMMは参照表現セグメンテーション、画像および領域レベルのキャプション生成、視覚言語会話など、いくつかの下流タスクでも効果的に機能します。プロジェクトページ: https://mbzuai-oryx.github.io/groundingLMM。
ビデオ合成は、拡散モデルの急速な発展により、最近目覚ましい進歩を遂げています。しかし、セマンティックな正確性、明瞭性、および時空間的連続性の面で依然として課題に直面しています。これらの課題は、主に、整列したテキスト-ビデオデータの不足と、ビデオの複雑な内在的構造に起因しており、モデルがセマンティックな品質と質的な卓越性を同時に確保することが困難となっています。本報告では、これら2つの要素を分離し、静的な画像を重要なガイダンスとして活用することで入力データの整合性を確保する、カスケード型のI2VGen-XLアプローチを提案します。I2VGen-XLは2つの段階で構成されています:i) ベース段階では、2つの階層型エンコーダを使用して、入力画像からの一貫したセマンティクスとコンテンツを保証し、ii) リファインメント段階では、追加の簡潔なテキストを組み込み、解像度を1280×720に向上させることでビデオの詳細を強化します。多様性を向上させるために、約3500万のシングルショットテキスト-ビデオペアと60億のテキスト-画像ペアを収集し、モデルを最適化しました。これにより、I2VGen-XLは生成されたビデオのセマンティックな正確性、詳細の連続性、および明瞭性を同時に向上させることができます。広範な実験を通じて、I2VGen-XLの基本原理を調査し、現在のトップメソッドと比較することで、多様なデータに対するその有効性を実証しました。ソースコードとモデルはhttps://i2vgen-xl.github.ioで公開されます。
大規模言語モデルの展開においては、「事前学習-ファインチューニング」パラダイムが一般的に採用されています。Low-Rank Adaptation(LoRA)は、パラメータ効率の良いファインチューニング手法であり、ベースモデルを多様なタスクに適応させるために頻繁に使用され、1つのベースモデルから派生した多数のLoRAアダプターが生成されます。このパラダイムは、推論時のバッチ処理に大きな機会を提供していることが観察されます。この機会を活用するために、我々はS-LoRAを提案します。S-LoRAは、多数のLoRAアダプターをスケーラブルに提供するためのシステムです。S-LoRAは、すべてのアダプターをメインメモリに保存し、現在実行中のクエリで使用されるアダプターをGPUメモリにフェッチします。GPUメモリを効率的に使用し、フラグメンテーションを減らすために、S-LoRAはUnified Pagingを提案します。Unified Pagingは、異なるランクを持つ動的なアダプター重みと、異なるシーケンス長を持つKVキャッシュテンソルを管理するために、統一されたメモリプールを使用します。さらに、S-LoRAは、新しいテンソル並列化戦略と、高度に最適化されたカスタムCUDAカーネルを採用し、LoRA計算の異種バッチ処理を実現します。これらの機能を組み合わせることで、S-LoRAは、単一のGPUまたは複数のGPU上で、数千のLoRAアダプターを小さなオーバーヘッドで提供することが可能です。HuggingFace PEFTやvLLM(LoRA提供のナイーブなサポートを含む)などの最先端のライブラリと比較して、S-LoRAはスループットを最大4倍向上させ、提供されるアダプターの数を数桁増加させることができます。その結果、S-LoRAは、多数のタスク固有のファインチューニングモデルをスケーラブルに提供し、大規模なカスタマイズされたファインチューニングサービスの可能性を提供します。
我々は、強力なオープンソースの視覚言語基盤モデルであるCogVLMを紹介します。一般的な浅いアライメント手法とは異なり、CogVLMは画像特徴を言語モデルの入力空間にマッピングするのではなく、凍結された事前学習済み言語モデルと画像エンコーダーの間のギャップを、アテンション層とFFN層における学習可能な視覚エキスパートモジュールによって橋渡しします。その結果、CogVLMはNLPタスクの性能を損なうことなく、視覚と言語の特徴を深く融合させることが可能です。CogVLM-17Bは、NoCaps、Flicker30kキャプショニング、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCといった10の古典的なクロスモーダルベンチマークで最先端の性能を達成し、VQAv2、OKVQA、TextVQA、COCOキャプショニングなどでは2位にランクインし、PaLI-X 55Bを上回るか同等の性能を示しています。コードとチェックポイントはhttps://github.com/THUDM/CogVLMで公開されています。
動的な形状計算は、現代の機械学習ワークロード、特に新興の大規模言語モデルにおいて重要な役割を果たすようになりました。これらのモデルの成功は、多様なバックエンド環境への展開需要を高めています。本論文では、エンドツーエンドの動的機械学習ワークロードを最適化するためのコンパイラ抽象化であるRelaxを紹介します。Relaxは、プログラム全体にわたって動的な形状計算を追跡するための第一級のシンボリック形状アノテーションを導入します。また、計算グラフ、ループレベルのテンソルプログラム、ライブラリ呼び出しを単一の表現にカプセル化するクロスレベル抽象化を導入し、クロスレベル最適化を可能にします。提案手法を用いて、動的形状モデルを最適化するエンドツーエンドのコンパイルフレームワークを構築しました。大規模言語モデルにおける実験結果は、Relaxがプラットフォーム間で最先端の手動最適化システムと競合する性能を発揮し、モバイル電話、組み込みデバイス、ウェブブラウザを含むより広範な環境への新興動的モデルの展開を可能にすることを示しています。
近年、クローズドソースおよびオープンソースの様々な大規模言語モデル(LLM)が提案され、複数のベンチマークで新記録を更新し続けています。しかし、LLMの開発には依然としていくつかの課題が存在します。例えば、ゼロからモデルを訓練するための高コストや、継続的な事前学習による破滅的忘却などです。これらの課題の多くはLLM研究の過程で取り組まれていますが、重要な実用的な制約として、多くの研究がモデルサイズの拡大を過度に追求し、学習プロセスにおける事前学習データの包括的な分析と最適化、およびコスト効率の良い設定下でのLLM訓練における適切なデータの組織化と活用を十分に行っていない点が挙げられます。本研究では、LLaMA2を基盤モデルとして採用し、7000億トークンでさらに事前学習を行った130億パラメータのモデルZiya2を提案します。ここでは、事前学習技術に焦点を当て、データ中心の最適化を用いてZiya2の学習プロセスを各段階で強化しました。実験の結果、Ziya2は特に代表的なオープンソースモデルと比較して有望な結果を示し、複数のベンチマークで他のモデルを大幅に上回る性能を発揮しました。Ziya2(Base)はhttps://huggingface.co/IDEA-CCNL/Ziya2-13B-Baseおよびhttps://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summaryで公開されています。
本論文では、ニューラルラジアンスフィールドを用いて、歩行可能な空間の高忠実度キャプチャ、モデル再構築、および仮想現実におけるリアルタイムレンダリングを実現するエンドツーエンドシステムを提案する。この目的のために、我々は高忠実度かつ多視点高ダイナミックレンジ(HDR)画像を前例のない品質と密度で密集的にキャプチャするための専用マルチカメラシステムを設計・構築した。インスタントニューラルグラフィックスプリミティブを拡張し、正確なHDR外観を学習するための新しい知覚色空間と、アンチエイリアシングを備えた詳細レベルレンダリングのための効率的なミップマッピング機構を導入し、品質と速度のトレードオフを慎重に最適化した。我々のマルチGPUレンダラーは、カスタムデモマシン上でデュアル2K×2KのフルVR解像度で36Hzの高忠実度ボリュームレンダリングを可能にする。我々の挑戦的な高忠実度データセットにおいて結果の品質を実証し、既存のベースラインと我々の手法およびデータセットを比較する。データセットはプロジェクトウェブサイトで公開する。
人間が書いた記事では、テキストスタイルの微妙なニュアンス、例えば太字や斜体などを活用して、読者の注意を誘導することがよくあります。これらのテキスト強調は、読者が伝えられた情報を理解する上で極めて重要です。大規模言語モデル(LLM)と対話する際にも、同様の必要性が生じます。つまり、ユーザーが指定した情報(例えば指示)にモデルがより注意を払うように導く必要があるのです。しかし、既存の手法はプレーンテキストを処理することに制限されており、そのようなメカニズムをサポートしていません。この課題を解決するため、我々はPASTA(Post-hoc Attention STeering Approach)を提案します。PASTAは、ユーザーが指定した強調マーク付きのテキストをLLMが読むことを可能にする手法です。具体的には、PASTAは少数のアテンションヘッドを特定し、それらに精密なアテンションの再重み付けを適用することで、モデルの注意をユーザー指定の部分に向けます。プロンプティングと同様に、PASTAは推論時に適用され、モデルのパラメータを変更する必要はありません。実験結果は、PASTAがLLMのユーザー指示に従う能力や、ユーザー入力から新しい知識を統合する能力を大幅に向上させ、様々なタスクで性能が大幅に改善されることを示しています。例えば、LLAMA-7Bでは平均精度が22%向上しました。我々のコードはhttps://github.com/QingruZhang/PASTAで公開されています。
潜在拡散モデルは、視覚的出力の生成と操作において最先端の技術であることが証明されています。しかし、私たちの知る限り、RGBと併せて深度マップを生成する技術はまだ限られています。本論文では、LDM3D-panoとLDM3D-SRを含む、仮想現実開発をターゲットとした拡散モデル群であるLDM3D-VRを紹介します。これらのモデルは、それぞれテキストプロンプトに基づくパノラマRGBDの生成と、低解像度入力から高解像度RGBDへのアップスケーリングを可能にします。私たちのモデルは、パノラマ/高解像度RGB画像、深度マップ、キャプションを含むデータセットで既存の事前学習済みモデルからファインチューニングされています。両モデルは、既存の関連手法と比較して評価されています。
コードLLMは、事前学習済みモデルのファインチューニングを通じてモデルのコーディング能力を向上させることに特化した研究分野として台頭してきました。従来のファインチューニング手法は、特定の下流タスクやシナリオに合わせて個別に調整されることが一般的であり、各タスクごとに別々のファインチューニングが必要で、膨大なトレーニングリソースを要し、デプロイメントやメンテナンスの面で課題を抱えていました。さらに、これらの手法は、異なるコード関連タスク間の内在的な相互関連性を活用することに失敗していました。これらの制限を克服するため、我々は複数のタスクを同時並行でファインチューニング可能なマルチタスクファインチューニングフレームワーク、MFTcoderを提案します。様々な損失関数を組み込むことで、データの不均衡、難易度のばらつき、収束速度の不一致といったマルチタスク学習における共通の課題を効果的に解決します。大規模な実験により、我々のマルチタスクファインチューニング手法が、単一タスクでの個別ファインチューニングや、タスクの混合アンサンブルでのファインチューニングを上回ることが確かめられました。さらに、MFTcoderは、効率的なデータトークン化モードやPEFTファインチューニングを含む効率的なトレーニング機能を提供し、従来のファインチューニング手法と比較して大幅な速度向上を実現しています。MFTcoderは、CodeLLamaやQwenなど、いくつかの主流のオープンソースLLMとシームレスに統合されます。CodeLLama基盤を活用した我々のMFTcoderファインチューニングモデル、CodeFuse-CodeLLama-34Bは、HumaneEvalベンチマークで74.4%のpass@1スコアを達成し、GPT-4の性能(67%、ゼロショット)を上回りました。MFTCoderはhttps://github.com/codefuse-ai/MFTCOderでオープンソース化されています。
人間の驚くべき能力の一つに、合成的推論、すなわち「有限の手段を無限に活用する」能力が存在する。しかし、現在の大規模視覚言語基盤モデル(VLMs)は、その「単語の袋」的な振る舞いや、視覚的実体とそれらの関係を正しく表現する単語を構築できないため、このような合成的能力に欠けている。そこで我々は、CoVLMを提案する。CoVLMは、LLM(大規模言語モデル)を導いて視覚的実体とそれらの関係を明示的にテキスト内で構成し、視覚エンコーダーと検出ネットワークと動的に通信することで、視覚言語的デコードを実現する。具体的には、まず、視覚検出システムと言語システム間の動的通信のための一連の新規な通信トークンをLLM用に考案する。通信トークンは、視覚的実体や関係に続いてLLMによって生成され、検出ネットワークに対して、これまでに生成された文に関連する領域を提案するよう通知する。提案された関心領域(ROIs)は、その後、関連する領域に基づいたより良い言語生成のためにLLMにフィードバックされる。これにより、LLMは通信トークンを介して視覚的実体と関係を構成することが可能となる。視覚から言語への通信と言語から視覚への通信は、文全体が生成されるまで繰り返し行われる。我々のフレームワークは、視覚的知覚とLLMの間のギャップをシームレスに埋め、合成的推論ベンチマークにおいて従来のVLMsを大幅に上回る性能を発揮する(例:HICO-DET mAPで約20%、Cola top-1精度で約14%、ARO top-1精度で約3%の向上)。また、参照表現理解や視覚的質問応答などの従来の視覚言語タスクにおいても、最先端の性能を達成している。
知識蒸留(KD)は、計算コストが高い事前学習済み言語モデル(PLM)の知識をより小さなモデルに転送することで、リソースが制約された環境やリアルタイム設定での使用を可能にします。しかし、ほとんどの小さなモデルは、元の大きなモデルの性能を超えることができず、推論速度を向上させるために性能を犠牲にする結果となっています。この問題に対処するため、我々はCo-Training and Co-Distillation(CTCD)という新しいフレームワークを提案します。このフレームワークは、2つのモデルを共同で訓練しながら相互に知識を蒸留することで、性能と推論速度を同時に向上させます。CTCDフレームワークは、以下の2つの重要な発見に基づいてこれを成功させています:1)共同訓練中に小さなモデルから大きなモデルに知識を蒸留することで、大きなモデルの性能が向上します。2)大きなモデルの性能が向上することで、さらに小さなモデルの性能が向上します。CTCDフレームワークは、アーキテクチャ設計やデータ拡張などの既存の技術と組み合わせて、一方向のKD手法を置き換えることで、さらなる性能向上を達成できる可能性を示しています。広範なアブレーション研究により、CTCDの有効性が実証され、CTCDによって蒸留された小さなモデルは、GLUEベンチマークにおいて元の大きなモデルを1.66ポイントという大きな差で上回りました。
本論文では、未校正の単眼ビデオから4Dダイナミックオブジェクトを生成する新しいアプローチであるConsistent4Dを提案する。我々は、360度のダイナミックオブジェクト再構築を4D生成問題として定式化し、煩雑なマルチビューデータ収集やカメラ校正の必要性を排除する。これは、オブジェクトレベルの3D認識画像拡散モデルをDynamic Neural Radiance Fields(DyNeRF)の主要な教師信号として活用することで実現される。具体的には、時間軸に沿って離散的な教師信号の下で安定した収束と時間的連続性を促進するために、Cascade DyNeRFを提案する。空間的および時間的一貫性を達成するために、さらにInterpolation-driven Consistency Lossを導入する。これは、DyNeRFからレンダリングされたフレームと事前学習済みのビデオ補間モデルから補間されたフレームとの不一致を最小化することで最適化される。大規模な実験により、Consistent4Dが従来の手法と競争力のある性能を発揮し、単眼ビデオからの4Dダイナミックオブジェクト生成の新たな可能性を開拓するとともに、従来のテキストから3D生成タスクにおいても優位性を示すことが確認された。プロジェクトページはhttps://consistent4d.github.io/である。
大規模言語モデル(LM)は、質問応答を支援するための自由形式の根拠を生成することが可能です。しかし、従来の研究では、1)有用な自己説明能力は大規模なモデル(例えば、1750億パラメータのGPT-3)でのみ発現する可能性が示唆されており、2)下流タスクのパフォーマンスに焦点が当てられており、根拠自体の意味論(例えば、それらが忠実で真実であり、人間にとって役立つかどうか)は無視されてきました。本研究では、GPT-3の約200分の1の規模の小規模LMが、下流タスクのパフォーマンスを向上させるだけでなく、自動評価と人間評価の両方において、より妥当性が高く、一貫性があり、多様な根拠を生成できるようにしました。私たちの手法であるMaRio(Multi-rewArd RatIOnalization)は、妥当性、多様性、一貫性といった複数の異なる特性を最適化する多報酬条件付き自己説明アルゴリズムです。StrategyQA、QuaRel、OpenBookQA、NumerSense、QASCという5つの難しい質問応答データセットでの結果は、MaRioがタスクの精度を向上させるだけでなく、教師ありファインチューニング(SFT)ベースラインよりも、前述の軸において小規模LMの自己説明品質を向上させることを示しています。大規模な人間評価により、MaRioの根拠がSFTの根拠よりも好まれること、および妥当性と一貫性の質的改善が確認されました。
本論文では、シンプルな自己教師あり事前学習オーディオモデルが、より複雑な事前学習モデルと同等の推論効率を達成できることを示す。これらの複雑なモデルは、畳み込みモジュールと自己注意モジュールを組み合わせた音声トランスフォーマーエンコーダーを採用しており、ASR(自動音声認識)において最高の効率で最先端の性能を達成している。まず、これらの音声トランスフォーマーをエンコーダーとして使用することで、事前学習オーディオモデルの効率も大幅に向上することを示す。しかし、我々の研究では、高度な自己注意機構のみを用いても同等の効率を達成できることを明らかにした。このシンプルなアプローチは、ニューラルネットワークの低ビット重み量子化技術と組み合わせることで特に有効であり、効率の向上に寄与することを実証する。我々は、量子化された畳み込みモジュールと量子化された自己注意モジュールを混合する最近の音声トランスフォーマーと比較して、異なる量子化モジュール間の誤差伝播を防ぐ効果があると仮説を立てている。
長いシーケンスで学習されたTransformerモデルは、短いシーケンスよりも高い精度を達成することが多い。しかし、従来のTransformerは、膨大な計算量とメモリ要件のため、長いシーケンスの学習に苦戦している。既存の長いシーケンス学習手法は、速度向上とメモリ削減が限定的であり、精度を犠牲にする可能性がある。本論文では、長いシーケンスでTransformerを学習するための新規で効率的な分散学習手法、Long Short-Sequence Transformer(LSS Transformer)を提案する。この手法は、長いシーケンスをGPU間でセグメントに分割し、各GPUがそのセグメントの部分的な自己注意を計算する。その後、融合通信と新規の二重勾配平均化技術を使用して、部分的な自己注意を集約する必要性を回避し、通信オーバーヘッドを最小化する。我々は、LSS Transformerと最先端のNvidiaシーケンス並列処理をWikipedia enwik8データセットで比較評価した。結果は、144台のNvidia V100 GPU上で、提案手法が最先端のシーケンス並列処理と比較して5.6倍の速度と10.2倍のメモリ効率を実現することを示している。さらに、我々のアルゴリズムは3,456台のGPUで50,112という極端なシーケンス長にスケールし、161%の超線形並列効率と32ペタフロップスのスループットを達成した。