翻訳付きの日次キュレーションされたAI研究論文
検索拡張型言語モデルは、世界の状態の変化に適応し、ロングテールの知識を取り込むことが可能です。しかし、既存の手法の多くは、検索コーパスから短い連続したチャンクのみを取得するため、文書全体の文脈を包括的に理解することが制限されています。本研究では、テキストのチャンクを再帰的に埋め込み、クラスタリングし、要約することで、下位から上位へと異なるレベルの要約を含むツリーを構築する新しいアプローチを提案します。推論時には、RAPTORモデルがこのツリーから検索を行い、長文書にわたる情報を異なる抽象度で統合します。制御実験により、再帰的要約を用いた検索が、従来の検索拡張型言語モデルに比べて複数のタスクで大幅な改善をもたらすことが示されています。複雑で多段階の推論を必要とする質問応答タスクでは、最先端の結果を示しています。例えば、RAPTORの検索をGPT-4の使用と組み合わせることで、QuALITYベンチマークにおける最高性能を絶対精度で20%向上させることができます。
ニューラル大規模言語モデル(LLM)の時代において、n-gram言語モデルはまだ関連性があるのか?私たちの答えは「イエス」であり、テキスト分析とニューラルLLMの改善におけるその価値を示します。ただし、これにはn-gramモデルを2つの側面で近代化する必要があります。まず、ニューラルLLMと同じデータ規模(1.4兆トークン)で学習を行います。これはこれまでに構築された最大のn-gramモデルです。次に、既存のn-gramモデルは小さなnを使用しており、性能が制限されています。代わりに、新しいinfty-gram LMとバックオフを導入することで、nを任意に大きくすることを可能にします。n-gramカウントテーブルを事前計算する(非常に高コストになる)代わりに、サフィックスアレイを活用したinfini-gramエンジンを開発し、ミリ秒レベルの遅延でinfty-gram(および任意のnのn-gram)確率を計算できるようにします。infty-gramフレームワークとinfini-gramエンジンにより、人間が書いたテキストと機械生成テキストの多くの新規で興味深い分析が可能になります。infty-gram LMは次のトークン予測においてかなり高い精度(47%)を示し、ニューラルLLMを補完してその言語モデルのパープレキシティを大幅に低減できることがわかりました。機械生成テキストを分析する際には、サフィックス長に対する機械とinfty-gramの一致レベルに不規則性が観察され、ニューラルLLMの事前学習とTransformerの位置埋め込みの欠陥を示唆しています。私たちはinfini-gramエンジンをオープンソース化し、大規模テキストコーパスから取得した逐語的情報を最適に活用する方法についてのさらなる研究を促進することを期待しています。
障害物が散在する環境を移動する脚式ロボットは、効率的なタスク実行のために俊敏であると同時に、障害物や人間との衝突を避けるために安全でなければなりません。既存の研究では、安全性を確保するために保守的な制御器(< 1.0 m/s)を開発するか、致命的な衝突を考慮せずに俊敏性に焦点を当てています。本論文では、四足ロボットのための俊敏かつ衝突のない移動を可能にする学習ベースの制御フレームワーク「Agile But Safe(ABS)」を紹介します。ABSは、障害物の中で俊敏なモータースキルを実行するための俊敏なポリシーと、失敗を防ぐためのリカバリーポリシーを含み、高速かつ衝突のないナビゲーションを共同で実現します。ABSにおけるポリシーの切り替えは、学習された制御理論的なリーチ・アボイド価値ネットワークによって制御され、このネットワークはリカバリーポリシーの目的関数としても機能し、ロボットを閉ループで保護します。トレーニングプロセスでは、シミュレーション内で俊敏なポリシー、リーチ・アボイド価値ネットワーク、リカバリーポリシー、および外部知覚表現ネットワークの学習が行われます。これらのトレーニングされたモジュールは、オンボードセンシングと計算を用いて現実世界に直接展開でき、静的な障害物と動的な障害物が混在する狭い屋内および屋外空間での高速かつ衝突のないナビゲーションを実現します。
ビデオ拡散モデルは、一貫性があり高精細な動画を生成する能力から、近年注目を集めています。しかし、反復的なノイズ除去プロセスは計算量が多く時間がかかるため、その応用が制限されています。本研究では、事前学習済みの画像拡散モデルを蒸留して最小限のステップでサンプリングを加速するConsistency Model (CM)と、条件付き画像生成におけるその成功例であるLatent Consistency Model (LCM)に着想を得て、最小ステップで高精細な動画生成を可能にするAnimateLCMを提案します。生のビデオデータセットに対して直接一貫性学習を行うのではなく、画像生成の事前知識と動き生成の事前知識を分離したデカップリング一貫性学習戦略を提案し、これにより学習効率を向上させ、生成される視覚的品質を高めます。さらに、Stable Diffusionコミュニティで使用されているプラグアンドプレイアダプター(例:ControlNetによる制御可能な生成)を組み合わせるために、既存のアダプターを蒸留されたテキスト条件付きビデオ一貫性モデルに適応させる効率的な戦略、またはサンプリング速度を損なうことなくアダプターをゼロから学習する戦略を提案します。提案手法を画像条件付き動画生成とレイアウト条件付き動画生成で検証し、いずれもトップクラスの結果を達成しました。実験結果は、提案手法の有効性を裏付けています。コードと重みは公開予定です。詳細はhttps://github.com/G-U-N/AnimateLCMでご覧いただけます。
大規模言語モデルを長文脈に効果的に対応させるためには、同程度の長さの入力シーケンスに対する指示ファインチューニングが必要です。これを実現するため、我々はLongAlignを提案します。これは、長文脈アライメントのための指示データ、トレーニング、評価のレシピです。まず、Self-Instructを用いて長文指示追従データセットを構築します。データの多様性を確保するため、様々な長文脈ソースからの幅広いタスクをカバーしています。次に、パッキングとソートバッチ戦略を採用し、長さの異なるデータに対する教師ありファインチューニングを高速化します。さらに、パッキングトレーニング中に異なるシーケンスの損失への寄与をバランスさせるための損失重み付け手法を開発しました。第三に、10k-100kの長さのクエリに対する指示追従能力を評価するためのLongBench-Chatベンチマークを導入します。実験結果は、LongAlignが長文脈タスクにおいて既存のLLMレシピを最大30%上回りながら、短い汎用タスクの処理能力も維持することを示しています。コード、データ、および長文脈アライメントされたモデルはhttps://github.com/THUDM/LongAlignで公開されています。
人間の期待に沿った忠実な推論を実現するためには、大規模言語モデル(LLM)が現実世界の知識(例:ウェブ上の事実、数学的・物理的規則)に基づいて推論を行う必要があります。ツールはLLMがこの外部知識にアクセスするのを助けますが、多段階推論問題においてツールを呼び出すためのLLMエージェント(例:Toolformer)の微調整には依然として課題が残っています。特に、相互に関連するツール呼び出しでは、包括的かつ効率的なツール使用計画が必要となります。 本研究では、LLMが多段階推論においてツールをより効果的に活用するための新しい手法を提案します。私たちの手法である「抽象化の連鎖(Chain-of-Abstraction, CoA)」は、LLMにまず抽象的なプレースホルダーを含む推論連鎖をデコードさせ、その後、ドメイン固有のツールを呼び出して具体的な知識を埋めることで各推論連鎖を具体化するように訓練します。この抽象化された連鎖を用いた計画により、LLMはより一般的な推論戦略を学習することができ、異なる推論問題に関連するドメイン知識(例:数学的結果)の変化に対して頑健です。また、LLMが外部ツールのデコードと呼び出しを並列に行うことを可能にし、ツールの応答を待つことによる推論の遅延を回避します。数学的推論およびWiki QAドメインにおいて、私たちの手法は、分布内および分布外のテストセットにおいて、従来の連鎖的思考(chain-of-thought)やツール拡張ベースラインを一貫して上回り、平均で約6%の絶対的なQA精度向上を示しました。私たちの手法で訓練されたLLMエージェントは、ツールの使用がより効率的であり、推論速度がベースラインのツール拡張LLMと比べて平均で約1.4倍高速でした。
3Dモデルの生成はコンピュータグラフィックスの核心をなすものであり、数十年にわたる研究の焦点となってきました。先進的なニューラル表現と生成モデルの登場により、3Dコンテンツ生成の分野は急速に発展し、ますます高品質で多様な3Dモデルの作成が可能になっています。この分野の急速な成長により、最新の進展をすべて把握することは困難です。本調査では、3D生成手法の基本的な方法論を紹介し、3D表現、生成手法、データセット、および対応するアプリケーションを含む体系的なロードマップを確立することを目指します。具体的には、3D生成の基盤となる3D表現を紹介します。さらに、フィードフォワード生成、最適化ベースの生成、手続き型生成、生成的新規視点合成など、アルゴリズムのパラダイムの種類に基づいて分類された生成手法に関する急速に増加する文献の包括的な概要を提供します。最後に、利用可能なデータセット、アプリケーション、および未解決の課題について議論します。本調査が読者がこのエキサイティングなトピックを探求し、3Dコンテンツ生成の分野におけるさらなる進展を促進する一助となることを願っています。
大規模言語モデル(LLM)の急速な進化は、GPT-4のようなアーキテクチャに代表され、自然言語処理の分野を大きく変貌させてきました。本論文では、LLMの事前学習に関連する効率性の問題に対処するための画期的なアプローチを紹介し、クロスアーキテクチャ転送のための知識蒸留の利用を提案します。効率的なHyenaメカニズムからの洞察を活用し、我々の手法はトランスフォーマーモデルのアテンションヘッドをHyenaに置き換えることで、従来の事前学習に比べてコスト効率の良い代替手段を提供し、二次的なアテンションメカニズムに内在する長い文脈情報の処理という課題に取り組みます。従来の圧縮に焦点を当てた手法とは異なり、我々の技術は推論速度を向上させるだけでなく、精度と効率の両面で事前学習を凌駕します。進化し続けるLLMの時代において、我々の研究は計算能力と環境影響のバランスを取りながら、持続可能なAIソリューションの追求に貢献します。
現実的なビデオシミュレーションは、仮想現実から映画制作まで、多様なアプリケーションにおいて大きな可能性を示しています。これは特に、実世界の設定でビデオを撮影することが非現実的または高コストであるシナリオにおいて顕著です。既存のビデオシミュレーション手法では、照明環境を正確にモデル化したり、物体の幾何学を表現したり、高いフォトリアリズムを達成したりすることがしばしば困難です。本論文では、物理的なリアリズムを強く重視し、既存の動的ビデオに任意のオブジェクトをシームレスに挿入するための新しい汎用フレームワーク「Anything in Any Scene」を提案します。提案する汎用フレームワークは、以下の3つの主要なプロセスを包含します:1) 幾何学的なリアリズムを確保するために、与えられたシーンビデオに現実的なオブジェクトを適切に配置して統合する;2) 空と環境照明の分布を推定し、現実的な影をシミュレートして照明のリアリズムを高める;3) 最終的なビデオ出力を洗練させてフォトリアリズムを最大化するスタイル転送ネットワークを採用する。実験的に、Anything in Any Sceneフレームワークが、優れた幾何学的リアリズム、照明リアリズム、フォトリアリズムを備えたシミュレーションビデオを生成することを実証します。ビデオデータ生成に関連する課題を大幅に軽減することで、本フレームワークは高品質なビデオを効率的かつコスト効果的に取得するためのソリューションを提供します。さらに、その応用範囲はビデオデータ拡張をはるかに超え、仮想現実、ビデオ編集、およびその他のビデオ中心のアプリケーションにおいて有望な可能性を示しています。プロジェクトコードや高解像度のビデオ結果にアクセスするためには、プロジェクトウェブサイトhttps://anythinginanyscene.github.ioをご確認ください。
私たちは、ReplaceAnything3Dモデル(RAM3D)を紹介します。これは、シーン内の特定のオブジェクトを置き換えることを可能にする、新しいテキストガイド型の3Dシーン編集手法です。シーンの多視点画像、置き換えるオブジェクトを説明するテキストプロンプト、および新しいオブジェクトを説明するテキストプロンプトが与えられると、私たちのErase-and-Replaceアプローチは、シーン内のオブジェクトを新しく生成されたコンテンツと効果的に交換しつつ、複数の視点間で3D一貫性を維持します。ReplaceAnything3Dの汎用性を、さまざまな現実的な3Dシーンに適用することで実証し、変更された前景オブジェクトがシーンの他の部分とよく統合され、全体の整合性に影響を与えない結果を示します。
我々はCARFF(Conditional Auto-encoded Radiance Field for 3D Scene Forecasting)を提案する。これは、2Dのエゴセントリック画像のような過去の観測から未来の3Dシーンを予測する手法である。本手法では、確率的エンコーダを用いて画像を可能な3D潜在シーン構成の分布にマッピングし、仮定されたシーンの時間的進化を予測する。我々の潜在シーン表現は、グローバルなNeural Radiance Field(NeRF)を条件付け、3Dシーンモデルを表現する。これにより、説明可能な予測と直感的な下流アプリケーションが可能となる。このアプローチは、環境状態とダイナミクスの不確実性を考慮することで、従来のニューラルレンダリングの研究を拡張するものである。我々は、Pose-Conditional-VAEとNeRFの2段階のトレーニングを用いて3D表現を学習する。さらに、部分観測マルコフ決定過程として潜在シーン表現を自己回帰的に予測するために、混合密度ネットワークを活用する。我々は、CARLA運転シミュレータを用いた現実的なシナリオで本手法の有用性を実証し、視覚的オクルージョンを伴う複雑なマルチエージェント自動運転シナリオにおいて、CARFFが効率的な軌道計画と緊急時計画を可能にすることを示す。