翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)を大規模なテキストデータコーパスで事前学習させることは、現在では標準的なパラダイムとなっています。これらのLLMを多くの下流タスクに適用する際には、RAGベースのプロンプティングやファインチューニングを通じて、新たな知識(例:時事ニュースやプライベートなドメイン知識)を事前学習済みモデルに追加することが一般的です。しかし、モデルがそのような新たな知識を獲得するための最適な方法論は、依然として未解決の問題です。本論文では、Retrieval Augmented FineTuning(RAFT)を紹介します。これは、モデルが「オープンブック」形式のドメイン内設定で質問に答える能力を向上させるトレーニング手法です。RAFTでは、質問と一連の検索された文書が与えられた場合、モデルに質問の回答に役立たない文書(これを「ディストラクター文書」と呼びます)を無視するように訓練します。RAFTは、質問に答えるために役立つ関連文書から正確なシーケンスを引用することでこれを実現します。これに加えて、RAFTのチェーン・オブ・シンクスタイルの応答が、モデルの推論能力を向上させるのに役立ちます。ドメイン固有のRAGにおいて、RAFTはPubMed、HotpotQA、Gorillaデータセット全体でモデルの性能を一貫して向上させ、事前学習済みLLMをドメイン内RAGに適応させるためのポストトレーニング手法を提供します。RAFTのコードとデモはgithub.com/ShishirPatil/gorillaでオープンソース化されています。
科学研究とその応用において、科学文献の分析は極めて重要であり、研究者が他者の研究を基に進めることを可能にします。しかし、科学知識の急速な拡大により、学術論文の数が膨大に増加し、深い文献分析はますます困難で時間のかかる作業となっています。大規模言語モデル(LLMs)の登場は、この課題に対処する新たな方法を提供しました。テキストの要約において強力な能力を持つLLMsは、科学文献の分析を改善する潜在的なツールとして注目されています。しかし、既存のLLMsには限界があります。科学文献には、分子構造、表、図表など多様なマルチモーダル要素が含まれることが多く、テキストに焦点を当てたLLMsではこれらを理解し分析することが困難です。この問題は、科学文献中のマルチモーダルコンテンツを完全に理解し分析するための新たな解決策が緊急に必要とされていることを示しています。この需要に応えるため、我々はUni-SMART(Universal Science Multimodal Analysis and Research Transformer)を提案します。これは、マルチモーダル科学文献の深い理解のために設計された革新的なモデルです。複数の分野にわたる厳密な定量的評価を通じて、Uni-SMARTは主要なテキスト中心のLLMsを上回る優れた性能を示しています。さらに、我々の探求は、特許侵害検出や図表の微妙な分析といった実用的な応用にも及びます。これらの応用は、Uni-SMARTの適応性だけでなく、科学文献との相互作用の方法を革新する可能性をも示しています。
長時間動画理解は、コンピュータビジョンにおける重要な課題であり、長いマルチモーダルシーケンスを推論できるモデルを必要とします。人間の長時間動画理解における認知プロセスに着想を得て、私たちは長い視覚入力を処理する能力よりも、インタラクティブな推論と計画に重点を置いています。本論文では、大規模言語モデルを中心エージェントとして活用し、質問に答えるために重要な情報を反復的に特定・収集する新しいエージェントベースのシステム「VideoAgent」を提案します。このシステムでは、視覚言語基盤モデルが視覚情報を翻訳・検索するツールとして機能します。EgoSchemaとNExT-QAという難易度の高いベンチマークで評価を行った結果、VideoAgentはそれぞれ54.1%と71.3%のゼロショット精度を達成し、平均で8.4フレームと8.2フレームしか使用しませんでした。これらの結果は、私たちの手法が現在の最先端手法を上回る有効性と効率性を示しており、エージェントベースのアプローチが長時間動画理解を進化させる可能性を強調しています。
大規模言語モデルのアライメントは通常、モデル提供者によって行われ、ユースケースや文脈を超えて一般的または普遍的に理解される振る舞いを追加または制御することを目的としています。これに対して、本記事では、アプリケーション開発者が特定の価値観、社会的規範、法律やその他の規制に合わせてモデルを調整し、文脈内で潜在的に矛盾する要件を調整することを可能にするアプローチとアーキテクチャを提案します。このアライメントスタジオアーキテクチャの主要な3つのコンポーネント、すなわちFramer、Instructor、Auditorを紹介し、これらが連携して言語モデルの振る舞いを制御する仕組みを説明します。このアプローチを、企業の内部向けエンタープライズチャットボットをそのビジネス行動ガイドラインに合わせて調整する例を通じて具体的に示します。
本論文では、大規模言語モデルの推論効率を向上させることを目的とした、改良版の推測的デコード手法を提案する。我々の手法は、古典的な二モデル推測的デコードアプローチと、より最近の単一モデルアプローチであるMedusaという2つの確立された技術の長所を活用している。Medusaから着想を得て、我々のアプローチは単一モデル戦略を推測的デコードに採用している。しかし、我々の手法は、古典的な推測的デコードで使用される小さなドラフトモデルと本質的に類似した、再帰的依存関係設計を持つ単一の軽量ドラフトヘッドを使用する点で特徴的であり、完全なトランスフォーマーアーキテクチャの複雑さを伴わない。また、再帰的依存関係により、ビームサーチを使用してドラフトヘッドで不要な候補を迅速にフィルタリングすることが可能である。その結果、単一モデル設計の簡潔さを維持しつつ、Medusaで推論専用にデータ依存のツリーアテンション構造を作成する必要性を回避する手法が得られる。我々は、いくつかの人気のあるオープンソース言語モデルにおいて、提案手法の有効性を実証し、このアプローチを採用する際のトレードオフに関する包括的な分析を行う。
拡散モデルに基づく音声・音楽生成モデルでは、一般的にオーディオの画像表現(例えばメルスペクトログラム)を構築し、それを位相再構成モデルやボコーダを用いてオーディオに変換することで音楽を生成します。しかし、従来のボコーダは低解像度(例:16-24kHz)のモノラルオーディオしか生成できないため、その効果が制限されていました。本研究では、MusicHiFiという効率的な高忠実度ステレオボコーダを提案します。本手法では、低解像度のメルスペクトログラムをオーディオに変換し、帯域拡張によって高解像度オーディオにアップサンプリングし、ステレオオーディオにアップミックスするための3段階の生成的敵対ネットワーク(GAN)カスケードを採用しています。従来の研究と比較して、1)各段階における統一的なGANベースのジェネレータとディスクリミネータのアーキテクチャおよび学習手順、2)高速でダウンサンプリング互換性に近い新しい帯域拡張モジュール、3)出力においてモノラルコンテンツの保存を保証する高速なダウンミックス互換モノラル・ツー・ステレオアップミキサーを提案しています。本手法を客観的および主観的なリスニングテストで評価した結果、従来の研究と比較して同等または優れた音質、優れた空間化制御、および大幅に高速な推論速度が得られることがわかりました。音声サンプルはhttps://MusicHiFi.github.io/web/で公開しています。
単一視点画像からの詳細な3Dオブジェクトの再構築は、利用可能な情報が限られているため、依然として困難な課題である。本論文では、単一画像からの3D再構築のための新しい二段階フレームワークであるFDGaussianを紹介する。最近の手法では、事前学習済みの2D拡散モデルを利用して入力画像から妥当な新規視点を生成することが一般的であるが、それらは多視点の不整合や幾何学的忠実度の欠如といった問題に直面している。これらの課題を克服するために、我々は2D入力から3D幾何学的特徴を抽出するための直交平面分解メカニズムを提案し、一貫した多視点画像の生成を可能にする。さらに、エピポーラ注意を組み込んだ最新のガウススプラッティングを加速し、異なる視点からの画像を融合する。FDGaussianが異なる視点間で高い一貫性を持つ画像を生成し、質的および量的に高品質な3Dオブジェクトを再構築することを実証する。より多くの例はウェブサイトhttps://qjfeng.net/FDGaussian/で確認できる。
軽量モデル開発におけるこれまでの取り組みは主にCNNとTransformerベースの設計に焦点を当ててきたが、依然として課題が残っている。CNNは局所的特徴抽出に優れているが解像度を犠牲にし、Transformerはグローバルな範囲を提供するが計算量がO(N^2)と増大する。この精度と効率性の間のトレードオフは、依然として大きな障壁となっている。最近、Mambaなどの状態空間モデル(SSM)が、言語モデリングやコンピュータビジョンなどのさまざまなタスクで優れた性能と競争力を示し、グローバル情報抽出の時間計算量をO(N)に削減している。これに触発され、本研究では、軽量モデル設計における視覚状態空間モデルの可能性を探り、EfficientVMambaと呼ばれる新しい効率的なモデルバリアントを提案する。具体的には、EfficientVMambaは、効率的なスキップサンプリングによるatrousベースの選択的スキャンアプローチを統合し、グローバルおよび局所的な表現的特徴を活用するように設計されたビルディングブロックを構成する。さらに、SSMブロックと畳み込みの統合を調査し、追加の畳み込みブランチと組み合わせた効率的な視覚状態空間ブロックを導入し、モデルの性能をさらに向上させる。実験結果は、EfficientVMambaが計算複雑性を削減しながら、さまざまな視覚タスクで競争力のある結果を生み出すことを示している。例えば、1.3G FLOPsのEfficientVMamba-Sは、1.5G FLOPsのVim-TiをImageNetで5.6%の精度で大幅に改善する。コードはhttps://github.com/TerryPei/EfficientVMambaで公開されている。
事前学習済みの2D拡散モデルの利用可能性が高まっていることを受け、スコア蒸留サンプリング(SDS)を活用した画像から3Dへの生成が著しい進歩を遂げています。既存の手法の多くは、参照画像を条件として取り入れる2D拡散モデルからの新規視点リフティングを組み合わせつつ、参照視点において厳密なL2画像監視を適用しています。しかし、画像に過度に依存すると、2D拡散モデルの帰納的知識が損なわれ、平坦または歪んだ3D生成が頻繁に発生する傾向があります。本研究では、画像から3Dへの生成を新たな視点で再検討し、画像CLIP埋め込みのみを入力とするIsotropic3Dという画像から3Dへの生成パイプラインを提案します。Isotropic3Dは、SDS損失のみに依存することで、方位角に対して等方的な最適化を可能にします。私たちのフレームワークの中核は、2段階の拡散モデルのファインチューニングにあります。まず、テキストエンコーダを画像エンコーダに置き換えることで、テキストから3Dへの拡散モデルをファインチューニングし、モデルが画像から画像への能力を予備的に獲得します。次に、ノイズの多いマルチビュー画像とノイズフリーの参照画像を明示的な条件として組み合わせたExplicit Multi-view Attention(EMA)を使用してファインチューニングを行います。CLIP埋め込みはファインチューニング後も拡散モデルに送信されますが、参照画像はファインチューニング後に破棄されます。その結果、単一の画像CLIP埋め込みを用いて、Isotropic3Dは相互に一貫したマルチビュー画像と、より対称的で整った内容、均整の取れたジオメトリ、豊かな色のテクスチャ、そして歪みの少ない3Dモデルを生成することが可能です。これにより、既存の画像から3Dへの手法と比較して、参照画像との類似性を大幅に保ちつつ、より高品質な3D生成を実現します。プロジェクトページはhttps://isotropic3d.github.io/で、コードとモデルはhttps://github.com/pkunliu/Isotropic3Dで公開されています。
テキストから3Dおよび画像から3D生成タスクは大きな注目を集めてきたが、その間に位置する重要なものの未開拓の分野として、制御可能なテキストから3D生成が挙げられる。本論文ではこのタスクに焦点を当てる。1) 本論文では、既存の事前学習済み多視点拡散モデルを強化するために、エッジ、深度、法線、スケッチマップなどの追加入力条件を統合する新しいニューラルネットワークアーキテクチャであるMulti-view ControlNet (MVControl)を提案する。我々の革新は、入力条件画像とカメラポーズから計算されるローカルおよびグローバル埋め込みを用いて基本拡散モデルを制御する条件付けモジュールの導入にある。一度学習されると、MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。2) 我々は、最近の大規模再構成モデルとスコア蒸留アルゴリズムの利点を活用する効率的な多段階3D生成パイプラインを提案する。MVControlアーキテクチャを基盤として、最適化プロセスを導くための独自のハイブリッド拡散ガイダンス手法を採用する。効率性を追求するため、一般的に使用される暗黙的表現ではなく、3Dガウシアンを表現として採用する。また、ガウシアンをメッシュ三角形面にバインドするハイブリッド表現であるSuGaRの使用を先駆的に導入する。このアプローチは、3Dガウシアンの幾何学的な問題を緩和し、メッシュ上での微細な幾何学の直接的な彫刻を可能にする。広範な実験により、我々の手法が堅牢な汎化を達成し、高品質な3Dコンテンツの制御可能な生成を実現することが示された。
リアルタイム高精度オプティカルフロー推定は、ロボティクスにおける位置推定とマッピング、物体追跡、コンピュータビジョンにおける行動認識など、様々なアプリケーションにおいて重要な要素です。近年の学習ベースのオプティカルフロー手法は高い精度を達成していますが、しばしば重い計算コストを伴います。本論文では、高精度と計算コストの両方の課題に対処する、非常に効率的なオプティカルフローアーキテクチャ「NeuFlow」を提案します。このアーキテクチャは、グローバルからローカルへのスキームに従います。異なる空間解像度で抽出された入力画像の特徴を基に、1/16解像度で大規模な変位を捉える初期オプティカルフローを推定するためにグローバルマッチングが採用され、その後、1/8解像度で軽量なCNN層を用いて精度を向上させます。我々は、Jetson Orin NanoとRTX 2080でこのアプローチを評価し、異なる計算プラットフォームでの効率改善を示します。いくつかの最先端手法と比較して、10倍から80倍の速度向上を達成しつつ、同等の精度を維持します。我々のアプローチは、エッジコンピューティングプラットフォームで約30 FPSを達成し、ドローンなどの小型ロボットでのSLAMのような複雑なコンピュータビジョンタスクの展開において重要なブレークスルーを表します。完全なトレーニングと評価コードはhttps://github.com/neufieldrobotics/NeuFlowで公開されています。