翻訳付きの日次キュレーションされたAI研究論文
音声生成は、音声、音楽、サウンドエフェクトなど、異なる種類の音声に共通点があるものの、それぞれのタイプに対するモデル設計には、他のタイプとは大きく異なる特定の目的やバイアスを慎重に考慮する必要があります。本論文では、音声生成の統一的な視点に近づくため、音声、音楽、サウンドエフェクトの生成に同じ学習方法を利用するフレームワークを提案します。提案するフレームワークでは、音声の一般的な表現として「音声の言語(Language of Audio, LOA)」を導入します。任意の音声は、自己教師あり事前学習済みの表現学習モデルであるAudioMAEに基づいてLOAに変換されます。生成プロセスでは、GPT-2モデルを使用して任意のモダリティをLOAに変換し、LOAを条件とした潜在拡散モデルを用いて自己教師あり音声生成学習を行います。提案フレームワークは、コンテキスト内学習能力や、再利用可能な自己教師あり事前学習済みAudioMAEおよび潜在拡散モデルといった利点を自然にもたらします。テキストから音声、テキストから音楽、テキストから音声への主要なベンチマークでの実験では、従来のアプローチに対して新たな最先端または競争力のある性能を示しています。デモとコードはhttps://audioldm.github.io/audioldm2で公開されています。
人間の意図に沿ってモデルを動作させることを指す「アラインメント」の確保[1,2]は、大規模言語モデル(LLM)を実世界のアプリケーションに展開する前の重要な課題となっている。例えば、OpenAIはGPT-4のリリース前に6ヶ月をかけて反復的にアラインメントを行った[3]。しかし、実務者にとって大きな課題は、LLMの出力が社会的規範、価値観、規制に沿っているかどうかを評価するための明確なガイダンスが不足していることである。この障壁は、LLMの体系的な反復と展開を妨げている。この問題に対処するため、本論文では、LLMの信頼性を評価する際に考慮すべき重要な次元に関する包括的な調査を提示する。この調査は、LLMの信頼性に関する7つの主要カテゴリをカバーしている:信頼性、安全性、公平性、誤用への耐性、説明可能性と推論、社会的規範への準拠、堅牢性である。各主要カテゴリはさらにいくつかのサブカテゴリに分割され、合計29のサブカテゴリが得られる。さらに、8つのサブカテゴリが選ばれ、それらに対応する測定研究が設計され、いくつかの広く使用されているLLMに対して実施された。測定結果は、一般的に、よりアラインメントされたモデルは全体的な信頼性の面で優れている傾向があることを示している。しかし、アラインメントの効果は、考慮された異なる信頼性カテゴリ間で異なる。これは、より細かい分析、テスト、およびLLMアラインメントの継続的な改善の重要性を強調している。LLMの信頼性に関するこれらの重要な次元に光を当てることで、本論文は、この分野の実務者に貴重な洞察とガイダンスを提供することを目指している。これらの懸念を理解し、対処することは、様々なアプリケーションにおけるLLMの信頼性と倫理的に健全な展開を達成する上で重要である。
タンパク質の多重配列アラインメント(MSA)は、豊富な生物学的情報をエンコードしており、数十年にわたりタンパク質設計やタンパク質構造予測などのバイオインフォマティクス手法において重要な役割を果たしてきました。最近のブレークスルーであるAlphaFold2は、トランスフォーマーを活用して大量の生のMSAに直接アテンションを適用し、その重要性を再確認しました。しかし、MSAの生成は計算集約的であり、AlphaFold2のトレーニングに使用されたものに匹敵するデータセットが研究コミュニティに公開されていないため、タンパク質における機械学習の進展が妨げられています。この問題を解決するため、我々はOpenProteinSetを紹介します。これは、1600万以上のMSA、Protein Data Bankからの関連する構造ホモログ、およびAlphaFold2によるタンパク質構造予測を含むオープンソースのコーパスです。我々は既に、OpenProteinSetを使用してAlphaFold2の再トレーニングに成功し、その有用性を実証しています。OpenProteinSetは、1) タンパク質の構造、機能、設計に焦点を当てた多様なタスク、および2) 大規模なマルチモーダル機械学習研究のためのトレーニングおよび検証データとして、広く有用であると期待されます。
関心対象の物体を追跡・追従することは、産業オートメーションから物流・倉庫管理、医療・セキュリティに至るまで、さまざまなロボティクス用途において極めて重要です。本論文では、任意の物体をリアルタイムで検出・追跡・追従するロボットシステムを提案します。我々のアプローチは「フォロー・エニシング」(FAn)と名付けられており、オープン・ボキャブラリーかつマルチモーダルなモデルです。つまり、学習時に見た概念に限定されず、推論時にテキスト、画像、クリッククエリを用いて新規クラスに適用可能です。大規模事前学習モデル(ファウンデーションモデル)から得られる豊富な視覚記述子を活用することで、FAnはマルチモーダルクエリ(テキスト、画像、クリック)を入力画像シーケンスと照合し、物体を検出・セグメント化できます。これらの検出・セグメント化された物体は、オクルージョンや物体の再出現を考慮しながら、画像フレーム間で追跡されます。我々は実世界のロボットシステム(マイクロエアリアルビークル)上でFAnを実証し、リアルタイム制御ループ内で関心対象の物体をシームレスに追従できる能力を報告します。FAnは軽量(6-8GB)なグラフィックスカードを搭載したラップトップにデプロイ可能で、6-20フレーム/秒のスループットを達成します。迅速な採用・展開・拡張を可能にするため、すべてのコードをプロジェクトウェブページ(https://github.com/alaamaalouf/FollowAnything)でオープンソース化しています。また、5分間の解説動画(https://www.youtube.com/watch?v=6Mgt3EPytrw)を視聴することを読者に推奨します。
本研究は、勾配ベースのメッシュ最適化を考察するもので、3D表面メッシュをスカラ場の等値面として表現し、反復的に最適化を行う。このアプローチは、フォトグラメトリー、生成モデリング、逆物理などのアプリケーションでますます一般的なパラダイムとなっている。既存の実装では、Marching CubesやDual Contouringといった古典的な等値面抽出アルゴリズムを適応させているが、これらの手法は固定された既知の場からメッシュを抽出するように設計されており、最適化設定では高品質な特徴保存メッシュを表現する自由度が不足していたり、数値的不安定性に悩まされたりする。我々はFlexiCubesを導入する。これは、幾何学的、視覚的、あるいは物理的目標に対して未知のメッシュを最適化するために特別に設計された等値面表現である。主な洞察は、表現に慎重に選択された追加パラメータを導入し、抽出されたメッシュの幾何学と接続性に局所的な柔軟な調整を可能にすることである。これらのパラメータは、下流タスクを最適化する際に自動微分を通じて基礎となるスカラ場と共に更新される。我々は、改善された位相的性質のためにDual Marching Cubesに基づく抽出スキームを採用し、オプションで四面体メッシュや階層的適応メッシュを生成する拡張を提示する。広範な実験により、FlexiCubesが合成ベンチマークと実世界のアプリケーションの両方でメッシュ品質と幾何学的忠実度の大幅な改善を提供することを検証する。
Alexa Prizeプログラムは、SocialBot Grand ChallengeやTaskBot Challengeなどの課題を通じて、多数の大学生が会話エージェントの構築において探求、実験、才能を発揮する機会を提供してきました。会話エージェントがマルチモーダルで具現化された文脈でますます登場する中、コンピュータビジョンや物理的具現化を強化した会話インタラクションの可能性を探ることが重要です。本論文では、大学チームがシミュレートされた物理環境でタスクを完了するロボットアシスタントを構築する新しいチャレンジであるSimBot Challengeについて説明します。本論文では、オンラインとオフラインの両方のチャレンジフェーズを含むSimBot Challengeの概要を提供します。チームに提供されたインフラストラクチャとサポート、Alexa Arena(シミュレーション環境)、およびビジョンと言語モデルの構築を加速するために提供されたMLツールキットについて説明します。参加チームが研究課題を克服するために取ったアプローチをまとめ、得られた主要な教訓を抽出します。最後に、競技中のSimBotsのパフォーマンスに関する分析を提供します。
時間依存の偏微分方程式(PDE)は、科学や工学において広く見られる。最近では、従来の解法技術の高い計算コストが主な理由で、深層ニューラルネットワークに基づく代理モデルが注目を集めている。このようなニューラルPDEソルバーの実用性は、長時間にわたる正確で安定した予測を提供する能力に依存しており、これは非常に難しい問題として知られている。本研究では、一般的な時間展開戦略の大規模な分析を行い、PDE解において高周波数と関連する非支配的な空間周波数情報の無視が、安定した正確な展開性能を制限する主要な欠点であることを明らかにした。これらの知見に基づき、拡散モデルの最近の進展からインスピレーションを得て、多段階の精緻化プロセスを通じて全ての周波数成分をより正確にモデル化する新しいモデルクラスであるPDE-Refinerを提案する。PDE-Refinerを複雑な流体力学の挑戦的なベンチマークで検証し、ニューラル、数値、およびハイブリッドニューラル-数値アーキテクチャを含む最先端モデルを一貫して上回る安定した正確な展開を実証した。さらに、PDE-Refinerはデータ効率を大幅に向上させることを示す。これは、ノイズ除去の目的関数が暗黙的に新しい形式のスペクトルデータ拡張を誘導するためである。最後に、PDE-Refinerの拡散モデルとの関連性により、モデルの予測不確実性を正確かつ効率的に評価することが可能となり、代理モデルが不正確になるタイミングを推定できる。