翻訳付きの日次キュレーションされたAI研究論文
言語モデル(LMs)のコンテキスト長を拡張するために、Rotary Position Embedding(RoPE)を改善することがトレンドとなっています。既存の研究は主に注意メカニズム内のRoPEの制限に焦点を当てていますが、本論文ではLMsのほぼすべての部分にわたる分析を提供し、RoPEベースの注意に対する長さの一般化への悪影響を明らかにしています。離散信号処理理論を用いて、RoPEが非一様離散フーリエ変換を暗黙的に達成することで周期的な注意を可能にすることを示します。しかし、この周期性は、注意以外の線形層や活性化関数によるスペクトルの損傷、および時間領域の切り捨てによってもたらされる訓練不足の周波数成分によって損なわれます。私たちの観察に基づいて、周波数領域の特性を向上させるためにFourier Position Embedding(FoPE)を提案します。FoPEはフーリエ級数を構築し、破壊的な周波数成分をゼロにして、スペクトル損傷に対するモデルの頑健性を向上させます。さまざまなモデルスケールでの実験結果は、さまざまなコンテキストウィンドウ内で、RoPEやALiBiに比べて、FoPEが針の中のハイスタックタスクにおいてより安定した困惑度と一貫した精度を維持できることを示しています。いくつかの分析と削除実験は、私たちの手法と理論モデリングをさらに支持しています。
3Dシーングラフは、コンパクトなシーンモデルを表し、オブジェクトとそれらの間の意味的な関係に関する情報を格納するため、ロボティックタスクにおいて有望な利用がされます。ユーザーと対話する際、具体的な自然言語で表現されたシーンに関するさまざまなクエリに応答できるように、具体的な知能エージェントは能力を持つべきです。大規模言語モデル(LLM)は、自然言語理解と推論能力により、ユーザーとロボットのインタラクションにおいて有益なソリューションです。最近の3Dシーンの学習可能な表現を作成するための手法は、3D世界に適応することでLLMの応答の品質を向上させる潜在能力を実証しています。しかしながら、既存の手法はオブジェクト間の意味的な関係に関する情報を明示的に活用しておらず、座標に関する情報に限定しています。本研究では、3Dシーングラフの学習可能な表現を構築するための3DGraphLLMという手法を提案します。この学習可能な表現は、LLMが3Dビジョン言語タスクを実行するための入力として使用されます。一般的なScanRefer、RIORefer、Multi3DRefer、ScanQA、Sqa3D、Scan2capのデータセットでの実験において、オブジェクト間の意味的な関係に関する情報を使用しないベースライン手法よりもこのアプローチの利点を実証します。コードは以下のURLから公開されています:https://github.com/CognitiveAISystems/3DGraphLLM。
欠損値は、幅広いアプリケーションにわたる深度データにおいて依然として一般的な課題であり、これはデータ取得の不完全さや視点の変更など、さまざまな要因に起因しています。本研究では、画像拡散事前分布を活用した基盤深度修復モデルであるDepthLabによって、このギャップを埋める取り組みを行います。当該モデルは、2つの注目すべき強みを備えています:(1) 深度が不足している領域に対して強靭であり、連続した領域や孤立した点の信頼性の高い補完を提供し、(2) 欠損値の補完時に、既知の深度に応じたスケールの一貫性を忠実に保持します。これらの利点を活かし、当該手法は、3Dシーン修復、テキストから3Dシーン生成、DUST3Rによる疎視点再構成、およびLiDAR深度補完など、さまざまな下流タスクにおいて、現行の解決策を数値パフォーマンスと視覚的品質の両面で上回る価値を証明しています。ソースコード付きのプロジェクトページは、https://johanan528.github.io/depthlab_web/ でご覧いただけます。
Soraのようなビデオ生成モデルは、Multi-Modal Diffusion Transformer(MM-DiT)アーキテクチャにより著しい進歩を達成しています。しかしながら、現在のビデオ生成モデルは主に単一のプロンプトに焦点を当てており、複数の連続したプロンプトを使用して現実世界の動的シナリオをより適切に反映する連続したシーンを生成するのに苦労しています。いくつかの先駆的な研究はマルチプロンプトのビデオ生成を探求していますが、厳格なトレーニングデータの要件、弱いプロンプトの追従、不自然な遷移などの重要な課題に直面しています。これらの問題に対処するために、我々は初めてMM-DiTアーキテクチャの下でトレーニング不要のマルチプロンプトビデオ生成手法であるDiTCtrlを提案します。我々の主要なアイデアは、マルチプロンプトビデオ生成タスクを滑らかな遷移を伴う時間的ビデオ編集として捉えることです。この目標を達成するために、まずMM-DiTの注意メカニズムを分析し、3DフルアテンションがUNetのような拡散モデルのクロス/セルフアテンションブロックと同様に振る舞い、マスクによる異なるプロンプト間の正確な意味的制御を可能にし、マルチプロンプトビデオ生成のためのアテンション共有を実現しています。慎重な設計に基づいて、DiTCtrlによって生成されたビデオは、追加のトレーニングなしで、複数の連続したプロンプトを使用して滑らかな遷移と一貫したオブジェクトの動きを実現しています。さらに、マルチプロンプトビデオ生成のパフォーマンスを評価するために特別に設計された新しいベンチマークであるMPVBenchを提案しています。幅広い実験により、我々の手法が追加のトレーニングなしで最先端のパフォーマンスを達成していることが示されています。
テキストまたは画像から3Dジェネレーターや3Dスキャナーは、高品質の形状とテクスチャを持つ3Dアセットを生成できるようになりました。これらのアセットは通常、暗黙のニューラルフィールド、ガウス混合、またはメッシュなどのような単一の融合表現で構成されており、有用な構造を持っていません。しかし、ほとんどのアプリケーションやクリエイティブなワークフローでは、独立して操作できるいくつかの意味のある部分から構成されたアセットが必要です。このギャップに対処するために、私たちはPartGenを導入します。PartGenは、テキスト、画像、または非構造化された3Dオブジェクトから始めて、意味のある部分で構成された3Dオブジェクトを生成する革新的なアプローチです。まず、生成またはレンダリングされた3Dオブジェクトの複数のビューを与えると、マルチビュー拡散モデルが、オブジェクトを部分に分割するための一連の可能性のあるビュー整合的な部分セグメンテーションを抽出します。次に、2番目のマルチビュー拡散モデルがそれぞれの部分を個別に取り、遮蔽部分を補完し、それらの完成したビューを3D再構築ネットワークに供給して3D再構築を行います。この補完プロセスは、部分が一体となるように、全体のオブジェクトのコンテキストを考慮します。生成補完モデルは、遮蔽による情報の欠落を補うことができ、極端な場合には、入力された3Dアセットに基づいて完全に見えない部分を幻想することができます。私たちの手法を生成された3Dアセットや実際の3Dアセットで評価し、セグメンテーションや部分抽出のベースラインを大きく上回ることを示します。また、3D部分編集などの下流アプリケーションを紹介します。
最近の大規模言語モデルの進歩にもかかわらず、オープンソースモデルはしばしば複雑な推論タスクで一貫して高い性能を発揮することが難しい。既存のアンサンブル手法は、トークンレベルまたは出力レベルで適用されていても、これらの課題に対処できない。この課題に対処するために、我々はMonte Carlo Tree Search(MCTS)を用いた言語モデルアンサンブルであるLE-MCTSを提案する。LE-MCTSは、言語モデルのアンサンブルによるプロセスレベルのアンサンブリングのための革新的なフレームワークである。LE-MCTSは、ステップごとの推論をマルコフ決定過程として表現する。このフレームワークでは、状態は中間推論経路を表し、アクションは事前に定義されたプールから選択された言語モデルを使用して次の推論ステップを生成することから構成される。プロセスベースの報酬モデルによって導かれ、LE-MCTSは異なる言語モデルによって生成された推論ステップに対して木探索を行い、最も正確な推論チェーンを特定する。5つの数学的推論ベンチマークでの実験結果は、当該手法が単一言語モデルデコーディングアルゴリズムおよび言語モデルアンサンブル手法を上回ることを示している。特に、LE-MCTSは、MATHデータセットとMQAデータセットにおいてそれぞれ3.6%および4.3%の性能向上を達成し、複雑な推論問題の解決能力を高めていることが強調されている。
ARCチャレンジは、近年のLLMにとってARCイージーよりも難しいように見える。これは、直接的な回答選択肢の比較を妨げる評価設定に主に起因しており、固有の複雑さではない。一部の研究者は静かに昨年からより適切なスキームに移行してきたが、この変化の影響はまだ広く認識されていない。私たちは、この見過ごされている変化を強調し、類似した評価方法が他のベンチマークで推論の欠陥を誤って示唆していることを示し、公正な方法が性能差(例:SIQA)を劇的に減少させ、時には超人的な結果(OpenBookQA)をもたらすことを実証する。これにより、評価が知覚される難しさを形作る方法と、多肢選択評価が実際のモデルの能力を正確に反映するようにするためのガイドラインを提供する。
スパースに活性化されたMixture-of-Experts(MoE)モデルは、計算予算を増やさずにモデル容量を拡大するために広く採用されています。ただし、通常のTopKルーターは不連続で微分不可能な方法で訓練されており、パフォーマンスとスケーラビリティが制限されています。この問題に対処するために、我々はReMoEを提案します。これは、従来のTopK+Softmaxルーティングの代わりにReLUをルーターとして利用する、完全に微分可能なMoEアーキテクチャであり、単純で効果的な置換を提供します。さらに、専門家の間で負荷をバランス良く配分する方法を提案しています。ReMoEの連続的な性質により、トークンとレイヤー間での効率的な動的計算の割り当てが可能となり、ドメインの特殊化も示されます。私たちの実験では、ReMoEがさまざまなモデルサイズ、専門家数、および粒度レベルにわたって、常に通常のTopKルーティングされたMoEを上回ることを示しています。さらに、ReMoEは、従来のMoEアーキテクチャを超える、専門家の数に関する優れたスケーラビリティを示しています。Megatron-LMに基づいた実装は、https://github.com/thu-ml/ReMoE で入手可能です。
検索増強生成(RAG)システムは、膨大なコーパスを活用して情報豊かで文脈に即した応答を生成する上で中心的な役割を果たしており、特に大規模言語モデルにおける幻覚を軽減しています。重要な進展があるものの、これらのシステムは大規模データセットから情報を効率的に処理・取得し、かつ文脈の包括的理解を維持することに苦労しています。本論文では、新しい手法であるSKETCHを紹介し、意味的テキスト検索と知識グラフを統合することで、構造化および非構造化データを統合し、より包括的な理解を可能にするRAG検索プロセスを強化します。SKETCHは、伝統的手法に比べて検索パフォーマンスを大幅に向上させ、優れた文脈の整合性を維持します。QuALITY、QASPER、NarrativeQA、Italian Cuisineの4つの異なるデータセットで評価された結果、SKETCHはanswer_relevancy、faithfulness、context_precision、context_recallなどの主要なRAGASメトリクスにおいてベースライン手法を常に上回りました。特にItalian Cuisineデータセットでは、SKETCHは0.94の回答適合性と0.99の文脈精度を達成し、すべての評価メトリクスにおいて最高のパフォーマンスを示しました。これらの結果は、SKETCHがより正確で文脈に即した応答を提供する能力を強調し、将来の検索システムに新たな基準を設定しています。
AIの進歩は、主にトレーニングデータの規模と品質によって推進されています。 それにもかかわらず、テキスト以外の、確立されたデータセットの属性を調査する経験的分析の不足があります。 本研究では、最大規模かつ種類を問わず初めての横断的監査を行い、人気のあるテキスト、音声、ビデオデータセットを含む複数のモダリティにわたり、詳細な情報源動向や使用制限、地理的および言語的表現を調査しています。私たちの手動分析は、1990年から2024年までの間に約4000の公開データセットを対象とし、608の言語、798の情報源、659の組織、および67の国を網羅しています。我々は、多様なモダリティの機械学習アプリケーションが、2019年以降、YouTubeなどのウェブクロール、合成、ソーシャルメディアプラットフォームに圧倒的に頼っていることを発見しました。さらに、データセットの派生の連鎖を追跡すると、データセットのうち厳格なライセンスが付与されているものは33%未満である一方、広く使用されているテキスト、音声、ビデオデータセットのソースコンテンツの80%以上には非営利の制限があることがわかりました。最後に、公開AIトレーニングデータセットに表れる言語と地理の数が増加しているにもかかわらず、2013年以降、相対的な地理的および多言語表現の指標が著しく改善されていないことを示しています。私たちは、監査の幅が広いことにより、データソーシング、制限、西洋中心主義の傾向を生態系レベルで経験的に検証することができると考えており、これらの問題に対する可視性が責任あるAIの進歩に不可欠であると信じています。データセットの透明性と責任ある使用の持続的改善への貢献として、テキスト、音声、ビデオを横断してデータの由来を追跡できるように、私たちは当社のマルチモーダル監査全体を公開しています。
Text-Image-to-Video(TI2V)生成は、画像からビデオを生成することを目指し、テキストの説明に従うものであり、これはテキストによる画像アニメーションとも呼ばれます。ほとんどの既存の手法は、特に動きが指定された場合に、テキストのプロンプトとよく整合するビデオを生成するのに苦労しています。この制限を克服するために、私たちはMotiFを導入します。これは、より多くの動きがある領域にモデルの学習を誘導するシンプルで効果的なアプローチです。これにより、テキストの整列と動きの生成が向上します。光流を使用して動きのヒートマップを生成し、動きの強度に応じて損失を重み付けします。この修正された目的は、顕著な改善をもたらし、モデル入力として動きの事前情報を利用する既存の手法を補完します。さらに、TI2V生成の評価のための多様なベンチマークが不足しているため、頑健な評価のために320の画像テキストペアからなるデータセットであるTI2V Benchを提案します。TI2V Benchでの包括的な評価を通じて、MotiFは9つのオープンソースモデルを上回り、平均的な選好度が72%に達する結果となりました。TI2V Benchはhttps://wang-sj16.github.io/motif/で公開されています。