翻訳付きの日次キュレーションされたAI研究論文
我々は、Qwenシリーズにおける画像生成基盤モデルであるQwen-Imageを紹介する。このモデルは、複雑なテキストレンダリングと精密な画像編集において重要な進展を達成している。複雑なテキストレンダリングの課題に対処するため、大規模なデータ収集、フィルタリング、アノテーション、合成、バランス調整を含む包括的なデータパイプラインを設計した。さらに、非テキストからテキストへのレンダリングを始め、単純なテキスト入力から複雑なテキスト入力へと進化し、段階的に段落レベルの記述にスケールアップするプログレッシブなトレーニング戦略を採用した。このカリキュラム学習アプローチにより、モデルのネイティブなテキストレンダリング能力が大幅に向上した。その結果、Qwen-Imageは英語などのアルファベット言語において優れた性能を発揮するだけでなく、中国語のようなより挑戦的な表意文字言語においても顕著な進歩を達成した。画像編集の一貫性を向上させるため、従来のテキストから画像(T2I)やテキスト画像から画像(TI2I)タスクに加え、画像から画像(I2I)再構築も取り入れた改良されたマルチタスクトレーニングパラダイムを導入し、Qwen2.5-VLとMMDiTの潜在表現を効果的に整合させた。さらに、元の画像をQwen2.5-VLとVAEエンコーダに別々に供給し、それぞれ意味的表現と再構築的表現を取得した。この二重エンコーディングメカニズムにより、編集モジュールは意味的一貫性の維持と視覚的忠実度の維持のバランスを取ることが可能となった。Qwen-Imageは、複数のベンチマークにおいて画像生成と編集の両方で最先端の性能を達成し、その強力な能力を実証している。
長文書に対する検索拡張生成(RAG)では、通常、テキストを小さなチャンクに分割し、それを検索の基本単位とします。しかし、元の文書全体にわたる依存関係のため、各チャンクを正確に解釈するためには文脈情報が不可欠です。この問題に対処するため、これまでの研究では、より長い文脈ウィンドウをエンコードして、より長いチャンクの埋め込みを生成する方法が探求されてきました。しかし、これらの取り組みにもかかわらず、検索や下流タスクにおける改善は限定的です。これは、(1) 長いチャンクはエンコードすべき情報量が増えるため、埋め込みモデルの容量に負荷がかかること、(2) 多くの実世界のアプリケーションでは、モデルや人間の処理能力の制約から、局所的な証拠を返す必要があるためです。 この課題に対し、我々は、短いチャンクを広い文脈ウィンドウに基づいて表現することで、検索性能を向上させる代替アプローチを提案します。つまり、チャンクの意味をその文脈内に位置づける方法です。さらに、既存の埋め込みモデルは、このような文脈を効果的にエンコードするようには設計されていないことを示し、新しいトレーニングパラダイムを導入して、文脈依存型埋め込みモデル(SitEmb)を開発します。我々の手法を評価するため、文脈依存型検索能力を評価するために特別に設計された書籍プロット検索データセットを構築しました。このベンチマークにおいて、我々のBGE-M3に基づくSitEmb-v1モデルは、最大7-8Bパラメータを持ついくつかの最先端の埋め込みモデルを大幅に上回り、わずか1Bパラメータで優れた性能を発揮しました。さらに、8BパラメータのSitEmb-v1.5モデルは、性能を10%以上向上させ、異なる言語や複数の下流アプリケーションにおいても強い結果を示しました。
仮想細胞モデリングは、人工知能と生物学の交差点に位置する新たなフロンティアであり、多様な摂動に対する応答などの量を定量的に予測することを目指している。しかし、生物システムの複雑さ、データモダリティの異質性、および複数分野にわたるドメイン固有の専門知識の必要性から、仮想細胞のための計算モデルを自律的に構築することは困難である。ここでは、提示された生物学的データセットと研究目的を直接最適化された仮想細胞の計算モデルに変換するマルチエージェントフレームワークを活用したエージェントシステム、CellForgeを紹介する。具体的には、生のシングルセルマルチオミクスデータとタスク記述のみを入力として、CellForgeは最適化されたモデルアーキテクチャと仮想細胞モデルのトレーニングおよび推論のための実行可能なコードを出力する。このフレームワークは、提示されたデータセットの特性評価と関連文献の検索を行うタスク分析、専門エージェントが協力して最適化されたモデリング戦略を開発するメソッド設計、およびコードの自動生成を行う実験実行の3つのコアモジュールを統合している。設計モジュールのエージェントは、異なる視点を持つ専門家と中央のモデレーターに分かれており、合理的な合意に達するまで協力的に解決策を交換しなければならない。我々は、遺伝子ノックアウト、薬物処理、およびサイトカイン刺激を含む多様なモダリティにわたる6つのデータセットを使用して、CellForgeのシングルセル摂動予測能力を実証した。CellForgeは、タスク固有の最先端の手法を一貫して上回った。全体として、CellForgeは、異なる視点を持つLLMエージェント間の反復的な相互作用が、モデリングの課題に直接取り組むよりも優れた解決策を提供することを示している。我々のコードはhttps://github.com/gersteinlab/CellForgeで公開されている。
推論モデルは複雑な問題解決において優れた性能を発揮するが、推論能力と指示追従能力の間に懸念すべきトレードオフが存在する。指示追従能力を向上させるための既存のアプローチは、より強力な外部モデルに依存しており、コストの増加やアクセシビリティの制約を含む方法論的なボトルネックと実用的な限界を生み出している。本研究では、外部の監督を必要とせずに、推論モデルの内部信号を活用して指示追従能力を向上させる自己教師あり強化学習(RL)フレームワークを提案する。大規模な実験により、本フレームワークが推論性能を維持しながら指示追従能力を大幅に向上させることが実証され、推論モデルの指示追従能力を強化するためのスケーラブルでコスト効率の高いアプローチを提供する。データとコードはhttps://github.com/Rainier-rq/verl-ifで公開されている。
大規模言語モデル(LLMs)は多くの分野で顕著な成功を収めているが、汎用的なサイバーセキュリティデータの不足、表現の複雑さ、安全性および規制上の懸念により、サイバーセキュリティアプリケーションへの統合は限定的である。このギャップを埋めるため、我々は以前に下流タスクのファインチューニングに適したサイバーセキュリティに特化したLLMであるFoundation-Sec-8Bを導入した。しかし、そのモデルはチャット形式のインタラクションや指示追従を目的として設計されていなかった。本報告では、汎用的なサイバーセキュリティ対話に特化してトレーニングされたモデルであるFoundation-Sec-8B-Instructをリリースする。Foundation-Sec-8Bを基盤として構築されたこのモデルは、ドメイン固有の知識と指示追従、会話能力、人間の嗜好との整合性を組み合わせ、高品質で関連性の高い応答を生成する。包括的な評価により、Foundation-Sec-8B-Instructは、一連のサイバーセキュリティタスクにおいてLlama 3.1-8B-Instructを上回り、その指示追従性能にも匹敵することが示された。また、サイバー脅威インテリジェンスおよび指示追従タスクにおいてGPT-4o-miniと競合する。我々は、Foundation-Sec-8B-Instructがサイバーセキュリティ専門家の日常業務において不可欠なアシスタントとなることを期待している。本モデルはhttps://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instructで公開されている。
ヒトのタンパク質の大部分は未だに薬剤化されておらず、承認された治療薬によって利用されているのは全体の4%未満である。構造ベースの仮想スクリーニングはドラッガブルプロテオームの拡大を約束するが、既存の方法は原子レベルの精度を欠き、結合適合性の予測に失敗するため、その応用範囲が制限されている。本研究では、AuroBindというスケーラブルな仮想スクリーニングフレームワークを提案する。AuroBindは、数百万規模のケモゲノミクスデータに基づいてカスタムの原子レベル構造モデルを微調整し、直接的な選好最適化、高信頼度複合体からの自己蒸留、および教師-生徒加速戦略を統合して、リガンド結合構造と結合適合性を同時に予測する。提案されたモデルは、構造的および機能的なベンチマークにおいて最先端のモデルを上回り、超大型化合物ライブラリ全体での10万倍高速なスクリーニングを可能にする。10の疾患関連ターゲットに対する前向きスクリーニングでは、AuroBindは7-69%の実験的ヒット率を達成し、トップ化合物はサブナノモーラーからピコモーラーの効力を示した。オーファンGPCRであるGPR151とGPR160に対して、AuroBindはアゴニストとアンタゴニストを16-30%の成功率で同定し、機能アッセイにより肝臓および前立腺癌モデルにおけるGPR160の調節を確認した。AuroBindは、構造予測と治療的発見の間のギャップを埋める、構造-機能学習および高スループット分子スクリーニングのための汎用可能なフレームワークを提供する。
大規模言語モデル(LLMs)の最近の進展により、全モーダル理解と生成において目覚ましい進歩がもたらされている。しかし、多様なモダリティを処理するために必要な異種モデルアーキテクチャのため、全モーダルLLMsの訓練は依然として大きな課題であり、効率的な大規模訓練のための高度なシステム設計が求められている。既存のフレームワークは、モデル定義と並列ロジックを密接に結びつけることが多く、エンドツーエンドの全モーダル訓練においてスケーラビリティが制限され、多大なエンジニアリングコストが発生する。% 本論文では、全モーダルLLMsの開発を加速するためのモジュール式で効率的な訓練フレームワークである\veomniを提案する。\veomniは、通信と計算を分離するモデル中心の分散レシピを導入し、全モーダルLLMsにおける効率的な3D並列処理を可能にする。また、\veomniは柔軟な設定インターフェースを備えており、最小限のコード変更で新しいモダリティをシームレスに統合できる。% \veomniを使用することで、30Bパラメータを持つ全モーダル混合エキスパート(MoE)モデルを、128GPU上で3D並列処理により2,800トークン/秒/GPU以上のスループットで訓練し、160Kのコンテキスト長にスケールすることが可能であり、大規模全モーダルLLMsの訓練におけるその優れた効率性とスケーラビリティを示している。
現実世界で効果的に動作するためには、ロボットはマルチモーダルな推論と精密な動作生成を統合する必要がある。しかし、既存の視覚-言語-動作(VLA)モデルは、しばしば一方を犠牲にし、タスク固有の操作データに能力を限定し、事前学習された視覚-言語能力の壊滅的な忘却に悩まされる。このギャップを埋めるため、我々はInstructVLAを導入する。これは、大規模視覚-言語モデル(VLM)の柔軟な推論を保持しつつ、最先端の操作性能を提供するエンドツーエンドのVLAモデルである。InstructVLAは、新しいトレーニングパラダイムである視覚-言語-動作指示チューニング(VLA-IT)を導入し、マルチモーダルトレーニングとエキスパートの混合適応を用いて、標準的なVLMコーパスと精選された650KサンプルのVLA-ITデータセット上で、テキスト推論と動作生成を共同で最適化する。ドメイン内のSimplerEnvタスクでは、InstructVLAはSpatialVLAに対して30.5%の改善を達成する。一般化を評価するため、我々はSimplerEnv-Instructを導入する。これは、閉ループ制御と高レベルの指示理解を必要とする80タスクのベンチマークであり、ここではファインチューニングされたOpenVLAを92%、GPT-4oを支援した動作エキスパートを29%上回る。さらに、InstructVLAはマルチモーダルタスクにおいてベースラインVLMを凌駕し、テキスト推論を活用してシミュレーションおよび現実世界の設定での操作性能を向上させる推論時のスケーリングを示す。これらの結果は、InstructVLAが直感的で操縦可能な人間-ロボットインタラクションと効率的なポリシー学習を橋渡しする可能性を示している。
大規模なデータセットは、自然言語処理の研究開発において基盤となるものである。しかし、現在のアプローチでは、以下の3つの主要な課題に直面している。(1) 曖昧なライセンスに依存しているため、使用、共有、および派生作品の作成が制限されること、(2) 静的なデータセットの公開により、コミュニティの貢献が妨げられ、持続性が低下すること、(3) 品質保証プロセスが公開チームに限定され、コミュニティの専門知識を活用できていないこと。 これらの制限に対処するため、我々は2つの貢献を紹介する。DynawordアプローチとDanish Dynawordである。Dynawordアプローチは、コミュニティの協力を通じて継続的に更新可能な大規模なオープンデータセットを作成するためのフレームワークである。Danish Dynawordは、このアプローチを検証し、その可能性を示す具体的な実装である。Danish Dynawordは、比較可能なリリースの4倍以上のトークンを含み、完全にオープンライセンスで提供されており、産業界と研究分野の両方から複数の貢献を受けている。このリポジトリには、データのフォーマット、品質、およびドキュメントを保証するための軽量なテストが含まれており、継続的なコミュニティの貢献とデータセットの進化のための持続可能なフレームワークを確立している。
視覚トークンの圧縮は、大規模視覚言語モデル(LVLMs)が高解像度入力を効率的に処理する上で極めて重要である。既存の手法では、一般的に固定された圧縮率を採用しているため、複雑さが異なるシーンに適応できず、情報量の多い視覚トークンを不正確に削除してしまい、モデルの性能低下を引き起こすことが多い。この問題を解決するため、我々は人間の認知に着想を得た動的プルーニングフレームワーク「GlimpsePrune」を提案する。この手法は、データ駆動型の「一瞥(glimpse)」を行い、回答生成前に単一のフォワードパスで無関係な視覚トークンを削除する。このアプローチにより、視覚トークンの92.6%を削減しながら、自由形式の視覚質問応答(VQA)タスクにおいてベースライン性能を平均的に完全に維持することができる。また、計算コストの削減により、より効果的なファインチューニングも可能となり、強化版の「GlimpsePrune+」は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。本研究は、より強力で効率的なLVLMsを構築するための新たな道を切り開くものである。
Diffusion Large Language Models(dLLMs)は、推論と並列デコードにおいて画期的な進展をもたらす一方で、推論時の計算量とメモリオーバーヘッドが二次的に増大するという課題を抱えています。現在のキャッシュ技術は、全層の状態を保存することでデコードを加速しますが、大幅なメモリ使用量を伴い、長文脈アプリケーションの制約となっています。dLLMsのアテンションパターンを分析した結果、層を跨ぐスパース性が持続し、重要なトークンはデコードステップを通じて顕著なままである一方、関連性の低いトークンは重要性を保たないことが明らかになり、選択的なキャッシュ削除の必要性が示唆されました。本研究では、Sparse-dLLMを提案します。これは、動的なキャッシュ削除とスパースアテンションを遅延双方向スパースキャッシングにより統合した、初のトレーニング不要なフレームワークです。トークンの重要性がステップ間で安定している特性を活用し、重要なトークンを保持しつつ、アテンションに基づく戦略を用いて重要でないプレフィックス/サフィックスエントリを動的に削除します。LLaDAおよびDreamシリーズでの大規模な実験により、Sparse-dLLMは従来のdLLMsと比較して最大10倍のスループットを達成し、同等の性能と同程度のピークメモリコストを維持しながら、効率と有効性の両面で従来手法を上回ることが実証されました。
我々は、音声基盤モデルを用いて世界中の方言や地域言語をモデル化するための新しいベンチマーク「Voxlect」を提案する。具体的には、英語、アラビア語、北京語と広東語、チベット語、インド諸語、タイ語、スペイン語、フランス語、ドイツ語、ブラジルポルトガル語、イタリア語における方言や地域言語のバリエーションに関する包括的なベンチマーク評価を報告する。本研究では、方言情報が付与された30の公開音声コーパスから200万以上のトレーニング発話を使用した。我々は、広く使用されている複数の音声基盤モデルの方言分類性能を評価し、ノイズ条件下での方言モデルの頑健性を検証し、地理的連続性と一致するモデリング結果を強調するエラー分析を提示する。方言分類のベンチマークに加えて、Voxlectによって可能になるいくつかの下流アプリケーションを実証する。具体的には、Voxlectを既存の音声認識データセットに方言情報を付加するために適用し、方言変異にわたるASR性能の詳細な分析を可能にすることを示す。また、Voxlectは音声生成システムの性能評価ツールとしても使用される。VoxlectはRAILファミリーのライセンスで公開されており、以下から入手可能である:https://github.com/tiantiaf0627/voxlect
芸術作品、特に絵画の帰属問題は、常に芸術界における課題であった。強力な人工知能(AI)モデルの登場により、画像の生成と分析が可能となり、絵画の帰属に関する新たな課題が生じている。一方で、AIモデルは特定の画家のスタイルを模倣した画像を生成することができ、これが他のAIモデルによって誤って帰属される可能性がある。他方で、AIモデルは実際の絵画の作者を正しく識別できない場合があり、ユーザーが誤った帰属を行う原因となる。本論文では、最先端のAIモデルを用いて、128人の画家に属する約40,000点の絵画を含む大規模データセットにおいて、これらの問題を実験的に検証した。その結果、視覚言語モデル(VLM)は、1)キャンバスの帰属を行い、2)AI生成画像を識別する能力に限界があることが示された。ユーザーが情報を得るためにAIモデルへのクエリに依存する度合いが増す中、これらの結果は、誤った情報の拡散を防ぐために、VLMの能力を向上させ、信頼性の高い作者帰属とAI生成画像の検出を実現する必要性を示している。
テキストから画像を生成する拡散モデルは、視覚コンテンツ生成に革命をもたらしましたが、現在の安全性メカニズムは均一な基準を適用しており、しばしば個々のユーザーの嗜好を考慮できていません。これらのモデルは、年齢、メンタルヘルス、個人的な信念などの要因によって形成される多様な安全性の境界を見落としています。この問題に対処するため、我々は「Personalized Safety Alignment(PSA)」を提案します。これは、生成モデルにおける安全性の振る舞いをユーザーごとに制御するフレームワークです。PSAは、拡散プロセスに個別化されたユーザープロファイルを統合し、画像品質を維持しながら、モデルの振る舞いを個々の安全性の嗜好に合わせて調整します。我々は、ユーザー固有の安全性の嗜好を捉えた新しいデータセット「Sage」を導入し、これらのプロファイルをクロスアテンション機構を通じて組み込みます。実験結果は、PSAが有害コンテンツの抑制において既存の手法を上回り、生成されたコンテンツをユーザーの制約により良く適合させ、より高いWin RateおよびPass Rateスコアを達成することを示しています。我々のコード、データ、およびモデルは、https://torpedo2648.github.io/PSAlign/ で公開されています。
本論文では、物理的実体システムにおける生涯学習を実現するための脳に着想を得たマルチメモリフレームワーク「RoboMemory」を提案する。このフレームワークは、現実世界の環境における重要な課題、すなわち継続的学習、マルチモジュールメモリの遅延、タスク相関の捕捉、および閉ループ計画における無限ループの緩和に対処する。認知神経科学に基づき、情報前処理モジュール(視床類似)、生涯実体メモリシステム(海馬類似)、閉ループ計画モジュール(前頭葉類似)、および低レベル実行モジュール(小脳類似)の4つのコアモジュールを統合し、長期的な計画と累積的学習を可能にする。フレームワークの中核をなす生涯実体メモリシステムは、空間的、時間的、エピソード的、意味論的サブモジュール間での並列化された更新/検索を通じて、複雑なメモリフレームワークにおける推論速度の問題を緩和する。動的ナレッジグラフ(KG)と一貫したアーキテクチャ設計を組み込むことで、メモリの一貫性と拡張性を向上させる。EmbodiedBenchでの評価では、RoboMemoryがオープンソースのベースライン(Qwen2.5-VL-72B-Ins)を平均成功率で25%上回り、クローズドソースの最先端(SOTA)(Claude3.5-Sonnet)を5%上回り、新たなSOTAを確立した。アブレーションスタディでは、主要コンポーネント(批評家、空間メモリ、長期メモリ)の有効性が検証され、実世界での展開では、繰り返しタスクにおける成功率の大幅な向上を通じて、その生涯学習能力が確認された。RoboMemoryは、スケーラビリティを備えた高遅延課題の緩和を実現し、物理ロボットにおけるマルチモーダルメモリシステム統合の基礎的参照としての役割を果たす。
大規模言語モデル(LLMs)は、実行可能なランタイム環境でトレーニングされた場合、特にGitHubの課題解決において、ソフトウェアエンジニアリングタスクで顕著な成功を収めています。しかし、そのようなランタイム環境は、他の分野、特にサイバーセキュリティではしばしば利用できません。サイバーセキュリティでは、課題設定や実行コンテキストが一時的または制限されていることが多いためです。本論文では、ランタイムを必要とせずに高品質なエージェント軌跡を合成し、サイバーセキュリティLLMsをトレーニングするための初のフレームワークであるCyber-Zeroを提案します。Cyber-Zeroは、公開されているCTF(Capture The Flag)のWriteupを活用し、ペルソナ駆動型のLLMシミュレーションを用いてランタイムの動作を逆解析し、実際の環境なしで現実的で長期的なインタラクションシーケンスを生成します。Cyber-Zeroによって合成された軌跡を用いて、我々はLLMベースのエージェントをトレーニングし、InterCode-CTF、NYU CTF Bench、Cybenchという3つの主要なCTFベンチマークにおいて、ベースラインモデルに対して最大13.1%の絶対的な性能向上を達成しました。我々の最良のモデルであるCyber-Zero-32Bは、オープンウェイトモデルの中で新たな最先端の性能を確立し、DeepSeek-V3-0324やClaude-3.5-Sonnetのようなプロプライエタリシステムの能力に匹敵しつつ、優れたコスト効率を提供します。これにより、ランタイムフリーの軌跡合成が、最先端のサイバーセキュリティエージェントの開発を効果的に民主化できることが実証されました。
高密度3D再構成の最近の進展により、大きな進歩が見られたものの、正確で統一的な幾何学的予測を達成することは依然として主要な課題である。既存の手法の多くは、入力画像から単一の幾何学的量を予測することに限定されている。しかし、深度、表面法線、ポイントマップなどの幾何学的量は本質的に関連しており、それらを個別に推定することはしばしば一貫性を保証できず、精度と実用性の両方を制限する。これにより、異なる幾何学的特性間の構造的結合を明示的にモデル化し、共同回帰を可能にする統一フレームワークを探求する動機が生まれる。本論文では、共同幾何学的高密度予測のための3D基盤モデルであり、幅広い下流タスクに適応可能なDens3Rを紹介する。Dens3Rは、汎用性があり本質的に不変なポイントマップ表現を段階的に構築するための2段階のトレーニングフレームワークを採用している。具体的には、軽量な共有エンコーダ-デコーダバックボーンを設計し、高解像度入力に対する堅牢性を向上させながら表現力を維持するために、位置補間回転位置エンコーディングを導入する。画像ペアマッチング特徴と本質的不変性モデリングを統合することで、Dens3Rは表面法線や深度などの複数の幾何学的量を正確に回帰し、単一視点から多視点入力にわたる一貫した幾何学的知覚を実現する。さらに、幾何学的に一貫した多視点推論をサポートする後処理パイプラインを提案する。広範な実験により、Dens3Rがさまざまな高密度3D予測タスクで優れた性能を発揮し、より広範な応用の可能性を示している。
新たな環境を解決するためのメタ強化学習(meta-RL)エージェントを訓練する際に、十分な探索を確保することは中心的な課題である。探索と活用のジレンマに対する従来の解決策は、ランダム化、不確実性ボーナス、または内在的報酬といった明示的なインセンティブを注入して探索を促進するものであった。本研究では、貪欲(活用のみ)の目的を最大化するように訓練されたエージェントであっても、以下の3つの条件が満たされれば、創発的な探索行動を示すことができると仮説を立てる:(1) 繰り返し可能な環境構造、すなわち環境が過去の経験を将来の選択に反映させる繰り返し可能な規則性を有すること;(2) エージェントの記憶、すなわちエージェントが過去の相互作用データを保持し活用できること;(3) 長期的なクレジット割り当て、すなわち学習が探索の遅延利益が現在の決定に反映されるのに十分な時間枠で報酬を伝播すること。確率的な多腕バンディット問題および時間的に拡張されたグリッドワールドにおける実験を通じて、構造と記憶の両方が存在する場合、厳密に貪欲な目的で訓練されたポリシーが情報探索的な行動を示すことを観察した。さらに、制御されたアブレーション実験を通じて、環境構造またはエージェントの記憶のいずれかが欠如すると(条件1および2)、創発的な探索が消失することを示した。驚くべきことに、長期的なクレジット割り当てを除去しても(条件3)、必ずしも創発的な探索が妨げられるわけではない。この結果は、疑似トンプソンサンプリング効果に起因すると考えられる。これらの発見は、適切な前提条件の下では、探索と活用を直交する目的として扱う必要はなく、統一された報酬最大化プロセスから創発し得ることを示唆している。
テストタイムスケーリング(TTS)は、推論時に追加の計算リソースを割り当てることで大規模言語モデル(LLM)の性能を向上させる。しかし、既存の研究は主に単一ステージタスクにおけるTTSを調査しており、現実世界の問題の多くは、各サブタスクが特定の能力を必要とする異種のサブタスクのシーケンスで構成される多段階複雑タスクである。そこで、我々は多段階複雑タスクにおけるテストタイム計算最適スケーリングという新たな問題を研究し、適切なモデルを選択し、各サブタスクに予算を割り当てることで全体の性能を最大化することを目指す。多段階タスクにおけるTTSは、二つの基本的な課題を導入する:(i)モデルと予算割り当ての組み合わせ探索空間と、推論の高コストが、力任せの探索を非現実的にする。(ii)サブタスク間での最適なモデルと予算割り当ては相互依存しており、計算最適探索の複雑さを増す。このギャップを埋めるため、我々は6つのデータセットにわたる4つのタスクで広範なパイロット実験を行い、多段階複雑タスクにおけるLLMの挙動を特徴づける3つの経験的知見を導出した。これらの知見に基づき、我々はAgentTTSを提案する。これは、実行環境との反復的なフィードバック駆動型相互作用を通じて計算最適割り当てを自律的に探索するLLMエージェントベースのフレームワークである。実験結果は、AgentTTSが従来のベースラインや他のLLMベースのベースラインを探索効率で大幅に上回り、トレーニングセットサイズの変化に対する堅牢性と解釈可能性が向上することを示している。
大規模言語モデルにおいて、長い文脈をモデル化する必要性は常に高まっているが、標準的なセルフアテンションメカニズムの二次的な計算複雑性がしばしばボトルネックとなる。既存のスパースアテンションメカニズムは効率を改善してきたものの、静的パターンや情報損失といった問題に直面することがある。本論文では、コンテンツ認識型および位置認識型のスパース性を効果的に活用する、学習可能な動的マスクスパースアテンションメカニズム「Dynamic Mask Attention(DMA)」を提案する。DMAは、2つの主要な革新を通じてこれを実現する。第一に、値表現からコンテンツ認識型のスパースマスクを動的に生成し、モデルが重要な情報を適応的に特定し集中できるようにする。第二に、不要な計算領域を効果的にスキップする位置認識型のスパースアテンション計算を実装する。この二重スパース設計により、モデルは重要な情報の計算複雑性を大幅に削減しつつ、完全な情報を保持し、情報の忠実性と計算効率の優れたバランスを達成する。我々は、包括的な実験を通じてDMAの性能を検証した。比較研究によると、DMAはChinchilla Scaling Lawの設定下で、マルチヘッドアテンション、スライディングウィンドウアテンション、マルチヘッド潜在アテンション、およびネイティブスパースアテンションをパープレキシティの点で上回る。さらに、挑戦的なマルチクエリ連想想起タスクにおいても、DMAはこれらの手法と比較して優れた性能と効率を示す。特に、1.7Bパラメータモデルの評価において、DMAは標準ベンチマーク性能と困難な「干し草の山の中の針」タスクの両方でマルチヘッドアテンションを大幅に上回る。これらの実験結果は、DMAがモデル効率と長文脈モデリング能力を効果的にバランスさせる能力を有することを強調している。
テキストからモーション(T2M)生成は、自然言語記述から現実的かつ意味的に整合した人間のモーションシーケンスを合成することを目指す。しかし、現在の手法は二重の課題に直面している。生成モデル(例えば、拡散モデル)は多様性の制限、誤差の蓄積、物理的な非現実性に悩まされており、一方で検索拡張生成(RAG)手法は拡散慣性、部分的なモード崩壊、非同期アーティファクトを示す。これらの制限に対処するため、我々はReMoMaskを提案する。これは、以下の3つの主要な革新を統合した統一フレームワークである:1)双方向モーメンタムテキスト-モーションモデルは、モーメンタムキューを介して負のサンプルスケールをバッチサイズから分離し、クロスモーダル検索精度を大幅に向上させる;2)セマンティック時空間アテンションメカニズムは、部分レベルの融合中に生体力学的制約を強化し、非同期アーティファクトを排除する;3)RAG-Classier-Freeガイダンスは、無条件生成を少量取り入れることで汎化能力を向上させる。MoMaskのRVQ-VAEを基盤として、ReMoMaskは最小ステップで時間的に一貫したモーションを効率的に生成する。標準ベンチマークでの広範な実験により、ReMoMaskは従来のSOTA手法であるRAG-T2Mと比較して、HumanML3DおよびKIT-MLにおいてそれぞれ3.88%および10.97%のFIDスコア改善を達成し、最先端の性能を示すことが実証された。コード:https://github.com/AIGeeksGroup/ReMoMask。ウェブサイト:https://aigeeksgroup.github.io/ReMoMask。
量子サポートベクターマシンは、高次元の量子状態とハードウェアの制約によりスケーラビリティの課題に直面しています。本研究では、クラスバランス型k-means蒸留と事前学習済みVision Transformer(ViT)埋め込みを組み合わせた埋め込み対応型量子-古典パイプラインを提案します。主な発見として、ViT埋め込みは量子優位性を実現する唯一の手法であり、Fashion-MNISTでは古典的SVMに対して最大8.02%、MNISTでは4.42%の精度向上を達成しました。一方、CNN特徴量では性能の低下が見られました。cuTensorNetを用いた16量子ビットのテンソルネットワークシミュレーションにより、量子カーネルの優位性が埋め込みの選択に大きく依存することを初めて体系的に実証し、トランスフォーマーのアテンションと量子特徴空間の間に根本的な相乗効果があることを明らかにしました。これは、現代のニューラルネットワークアーキテクチャを活用したスケーラブルな量子機械学習への実用的な道筋を示すものです。
アラブ世界の豊かな言語的景観は、正式なコミュニケーションの言語である現代標準アラビア語(MSA)と、日常生活で使用される多様な地域方言との間に大きな隔たりがあることが特徴です。このダイグロシアは、自然言語処理、特に機械翻訳において大きな課題を提示しています。本論文では、MSAとシリア方言の間のコミュニケーションギャップを埋めるために特別に設計された双方向機械翻訳システム「SHAMI-MT」を紹介します。我々は、MSAからシリア方言への翻訳と、シリア方言からMSAへの翻訳のための2つの専門モデルを提示し、どちらも最先端のAraT5v2-base-1024アーキテクチャに基づいて構築されています。これらのモデルは、包括的なNabraデータセットで微調整され、MADARコーパスの未見データで厳密に評価されました。我々のMSAからシリア方言への翻訳モデルは、OPENAIのモデルGPT-4.1によって評価された際に、5.0満点中4.01という卓越した平均品質スコアを達成し、正確であるだけでなく方言的に本物の翻訳を生成する能力を示しました。この研究は、これまで十分にサポートされていなかった言語ペアに対して、高忠実度の重要なツールを提供し、方言アラビア語翻訳の分野を前進させ、コンテンツのローカライゼーション、文化遺産、異文化間コミュニケーションにおいて重要な応用を提供します。
世帯の富などの社会経済指標が、衛星画像(物理的特徴を捉える)やインターネットから収集されたテキスト(歴史的・経済的ナラティブを反映する)に回復可能な痕跡を残すかどうかを調査します。アフリカの地域におけるDemographic and Health Survey(DHS)データを使用し、Landsat画像と、場所/年を条件としたLLM生成のテキスト記述、およびAI検索エージェントがウェブソースから取得したテキストを組み合わせます。私たちは、世帯の富(International Wealth Index)を予測するためのマルチモーダルフレームワークを開発し、以下の5つのパイプラインを構築します:(i) 衛星画像に基づく視覚モデル、(ii) 場所/年のみを使用するLLM、(iii) ウェブテキストを検索・合成するAIエージェント、(iv) 画像とテキストの結合エンコーダ、(v) すべての信号を統合したアンサンブル。このフレームワークは3つの貢献をもたらします。第一に、視覚とエージェント/LLMテキストを融合させることで、富の予測において視覚のみのベースラインを上回り(例えば、サンプル外分割でのR二乗値が0.77対0.63)、LLMの内部知識がエージェントが取得したテキストよりも効果的であることが示され、国や時間を超えた一般化に対する堅牢性が向上します。第二に、部分的な表現の収束が見られました:視覚と言語モダリティから融合された埋め込みは中程度に相関し(アラインメント後の中央コサイン類似度0.60)、物質的豊かさの共有された潜在コードを示唆しつつ、補完的な詳細を保持しており、プラトニック表現仮説と一致しています。LLMのみのテキストがエージェントが取得したデータを上回り、エージェント誘導新奇性仮説に挑戦するものの、一部の分割でエージェントデータを組み合わせることによる控えめな改善は、エージェントが収集した情報が静的LLM知識では完全に捉えられない独自の表現構造を導入するという考えを弱く支持しています。第三に、60,000以上のDHSクラスターとリンクされた衛星画像、LLM生成の記述、エージェントが取得したテキストを含む大規模なマルチモーダルデータセットを公開します。
大規模言語モデルは複雑な数学的推論タスクにおいて顕著な能力を発揮するが、多段階の解法において誤りを生成することは避けられない。プロセスレベル報酬モデル(PRM)は、各中間ステップで監督と評価を提供することで、モデルの推論能力を効果的に向上させることが示されている。しかし、効果的なPRMを訓練するためには高品質なプロセス報酬データが必要であり、そのようなデータを構築する既存の方法はしばしば労力を要するか非効率的である。本論文では、PRMのためのデータ生成と注釈プロセスを包含する、不確実性駆動型の自動化プロセス報酬データ構築フレームワークを提案する。さらに、多数決とPRMの両方の限界を指摘し、多数決とPRMの長所を組み合わせた2つの汎用的な不確実性を考慮した出力集約方法、ハイブリッド多数決報酬投票と重み付き報酬頻度投票を導入する。ProcessBench、MATH、GSMPlusでの広範な実験により、提案されたPRMデータ構築フレームワークの有効性と効率性が示され、2つの出力集約方法が多様なPRMの数学的推論能力をさらに向上させることが実証された。コードとデータはhttps://github.com/Jiuzhouh/UnPRMで公開される予定である。