翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は、長い連鎖思考(chain-of-thought)を伴う強化学習を活用することで、強力な数学的推論能力を示してきた。しかし、自然言語のみを使用する場合、明確な教師信号が不足しているため、定理証明において依然として困難を抱えている。Leanのような専用のドメイン固有言語は、証明の形式的検証を通じて明確な教師信号を提供し、強化学習による効果的なトレーニングを可能にする。本研究では、Seed-Proverという補題スタイルの全証明推論モデルを提案する。Seed-Proverは、Leanからのフィードバック、証明済みの補題、および自己要約に基づいて、証明を反復的に洗練することができる。IMOレベルの競技問題を解決するために、深い推論と広範な推論を可能にする3つのテスト時推論戦略を設計した。Seed-Proverは、過去のIMO問題の形式化されたものの78.1%を証明し、MiniF2Fを飽和させ、PutnamBenchで50%以上を達成し、従来の最先端技術を大幅に上回る性能を示した。Leanにおける幾何学サポートの不足に対処するため、Seed-Geometryという幾何学推論エンジンを導入し、従来の形式的幾何学エンジンを上回る性能を実現した。これら2つのシステムを使用してIMO 2025に参加し、6問中5問を完全に証明した。この研究は、長い連鎖思考推論を伴う形式的検証の有効性を示し、自動化された数学的推論における重要な進展を表している。
マルチモーダル推論モデルの発展に伴い、「アイアンマン」のJarvisのようなコンピュータ利用エージェント(CUA)が現実のものとなりつつあります。GUIグラウンディングは、CUAが実際のアクションを実行するためのコアコンポーネントであり、ロボティクスにおける機械制御に似ており、システムの成功または失敗に直接つながります。これは、クリックやタイピングといったアクション、およびクリックの座標などの関連パラメータを決定します。現在のエンドツーエンドグラウンディングモデルは、ScreenSpot-proやUI-Visionのような挑戦的なベンチマークで65%未満の精度しか達成しておらず、デプロイの準備がまだ整っていないことを示しています。本論文では、グラウンディングモデルのトレーニングに関する実証研究を行い、データ収集からモデルトレーニングまでの詳細を検証しました。その結果、エージェント設定において10Bパラメータ未満のモデルで、すべての5つのグラウンディングベンチマークで最先端の性能を達成するPhi-Groundモデルファミリーを開発しました。エンドツーエンドモデル設定においても、我々のモデルはScreenSpot-proで\textbf{43.2}、UI-Visionで\textbf{27.2}のスコアを達成し、SOTAの結果を維持しています。本論文で議論されたさまざまな詳細と、我々の成功と失敗は、グラウンディングモデルの構築を明確にするだけでなく、他の知覚タスクにも役立つと信じています。プロジェクトホームページ: https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
音声対話モデル(Spoken Dialogue Models, SDMs)は、ユーザーの音声クエリに対して直接音声応答を生成する能力により、近年注目を集めている。しかし、その人気が高まる一方で、SDMsが人間の会話を理解し模倣する実践的な有効性を包括的に理解するための研究は不足している。これは、特にテキストベースの大規模言語モデル(Large Language Models, LLMs)と比較して顕著であり、LLMsは広範なベンチマーキングの恩恵を受けている。人間の音声相互作用は、音声対話に特有の特性により、テキストよりも本質的に複雑である。曖昧さはその一例であり、多義性などの意味的要因や、異字同音語、異音同綴語、アクセントパターンなどの音韻的要因に起因する。さらに、省略、照応、多ターン相互作用などの文脈依存性も、人間の会話ダイナミクスにさらなる複雑さを加える。これらの課題に対処し、SDM開発の現状を明らかにするため、本論文では英語と中国語の1,079事例からなるベンチマークデータセットを提示する。このデータセットは、人間の判断に近いLLMベースの評価手法を伴い、SDMsがこれらの実践的課題に取り組む際の性能を包括的に探ることを可能にする。
レコメンダーシステムは、人工知能の最も影響力のある応用分野の一つであり、ユーザー、販売者、プラットフォームを結びつける重要なインフラとして機能しています。しかし、現在の産業システムの多くは、依然として過去の共起パターンやログフィッティング目的、すなわちユーザーの意図を明示的にモデル化せずに過去のユーザーインタラクションを最適化することに大きく依存しています。このログフィッティングアプローチは、狭い歴史的嗜好に過剰適合しがちで、ユーザーの進化する潜在的な興味を捉えることに失敗します。その結果、フィルターバブルやロングテール現象を強化し、最終的にはユーザーエクスペリエンスを損ない、レコメンデーションエコシステム全体の持続可能性を脅かすことになります。 これらの課題に対処するため、私たちはレコメンダーシステムの全体的な設計パラダイムを再考し、ユーザー意図をレコメンデーションパイプラインの中心に据えた次世代フレームワークであるRecGPTを提案します。RecGPTは、大規模言語モデル(LLM)をユーザー興味のマイニング、アイテム検索、説明生成の主要な段階に統合することで、ログフィッティングレコメンデーションを意図中心のプロセスに変革します。汎用LLMを上記のドメイン固有のレコメンデーションタスクに効果的かつ大規模に適合させるために、RecGPTは、推論を強化した事前アラインメントと自己学習進化を統合した多段階トレーニングパラダイムを採用し、Human-LLM協調判断システムによってガイドされます。現在、RecGPTはTaobaoアプリに完全に導入されています。オンライン実験では、RecGPTがすべてのステークホルダーにわたって一貫したパフォーマンス向上を達成することが示されています。ユーザーはコンテンツの多様性と満足度の向上を享受し、販売者とプラットフォームはより大きな露出とコンバージョンを得ています。これらの包括的な改善結果は、LLM駆動の意図中心設計が、より持続可能で相互に有益なレコメンデーションエコシステムを育むことができることを検証しています。
視覚-言語-行動(VLA)モデルは、言語指示に従い、新しいシナリオに一般化可能なロボット操作ポリシーを学習するための人気のあるパラダイムとして登場しました。最近の研究では、2つのフレーム間の視覚的変化を抽象的に表現する潜在行動をVLA事前学習に組み込む試みが始まっています。本論文では、一般化可能なロボット操作ポリシーを学習するための潜在行動モデリングを進化させた、新しい視覚-言語-潜在行動(ViLLA)フレームワークであるvilla-Xを紹介します。私たちのアプローチは、潜在行動の学習方法と、それをVLA事前学習に組み込む方法の両方を改善します。これらの貢献により、villa-XはSIMPLERやLIBEROを含むシミュレーション環境、およびグリッパーと器用な手操作を含む2つの実世界のロボットセットアップにおいて優れた性能を発揮します。ViLLAパラダイムは大きな可能性を秘めており、私たちのvilla-Xは将来の研究のための強固な基盤を提供すると信じています。
フィードフォワード型3Dモデリングは、高速かつ高品質な3D再構築の有望なアプローチとして注目を集めています。特に、3Dガウシアンスプラッティングのような明示的な3D表現を直接生成する手法は、高速で高品質なレンダリングと多数の応用可能性から、大きな関心を集めています。しかし、多くの最先端の手法、特にトランスフォーマーアーキテクチャに基づくものは、複数の入力ビューからの画像トークン間の完全なアテンションに依存しているため、ビュー数や画像解像度が増加するにつれて計算コストが急増し、スケーラビリティに深刻な問題を抱えています。スケーラブルで効率的なフィードフォワード型3D再構築を目指して、我々は反復的な大規模3D再構築モデル(iLRM)を提案します。このモデルは、3つの核心原則に基づいて、反復的な精緻化メカニズムを通じて3Dガウシアン表現を生成します:(1) シーン表現を入力ビュー画像から切り離し、コンパクトな3D表現を可能にする、(2) 完全なアテンション型のマルチビュー相互作用を2段階のアテンションスキームに分解して計算コストを削減する、(3) 高解像度情報を各層に注入して高忠実度の再構築を実現する。RE10KやDL3DVなどの広く使用されているデータセットでの実験結果は、iLRMが再構築品質と速度の両面で既存の手法を上回ることを示しています。特に、iLRMは優れたスケーラビリティを発揮し、より多くの入力ビューを効率的に活用することで、同等の計算コストで大幅に高い再構築品質を実現します。
強化学習(RL)は言語モデリングにおいて顕著な成功を収めてきたが、その勝利は視覚運動エージェントにはまだ完全には適用されていない。RLモデルの主な課題は、特定のタスクや環境に過剰適合する傾向があり、それによって多様な設定での汎用的な行動の獲得が妨げられることである。本論文は、MinecraftにおいてRLでファインチューニングされた視覚運動エージェントが未見の世界にゼロショット汎化を達成できることを示すことで、この課題に対する予備的な回答を提供する。具体的には、3D世界における汎用的な空間推論と相互作用能力を強化するためのRLの可能性を探る。マルチタスクRL表現における課題に対処するため、視覚運動ポリシーの統一的なマルチタスク目標空間として、クロスビュー目標指定を分析し確立する。さらに、手動タスク設計の大きなボトルネックを克服するために、高度にカスタマイズ可能なMinecraft環境内での自動タスク合成を提案し、大規模マルチタスクRLトレーニングをサポートする効率的な分散RLフレームワークを構築する。実験結果は、RLが相互作用成功率を4倍に向上させ、現実世界の設定を含む多様な環境での空間推論のゼロショット汎化を可能にすることを示している。我々の知見は、特に大規模タスク生成に適した3Dシミュレーション環境におけるRLトレーニングの巨大な潜在能力を強調し、視覚運動エージェントの空間推論を大幅に進歩させる可能性を示している。
大規模言語モデルは、シミュレートされた「アシスタント」のペルソナを通じてユーザーと対話します。アシスタントは通常、役に立ち、無害で、誠実であるように訓練されていますが、時としてこれらの理想から逸脱することがあります。本論文では、悪意、おべっか、幻覚を起こしやすい傾向など、いくつかの特性を表すモデルの活性化空間における「ペルソナベクトル」の方向性を特定します。これらのベクトルが、デプロイ時にアシスタントの性格の変動を監視するために使用できることを確認します。次に、ペルソナベクトルを適用して、訓練中に発生する性格の変化を予測し、制御します。ファインチューニング後の意図的および意図しない性格の変化が、関連するペルソナベクトルに沿ったシフトと強く相関していることを発見しました。これらのシフトは、事後の介入によって軽減できるか、新しい予防的ステアリング手法を用いて最初から回避することが可能です。さらに、ペルソナベクトルは、データセットレベルおよび個々のサンプルレベルで、望ましくない性格の変化を引き起こす訓練データをフラグ付けするために使用できます。ペルソナベクトルを抽出する私たちの方法は自動化されており、自然言語の記述さえあれば、任意の興味深い性格特性に適用することができます。
本論文では、Neural Radiance Fields(NeRF)と3D Gaussian Splatting(3DGS)を共同で最適化する新しいフレームワークであるNeRF-GSを提案します。このフレームワークは、NeRFの持つ連続的な空間表現を活用することで、3DGSのいくつかの制限(ガウシアン初期化への感度、空間認識の限界、ガウシアン間の相関の弱さなど)を緩和し、その性能を向上させます。NeRF-GSでは、3DGSの設計を見直し、その空間的特徴をNeRFと段階的に整合させることで、両方の表現が共有の3D空間情報を通じて同一シーン内で最適化されることを可能にします。さらに、暗黙的特徴とガウシアン位置の両方に対する残差ベクトルを最適化することで、3DGSの個別化能力を向上させ、両アプローチ間の形式的な差異に対処します。ベンチマークデータセットでの実験結果は、NeRF-GSが既存の手法を凌駕し、最先端の性能を達成することを示しています。この結果は、NeRFと3DGSが競合するのではなく補完的であることを確認し、効率的な3Dシーン表現のために3DGSとNeRFを組み合わせたハイブリッドアプローチに対する新たな洞察を提供します。
マルチモーダル大規模言語モデル(MLLMs)は視覚と言語の推論を可能にするが、しばしば事実誤認や視覚的根拠を欠いたもっともらしい出力を生成し、その信頼性を損なう。直接選好最適化(DPO)は、モデルの出力を人間の選好に合わせることで幻覚を修正する一般的な戦略である。既存のDPO戦略は、幻覚関連の選好を固定された目標として扱い、学習中に静的な監視信号に依存する傾向がある。このアプローチは、選好データにおける表面的な言語的指標に過剰適合し、分布の硬直化や因果的に関連する視覚情報の根拠を損なう偽の相関を引き起こす。この制限を克服するため、我々はTARSを提案する。TARSは、DPOをミニマックス最適化問題として再定式化するトークン適応型選好戦略である。TARSは、意味的制約の下でトークンレベルの分布シフトを最大化して整合性の不確実性をシミュレートし、同時にこれらの制御された摂動の下で期待選好損失を最小化する。この共同目的は、因果的根拠を維持しながら選好パターンへの過剰適合を緩和し、マルチモーダル推論における幻覚を減少させる。我々はTARSを複数の幻覚ベンチマークで評価し、一貫して高い性能を確認した。わずか4.8kの選好サンプルと専門家のフィードバックなしで、TARSは幻覚率を26.4%から13.2%に減少させ、認知価値を2.5から0.4に低下させた。TARSは標準DPOを上回り、いくつかの主要な指標でGPT-4oに匹敵する性能を示した。
病害識別などの農業タスクの精密な自動理解は、持続可能な作物生産にとって不可欠である。近年の視覚言語モデル(VLM)の進展は、容易なテキストベースのコミュニケーションを通じた人間とモデルの相互作用を促進することで、農業タスクの範囲をさらに拡大することが期待されている。本稿では、農業工学の主要分野をカバーし、実世界の農業に関連する7つの農業トピックにわたってVLMモデルを評価するためのベンチマークであるAgroBench(Agronomist AI Benchmark)を紹介する。最近の農業VLMベンチマークとは異なり、AgroBenchは専門の農学者によって注釈が付けられている。我々のAgroBenchは、203の作物カテゴリと682の病害カテゴリを含む最先端の範囲をカバーし、VLMの能力を徹底的に評価する。AgroBenchでの評価において、VLMは細粒度の識別タスクにおいて改善の余地があることが明らかになった。特に、雑草識別では、ほとんどのオープンソースVLMがランダムに近い性能を示した。我々は、幅広いトピックと専門家による注釈付きカテゴリを用いて、VLMが犯すエラーのタイプを分析し、将来のVLM開発のための潜在的な道筋を提案する。我々のデータセットとコードはhttps://dahlian00.github.io/AgroBenchPage/で公開されている。
ソフトマックスアテンションは、その表現力と幅広いタスクにわたるスケーラビリティから、導入以来、現代のトランスフォーマーアーキテクチャの基盤となってきました。しかし、ソフトマックスアテンションの主な欠点は、シーケンス長に対して二次的なメモリ要件と計算複雑性です。ソフトマックスの非線形性を置き換えることで、線形アテンションや類似の手法が導入され、ソフトマックスアテンションの二次的なボトルネックを回避する試みがなされてきました。これらの線形形式のアテンションは、元のソフトマックス定式化から派生しているにもかかわらず、下流の精度において通常は劣っています。クエリとキーの内積に対するソフトマックス非線形性の強い直感は、他の非線形性と比べて望ましい特性を持っていることを示唆していますが、なぜこのような差異が存在するのかという疑問は未だに解明されていません。本研究では、ソフトマックスアテンションの再帰形式を導出することで、線形アテンションがソフトマックスアテンションの近似であることを示します。この形式を用いることで、ソフトマックスアテンションの各部分を再帰型ニューラルネットワーク(RNN)の言語で記述することができます。ソフトマックスアテンションをRNNとして記述することで、その構成要素を除去し、各部分の重要性とそれらがどのように相互作用するかを理解することが可能になります。このようにして、本研究はソフトマックスアテンションが他の手法よりも表現力が高い理由を説明するのに役立ちます。
芸術スタイルの分類は、専門家によるラベル付きデータセットの不足や、スタイル要素の複雑でしばしば非線形な相互作用のため、計算美学において依然として大きな課題である。最近のデュアルティーチャー自己教師ありフレームワークはラベル付きデータへの依存を軽減するが、その線形射影層と局所的な焦点は、グローバルな構成的文脈や複雑なスタイル特徴の相互作用をモデル化するのに苦戦している。我々は、従来のMLP射影および予測ヘッドをKolmogorov-Arnold Networks(KANs)に置き換えることで、これらの制限に対処するためにデュアルティーチャー知識蒸留フレームワークを強化する。我々のアプローチは、2つのティーチャーネットワークからの補完的なガイダンスを保持し、一方は局所的なテクスチャや筆致パターンを強調し、他方は広範なスタイル的階層を捉えながら、KANsのスプラインに基づく活性化を活用して非線形特徴相関を数学的精度でモデル化する。WikiArtおよびPandora18kでの実験により、我々のアプローチがベースのデュアルティーチャーアーキテクチャをTop-1精度で上回ることが示された。我々の知見は、複雑なスタイル多様体を解きほぐす上でのKANsの重要性を強調し、MLP射影よりも優れた線形プローブ精度をもたらすことを示している。
アラビア語は、その複雑な形態論、任意のディアクリティカルマーク、そして現代標準アラビア語(MSA)と各種方言の共存により、自然言語処理(NLP)および情報検索(IR)において特に困難な課題を提起しています。アラビア語の世界的な重要性が高まっているにもかかわらず、NLP研究やベンチマークリソースにおいては依然として過小評価されています。本論文では、アラビア語に特化して開発された強化版Dense Passage Retrieval(DPR)フレームワークを紹介します。我々のアプローチの中核となるのは、標準的な相互作用メカニズムを置き換える新しいAttentive Relevance Scoring(ARS)であり、これは質問とパッセージ間の意味的関連性をより効果的にモデル化する適応型スコアリング関数です。本手法は、事前学習されたアラビア語言語モデルとアーキテクチャの改良を統合し、検索性能を向上させ、アラビア語の質問に対するランキング精度を大幅に向上させます。コードはhttps://github.com/Bekhouche/APR{GitHub}で公開されています。
データは連続的なストリームとして私たちの感覚に届き、瞬間から瞬間へと滑らかに変化していきます。これらの滑らかな変化は、私たちが住む環境の連続的な対称性と見なすことができ、時間経過に伴う刺激間の同値関係を定義します。機械学習において、データの対称性を尊重するニューラルネットワークアーキテクチャは等変性(equivariant)と呼ばれ、汎化能力とサンプル効率の面で証明可能な利点を持っています。しかし、これまで等変性は静的な変換とフィードフォワードネットワークにのみ考慮されており、リカレントニューラルネットワーク(RNNs)などのシーケンスモデルや、それに対応する時間パラメータ化されたシーケンス変換への適用が制限されていました。本研究では、等変性ネットワーク理論を「フロー」の領域に拡張します。フローとは、視覚的な動きなどの時間経過に伴う自然な変換を捉える1パラメータのリー部分群です。まず、標準的なRNNは一般的にフロー等変性を持たないことを示します。つまり、移動する刺激に対して隠れ状態が幾何学的に構造化された方法で変換されないことを示します。次に、フロー等変性を導入する方法を示し、これらのモデルが非等変性のモデルよりも訓練速度、長さの汎化、速度の汎化の点で大幅に優れていることを、次のステップ予測とシーケンス分類の両方で実証します。本研究は、私たちの周りの世界を支配する時間パラメータ化された対称性を尊重するシーケンスモデルを構築するための第一歩として提示します。
プライバシー懸念の高まりに伴い、機械学習モデルが特定の訓練データを「忘れる」ことを可能にする機械的忘却(machine unlearning)が注目を集めています。既存の手法の中でも、影響ベースの忘却(influence-based unlearning)は、再訓練なしに個々の訓練サンプルがモデルパラメータに与える影響を推定できることから、主要なアプローチとして浮上しています。しかし、この手法は、すべての訓練サンプルとパラメータにわたってヘッセ行列(Hessian matrix)とその逆行列を計算する必要性から生じる膨大な計算コストに悩まされており、大規模モデルや頻繁なデータ削除リクエストが発生するシナリオでは非現実的です。これは、忘却の難しさを浮き彫りにしています。 認知科学が示唆するように、記憶することは忘却するよりも容易であるという観点に着想を得て、本論文では、記憶(増分学習)と忘却(機械的忘却)の間に理論的な関連性を確立します。この関連性により、機械的忘却を増分学習の観点から取り組むことが可能になります。忘却(機械的忘却)における時間のかかるヘッセ行列の計算とは異なり、記憶(増分学習)は通常、より効率的な勾配最適化に依存しており、前述の認知理論を支持しています。この関連性に基づき、我々は増分学習の観点から効率的な機械的忘却を実現するための「影響近似忘却(Influence Approximation Unlearning, IAU)」アルゴリズムを提案します。広範な実験的評価により、IAUが削除保証、忘却効率、および同等のモデル有用性の間で優れたバランスを達成し、多様なデータセットとモデルアーキテクチャにおいて最先端の手法を凌駕することが実証されています。我々のコードはhttps://github.com/Lolo1222/IAUで公開されています。