翻訳付きの日次キュレーションされたAI研究論文
本論文では、双対学習に基づく選好最適化フレームワークであるDuPOを提案する。DuPOは、一般化された双対性を利用してアノテーションフリーのフィードバックを生成する。本フレームワークは、検証可能な報酬を用いた強化学習(RLVR)が高コストなラベルに依存し、検証可能なタスクに限定されるという課題、および従来の双対学習が厳密に双対なタスクペア(例えば翻訳と逆翻訳)に制限されるという課題を解決する。具体的には、DuPOは主タスクの入力を既知と未知の要素に分解し、その双対タスクを構築して、主タスクの出力と既知の情報を用いて未知の部分を再構築する(例えば、数学的解法を逆転させて隠れた変数を復元する)。これにより、非可逆なタスクへの適用範囲が拡大される。この再構築の品質は、主タスクを最適化するための自己教師あり報酬として機能し、単一のモデルで両タスクをインスタンス化する大規模言語モデル(LLM)の能力と相乗効果を発揮する。実験的には、DuPOは多様なタスクにおいて顕著な改善を達成している:756の言語方向において翻訳品質を平均2.13 COMET向上させ、3つの数学的推論ベンチマークで平均6.4ポイントの精度向上を実現し、推論時のリランカーとして計算量と精度をトレードオフしながら9.3ポイントの性能向上をもたらした。これらの結果から、DuPOはスケーラブルで汎用的かつアノテーションフリーなLLM最適化のパラダイムとして位置づけられる。
将来予測は、LLMエージェントにとって高度な分析的思考、情報収集、文脈理解、不確実性下での意思決定を必要とする複雑なタスクである。エージェントは、膨大な量の動的な情報を収集し解釈するだけでなく、多様なデータソースを統合し、不確実性を考慮し、新たなトレンドに基づいて予測を適応させることが求められる。これは、政治、経済、金融などの分野で人間の専門家が行うのと同様である。その重要性にもかかわらず、将来予測におけるエージェントの評価のための大規模なベンチマークは存在しない。これは主に、リアルタイムの更新を処理し、タイムリーで正確な回答を取得する際の課題によるものである。この問題に対処するため、我々はFutureXを導入する。FutureXは、将来予測タスクを実行するLLMエージェントのために特別に設計された動的かつライブな評価ベンチマークである。FutureXは、将来予測において最大かつ最も多様なライブベンチマークであり、リアルタイムの日次更新をサポートし、質問収集と回答収集の自動化パイプラインを通じてデータ汚染を排除する。我々は、推論能力や検索能力、外部ツールの統合を備えたオープンソースのDeep Research AgentやクローズドソースのDeep Researchモデルを含む25のLLM/エージェントモデルを評価する。この包括的な評価は、エージェントの動的環境における適応的推論とパフォーマンスを評価するものである。さらに、我々は、将来指向のタスクにおけるエージェントの失敗モードとパフォーマンスの落とし穴について詳細な分析を提供する。これには、偽のウェブページに対する脆弱性や時間的有効性が含まれる。我々の目標は、複雑な推論と予測的思考において、プロの人間のアナリストと同等のレベルで実行可能なLLMエージェントの開発を促進する、動的で汚染のない評価基準を確立することである。
大規模言語モデル(LLM)は金融アプリケーションにおいて有望であることが示されているが、既存のベンチマークの不備により、この高リスク領域における適性は未だ十分に証明されていない。既存のベンチマークはスコアレベルの評価にのみ依存し、単一のスコアで性能を要約するため、モデルが実際に何を知っているかやその正確な限界についての微妙な理解が曖昧になる。また、これらのベンチマークは金融概念の狭いサブセットのみをカバーするデータセットに依存しており、実世界のアプリケーションに必要な他の要素を見落としている。これらのギャップを埋めるため、我々は金融LLM向けに初めての認知診断評価フレームワークであるFinCDMを導入し、単一の集計数値ではなく、スキルタグ付きタスクにおける応答パターンに基づいて、金融スキルや知識の有無を評価することを可能にした。さらに、公認会計士(CPA)試験から派生した初の認知的に情報化された金融評価データセットであるCPA-QKAを構築し、実世界の会計および金融スキルを包括的にカバーする。このデータセットは、ドメインエキスパートによって厳密に注釈され、高い相互注釈者一致率と細かい知識ラベルを付けた質問を作成、検証、注釈している。30のプロプライエタリ、オープンソース、およびドメイン固有のLLMに対する広範な実験により、FinCDMが隠れた知識ギャップを明らかにし、従来のベンチマークが見落としていた税務や規制推論などの未テスト領域を特定し、モデル間の行動クラスターを発見することが示された。FinCDMは、解釈可能でスキルを意識した診断を可能にすることで、より信頼性が高くターゲットを絞ったモデル開発を支援する金融LLM評価の新たなパラダイムを導入し、すべてのデータセットと評価スクリプトを公開してさらなる研究を支援する。
3Dオブジェクトを編集可能なプログラムに再構築することは、リバースエンジニアリングや形状編集などのアプリケーションにおいて極めて重要である。しかし、既存の手法はしばしば限定的なドメイン固有言語(DSL)と小規模なデータセットに依存しており、複雑な幾何学的構造や形状をモデル化する能力が制限されている。これらの課題に対処するため、我々はMeshCoderを提案する。これは、点群から複雑な3Dオブジェクトを編集可能なBlender Pythonスクリプトに再構築する新しいフレームワークである。我々は、複雑な幾何学的形状を合成可能な包括的なBlender Python APIセットを開発した。これらのAPIを活用し、各オブジェクトのコードを意味的に分解した大規模なオブジェクト-コードペアデータセットを構築した。その後、3D点群を実行可能なBlender Pythonスクリプトに変換するマルチモーダル大規模言語モデル(LLM)を訓練した。我々のアプローチは、形状からコードへの再構築タスクにおいて優れた性能を発揮するだけでなく、コードの簡単な修正を通じて直感的な幾何学的および位相的な編集を可能にする。さらに、コードベースの表現は、3D形状理解タスクにおけるLLMの推論能力を向上させる。これらの貢献により、MeshCoderはプログラムによる3D形状の再構築と理解における強力で柔軟なソリューションとして確立された。
本論文では、高精度な3D編集を実現する汎用フレームワーク「Tinker」を紹介する。Tinkerは、シーンごとの微調整を必要とせず、ワンショットおよび少数ショットの両方のレジームで動作する。従来の手法では、マルチビュー一貫性を確保したり、数十の一貫した編集済み入力ビューを生成するために、シーンごとの大規模な最適化が求められていたが、Tinkerはわずか1枚または2枚の画像から、頑健でマルチビュー一貫性のある編集を実現する。この能力は、事前学習済み拡散モデルを再利用し、その潜在的な3D認識を引き出すことに由来する。この分野の研究を推進するため、多様なシーンとスタイルを網羅する初の大規模マルチビュー編集データセットとデータパイプラインを構築した。このデータセットを基に、シーンごとのトレーニングを必要とせずにマルチビュー一貫性のある編集済みビューを生成するフレームワークを開発した。このフレームワークは、以下の2つの新規コンポーネントで構成される:(1) 参照型マルチビューエディタ:すべての視点で一貫した、参照駆動型の精密な編集を可能にする。(2) 任意ビューからビデオへの合成器:ビデオ拡散から得られる空間-時間的プライアを活用し、疎な入力からでも高品質なシーン補完と新規ビュー生成を実現する。広範な実験を通じて、Tinkerは汎用的な3Dコンテンツ作成の障壁を大幅に低減し、編集、新規ビュー合成、レンダリング強化タスクにおいて最先端の性能を達成した。Tinkerは、真にスケーラブルなゼロショット3D編集に向けた重要な一歩であると考える。プロジェクトウェブページ: https://aim-uofa.github.io/Tinker
モデルコンテキストプロトコル(Model Context Protocol, MCP)は、大規模言語モデル(LLM)を外部データソースやツールに接続するための革新的な標準として登場し、主要なAIプロバイダーや開発プラットフォームで急速に採用が進んでいます。しかし、既存のベンチマークは過度に単純化されており、長期的な推論や大規模で未知のツール空間といった実際のアプリケーションの課題を捉えられていません。この重要なギャップを埋めるため、我々はMCP-Universeを導入します。これは、現実世界のMCPサーバーとの相互作用を通じてLLMを現実的かつ困難なタスクで評価するために特別に設計された初の包括的なベンチマークです。我々のベンチマークは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、ウェブ検索の6つのコアドメインにまたがり、11の異なるMCPサーバーをカバーしています。厳密な評価を確保するため、エージェントのフォーマット準拠を確認するフォーマット評価器、時間不変のコンテンツマッチングを行う静的評価器、時間的に敏感なタスクに対してリアルタイムのグラウンドトゥルースを自動的に取得する動的評価器を実装しています。主要なLLMの広範な評価を通じて、GPT-5(43.72%)、Grok-4(33.33%)、Claude-4.0-Sonnet(29.44%)といった最先端のモデルでさえも、顕著な性能制限を示すことが明らかになりました。さらに、我々のベンチマークは、LLMエージェントにとって重要な長文脈の課題を提示します。入力トークン数は相互作用ステップの増加に伴い急速に増加するためです。また、MCPサーバーの正確な使用方法にLLMエージェントが慣れていないという未知のツールの課題も導入されます。特に、Cursorのようなエンタープライズレベルのエージェントでも、標準的なReActフレームワークを上回る性能を達成できません。評価を超えて、我々はUIサポートを備えた拡張可能な評価フレームワークをオープンソース化し、研究者や実務者が新しいエージェントやMCPサーバーをシームレスに統合できるようにし、急速に進化するMCPエコシステムにおけるイノベーションを促進します。
私たちは、推論ワークロードにおけるスループットを向上させつつ、同規模のモデルと比較して最先端の精度を達成するハイブリッドMamba-Transformer言語モデル、Nemotron-Nano-9B-v2を紹介します。Nemotron-Nano-9B-v2は、一般的なTransformerアーキテクチャの大部分の自己注意層をMamba-2層に置き換えることで、推論に必要な長い思考トレースを生成する際の推論速度を向上させたNemotron-Hアーキテクチャを基盤としています。Nemotron-Nano-9B-v2は、まずFP8トレーニングレシピを使用して20兆トークンで12億パラメータのモデル(Nemotron-Nano-12B-v2-Base)を事前学習し、その後、Minitron戦略を用いてモデルを圧縮・蒸留し、単一のNVIDIA A10G GPU(22GiBメモリ、bfloat16精度)で最大128kトークンの推論を可能にすることを目指しています。既存の同規模モデル(例:Qwen3-8B)と比較して、Nemotron-Nano-9B-v2は推論ベンチマークで同等またはそれ以上の精度を達成しつつ、8k入力と16k出力トークンといった推論設定において最大6倍の推論スループットを実現します。私たちは、Nemotron-Nano-9B-v2、Nemotron-Nano12B-v2-Base、およびNemotron-Nano-9B-v2-Baseのチェックポイントと、事前学習および事後学習データセットの大部分をHugging Faceで公開します。
人工知能(AI)は、科学の発見を再構築し、専門的な計算ツールから自律的な研究パートナーへと進化を遂げつつある。本稿では、エージェント型科学(Agentic Science)を、AI for Scienceパラダイムの中核的な段階として位置づけ、AIシステムが部分的な支援から完全な科学的エージェンシーへと進化する過程を論じる。大規模言語モデル(LLMs)、マルチモーダルシステム、統合研究プラットフォームによって可能となったエージェント型AIは、仮説生成、実験設計、実行、分析、反復的改善といった、かつては人間に特有とされていた行動を示す。本調査では、生命科学、化学、材料科学、物理学にわたる自律的な科学発見を領域別にレビューする。プロセス指向、自律性指向、メカニズム指向というこれまで断片的であった3つの視点を、基礎能力、中核プロセス、領域固有の実現を結びつける包括的フレームワークを通じて統合する。このフレームワークに基づき、(i) AI for Scienceの進化を辿り、(ii) 科学的エージェンシーを支える5つの中核能力を特定し、(iii) 発見を動的な4段階ワークフローとしてモデル化し、(iv) 上記領域における応用例をレビューし、(v) 主要な課題と将来の機会を統合する。本稿は、自律的な科学発見を領域別に統合し、エージェント型科学をAI駆動型研究を推進する構造化されたパラダイムとして位置づけるものである。
拡散型大規模言語モデル(dLLM)の最近の進展により、自然言語生成タスクにおいて自己回帰型(AR)LLMの有望な代替手段が導入され、完全なアテンションとノイズ除去ベースのデコーディング戦略を活用しています。しかし、これらのモデルをエッジデバイスに展開することは、その膨大なパラメータ規模と高いリソース要求のため、依然として困難です。AR LLMの圧縮技術として広く採用されているポストトレーニング量子化(PTQ)が登場していますが、dLLMへの適用性はほとんど検討されていません。本研究では、拡散ベースの言語モデルの量子化に関する最初の体系的な研究を提示します。まず、動的範囲を支配する異常に大きな活性化値を特徴とする活性化外れ値の存在を特定します。これらの外れ値は、大多数の値の精度を維持することを困難にするため、低ビット量子化における主要な課題となります。さらに重要なことに、最先端のPTQ手法を実装し、複数のタスクタイプとモデルバリアントにわたる包括的な評価を実施します。我々の分析は、ビット幅、量子化手法、タスクカテゴリ、モデルタイプという4つの主要な次元に沿って構成されています。この多角的な評価を通じて、異なる設定下でのdLLMの量子化挙動に関する実践的な洞察を提供します。我々の知見が、効率的なdLLM展開のための将来の研究の基盤となることを期待しています。すべてのコードと実験設定をコミュニティの支援のために公開します。
我々は、身体化認知を目的としたビデオマルチモーダル大規模言語モデル「RynnEC」を紹介する。汎用視覚言語基盤モデルを基盤として構築されたRynnECは、領域エンコーダとマスクデコーダを組み込むことで、柔軟な領域レベルでのビデオインタラクションを可能にする。コンパクトなアーキテクチャにもかかわらず、RynnECは物体特性理解、物体セグメンテーション、空間推論において最先端の性能を達成する。概念的には、身体化エージェントの脳に対する領域中心のビデオパラダイムを提供し、物理世界の細粒度な知覚とより精密なインタラクションを可能にする。注釈付き3Dデータセットの不足を緩和するため、我々は身体化認知データを生成するためのエゴセントリックビデオベースのパイプラインを提案する。さらに、身体化認知能力を評価するための領域中心のベンチマーク「RynnEC-Bench」を導入する。我々は、RynnECが身体化エージェントの汎用認知コアの開発を推進し、多様な身体化タスク間での汎化を促進することを期待している。コード、モデルチェックポイント、およびベンチマークは以下で利用可能である: https://github.com/alibaba-damo-academy/RynnEC
人工知能システムは、タンパク質構造予測から材料設計に至る特定の研究タスクを加速することで科学的発見を変革しつつあるが、依然として狭い領域に限定されており、多大な人間の監視を必要としている。科学文献の指数関数的な増加と領域特化の進行は、研究者が学際的な知識を統合し統一理論を開発する能力を制約しており、より汎用的なAIシステムの科学への応用を模索する動機となっている。本研究では、ドメインに依存しない自律型AIシステムが、仮説生成からデータ収集、論文作成に至る科学的ワークフローを独立してナビゲートできることを示す。このシステムは、視覚的ワーキングメモリ、心的回転、イメージの鮮明さに関する3つの心理学研究を自律的に設計・実行し、288名の参加者を対象とした新たなオンラインデータ収集を実施し、8時間以上の連続コーディングセッションを通じて分析パイプラインを開発し、完成した論文を作成した。結果は、AIによる科学的発見パイプラインが、経験豊富な研究者に匹敵する理論的推論と方法論的厳密さを持って非自明な研究を実施できる能力を示しているが、概念的なニュアンスや理論的解釈には限界がある。これは、仮説を現実世界の実験を通じて検証できる具現化されたAIに向けた一歩であり、人間の認知やリソースの制約によって未探索のまま残される可能性のある科学的領域を自律的に探索することで発見を加速するものである。これは、科学的理解の本質や科学的功績の帰属に関する重要な問いを提起するものである。
自己注意機構の二次計算量は、大規模な非構造化メッシュにおける適用性と拡張性を制限しています。本論文では、Fast Low-rank Attention Routing Engine (FLARE)を提案します。これは、固定長の潜在シーケンスを通じて注意をルーティングする線形計算量の自己注意機構です。各注意ヘッドは、学習可能なクエリトークンを使用して入力シーケンスをM ≪ Nトークンの固定長潜在シーケンスに投影し、Nトークン間のグローバルな通信を行います。ボトルネックシーケンスを通じて注意をルーティングすることで、FLAREはO(NM)のコストで適用可能な低ランク形式の注意を学習します。FLAREは前例のない問題規模にスケールするだけでなく、多様なベンチマークにおいて最先端のニューラルPDEサロゲートと比較しても優れた精度を実現します。また、さらなる研究を促進するために、新しい積層造形データセットを公開します。コードはhttps://github.com/vpuri3/FLARE.pyで利用可能です。
教師ありファインチューニング(SFT)と強化学習(RL)は、大規模言語モデル(LLM)の能力を洗練し、その振る舞いを調整するための2つの主要なポストトレーニングパラダイムです。既存のSFTとRLを統合するアプローチでは、確立されたモデルのパターンを破壊したり、専門家データへの過剰適合を引き起こすリスクがしばしば生じます。この問題に対処するため、我々はオフポリシーとオンポリシーの視点を通じてSFTとRLの統一的な見解を探る新たな研究を提示します。我々は、CHORD(Controllable Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic Weighting)というフレームワークを提案します。これは、SFTを独立した段階ではなく、オンポリシーRLプロセス内で動的に重み付けされる補助目的として再定義します。オフポリシーの専門家データが全体的および詳細なレベルに及ぼす影響を分析した上で、CHORDにデュアルコントロールメカニズムを組み込みます。具体的には、このフレームワークはまず、オフポリシー模倣からオンポリシー探索への移行を全体的に導くためのグローバル係数を採用し、次に、専門家トークンからの詳細な学習を可能にするトークン単位の重み付け関数を適用します。これにより、オンポリシー探索を維持しつつ、オフポリシーデータからの干渉を軽減します。我々は広く使用されているベンチマークで大規模な実験を行い、CHORDが安定かつ効率的な学習プロセスを実現することを実証的に示します。オフポリシーの専門家データとオンポリシー探索を効果的に調和させることで、CHORDはベースラインを大幅に上回る改善を示します。我々は、さらなる研究を促進するため、実装をhttps://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chordで公開しています。
視覚言語モデル(VLMs)は、英語のマルチモーダルタスクにおいて顕著な能力を発揮しますが、真にマルチモーダルな教育コンテンツを持つ低リソース言語での性能はほとんど未解明のままです。本研究では、VLMsがベトナムの教育評価においてどのように機能するかをテストし、主に英語データで訓練されたVLMsが現実世界のクロスリンガルなマルチモーダル推論を処理できるかどうかを調査します。私たちの研究は、2,548のマルチモーダル問題を含むベンチマーク「ViExam」を提案し、ベトナムのマルチモーダル試験におけるVLMsの能力を初めて包括的に評価します。その結果、最先端のVLMsは平均57.74%の精度しか達成せず、オープンソースモデルは数学、物理、化学、生物、地理、運転試験、IQテストを含む7つの学術領域で平均27.70%の精度にとどまることがわかりました。ほとんどのVLMsは平均的な人間の受験者(66.54%)を下回り、思考型VLM o3(74.07%)のみが人間の平均性能を上回りましたが、人間の最高性能(99.60%)には大きく及ばない結果でした。英語の指示を用いたクロスリンガルプロンプティングは、ベトナム語のコンテンツを維持しても性能を改善せず、最先端のVLMsでは精度が1ポイント低下しました。人間の介入による協力は、VLMsの性能を部分的に5ポイント向上させることができました。コードとデータはhttps://vi-exam.github.ioで公開されています。
大規模言語モデル(LLM)は、連鎖的思考(CoT)推論などの手法を通じて、推論タスクにおいて大きな進歩を遂げてきました。しかし、正確な計算を必要とするタスクではしばしば不十分な結果を示します。ツール統合型推論(TIR)は、外部ツールを推論プロセスに組み込むことでこの問題に対処する解決策として登場しました。しかし、TIRがLLMの推論能力を向上させる際の汎用性についてはまだ明らかではありません。さらに、TIRがモデルの推論行動を改善し、モデルが思考するのを助けたかどうかも研究の余地があります。本研究では、TIRの効果をさまざまな領域で評価するために、9つの多様な推論カテゴリを網羅した包括的なベンチマーク「ReasonZoo」を導入します。さらに、推論効率を評価するための2つの新しい指標、パフォーマンス認識コスト(PAC)とパフォーマンスコスト曲線下面積(AUC-PCC)を提案します。我々の実証評価では、TIRを有効にしたモデルが、数学的および非数学的タスクの両方において、TIRを有効にしていないモデルを一貫して上回ることが示されました。さらに、TIRは推論効率を向上させ、PACとAUC-PCCの改善によって、過剰思考の減少とより効率的な推論が実現されていることが明らかになりました。これらの発見は、TIRの領域横断的な利点と、複雑な推論タスクにおけるLLMの能力を進化させる可能性を強調しています。
スケール変動はコンピュータビジョンにおける基本的な課題である。同じクラスのオブジェクトでもサイズが異なる場合があり、さらにカメラからの距離によって知覚されるサイズも変化する。これらの変動はオブジェクトごとに局所的であり、つまり同じ画像内でも異なるオブジェクトのサイズが異なる変化を示す可能性がある。スケール変動を効果的に扱うために、本論文ではモデルの局所的スケール等価性を向上させる深層平衡正規化器(DEC)を提案する。DECは既存のネットワークアーキテクチャに容易に組み込むことができ、事前学習済みモデルにも適用可能である。特に、競争力のあるImageNetベンチマークにおいて、DECがViT、DeiT、Swin、BEiTといった4つの人気のある事前学習済み深層ネットワークのモデル性能と局所的スケール一貫性の両方を向上させることを示す。私たちのコードはhttps://github.com/ashiq24/local-scale-equivarianceで公開されている。
本論文は、完全準同型暗号(FHE)、特にTFHEなどの第三世代スキームの枠組み内でレーベンシュタイン(編集)距離を計算するための新規アプローチを提示する。編集距離の計算は、DNA配列アラインメントなど、金融やゲノミクス分野のアプリケーションにおいて不可欠である。我々は、編集距離計算のコストを大幅に削減する最適化アルゴリズム「Leuvenshtein」を提案する。このアルゴリズムは、計算セルごとに必要なプログラム可能なブートストラップ(PBS)の数を、従来のWagner-Fisherアルゴリズムで必要とされる約94回からわずか1回に削減する。さらに、文字の等価性チェックを効率的に行う方法を提案し、ASCII文字比較をわずか2回のPBS操作に削減する。最後に、入力文字列の1つが暗号化されていない場合に前処理を活用することで、さらなる性能向上の可能性を探る。我々のLeuvenshteinは、利用可能な最良のTFHE実装と比較して最大278倍、最適化されたWagner-Fisherアルゴリズムの実装と比較して最大39倍の高速化を達成する。さらに、サーバー側で1つの入力が暗号化されていない場合にオフライン前処理が可能であれば、さらに3倍の高速化が実現できる。
推論能力を強化した大規模言語モデル(LLM)の最近の進展は、複雑な推論タスクにおいて顕著な能力を示しています。しかし、異なる人間の推論スキルを活用するメカニズムについては、特に異なる言語や文化にまたがる日常的な知識を必要とする多言語常識推論において、十分に調査されていません。このギャップを埋めるため、我々はスキルベースの常識推論のための多言語かつスケーラブルなベンチマーク(mSCoRe)を提案します。 本ベンチマークは、LLMの推論能力を体系的に評価するために設計された3つの主要な要素を組み込んでいます。具体的には、(1) モデルの推論プロセスを詳細に分析するための新しい推論スキルの分類体系、(2) 常識推論評価に特化した堅牢なデータ合成パイプライン、(3) LLMの能力向上に伴ってタスクの難易度を動的にスケーリングする複雑度スケーリングフレームワークです。さまざまなサイズとトレーニング手法を採用した8つの最先端LLMを用いた広範な実験により、mSCoReが特に高複雑度レベルにおいて、現在のモデルにとって依然として非常に困難であることが示されました。結果から、推論能力を強化したモデルが、微妙な多言語一般常識や文化的常識に直面した際の限界が明らかになりました。さらに、モデルの推論プロセスに関する詳細な分析を提供し、多言語常識推論能力を向上させるための今後の方向性を示唆します。
マルチモーダル推薦システムは、アイテムの豊富なモーダル情報(例えば、画像やテキスト記述)を活用して推薦性能を向上させることに焦点を当てている。現在の手法は、グラフニューラルネットワークの強力な構造モデリング能力により顕著な成功を収めている。しかし、これらの手法は現実世界のシナリオにおけるデータの希薄さによってしばしば妨げられている。コントラスティブ学習やホモグラフィ(すなわち、同質グラフ)がデータの希薄さの課題に対処するために採用されているが、既存の手法は依然として以下の2つの主要な制限に悩まされている:1)単純なマルチモーダル特徴の対比は有効な表現を生成するのに失敗し、モーダル共有特徴におけるノイズやモーダル固有特徴における貴重な情報の損失を引き起こす;2)ユーザーの興味とアイテムの共起との間のホモグラフ関係の探索が不足しているため、ユーザーとアイテムの相互作用の不完全なマイニングが生じる。 これらの制限に対処するため、我々はマルチモーダルコントラスティブ学習とホモグラフィ関係を洗練するための新しいフレームワーク(REARM)を提案する。具体的には、メタネットワークと直交制約戦略を採用してマルチモーダルコントラスティブ学習を補完し、モーダル共有特徴におけるノイズを除去し、モーダル固有特徴における推薦関連情報を保持する。同質関係を効果的にマイニングするために、新たに構築されたユーザー興味グラフとアイテム共起グラフを既存のユーザー共起グラフとアイテム意味グラフと統合してグラフ学習を行う。3つの実世界のデータセットにおける広範な実験により、REARMが様々な最先端のベースラインに対して優位性を持つことが実証された。我々の可視化はさらに、REARMがモーダル共有特徴とモーダル固有特徴を区別する上で改善をもたらすことを示している。コードはhttps://github.com/MrShouxingMa/REARM{ここ}で利用可能である。