翻訳付きの日次キュレーションされたAI研究論文
Sparse-Linear Attention(SLA)は、スパースアテンションと線形アテンションを組み合わせることで拡散モデルを高速化し、動画生成において強力な性能を示しています。しかしながら、(i) SLAはアテンション重みの大きさに基づいて計算をスパース分岐または線形分岐に振り分けるヒューリスティックな分割に依存しており、最適とは限りません。さらに、(ii) SLAのアテンション誤差を形式的に分析した結果、SLAとスパース/線形アテンションへの直接分解との間に不一致があることを明らかにしました。我々はSLA2を提案します。これは、(I) 各アテンション計算をスパースアテンションと線形アテンションのどちらで行うかを動的に選択する学習可能なルーター、(II) 学習可能な比率を用いてスパース分岐と線形分岐を結合する、より忠実で直接的なスパース-線形アテンションの定式化、(III) 量子化誤差を低減するために量子化認識ファインチューニングにより導入される低ビットアテンションを組み合わせた「スパース+低ビットアテンション」設計を導入します。実験により、動画拡散モデルにおいてSLA2が97%のアテンション疎性を達成し、生成品質を維持しながらアテンション速度を18.6倍向上させられることが示されています。
自律型Web GUIエージェントの性能は、その学習データの質と量に大きく依存します。しかし、根本的なボトルネックが存在します。実世界のウェブサイトからインタラクション軌跡を収集するにはコストがかかり、検証も困難です。基礎となる状態遷移は隠蔽されているため、ステップ単位の正しさを評価するには、一貫性のない高コストな外部検証器に依存せざるを得ません。この問題に対処するため、我々はAutoWebWorldを提案します。これは、ウェブ環境を有限状態機械(FSM)としてモデル化し、コーディングエージェントを用いてFSMを対話型ウェブサイトに変換することで、制御可能かつ検証可能なウェブ環境を合成する新しいフレームワークです。状態遷移が暗黙的である実ウェブサイトとは異なり、AutoWebWorldはすべての状態、アクション、遷移規則を明示的に定義します。これにより、プログラムによる検証が可能になります。アクションの正しさは事前定義された規則に対してチェックされ、タスクの成功はFSMグラフ内の目標状態への到達によって確認されます。AutoWebWorldは完全自動化された検索・検証パイプラインを実現し、29の多様なウェブ環境から11,663件以上の検証済み軌跡を軌跡あたりわずか0.04ドルで生成します。この合成データで学習することで、実世界での性能が大幅に向上します。我々の7BパラメータのWeb GUIエージェントは、WebVoyagerにおいて15ステップ以内ですべてのベースラインを上回りました。さらに、明確なスケーリング則が観察されました。合成データ量が増加するにつれて、WebVoyagerとOnline-Mind2Webにおける性能が一貫して向上しました。
マルチモーダル基盤モデルの急速な進展にもかかわらず、エンボディード知能コミュニティには、知覚・推論・計画を現実世界の時空間ダイナミクス内で統合する、物理的に接地された統一基盤モデルが依然として不足している。本論文では、エンボディード知能のためのオープンソース時空間基盤モデル「RynnBrain」を提案する。RynnBrainは包括的なエゴセントリック理解、多様な時空間位置特定、物理的に接地された推論、物理法則を考慮した計画という4つの核心能力を統一フレームワークで強化する。RynnBrainファミリーは、3つの基盤モデル規模(2B、8B、30B-A3B MoE)と、下流エンボディードタスク(RynnBrain-Nav、RynnBrain-Plan、RynnBrain-VLA)または複雑な空間推論タスク(RynnBrain-CoP)向けに調整された4つの事後学習バリアントで構成される。20のエンボディードベンチマークと8つの一般視覚理解ベンチマークによる広範な評価において、我々のRynnBrain基盤モデルは既存のエンボディード基盤モデルを大幅に上回る性能を示した。事後学習モデルスイートは、RynnBrain基盤モデルの2つの重要な可能性をさらに実証する:(i)物理的に接地された推論と計画の実現、(ii)多様なエンボディードタスクに効率的に適応可能な強力な事前学習バックボーンとしての機能である。
コンピュータ支援設計(CAD)は、エンジニアリングと製造において迅速で編集可能なモデリングを実現する。近年のAIの進歩により、様々なCADタスクの完全自動化が現実的となった。しかし、進展はデータによって阻害されている:公開データセットの大半はスケッチ-押し出しシーケンスを含むのみで、複雑な操作や多段階操作の合成、設計意図が欠如しており、効果的なファインチューニングを妨げている。凍結された視覚言語モデル(VLM)を用いた回避策も、現行の基盤モデルにおける3D理解の限界から、単純あるいは無効なプログラムを生成することが多い。本研究ではCADEvolveを提案する。これは進化的アプローチに基づくパイプラインおよびデータセットであり、単純なプリミティブから出発し、VLM誘導による編集と検証を経て、CADプログラムを産業レベルの複雑さへ段階的に発展させる。結果として、実行可能なCadQueryパラメトリック生成器として表現された8,000の複雑部品が得られた。多段階の後処理と拡張を経て、レンダリングされた幾何形状と対応し、CadQuery操作セット全体を網羅する130万スクリプトからなる統合データセットを構築した。CADEvolveでファインチューニングしたVLMは、DeepCAD、Fusion 360、MCBベンチマークにわたるImage2CADタスクにおいて最先端の結果を達成した。
ヒューマノイドロボットによる実環境における任意の物体の視覚的移動把持(loco-manipulation)には、正確なエンドエフェクタ(EE)制御と、視覚入力(例:RGB-D画像)を通じた環境の一般化可能な理解が求められる。既存の手法は実世界での模倣学習に基づくが、大規模な訓練データセットの収集が困難であるため、一般化性能が限られている。本論文は、ヒューマノイドロボットによる物体の移動把持のための新たなパラダイム「HERO」を提案する。これは、大規模視覚モデルが持つ強力な一般化能力と開放語彙理解を、シミュレーション訓練による高精度な制御性能と組み合わせたものである。これを実現するため、我々は残差を考慮した高精度なEE追跡ポリシーを設計した。このEE追跡ポリシーは、古典的なロボティクスと機械学習を融合させている。具体的には、a) 逆運動学を用いて残差エンドエフェクタ目標を参照軌道に変換、b) 正確な順運動学のための学習済み神経ネットワークフォワードモデル、c) 目標調整、d) 再計画を組み合わせている。これらの革新により、エンドエフェクタ追跡誤差を3.2分の1に低減することに成功した。この高精度なエンドエフェクタ追跡器を基盤として、強力な視覚的一般化を実現する開放語彙大規模視覚モデルを活用した、移動把持のためのモジュラーシステムを構築した。本システムは、オフィスからコーヒーショップまで多様な実環境で動作可能であり、43cmから92cmの高さの様々な台面上で、マグカップ、リンゴ、玩具などの日常品を確実に把持できる。シミュレーションと実環境における体系的モジュールテストおよびエンドツーエンドテストは、提案手法の有効性を実証している。本論文の進展が、ヒューマノイドロボットによる日常物体との相互作用訓練の新たな道を開くことを期待する。
自己利益を追求するエージェント間での協調の実現は、マルチエージェント強化学習における根本的な課題であり続けている。近年の研究では、相互の学習ダイナミクスを考慮し形成する「学習認識型」エージェント間において、相互協調が誘発され得ることが示された。しかし、既存のアプローチでは一般に、共同プレイヤーの学習規則に関する固定的でしばしば矛盾した仮定に依存するか、高速な時間スケールで更新する「素朴な学習者」とこれらの更新を観測する「メタ学習者」との厳格な分離を強要している。本研究では、シーケンスモデルが持つ文脈内学習能力により、固定化された仮定や明示的な時間スケール分離を必要とせずに共同プレイヤーの学習認識が可能となることを実証する。多様な共同プレイヤーの分布に対してシーケンスモデルエージェントを訓練すると、高速なエピソード内時間スケールにおいて学習アルゴリズムとして機能する、文脈内最適応答戦略が自然に誘導されることを示す。既存研究で特定された協調メカニズム—搾取への脆弱性が相互形成を駆動する—が、この設定で自然に出現することを発見した:文脈内適応はエージェントを搾取に脆弱にし、その結果生じる相手の文脈内学習ダイナミクスを形成する相互圧力が、協調的行動の学習へと解決される。我々の結果は、シーケンスモデルに対する標準的な分散型強化学習と共同プレイヤーの多様性の組み合わせが、協調的行動を学習するスケーラブルな経路を提供することを示唆している。
我々は、大規模音声埋め込みベンチマーク(MAEB)を提案する。これは100以上の言語にわたり、音声、音楽、環境音、クロスモーダルな音声-テキスト推論を含む30のタスクを網羅する大規模ベンチマークである。50以上のモデルを評価した結果、全てのタスクを単一のモデルが支配するものは存在しないことが明らかになった。対照学習型音声-テキストモデルは環境音分類(例:ESC50)で優れるが、多言語音声タスク(例:SIB-FLEURS)ではほぼランダムなスコアを示す。一方、音声事前学習モデルは逆の傾向を示した。クラスタリングは全てのモデルにとって課題であり、最高性能のモデルでも僅かな成果しか得られなかった。音響的理解で優れるモデルは言語タスクで苦戦し、その逆も成立する傾向が観測された。また、音声エンコーダのMAEBにおける性能は、それらを音声大規模言語モデルで使用した場合の性能と高い相関を示すことを実証した。MAEBは98のタスクから成るMAEB+に由来する。MAEBは評価コストを削減しつつタスク多様性を維持するよう設計され、テキスト・画像・音声モダリティ横断的な統一評価を実現するMTEBエコシステムに統合されている。MAEBおよび全98タスクのコードとリーダーボードをhttps://github.com/embeddings-benchmark/mteb で公開する。
大規模言語モデル(LLM)の標準的な事実性評価では、すべての誤りを同等に扱うため、失敗が知識の欠如(空の棚)によるものなのか、符号化された事実へのアクセス制限(失われた鍵)によるものなのかが不明確になっています。本研究では、質問レベルではなく事実レベルで知識のプロファイリングを行う行動論的フレームワークを提案します。各事実について、まず符号化の有無を特徴付け、次にそのアクセシビリティ(想起不可能、直接想起可能、推論時の計算(思考)によるみ想起可能)を評価します。このようなプロファイリングを支援するため、ウェブ検索に基づいたLLMを用いた自動パイプラインで構築された新しいベンチマーク「WikiProfile」を導入します。13種類のLLMから得られた400万件の応答を分析した結果、最先端モデル(GPT-5およびGemini-3)では当ベンチマークにおける事実の符号化率が95~98%とほぼ飽和していることが明らかになりました。しかし、想起は依然として主要なボトルネックであり、従来は知識不足に帰因されていた誤りの多くが、実際には符号化された知識へのアクセス失敗に起因することが分かりました。これらの失敗は系統的であり、特にロングテール事実や逆方向の質問において顕著に現れます。最後に、思考による想起の改善を示し、失敗の相当部分が回復可能であることを実証しました。これは今後の性能向上が、スケーリングよりも、モデルが既に符号化した知識を如何に効率的に活用するかという手法に依存する可能性を示唆しています。
AIエージェントは、重要なタスクを実行するためにますます導入されるようになっている。標準ベンチマークにおける精度スコアの上昇は急速な進歩を示唆しているが、実際には多くのエージェントが未だに失敗を続けている。この不一致は、現在の評価手法の根本的な限界を浮き彫りにしている。すなわち、エージェントの振る舞いを単一の成功率指標に圧縮することは、重大な動作上の欠陥を見えにくくしてしまう。特に、エージェントが実行間で一貫して動作するか、摂動に耐えられるか、予測可能な形で失敗するか、エラーの重大度が限定されているか、といった点が無視されがちである。安全重視のエンジニアリングに基づき、我々は信頼性を4つの主要次元(一貫性、頑健性、予測可能性、安全性)に分解する12の具体的な指標を提案し、包括的な性能プロファイルを提供する。2つの相補的なベンチマークで14のエージェントモデルを評価した結果、最近の能力向上は信頼性においてわずかな改善しかもたらしていないことが明らかになった。これらの根強い限界を可視化することで、我々の指標は従来の評価を補完しつつ、エージェントがどのように動作し、性能が低下し、失敗するかを考察するためのツールを提供する。
最先端のVision-Language-Action(VLA)モデルは意味的な一般化には優れているものの、新規環境における未経験の物理動作への一般化には課題を抱えています。本論文では、事前学習済みビデオ拡散モデルを基盤としたWorld Action Model(WAM)であるDreamZeroを提案します。VLAとは異なり、WAMはビデオを世界の状態変化の高密度な表現として利用し、未来の世界状態と行動を予測することで物理ダイナミクスを学習します。ビデオと行動を共同でモデル化することにより、DreamZeroは反復的な実演に依存することなく、多様なロボットデータから効果的に多様なスキルを学習します。このアプローチにより、実ロボット実験において従来のVLAモデルと比較して、新規タスクや環境への一般化性能が2倍以上向上しました。重要なことに、モデルとシステムの最適化を通じて、140億パラメータの自己回帰型ビデオ拡散モデルが7Hzでのリアルタイム閉ループ制御を実現しています。最後に、2種類のクロスエンボディメント転移を実証します:他ロボットや人間によるビデオのみの実演データを10-20分使用するだけで、未経験タスクの性能が相対的に42%以上向上しました。さらに驚くべきことに、DreamZeroは少数ショットでのエンボディメント適応を可能とし、わずか30分のプレイデータで新しい身体形態へ転移しながら、ゼロショット一般化能力を維持します。
高速重みアーキテクチャは、文脈長に依存しない一定のメモリオーバーヘッドを維持することで、長文脈モデリングにおける注意機構ベースのトランスフォーマーに代わる有望な代替手段を提供する。しかし、その潜在能力は次トークン予測(NTP)の訓練パラダイムによって制限されている。NTPは単一トークンの予測を最適化するが、プレフィックスに続く複数トークンにわたる意味的コヒーレンスを無視する。結果として、文脈情報を格納するためにパラメータを動的に更新する高速重みモデルは、長距離依存関係を捕捉できない最適ではない表現を学習してしまう。本論文では、強化学習フレームワークであるREFINE(Reinforced Fast weIghts with Next sEquence prediction)を提案する。REFINEは次シーケンス予測(NSP)目標の下で高速重みモデルを訓練し、予測エントロピーに基づいて情報量の多いトークン位置を選択し、複数トークンのロールアウトを生成し、自己監督によるシーケンスレベルの報酬を割り当て、グループ相対方策最適化(GRPO)を用いてモデルを最適化する。REFINEは事前訓練済み言語モデルの訓練ライフサイクル全体(訓練途中、訓練後、テスト時訓練)に適用可能である。LaCT-760MとDeltaNet-1.3Bを用いた実験により、REFINEが干し草の中の針探索、長文脈質問応答、LongBenchの多様なタスクにおいて、NTPを用いた教師ありファインチューニングを一貫して上回ることを実証する。REFINEは高速重みアーキテクチャにおける長文脈モデリングを改善する効果的かつ汎用的なフレームワークを提供する。
我々はSAM 3D Body(3DB)を紹介する。これは単一画像からの全身3次元人体メッシュ回復(HMR)におけるプロンプト可能なモデルであり、野外環境下における強力な一般化性能と一貫した精度を実現し、最先端の性能を示す。3DBは身体、足、手の人間のポーズを推定する。本モデルは、骨格構造と表面形状を分離する新しいパラメトリックメッシュ表現であるMomentum Human Rig(MHR)を採用した初のモデルである。3DBはエンコーダ・デコーダ構造を採用し、2Dキーポイントやマスクなどの補助プロンプトをサポートし、SAMモデルファミリーと同様のユーザーガイド推論を可能にする。高品質なアノテーションは、手動キーポイント注釈、微分可能最適化、多視点幾何学、高密度キーポイント検出を様々に組み合わせた多段階アノテーションパイプラインから導出する。当社のデータエンジンはデータの多様性を確保するため、データを効率的に選択・処理し、特殊なポーズや稀な撮影条件のデータを収集する。ポーズと外観カテゴリーで整理された新しい評価データセットを提示し、モデル挙動の詳細な分析を可能にする。定性ユーザー選好調査と従来の定量分析の両方において、従来手法を大幅に上回る優れた一般化性能と改善を示す実験結果を得た。3DBとMHRはともにオープンソースである。
Distribution Matching Distillation (DMD) は強力な高速化手法であるが、その安定性は「禁止領域」においてしばしば損なわれる。禁止領域とは、実教師が信頼性の低い指導を提供し、偽教師が不十分な反発力しか及ぼさない領域である。本研究では、従来手法をこれらの劣化領域を回避する暗黙的戦略として再解釈する統合最適化フレームワークを提案する。この知見に基づき、報酬代理を利用して禁止領域を明示的に検出・脱出する自己補正機構であるAdaptive Matching Distillation (AMD)を導入する。AMDは構造的信号分解により補正勾配を動的に優先し、失敗モード収束に対する急峻なエネルギーバリアを強化する反発的ランドスケープシャープニングを導入する。画像・動画生成タスク(SDXL、Wan2.1等)および厳密なベンチマーク(VBench、GenEval等)における広範な実験により、AMDが生成サンプルの忠実度と訓練の頑健性を大幅に向上させることを実証する。例えば、AMDはSDXLにおけるHPSv2スコアを30.64から31.25に改善し、最先端のベースライン手法を上回る。これらの結果は、禁止領域内での最適化軌道を明示的に補正することが、少数ステップ生成モデルの性能限界を押し上げる上で本質的に重要であることを裏付ける。
現代のAIエージェントは強力であるが、個々のユーザーの特異的かつ変化する選好に適応できないことが多い。従来のアプローチは、典型的には静的なデータセットに依存し、インタラクション履歴から暗黙的な選好モデルを学習するか、外部メモリにユーザープロファイルを符号化していた。しかし、これらのアプローチは新規ユーザーや時間とともに変化する選好に対しては苦戦する。本論文では、ヒューマンフィードバックによる個人化エージェント(PAHF)を提案する。これは、エージェントが明示的なユーザー単位のメモリを用いて、オンラインで実際のインタラクションから学習する継続的個人化のフレームワークである。PAHFは3段階のループを機能化する:(1) 曖昧さを解決するための行動前明確化の要求、(2) メモリから検索された選好に基づく行動の接地、(3) 選好が変化した際のフィードバックをメモリに統合する行動後の更新。この能力を評価するため、4段階のプロトコルと、具身化操作とオンラインショッピングにおける2つのベンチマークを開発した。これらのベンチマークは、エージェントが初期選好をゼロから学習し、その後人物像の変化に適応する能力を定量化する。理論分析と実験結果は、明示的メモリと双方向フィードバック経路の統合が重要であることを示す:PAHFは、メモリなしまたは単一経路のベースライン手法と比較して、学習速度が大幅に速く、一貫して優れた性能を発揮し、初期個人化の誤差を削減し、選好の変化への迅速な適応を可能にする。
長期的マルチモーダルエージェントは外部メモリに依存するが、類似性に基づく検索では、陳腐化した信頼性の低い、または矛盾する項目が頻繁に表面化し、過信エラーを引き起こす可能性がある。本論文では、マルチモーダルメモリエージェント(MMA)を提案する。MMAは、検索された各メモリ項目に、情報源の信頼性、時間的減衰、矛盾認識型ネットワーク合意を組み合わせた動的信頼性スコアを割り当て、この信号を用いて証拠の再重み付けを行い、支持が不十分な場合は棄権する。また、話者の信頼性を制御し、構造化されたテキスト-視覚矛盾を持つ信念動態のプログラム生成的ベンチマークであるMMA-Benchを導入する。この枠組みを用いて、RAGベースのエージェントが基盤モデルから潜在的な視覚的バイアスを継承する「視覚的プラセボ効果」を明らかにする。FEVERでは、MMAはベースラインと同等の精度を維持しつつ、分散を35.2%削減し選択的効用を向上させた。安全性重視の設定を施したLoCoMoでは、実用的な精度が向上し誤答が減少した。MMA-Benchでは、MMAはVisionモードで41.18%のType-B精度を達成したが、同じプロトコル下ではベースラインは0.0%に陥った。コード:https://github.com/AIGeeksGroup/MMA。
本論文では、拡散ベースの構造保存条件付き生成(SPCG)フレームワーク向けに、テキスト誘導型の効率的なアダプタであるNexus Adaptersを提案する。近年、構造保存手法は、プロンプト条件付けにベースモデルを、スケッチや深度マップなどの構造入力を処理するアダプタを使用することで、条件付き画像生成において有望な結果を達成している。しかし、これらの手法は非効率的であり、アダプタがベースアーキテクチャと同等のパラメータ数を必要とする場合もある。拡散モデル自体が高コストであるためモデルの再学習が常に可能とは限らず、パラメータ数が倍増するのは極めて非効率的である。さらに、既存手法のアダプタは入力プロンプトを認識しないため、構造入力に対してのみ最適化され、入力プロンプトには最適化されていない。これらの課題を克服するため、我々はプロンプトと構造入力の両方に誘導される二つの効率的なアダプタ、Nexus PrimeとNexus Slimを提案する。各Nexus Blockは、豊富なマルチモーダル条件付けを可能にするクロスアテンション機構を組み込んでいる。これにより、提案するアダプタは構造を保ちながら、入力プロンプトをより良く理解することができる。提案モデルに関する広範な実験を行い、Nexus Primeアダプタが、ベースラインであるT2I-Adapterと比較して僅か8Mの追加パラメータで性能を大幅に向上させることを実証した。さらに、T2I-Adapterよりも18M少ないパラメータを持つ軽量版Nexus Slimアダプタも提案し、こちらもState-of-the-Artの結果を達成した。コード: https://github.com/arya-domain/Nexus-Adapters
人間の知覚の中核をなすのは、状況的認識(situated awareness)である。これは、自己を周囲の物理環境に関連付け、文脈内で可能な行動を推論する能力を指す。しかし、既存のマルチモーダル基盤モデル(MFM)の評価指標の多くは、環境中心の空間関係(シーン内のオブジェクト間の関係)を重視する一方で、エージェントの視点、姿勢、動きを基準とした推論を必要とする観察者中心の関係性はほとんど見過ごされている。この隔たりを埋めるため、我々は実世界映像を用いたエゴセントリックな状況的認識を評価する新しいベンチマーク、SAW-Bench(Situated Awareness in the Real World)を提案する。SAW-Benchは、Ray-Ban Meta(Gen 2)スマートグラスで撮影した、多様な屋内・屋外環境にわたる786本の自作ビデオと、2,071組以上の人による注釈付き質問応答ペアで構成される。本ベンチマークは、6種類の認識タスクを通じて、モデルの観察者中心の理解を探る。包括的評価の結果、最高性能のMFMであるGemini 3 Flashであっても、人間とモデルの性能差は37.66%に達した。この隔たりに加え、詳細な分析からいくつかの注目すべき知見が明らかになった。例えば、モデルはエゴセントリック映像中の部分的な幾何学的手がかりを利用できる一方で、一貫したカメラジオメトリを推論することにしばしば失敗し、体系的な空間推論エラーを引き起こす。我々はSAW-Benchを、受動的観察を超えて、物理的に接地された観察者中心のダイナミクスを理解するための、状況的空間知能のベンチマークとして位置付ける。
我々は、放射線画像と関連する臨床テキストの両方を活用した、精密な医療診断のための新しい不確実性認識型マルチモーダルセグメンテーション枠組みを提案する。効率的なクロスモーダル融合と長距離依存関係のモデリングを可能にするため、軽量なState Space Mixer (SSMix) を備えたModality Decoding Attention Block (MoDAB) を導入する。曖昧性下での学習を導くため、空間的重なり、スペクトル一貫性、予測の不確実性を統一的に捉えるSpectral-Entropic Uncertainty (SEU) Lossを提案する。画像品質が低い複雑な臨床状況において、この定式化はモデルの信頼性を向上させる。様々な公開医療データセット(QATA-COVID19、MosMed++、Kvasir-SEG)での大規模な実験により、本手法が既存のState-of-the-Art (SoTA) 手法よりも計算効率を大幅に向上させつつ、優れたセグメンテーション性能を達成することを実証する。本結果は、視覚言語医療セグメンテーションタスクにおいて、不確実性モデリングと構造化されたモダリティ調整を組み込むことの重要性を強調する。コード: https://github.com/arya-domain/UA-VLS
マルチモーダル大規模言語モデル(MLLM)はエンボディードAIを著しく進歩させ、それらを用いたロボット知能のベンチマーク化は重要な趨勢となっている。しかし、既存のフレームワークは依然として単腕マニピュレーションに偏重しており、重い鍋を持ち上げるような両手作業に必要とされる時空間的協調を捉えられていない。この問題に対処するため、我々はBiManiBenchを提案する。これは基礎的な空間推論、高次元の行動計画、低次元のエンドエフェクタ制御という3層でMLLMを評価する階層的ベンチマークである。本フレームワークは、腕の到達可能性や運動学的制約といった両手操作に特有の課題を分離し、知覚的な幻覚と計画の失敗を区別する。30以上の最先端モデルを分析した結果、MLLMは高次元の推論能力には優れるものの、両腕の空間的接地と制御に課題があり、相互干渉や順序付け誤りが頻発することが明らかとなった。これらの知見は、現在のパラダイムが相互の運動学的制約に対する深い理解を欠いており、今後の研究が腕間衝突回避や細粒度の時系列順序付けに焦点を当てる必要性を示唆している。
生成型大規模視覚言語モデル(LVLM)は近年目覚ましい性能向上を達成し、そのユーザー基盤は急速に拡大している。しかし、特に長文脈・多対話ターン設定におけるLVLMの安全性は、ほとんど検討されていない。本論文では、攻撃者が改ざんされた画像をウェブやソーシャルメディアにアップロードする現実的なシナリオを考察する。善意のユーザーがこの画像をダウンロードし、LVLMへの入力として使用する。我々が提案する新しいステルス型視覚的メモリ注入(VMI)攻撃は、通常のプロンプトではLVLMが正常な挙動を示すように設計されているが、ユーザーがトリガープロンプトを与えると、LVLMが特定の指定されたターゲットメッセージを出力してユーザーを操作する(例:敵対的マーケティングや政治的説得)。単一ターン攻撃に焦点を当てた従来研究と比較して、VMIはユーザーとの長い多対話ターン会話後にも有効である。我々は、複数の最近のオープンウェイトLVLMに対して本攻撃を実証する。これにより、多対話ターン会話設定において、改変された画像を用いたユーザー大規模操作が可能であることを示し、LVLMのこれらの攻撃に対するロバスト性向上の必要性を提起する。ソースコードはhttps://github.com/chs20/visual-memory-injectionで公開している。
オピオイド危機は世界中のコミュニティに甚大な被害をもたらし続け、医療システムに負荷をかけ、家族を分断し、喫緊の計算機科学的解決策を求めている。この致死的なオピオイド危機に対処するため、複雑な薬物関連現象をモデル化する有望なパラダイムとしてグラフ学習手法が台頭してきた。しかし重要な課題が残されている:現実のオピオイド危機シナリオにおいてこれらの手法を体系的に評価する包括的なベンチマークが存在しないのである。この課題を解決するため、我々はOPBenchを提案する。これは3つの重要応用領域(医療請求データからのオピオイド過剰摂取検出、デジタルプラットフォームからの違法薬物取引検出、食事パターンからの薬物乱用予測)にわたる5つのデータセットで構成される、初の包括的オピオイドベンチマークである。具体的には、OPBenchはヘテロジニアスグラフやハイパーグラフを含む多様なグラフ構造を統合し、薬物関連データ間の豊かで複雑な関係情報を保持する。データ不足に対処するため、プライバシーと倫理ガイドラインに準拠しつつ、ドメイン専門家や公的機関と協力してデータセットを精選・注釈付与した。さらに、標準化されたプロトコル、事前定義されたデータ分割、再現可能なベースラインを含む統一評価フレームワークを確立し、グラフ学習手法間の公平かつ体系的な比較を可能にした。大規模な実験を通じて、既存グラフ学習手法の強みと限界を分析し、オピオイド危機対策の将来研究に向けた実践的示唆を提供する。ソースコードとデータセットはhttps://github.com/Tianyi-Billy-Ma/OPBenchで公開されている。