HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

24 papers found

SkillNet：AIスキルの作成・評価・連携プラットフォーム
SkillNet: Create, Evaluate, and Connect AI Skills

Feb 26

ByYuan Liang, Ruobin Zhong, Haoming Xu, Chen Jiang, Yi Zhong, Runnan Fang, Jia-Chen Gu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Xin Xu, Tongtong Wu, Kun Wang, Yang Liu, Zhen Bi, Jungang Lou, Yuchen Eleanor Jiang, Hangcheng Zhu, Gang Yu, Haiwen Hong, Longtao Huang, Hui Xue, Chenxi Wang, Yijun Wang, Zifei Shan, Xi Chen, Zhaopeng Tu, Feiyu Xiong, Xin Xie, Peng Zhang, Zhengke Gui, Lei Liang, Jun Zhou, Chiyu Wu, Jin Shang, Yu Gong, Junyu Lin, Changliang Xu, Hongjie Deng, Wen Zhang, Keyan Ding, Qiang Zhang, Fei Huang, Ningyu Zhang, Jeff Z. Pan, Guilin Qi, Haofen Wang, Huajun Chen

現在のAIエージェントはツールを柔軟に呼び出し複雑なタスクを実行できますが、スキルの体系的な蓄積と移転の仕組みが欠如しているため、長期的な発展が阻害されています。スキルを統合する統一的なメカニズムがないため、エージェントはしばしば「車輪の再発明」を繰り返し、孤立した文脈で解決策を再発見しながら、過去の戦略を活用できない状況にあります。この課題を克服するため、大規模なAIスキルの作成・評価・体系化を可能にするオープンインフラ「SkillNet」を提案します。SkillNetは、異種ソースからのスキル作成、豊富な関係性の確立、安全性・完全性・実行可能性・保守性・コスト意識にわたる多次元評価を支援する統一オントロジー内でスキルを構造化します。本インフラは20万以上のスキルリポジトリ、対話型プラットフォーム、多機能なPythonツールキットを統合しています。ALFWorld、WebShop、ScienceWorldにおける実験的評価では、SkillNetがエージェントの性能を大幅に向上させ、複数の基盤モデルにおいて平均報酬を40%増加させ、実行ステップを30%削減することが実証されました。スキルを進化可能で構成可能な資産として形式化することで、SkillNetはエージェントが一時的な経験から永続的な習熟へ移行するための堅牢な基盤を提供します。

MOOSE-Star: 複雑性の壁を打破し科学的発見のための扱いやすいトレーニングを実現
MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Mar 4

ByZonglin Yang, Lidong Bing

大規模言語モデル（LLM）は科学的発見において有望性を示すものの、既存研究は推論やフィードバック駆動型の訓練に焦点を当てており、生成的推論プロセスP(仮説|背景知識)（P(h|b)）の直接的なモデリングは未開拓のままであった。本論文では、膨大な知識ベースから着想を検索・構成する際に内在する組合せ爆発（O(N^k)）のため、P(h|b)を直接訓練することは数学的に扱い難いことを示す。この障壁を打破するため、我々は扱いやすい訓練とスケーラブルな推論を可能にする統一フレームワーク「MOOSE-Star」を提案する。最良の場合、MOOSE-Starは以下の3つの手法により複雑性を指数関数的から対数的（O(log N)）に低減する：（1）発見の確率論的方程式から導出した部分タスクへの分解による訓練、（2）対数的検索を可能にし無関係な部分空間を刈り込む動機付け誘導型階層的検索の採用、（3）検索ノイズに対する頑健性を確保するための有界合成の活用。これを促進するため、我々は訓練用に分解された108,717本の論文からなるデータセット「TOMATO-Star」（38,400 GPU時間）を公開する。さらに、力任せのサンプリングが「複雑性の壁」に突き当たる一方で、MOOSE-Starはテスト時における連続的なスケーリング特性を示すことを実証する。

DARE: 分布認識検索によるLLMエージェントとR統計エコシステムの連携
DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Mar 5

ByMaojun Sun, Yue Wu, Yifei Xie, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang

大規模言語モデル（LLM）エージェントはデータサイエンスワークフローを自動化できるが、Rで実装された多くの厳密な統計手法は、LLMが統計知識とツール検索に課題を抱えるため十分に活用されていない。既存の検索拡張アプローチは関数レベルの意味論に焦点を当て、データ分布を無視するため、最適ではない結果を生み出す。我々は、Rパッケージ検索においてデータ分布情報を関数表現に組み込む軽量でプラグアンドプレイ型の検索モデルDARE（Distribution-Aware Retrieval Embedding）を提案する。主な貢献は以下である：（i）8,191の高品質なCRANパッケージから構築した精選されたRパッケージ知識ベース（RPKB）、（ii）分布特性と関数メタデータを融合して検索関連性を改善する埋め込みモデルDARE、（（iii）信頼性の高いRコード生成のためのR指向LLMエージェントRCodingAgent、および現実的な分析シナリオでLLMエージェントを体系的に評価するための統計分析タスクスイート。実験では、DAREはNDCG@10で93.47%を達成し、パラメータ数を大幅に削減しつつ、パッケージ検索において最先端のオープンソース埋め込みモデルを最大17%上回った。DAREをRCodingAgentに統合することで、下流の分析タスクにおいて顕著な改善が得られた。本研究成果は、LLMによる自動化と成熟したR統計エコシステムの間のギャップを埋める一助となる。

AgentVista: 超挑戦的で現実的な視覚シナリオにおけるマルチモーダルエージェントの評価
AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Feb 26

ByZhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He

現実世界のマルチモーダルエージェントは、視覚的証拠に基づいた多段階のワークフローを解決します。例えば、配線写真と回路図を関連付け、オンライン文書で修正を検証することでデバイスのトラブルシューティングを行うエージェントや、経路図を解釈しルーティング制約下でスケジュールを確認する旅行計画エージェントが挙げられます。しかし、既存のマルチモーダルベンチマークは主に単一ターンの視覚推論や特定のツールスキルを評価するもので、実用的なエージェントに必要な現実性、視覚的微妙さ、長期的なツール使用を十分に捉えていません。我々はAgentVistaを提案します。これは、7カテゴリ25サブドメインにわたる汎用マルチモーダルエージェントのベンチマークであり、現実的で詳細な視覚シナリオと自然なハイブリッドツール使用を組み合わせています。タスクには、ウェブ検索、画像検索、ページナビゲーション、画像処理と汎用プログラミングの両方におけるコードベースの操作など、モダリティを跨ぐ長期的なツール相互作用が要求されます。最先端モデルの包括的評価により、長期的マルチモーダルツール使用を実行する能力に重大な隔たりが明らかになりました。評価で最高であったGemini-3-Pro with toolsでさえ、全体精度は27.3%に留まり、難易度の高い事例では25回以上のツール呼び出しターンを要する場合があります。AgentVistaが、現実的かつ超高難度な問題解決のための、より高機能で信頼性の高いマルチモーダルエージェントの開発を加速することが期待されます。

RoboPocket: スマートフォンでロボットポリシーを即座に改善
RoboPocket: Improve Robot Policies Instantly with Your Phone

Mar 5

ByJunjie Fang, Wendi Chen, Han Xue, Fangyuan Zhou, Tian Le, Yi Wang, Yuting Zhang, Jun Lv, Chuan Wen, Cewu Lu

模倣学習の拡張性は、本質的にデータ収集の効率によって制約されている。ハンドヘルドインターフェースは実世界でのデータ収集における拡張可能な解決策として登場したが、これらは主にオープンループ方式で動作する：オペレータは基盤となるポリシーの弱点を知らずに盲目的に実演データを収集するため、重要な状態分布の効率的なカバレッジが達成されない。一方、DAggerのような対話型手法は共変量シフトに効果的に対処するが、物理的なロボット実行に依存するためコストが高く、拡張が困難である。このトレードオフを解決するため、我々は単一の民生用スマートフォンを用いた「ロボット不要の即時ポリシー反復」を可能とする携帯型システムRoboPocketを提案する。その中核となる革新は、拡張現実（AR）による軌道予測表示を通じてポリシーの予測軌道を可視化するリモート推論フレームワークである。この没入型フィードバックにより、収集者は物理的なロボットを必要とせず、潜在的な失敗を事前に特定し、ポリシーの弱点領域にデータ収集を集中できる。さらに、非同期のオンライン微調整パイプラインを実装し、流入するデータでポリシーを継続的に更新することで、数分以内に学習ループを閉じる。大規模実験により、RoboPocketがデータスケーリング則に従い、オフライン拡張戦略と比較してデータ効率を2倍向上させ、長年の効率ボトルネックを克服することを実証した。さらに、当社の即時反復ループは分散環境においても、一人当たり少数の対話的修正でサンプル効率を最大2倍向上させる。プロジェクトページと動画：https://robo-pocket.github.io。

HiFi-Inpaint：高精細な参照ベース画像修復によるディテール保持型人物・製品画像生成へのアプローチ
HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Mar 2

ByYichen Liu, Donghao Zhou, Jie Wang, Xin Gao, Guisheng Liu, Jiatong Li, Quanwei Zhang, Qiang Lyu, Lanqing Guo, Shilei Wen, Weiqiang Wang, Pheng-Ann Heng

人間と製品の統合を表現するヒューマン・プロダクト画像は、広告、Eコマース、デジタルマーケティングにおいて重要な役割を果たしている。このような画像生成における本質的な課題は、製品ディテールの高精度な保存を保証することにある。既存のパラダイムの中でも、参照画像に基づくインペインティングは、製品参照画像を活用して修復プロセスを導出する標的型ソリューションを提供する。しかし、(1)多様な大規模トレーニングデータの不足、(2)現行モデルが製品ディテール保存に集中する困難さ、(3)精密な指導を達成するための粗い監督の不可能性、という3つの重要な側面で制約が残っている。これらの課題に対処するため、我々はヒューマン・プロダクト画像生成に特化した新しい高精度参照ベースインペインティングフレームワーク「HiFi-Inpaint」を提案する。HiFi-Inpaintは、微細な製品特徴を洗練する共有強化注意機構（SEA）と、高周波数マップを用いたピクセルレベルの精密な監督を実施するディテール認識損失（DAL）を導入する。さらに、自己合成データから精選し自動フィルタリング処理を施した新しいデータセット「HP-Image-40K」を構築した。実験結果では、HiFi-Inpaintが最先端の性能を達成し、ディテール保存性に優れたヒューマン・プロダクト画像を生成できることを示している。

大規模マルチモーダルモデルによる汎用インコンテキスト分類器 (Note: The translation maintains the technical terms "Large Multimodal Models" as "大規模マルチモーダルモデル" and "In-Context" as "インコンテキスト" which are standard in Japanese AI literature, while making the title natural and readable in Japanese academic style.)
Large Multimodal Models as General In-Context Classifiers

Feb 26

ByMarco Garosi, Matteo Farina, Alessandro Conti, Massimiliano Mancini, Elisa Ricci

どのマルチモーダルモデルを分類タスクに使用すべきか？これまでの研究は、ゼロショット分類における優れた性能から、CLIPのような対比的なVision-Languageモデル（VLM）が答えであると示唆してきた。一方、大規模マルチモーダルモデル（LMM）は複雑なタスクにより適している。本研究では、この答えがLMMの重要な能力——文脈内学習——を見落としていると論じる。我々は最先端のLMMを閉じた世界の分類において多様なデータセットで評価し、そのゼロショット性能はCLIPより低いものの、少数の文脈内事例を与えられたLMMが、キャッシュベースのアダプターを備えた対比的なVLM（その「文脈内」相当）に匹敵し、場合によっては凌駕することを明らかにした。この分析を開かれた世界の設定に拡張すると、LMMの生成的性質が本タスクにより適していることがわかる。しかしこの困難なシナリオでは、不完全な文脈情報が与えられるとLMMは苦戦する。この問題を解決するため、我々はCIRCLEを提案する。これは文脈内事例に擬似ラベルを割り当て、利用可能な文脈自体でそれらを反復的に洗練する、単純な訓練不要の手法である。大規模な実験を通じて、CIRCLEが開かれた世界の分類における頑健なベースラインを確立し、VLMを上回り、LMMが専門モデルに代わる統一的な分類器としての可能性と柔軟性を示すことを明らかにした。

MASQuant: マルチモーダル大規模言語モデルのためのモダリティ対応平滑化量子化
MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Mar 5

ByLulu Hu, Wenhu Xiao, Xin Chen, Xinhua Xu, Bowen Xu, Kun Li, Yongliang Tao

大規模言語モデル(LLM)における計算不変性を考慮した学習後量子化(PTQ)は目覚ましい進展を見せているが、多モーダル大規模言語モデル(MLLM)への応用には重大な課題が存在する。本論文では、SmoothQuantを事例研究として分析し、2つの重要な問題点を特定する：平滑化ミスアラインメントとクロスモーダル計算不変性である。これらの問題に対処するため、我々はModality-Aware Smoothing Quantization (MASQuant)という新規フレームワークを提案する。これは、(1) 平滑化ミスアラインメントを防止するためにモダリティ固有の個別の平滑化係数を学習するModality-Aware Smoothing (MAS)と、(2) SVD白色化を用いて多モーダル活性化の差異を低ランク形式に変換し、モダリティ間での統一的な量子化を可能にするクロスモーダル補償(CMC)を導入する。MASQuantは、デュアルモーダルおよびトリモーダルMLLMの両方において安定した量子化性能を示す。実験結果から、MASQuantは最先端のPTQアルゴリズムの中で競争力のある性能を有することが明らかとなった。ソースコード: https://github.com/alibaba/EfficientAI。

Timer-S1: シリアルスケーリングによる10億規模時系列基盤モデル
Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

Mar 5

ByYong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long

本論文では、合計83億パラメータ、トークンあたり7.5億の活性化パラメータ、11.5Kのコンテキスト長を有する強力なMixture-of-Experts（MoE）時系列基盤モデルであるTimer-S1を提案する。既存の事前学習済み時系列基盤モデルのスケーラビリティのボトルネックを克服するため、モデルアーキテクチャ、データセット、トレーニングパイプラインの3次元においてSerial Scalingを実施する。Timer-S1は、予測の連続的な性質に則った汎用的な学習目標であるSerial-Token Prediction（STP）のために、スパースなTimeMoEブロックと汎用的なTimeSTPブロックを統合している。提案するパラダイムは、連続的な計算を導入して長期予測を改善するとともに、標準的な次トークン予測におけるコストの高いローリング型推論と顕著な誤差蓄積を回避する。高品質で偏りのない学習データセットを追求し、1兆の時点を含むコーパスTimeBenchを構築し、予測バイアスを軽減するために細心のデータ拡張を適用した。さらに、短期および長文脈の性能を向上させるため、継続事前学習や長文脈拡張を含むポストトレーニング段階を開拓する。大規模なGIFT-Evalリーダーボードによる評価では、Timer-S1は事前学習済みモデルとして最高のMASEおよびCRPSスコアを達成し、最先端の予測性能を実現した。Timer-S1は、今後の研究の発展のために公開される予定である。

インタラクティブベンチマーク
Interactive Benchmarks

Mar 5

ByBaoqing Yue, Zihan Zhu, Yifan Zhang, Jichen Feng, Hufei Yang, Mengdi Wang

標準ベンチマークは、飽和状態、主観性、一般化の不十分さにより、信頼性が低下しつつあります。我々は、モデルの知能を評価するには、能動的に情報を獲得する能力を評価することが重要であると主張します。本論文では、予算制約下での対話的プロセスにおいてモデルの推論能力を評価する統一評価パラダイム「Interactive Benchmarks」を提案します。この枠組みを2つの設定で具体化します：論理や数学における客観的真実や答えを、裁判役との対話を通じて推論する「Interactive Proofs」と、長期的効用を最大化するために戦略的に推論する「Interactive Games」です。実験結果から、対話型ベンチマークはモデルの知能をロバストかつ忠実に評価でき、対話シナリオには依然として大幅な改善の余地があることが明らかになりました。プロジェクトページ：https://github.com/interactivebench/interactivebench

SageBwd: 学習可能な低ビットアテンション
SageBwd: A Trainable Low-bit Attention

Mar 2

ByJintao Zhang, Marco Chen, Haoxu Wang, Kai Jiang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu

低ビットアテンション（SageAttentionなど）は、モデル推論の高速化における効果的な手法として登場したが、学習への適用可能性については未解明な部分が多い。先行研究では、ファインチューニング性能を維持しつつ7つのアテンション行列乗算のうち6つを量子化する学習可能なINT8アテンションであるSageBwdを提案した。しかし、SageBwdは事前学習時において全精度アテンション（FPA）との性能差が残る課題があった。本研究ではこの性能差が生じる原因を解明し、SageBwdが事前学習時においてFPAと同等の性能を達成できることを実証する。実験と理論分析を通じて、以下の重要な知見と結論を得た：（i）大規模なトークン数/ステップでの安定した学習にはQK正規化が必須である、（ii）量子化誤差は主に逆伝播時のスコア勾配dSに起因する、（iii）トークン数/ステップを削減することでSageBwdは事前学習においてFPA性能に匹敵する、（iv）K平滑化は学習安定性に不可欠である一方、Q平滑化は事前学習では効果が限定的である。

DreamWorld: 映像生成における統一的世界モデリング
DreamWorld: Unified World Modeling in Video Generation

Feb 28

ByBoming Tan, Xiangdong Zhang, Ning Liao, Yuqing Zhang, Shaofeng Zhang, Xue Yang, Qi Fan, Yanyong Zhang

映像生成における目覚ましい進展にもかかわらず、既存のモデルは表面的な説得力に留まり、世界に対する首尾一貫した統一的な理解を欠いている。従来のアプローチは通常、世界に関連する知識の単一の形態のみを組み込むか、追加の知識を導入するために硬直的なアライメント戦略に依存している。しかし、単一の世界知識を整合させるだけでは、複数の異種次元（例：物理的常識、3次元および時間的一貫性）を共同でモデル化することを必要とする世界モデルを構成するには不十分である。この制限に対処するため、我々は**DreamWorld**を提案する。これは**Joint World Modeling Paradigm**を介して相補的な世界知識を映像生成器に統合する統一フレームワークであり、基礎モデルから映像ピクセルと特徴量を共同で予測することで、時間的ダイナミクス、空間的幾何学、および意味的一貫性を捉える。しかし、これらの異種目的関数を単純に最適化すると、視覚的不安定性や時間的フリッカーが生じる可能性がある。この問題を軽減するため、我々は訓練中に世界レベルの制約を段階的に調整する**Consistent Constraint Annealing (CCA)** と、推論時に学習済みの世界事前分布を強化する**Multi-Source Inner-Guidance**を提案する。大規模な評価により、DreamWorldが世界の一貫性を向上させ、VBenchにおいてWan2.1を2.26ポイント上回ることを示した。コードはhttps://github.com/ABU121111/DreamWorld{mypink{Github}}で公開予定である。

RealWonder: 物理アクション条件付きリアルタイム動画生成
RealWonder: Real-Time Physical Action-Conditioned Video Generation

Mar 5

ByWei Liu, Ziyu Chen, Zizhang Li, Yue Wang, Hong-Xing Yu, Jiajun Wu

現行のビデオ生成モデルは、3Dシーンに対する作用の影響に関する構造的理解を欠如しているため、力やロボット操作といった3D動作の物理的結果をシミュレートできない。本論文では、単一画像からの動作条件付きビデオ生成において、リアルタイム動作を実現する初のシステム「RealWonder」を提案する。我々の重要な知見は、物理シミュレーションを中間ブリッジとして活用することである。連続的な動作を直接符号化する代わりに、物理シミュレーションを通じてビデオモデルが処理可能な視覚的表現（オプティカルフローとRGB）に変換する。RealWonderは、単一画像からの3D再構成、物理シミュレーション、わずか4回の拡散ステップで動作する蒸留型ビデオ生成器の3要素を統合する。本システムは480x832解像度で13.2 FPSを達成し、剛体、変形体、流体、粒状体に対する力・ロボット動作・カメラ制御の対話的探索を可能とする。RealWonderが没入型体験、AR/VR、ロボット学習におけるビデオモデル応用の新たな可能性を拓くことを期待する。実装コードとモデル重みはプロジェクトWebサイト（https://liuwei283.github.io/RealWonder/）で公開している。

推論圧縮のためのオンポリシー自己蒸留
On-Policy Self-Distillation for Reasoning Compression

Mar 5

ByHejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

推論モデルは思考過程を声に出して行うが、その発話の多くはノイズである。本論文では、モデル自身の簡潔な振る舞いを自己蒸留することで、より簡潔に推論することを学習させる手法OPSDC（On-Policy Self-Distillation for Reasoning Compression）を提案する。この手法全体は、一つの単純なアイデアに集約される。「簡潔にせよ」という指示を与えた同じモデルから教師ロジットを取得し、学生モデル自身のロールアウトに対してトークン単位の逆KLダイバージェンスを最小化する。正解データも、トークン予算も、難易度推定器も不要。ただ自己蒸留のみである。しかし、この単純さは驚くべき洗練さを内包する。OPSDCは、難しい問題に必要な考察を保ちつつ、簡単な問題は積極的に圧縮する。Qwen3-8BおよびQwen3-14Bにおいて、MATH-500では57-59%のトークン削減を達成し、精度は絶対値で9-16ポイント向上させた。AIME 2024では、14Bモデルが41%の圧縮率で10ポイントの精度向上を示した。その秘訣は何か？推論モデルが生成する内容の多くは、単に冗長なだけでなく、積極的に有害であり、不必要なトークンが増えるごとに誤りを増幅するのである。

UltraDexGrasp：合成データを用いた二腕ロボットのための普遍的な巧緻把持の学習
UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data

Mar 5

BySizhe Yang, Yiman Xie, Zhixuan Liang, Yang Tian, Jia Zeng, Dahua Lin, Jiangmiao Pang

把持動作は、ロボットが物理世界と相互作用するための基本的な能力である。人間は両手を備え、物体の形状・サイズ・重量に応じて適切な把持戦略を自律的に選択し、頑健な把持とその後の操作を実現している。一方、現在のロボット把持技術は依然として限界があり、特に多戦略環境において顕著である。平行グリッパーや片手把持には多大な研究努力が払われてきたが、両手ロボットのための巧緻把持は未開拓のままであり、データ不足が主要なボトルネックとなっている。外力に耐え得る物理的に妥当で幾何学的に適合した把持を実現することは、重大な課題である。これらの問題に対処するため、我々は両手ロボットのための汎用巧緻把持フレームワーク「UltraDexGrasp」を提案する。提案するデータ生成パイプラインは、最適化ベースの把持合成と計画ベースの実証生成を統合し、複数の把持戦略にわたる高品質で多様な軌道を生成する。このフレームワークを用いて、1,000の物体にわたる2,000万フレームからなる大規模多戦略把持データセット「UltraDexGrasp-20M」を構築した。UltraDexGrasp-20Mに基づき、点群を入力とし、単方向アテンションによりシーン特徴を集約し、制御コマンドを予測する、簡潔かつ効果的な把持ポリシーをさらに開発した。合成データのみで訓練されたこのポリシーは、頑健なゼロショットSim-to-Real転移を達成し、様々な形状・サイズ・重量の新規物体で一貫して成功し、実世界の汎用巧緻把持において81.2%の平均成功率を達成した。両手ロボットによる把持研究の促進のため、データ生成パイプラインをhttps://github.com/InternRobotics/UltraDexGrasp で公開する。

局所性に着目するビジョントランスフォーマー
Locality-Attending Vision Transformer

Mar 5

BySina Hajimiri, Farzad Beizaee, Fereshteh Shakeri, Christian Desrosiers, Ismail Ben Ayed, Jose Dolz

Vision Transformerは、長距離依存関係を捉えるための大域的な自己注意機構を活用することで、画像分類において顕著な成功を収めてきた。しかし、この同じ機構は、セグメンテーションなどのタスクにおいて重要な微細な空間的詳細を不明瞭にする可能性がある。本研究では、標準的な画像レベルの分類学習後に、Vision Transformerのセグメンテーション性能を向上させることを目指す。具体的には、セグメンテーションタスクの性能を向上させながら、Vision Transformerの画像レベル認識能力を維持する、シンプルかつ効果的な追加モジュールを提案する。提案手法では、学習可能なガウシアンカーネルを用いて自己注意を変調し、注意が近傍のパッチに向かうようにバイアスをかける。さらに、パッチ表現を洗練させ、パッチ位置におけるより優れた埋め込みを学習する。これらの修正により、トークンが局所的な周辺情報に注目し、空間位置における意味のある表現を確保すると同時に、大域的情報を組み込むモデルの能力を維持する。実験により、提案手法の有効性が実証され、学習方法を変更したり分類性能を犠牲にすることなく、3つのベンチマーク（例えば、ViT TinyおよびBaseでADE20Kにおいてそれぞれ6%、4%以上の大幅な改善）でセグメンテーション性能が大幅に向上した。コードはhttps://github.com/sinahmr/LocAtViT/で公開されている。

KARL: 強化学習による知識エージェント
KARL: Knowledge Agents via Reinforcement Learning

Mar 5

ByJonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle

本論文では、強化学習による企業向け検索エージェントの訓練システムを提案し、検証が困難な多様なエージェント検索タスク群において最先端の性能を達成する。本研究の核となる貢献は四点ある。第一に、制約駆動型エンティティ検索、文書横断的なレポート合成、表形式データの数値推論、網羅的エンティティ検索、技術文書に基づく手順推論、社内ナレッジにおける事実集約という6つの異なる検索領域を網羅する多機能評価スイート「KARLBench」を導入する。第二に、異種混合の検索行動にわたって訓練されたモデルが、単一ベンチマーク向けに最適化されたモデルよりも汎化性能が大幅に向上することを示す。第三に、長期的推論とツール利用を採用し、能力が向上するモデルからの反復的ブートストラップにより、多様で接地された高品質な訓練データを生成するエージェント合成パイプラインを開発する。第四に、サンプル効率が高く、訓練と推論エンジンの不一致に対して頑健であり、分布外汎化を伴うマルチタスク訓練に自然に拡張可能な、反復的大規模バッチオフポリシー強化学習に基づく新しい事後訓練パラダイムを提案する。Claude 4.6およびGPT 5.2と比較して、KARLはコスト品質とレイテンシ品質のトレードオフにおいて、訓練時に分布外であったタスクを含むKARLBenchでパレート最適を達成する。十分な推論時計算資源があれば、最も強力なクローズドモデルを凌駕する。これらの結果は、調整された合成データとマルチタスク強化学習の組み合わせが、接地推論のためのコスト効率が高く高性能なナレッジエージェントを実現することを示している。

墨子：創薬発見LLMエージェントの自律的統治
Mozi: Governed Autonomy for Drug Discovery LLM Agents

Mar 4

ByHe Cao, Siyu Liu, Fan Zhang, Zijing Liu, Hao Li, Bin Feng, Shengyuan Bai, Leqing Chen, Kai Xie, Yu Li

ツール拡張型大規模言語モデル（LLM）エージェントは、科学的推論と計算を統合する可能性を秘めているものの、医薬品発見のような高リスク領域への展開は、2つの重大な障壁によって妨げられている。すなわち、制約のないツール使用のガバナンスと、長期にわたる信頼性の低さである。依存関係の複雑な医薬品開発パイプラインでは、自律エージェントはしばしば再現不可能な軌道に逸脱し、初期段階での虚構的生成が乗数的に下流の失敗へと波及する。この問題を克服するため、我々は生成AIの柔軟性と計算生物学の確定的な厳密性を架橋する二層アーキテクチャ「Mozi」を提案する。A層（制御プレーン）は、管理されたスーパーバイザー・ワーカー階層を確立し、ロールベースのツール分離を強制、実行を制約された行動空間に限定し、反射型再計画を推進する。B層（ワークフロープレーン）は、標準的な医薬品発見の段階（標的同定からリード最適化まで）を、状態を保持する構成可能なスキルグラフとして運用する。この層は、厳格なデータ契約と戦略的なヒューマンインザループ（HITL）チェックポイントを統合し、不確実性の高い意思決定境界において科学的妥当性を保護する。「安全なタスクには自由形式の推論を、長期パイプラインには構造化された実行を」という設計原則に基づいて動作するMoziは、組み込みの堅牢性メカニズムとトレースレベルの監査可能性を提供し、誤差の蓄積を完全に軽減する。我々は、生物医学エージェント向けに精選されたベンチマークであるPharmaBench上でMoziを評価し、既存のベースラインを上回る優れたオーケストレーション精度を実証する。さらに、エンドツーエンドの創薬ケーススタディを通じて、Moziが膨大な化学空間を探索し、厳格な毒性フィルターを適用し、極めて競争力のあるin silico候補化合物を生成する能力を実証する。これにより、LLMは脆弱な対話相手から、信頼性の高い管理された共同研究者へと変貌を遂げる。

マルチモーダル生涯理解に向けて：データセットとエージェント的ベースライン
Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Mar 5

ByGuo Chen, Lidong Lu, Yicheng Liu, Liangrui Dong, Lidong Zou, Jixin Lv, Zhenquan Li, Xinyi Mao, Baoqi Pei, Shihao Wang, Zhiqi Li, Karan Sapra, Fuxiao Liu, Yin-Dong Zheng, Yifei Huang, Limin Wang, Zhiding Yu, Andrew Tao, Guilin Liu, Tong Lu

ビデオ理解のためのデータセットが長時間化する中、既存データは密に連結されたクリップで構成されることが一般的であり、自然で台本のない日常生活とは異なる性質を持つ。この隔たりを埋めるため、我々はマルチモーダル生涯理解を目的としたデータセットMM-Lifelongを提案する。181.1時間の映像から構成され、様々な時間密度を捉えるため「日」「週」「月」という時間軸で構造化されている。詳細な評価により、現在のパラダイムに2つの重大な欠陥が存在することが明らかになった：エンドツーエンドの大規模言語モデルは文脈飽和による作業記憶ボトルネックに悩まされ、一方、代表的なエージェント型ベースラインは疎な月単位のタイムラインでのグローバル位置特定崩壊を起こす。この問題に対処するため、動的メモリ管理を用いて再帰的信念状態を反復的に更新するRecursive Multimodal Agent（ReMA）を提案し、既存手法を大幅に上回る性能を実証した。最後に、時間的偏りとドメイン偏りを分離するデータセット分割を確立し、教師あり学習と分布外汎化の将来研究に向けた厳密な基盤を提供する。

プロセス報酬を用いた検索拡張推論のための段階的切り捨てサンプリング
Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Feb 26

ByChris Samarinas, Haw-Shiuan Chang, Hamed Zamani

大規模言語モデルに検索エンジンを活用した推論を強化学習で習得させる際、根本的な信用割り当て問題が障壁となる。既存手法であるSearch-R1などは、複数ステップからなる軌跡全体の完了後にのみ疎な結果報酬を提供するため、個々の推論や検索判断の成否を帰属させることが困難である。StepSearchのような過程報酬手法は、ステップ単位の監督を導入することでこの問題を緩和するが、正解文書とのTF-IDF重複度などヒューリスティックな報酬に依存し、かつ事例ごとにk本の完全な軌跡をサンプリングするため、勾配の分散が大きいという問題を残す。本研究では、二つの相補的なアイデアに基づくSLATEフレームワークを提案する。(1) 切り詰められたステップ単位サンプリング：共通の前置軌跡を持ち、次のステップのみが異なるk本の軌跡を生成する。(2) 密なLLM-as-judge報酬：ヒューリスティックなスコアリングを、各推論ステップ、検索クエリ、回答の質を評価する能力の高いLLM評価器に置き換え、より豊かで信頼性の高い監督を提供する。理論的に、同一の密報酬構造下では、Tステップの軌跡において、切り詰めサンプリングは完全軌跡サンプリングと比較してアドバンテージ推定値の分散を最大T分の1に低減し、分散が小さくより適切に焦点化された方策勾配をもたらすことを証明する。7つのQAベンチマークによる実験では、SLATEが疎報酬および過程報酬ベースライン手法を一貫して上回り、特に難易度の高いマルチホップタスクや規模の小さいモデルにおいて最大の性能向上を示すことを確認した。

潜在粒子世界モデル：自己教師ありオブジェクト中心確率的ダイナミクスモデリング
Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

Mar 4

ByTal Daniel, Carl Qi, Dan Haramati, Amir Zadeh, Chuan Li, Aviv Tamar, Deepak Pathak, David Held

本論文では、実世界の多オブジェクトデータセットにスケーラブルかつ意思決定に適用可能な、自己教師ありオブジェクト中心世界モデル「Latent Particle World Model (LPWM)」を提案する。LPWMは、ビデオデータからキーポイント、バウンディングボックス、オブジェクトマスクを自律的に発見し、教師なしで豊富なシーン分解を学習する。我々のアーキテクチャはビデオのみからエンドツーエンドで学習され、行動、言語、画像目標による柔軟な条件付けをサポートする。LPWMは、新規の潜在行動モジュールを介して確率的粒子ダイナミクスをモデル化し、多様な実世界及び合成データセットにおいて最先端の結果を達成する。確率的ビデオモデリングを超えて、LPWMは本論文で実証するように、目標条件付き模倣学習を含む意思決定に容易に適用可能である。コード、データ、事前学習済みモデル及びビデオロールアウトは以下で公開されている：https://taldatech.github.io/lpwm-web

STMI: マルチモーダル物体再識別のためのセグメンテーション誘導型トークン変調とクロスモーダル超グラフ相互作用
STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

Feb 28

ByXingguo Xu, Zhanyu Liu, Weixiang Zhou, Yuansheng Gao, Junjie Cao, Yuhao Wang, Jixiang Luo, Dell Zhang

マルチモーダル物体再識別（ReID）は、異なるモダリティから得られる相補的な情報を活用し、特定の物体を検索することを目的としている。しかし、既存の手法はハードトークンフィルタリングや単純な融合戦略に依存することが多く、識別に有効な手がかりの喪失や背景干渉の増大を招く恐れがある。これらの課題に対処するため、我々は新しいマルチモーダル学習フレームワークであるSTMIを提案する。STMIは以下の3つの主要コンポーネントで構成される：（1）セグメンテーション誘導型特徴変調（SFM）モジュールは、SAMによって生成されたマスクを利用し、学習可能な注意変調を通じて前景表現を強化し背景ノイズを抑制する。（2）セマンティックトークン再配置（STR）モジュールは、学習可能なクエリトークンと適応的再配置機構を採用し、いかなるトークンも廃棄することなく、コンパクトで情報量の多い表現を抽出する。（3）クロスモーダルハイパーグラフ相互作用（CHI）モジュールは、モダリティを超えた統一ハイパーグラフを構築し、高次セマンティック関係を捕捉する。公開ベンチマーク（RGBNT201、RGBNT100、MSVR310）における大規模な実験により、提案するSTMIフレームワークのマルチモーダルReIDシナリオにおける有効性と頑健性が実証された。

分布条件付き輸送
Distribution-Conditioned Transport

Mar 5

ByNic Fishman, Gokul Gowri, Paolo L. B. Fischer, Marinka Zitnik, Omar Abudayyeh, Jonathan Gootenberg

ソース分布からターゲット分布への写像を学習する輸送モデルは、機械学習における典型的な問題である。しかし、科学技術応用では、学習時に未観測のソース分布およびターゲット分布へ一般化可能なモデルがますます求められている。本研究では、分布条件付き輸送（DCT）フレームワークを提案する。DCTは、ソース分布とターゲット分布の埋め込み表現を学習し、それを条件として輸送写像を構築することで、未観測の分布ペアへの一般化を可能とする。さらにDCTは、分布予測問題に対する半教師あり学習を可能にする。任意の分布ペアから学習できるため、片方の条件でしか観測されていない分布を活用して輸送予測を改善できる。DCTは基盤となる輸送メカニズムに依存しないため、フローマッチングから分布発散に基づくモデル（ワッサーstein距離、MMDなど）まで、様々なモデルをサポートする。DCTの実用的な性能向上を、合成ベンチマークおよび生物学における四つの応用課題（単一細胞ゲノミクスにおけるバッチ効果転移、質量サイトメトリー・データからの摂動予測、造血におけるクローン転写ダイナミクスの学習、T細胞受容体配列進化のモデリング）によって実証する。

軽量視覚推論による社会的配慮型ロボット
Lightweight Visual Reasoning for Socially-Aware Robots

Mar 4

ByAlessio Galatolo, Ronald Cumbal, Alexandros Rouchitsas, Katie Winkle, Didem Gürdür Broo, Ginevra Castellano

人間と共有する環境で動作するロボットは、単に周囲を移動・相互作用・検知するだけでなく、動的かつ予測困難な人間の行動を解釈し対応する必要がある。視覚言語モデル（VLM）を用いたロボット知覚と指示追従の向上において近年目覚ましい進展が見られるものの、マルチモーダルな人間-ロボットインタラクション（HRI）の複雑性への対応には依然限界がある。この課題を踏まえ、我々はLLMとVLMの視覚エンコーダ間のループを閉じる軽量な言語-視覚フィードバックモジュールを提案する。このモジュールは画像トークンの隠れ状態をゲート付き多層パーセプトロン（MLP）でエンコーダ入力に再投影し、テキスト文脈に基づいてシーンを再解釈する第二パスを促す。本手法を3つのロボティクス中心タスク（シミュレーション環境（Habitat）でのナビゲーション、連続的シーン記述（Mementos-Robotics）、人間の意図認識（自社HRIデータセット））で評価した結果、Qwen 2.5（7B）では3.3%の移動距離短縮、+0.057の記述スコア向上、+2.93%の精度向上を達成（追加パラメータは3%未満）。Gemma 3（4B）とLLaVA OV 1.5（4B）ではナビゲーション結果は混合したが、後者2タスクでそれぞれ+0.111/+0.055、+10.81%/+4.79%の向上を示した。コードはhttps://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics で公開。