HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

25 papers found

超大規模ビデオ推論スイート
A Very Big Video Reasoning Suite

Feb 23

ByMaijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng

517

動画モデルの急速な進歩は主に視覚的品質に焦点が当てられており、その推論能力は十分に探求されていません。動画推論は、テキストが自然に捉えられる範囲を超えた時空間的に一貫した視覚環境において知能を接地し、連続性、相互作用、因果関係といった時空間構造に対する直感的な推論を可能にします。しかし、大規模な学習データの不足により、動画推論とそのスケーリング特性を体系的に研究することが妨げられています。この課題に対処するため、我々は「超大規模動画推論（VBVR）データセット」を導入します。これは、原則に基づいた分類法に沿った200の精選された推論タスクと100万本以上の動画クリップを網羅する、既存データセットよりも約3桁規模が大きい前例のない大規模リソースです。さらに、モデルベースの評価を超えた検証可能な評価フレームワーク「VBVR-Bench」を提案します。これはルールベースの人間整合型採点器を組み込むことで、再現性と解釈性のある動画推論能力の診断を実現します。VBVRスイートを活用し、我々は動画推論における初の大規模スケーリング研究の一つを実施し、未見の推論タスクへの創発的汎化の初期兆候を観察しました。VBVRは総じて、汎化可能な動画推論研究の新たな段階への基盤を築きます。データ、ベンチマークツールキット、モデルはhttps://video-reason.com/で公開されています。

SkillOrchestra: スキル転移によるエージェントルーティングの学習
SkillOrchestra: Learning to Route Agents via Skill Transfer

Feb 23

ByJiayu Wang, Yifei Ming, Zixuan Ke, Shafiq Joty, Aws Albarghouthi, Frederic Sala

複合AIシステムは単体モデルを超える能力を約束するが、その成功は効果的なオーケストレーションに大きく依存する。既存のルーティング手法には二つの限界がある：(1) 入力レベルでのルーターはクエリ単位の大まかな判断しか行わず、変化するタスク要件を考慮できない；(2) RLで訓練されたオーケストレーターは適応コストが高く、マルチターンシナリオでは強力だが高コストなオプションを繰り返し呼び出す「ルーティング崩壊」が頻発する。我々はSkillOrchestraを提案する。これはスキルを意識したオーケストレーションのフレームワークであり、エンドツーエンドでルーティングポリシーを直接学習する代わりに、実行経験から細粒度のスキルを学習し、各スキルにおけるエージェント固有の能力とコストをモデル化する。本フレームワークでは、オーケストレーターが現在の対話で必要とされるスキルを推論し、明示的な性能とコストのトレードオフの下でそれらを最も満たすエージェントを選択する。10のベンチマークを用いた大規模実験により、SkillOrchestraがSoTAのRLベースオーケストレーターを最大22.5%上回り、Router-R1およびToolOrchestraと比較してそれぞれ700倍および300倍の学習コスト削減を実現することを示した。これらの結果は、明示的なスキルモデリングがスケーラブルで解釈可能、かつサンプル効率の高いオーケストレーションを可能にし、データ集約的なRLベース手法に対する原理的な代替案を提供することを示している。コードはhttps://github.com/jiayuww/SkillOrchestraで公開されている。

VLANeXt: 強力なVLAモデル構築のためのレシピ
VLANeXt: Recipes for Building Strong VLA Models

Feb 20

ByXiao-Ming Wu, Bin Fan, Kang Liao, Jian-Jian Jiang, Runze Yang, Yihang Luo, Zhonghua Wu, Wei-Shi Zheng, Chen Change Loy

大規模基盤モデルの台頭に続き、視覚・言語・行動モデル（VLA）が登場し、強力な視覚・言語理解能力を汎用方策学習に活用するようになりました。しかし、現在のVLAの状況は依然として断片的で探索段階にあります。多くの研究グループが独自のVLAモデルを提案しているものの、学習プロトコルと評価設定の不統一により、どの設計選択が真に重要かを特定することが困難になっています。この発展途上の領域に構造をもたらすため、私たちは統一的な枠組みと評価設定のもとでVLAの設計空間を再検討します。RT-2やOpenVLAと同様のシンプルなVLAベースラインから出発し、基礎コンポーネント、知覚の本質、行動モデリングの観点という3次元に沿って設計選択を体系的に分析します。本研究から、強力なVLAモデル構築のための実践的なレシピとなる12の重要な知見を抽出します。この探求の成果が、シンプルかつ効果的なモデルVLANeXtです。VLANeXtは、LIBEROおよびLIBERO-plusベンチマークにおいて従来の最先端手法を上回り、実世界実験でも強力な汎化性能を示します。私たちは、研究コミュニティが私たちの知見を再現し、設計空間を探索し、共有基盤の上に新しいVLAバリアントを構築するための共通プラットフォームとして機能する、統一された使いやすいコードベースを公開する予定です。

混沌の使者
Agents of Chaos

Feb 23

ByNatalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex Loftus, Aditya Ratan Jannali, Nikhil Prakash, Jasmine Cui, Giordano Rogers, Jannik Brinkmann, Can Rager, Amir Zur, Michael Ripa, Aruna Sankaranarayanan, David Atkinson, Rohit Gandikota, Jaden Fiotto-Kaufman, EunJeong Hwang, Hadas Orgad, P Sam Sahil, Negev Taglicht, Tomer Shabtay, Atai Ambus, Nitay Alon, Shiri Oron, Ayelet Gordon-Tapiero, Yotam Kaplan, Vered Shwartz, Tamar Rott Shaham, Christoph Riedl, Reuth Mirsky, Maarten Sap, David Manheim, Tomer Ullman, David Bau

我々は、永続的メモリ、メールアカウント、Discordアクセス、ファイルシステム、シェル実行機能を備えた実稼働環境に展開された自律型言語モデル駆動エージェントに関する探索的レッドチーミング調査を報告する。2週間にわたり、20名のAI研究者が通常環境及び敵対的環境下でこれらのエージェントと対話した。言語モデルと自律性、ツール利用、多者間通信の統合から生じる失敗に焦点を当て、11の代表的なケーススタディを記録する。観察された行動には、非所有者への不正な従順化、機密情報の開示、破壊的なシステムレベルの動作の実行、サービス拒否状態、制御不能なリソース消費、なりすましの脆弱性、安全でない慣行のエージェント間伝播、および部分的なシステム乗っ取りが含まれる。いくつかのケースでは、エージェントがタスク完了を報告したにもかかわらず、基盤となるシステム状態がその報告と矛盾していた。失敗した試みについても報告する。我々の知見は、現実的な展開環境においてセキュリティ、プライバシー、ガバナンスに関連する脆弱性が存在することを立証する。これらの行動は、説明責任、委任権限、下流危害に対する責任に関する未解決の問題を提起し、法律学者、政策立案者、学際的研究者による緊急の対応を必要とする。本報告書は、この広範な議論に対する最初の実証的貢献として機能する。

ManCAR: 逐次推薦のための適応的テスト時計算を備えた多様体制約付き潜在推論
ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

Feb 23

ByKun Yang, Yuxuan Zhu, Yazhe Chen, Siyao Zheng, Bangyang Hong, Kangle Wu, Yabo Ni, Anxiang Zeng, Cong Fu, Hui Li

逐次推薦システムでは、テスト時の計算効率を向上させるために、潜在的な多段階推論を採用するケースが増えている。経験的な性能向上にもかかわらず、既存手法の多くは、実現可能性に関する明示的な制約を課さずに、目標主導の目的関数によって中間推論状態を駆動している。これにより、推論軌道が実現不可能な領域に逸脱する「潜在ドリフト」が生じている。我々は、効果的な推薦推論は自由形式の潜在空間洗練ではなく、協調マニホールド上でのナビゲーションとして捉えるべきだと主張する。この目的のために、我々は推論を大域的な相互作用グラフの位相構造内に接地する原理的なフレームワーク、ManCAR（Manifold-Constrained Adaptive Reasoning）を提案する。ManCARは、ユーザーの直近の行動の協調的近傍から局所的な意図事前分布を構築し、それをアイテム単体上の分布として表現する。訓練中、モデルはその潜在的な予測分布をこの事前分布に漸進的に整合させ、推論軌道が有効なマニホールド内に留まることを強制する。テスト時には、予測分布が安定するまで推論を適応的に進め、過剰な洗練を回避する。我々はManCARの変分論的解釈を提供し、ドリフト防止と適応的テスト時停止メカニズムを理論的に検証する。7つのベンチマークによる実験では、ManCARが最先端のベースラインを一貫して上回り、NDCG@10において最大46.88%の相対的改善を達成することを実証した。コードはhttps://github.com/FuCongResearchSquad/ManCARで公開されている。

TOPReward: ロボティクスのための隠れゼロショット報酬としてのトークン確率
TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Feb 22

ByShirui Chen, Cole Harrison, Ying-Chun Lee, Angela Jin Yang, Zhongzheng Ren, Lillian J. Ratliff, Jiafei Duan, Dieter Fox, Ranjay Krishna

Vision-Language-Action（VLA）モデルは事前学習において急速な進歩を遂げているが、強化学習（RL）における発展は、実世界設定におけるサンプル効率の低さとスパースな報酬によって未だ妨げられている。一般化可能なプロセス報酬モデルの開発は、この隔たりを埋めるために必要な細かなフィードバックを提供する上で重要であるが、既存の時間的価値関数はしばしば学習領域を超えた一般化に失敗する。本研究では、事前学習済みビデオVision-Languageモデル（VLM）の潜在的な世界知識を活用してロボットタスクの進捗を推定する、確率論的基盤に基づく新規の時間的価値関数TOPRewardを提案する。VLMに直接進捗値を出力させる従来手法（数値の誤表現が生じやすい）とは異なり、TOPRewardはVLMの内部トークンロジットから直接タスク進捗を抽出する。130以上の実世界タスクおよび複数のロボットプラットフォーム（Franka、YAM、SO-100/101など）におけるゼロショット評価では、TOPRewardはQwen3-VLにおいて平均Value-Order相関（VOC）0.947を達成し、同じオープンソースモデルでほぼゼロの相関しか示さなかった従来の最先端手法GVLを大幅に上回った。さらにTOPRewardが、成功判定や報酬に沿った行動クローニングを含む下流アプリケーションにおける汎用ツールとして機能することを実証する。

Mobile-O: モバイルデバイスにおける統合マルチモーダル理解・生成フレームワーク
Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Feb 23

ByAbdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, Ritesh Thawkar, Omkar Thawakar, Senmao Li, Hisham Cholakkal, Ian Reid, Eric P. Xing, Salman Khan, Fahad Shahbaz Khan

統合型マルチモーダルモデルは、単一のアーキテクチャ内で視覚コンテンツの理解と生成の両方を可能にします。しかし、既存のモデルはデータ要求量が高く、エッジデバイスへの実装には過重です。本論文では、モバイルデバイスに統合マルチモーダル知能をもたらすコンパクトな視覚-言語-拡散モデル「Mobile-O」を提案します。中核モジュールであるMobile Conditioning Projector（MCP）は、深度分離可能畳み込みと階層アライメントを用いて、視覚-言語特徴を拡散生成器と融合させます。この設計により、最小限の計算コストで効率的なクロスモーダル条件付けを実現します。わずか数百万サンプルの学習と、新規の四重形式（生成プロンプト、画像、質問、回答）による事後学習を通じて、Mobile-Oは視覚的理解と生成能力を同時に強化します。効率性にもかかわらず、Mobile-Oは他の統合モデルと比較して競争力ある性能を発揮し、GenEvalで74％を達成、Show-OおよびJanusFlowをそれぞれ5％、11％上回り、処理速度は6倍および11倍高速でした。視覚的理解では、7つのベンチマーク平均で15.3％および5.1％優れています。iPhoneで512x512画像の処理に約3秒しか要さないMobile-Oは、エッジデバイスにおけるリアルタイム統合マルチモーダル理解・生成の初の実用的フレームワークを確立します。Mobile-Oが、クラウド依存なしで完全オンデバイス動作するリアルタイム統合マルチモーダル知能の今後の研究を促進することを期待します。コード、モデル、データセット、モバイルアプリケーションはhttps://amshaker.github.io/Mobile-O/で公開しています。

SimToolReal: ゼロショット巧緻性ツール操作のためのオブジェクト中心ポリシー
SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Feb 18

ByKushal Kedia, Tyler Ga Wei Lum, Jeannette Bohg, C. Karen Liu

ツール操作能力は、ロボットが実行可能なタスク群を大幅に拡張する。しかし、ツール操作は高度な器用さを必要とする難易度の高い領域であり、薄い物体把持、把持中における物体の回転、強い力の相互作用などを含む。これらの動作に対する遠隔操作データの収集は困難であるため、シミュレーションから実機への強化学習は有望な代替手段となる。しかし、従来の手法では、各タスクに対して物体のモデル化や報酬関数の調整に多大な工学的労力を要するのが一般的であった。本研究では、ツール操作のためのシミュレーションから実機への強化学習ポリシーの一般化に向けた一歩として、SimToolRealを提案する。単一の物体とタスクに焦点を当てるのではなく、シミュレーション内でツールに似た多様な物体プリミティブを手続き的に生成し、各物体をランダムな目標姿勢へ操作するという普遍的な目標を持つ単一の強化学習ポリシーを訓練する。このアプローチにより、SimToolRealは、物体やタスクに特化した訓練を一切行うことなく、テスト時に汎用的な巧緻性を伴うツール操作を実行可能となる。SimToolRealは、特定の対象物体とタスクで訓練された専門的な強化学習ポリシーの性能に匹敵しつつ、従来のリターゲティング手法や固定把持手法を37%上回る性能を示すことを実証する。最後に、SimToolRealが多様な日常的なツール群にわたって一般化することを示し、24のタスク、12の物体インスタンス、6つのツールカテゴリに及ぶ120回の実世界でのロールアウトにおいて、強力なゼロショット性能を達成する。

循環整合的なマスク予測によるクロスビュー物体対応関係の学習（注：タイトルは学術論文の形式に合わせ、技術的厳密性を保ちつつ自然な日本語表現にしています。「Cycle-Consistent」は「循環整合性」と訳し、機械学習分野で確立された訳語を採用しています。「Cross-View Object Correspondence」は「クロスビュー物体対応関係」とし、複数の視点間での物体対応付けの概念を明確に表現しています）
Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

Feb 22

ByShannan Yan, Leqi Zheng, Keyu Lv, Jingchen Ni, Hongyang Wei, Jiajun Zhang, Guangting Wang, Jing Lyu, Chun Yuan, Fengyun Rao

我々は、映像における異なる視点間での物体レベルの視覚的対応関係を確立するタスクに着目し、特に難易度の高いエゴセントリック（主観視点）からエクソセントリック（客観視点）、およびその逆のシナリオに焦点を当てて研究を行う。本論文では、条件付き二値セグメンテーションに基づく簡潔かつ効果的なフレームワークを提案する。この枠組みでは、物体クエリマスクが潜在表現に符号化され、対象映像内での対応物体の位置特定を誘導する。頑健で視点不変な表現を促進するため、サイクル一貫性トレーニング目標を導入する。すなわち、対象視点で予測されたマスクを源視点に投影し、元のクエリマスクを再構築する。この双方向の制約は、教師データを必要とせず強力な自己教師信号を提供し、推論時にテスト時訓練（TTT）を可能とする。Ego-Exo4DおよびHANDAL-Xベンチマークによる実験では、本最適化目標とTTT戦略の有効性が実証され、State-of-the-Art性能を達成した。コードはhttps://github.com/shannany0606/CCMP で公開されている。

DSDR：大規模言語モデルの推論における探索のためのデュアルスケール多様性正則化
DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Feb 23

ByZhongwei Wan, Yun Shen, Zhihao Dou, Donghao Zhou, Yu Zhang, Xin Wang, Hui Shen, Jing Xiong, Chaofan Tao, Zixuan Zhong, Peizhou Huang, Mi Zhang

検証器を用いた強化学習（RLVR）は大規模言語モデル（LLM）の推論能力向上における中心的なパラダイムであるが、既存手法は探索の限界に悩まされることが多い。方策は少数の推論パターンに収束しがちで、深い探索を早期に終了させてしまう。従来のエントロピー正則化は局所的な確率性しか導入できず、有意義なパスレベルの多様性を誘起できないため、グループベースの方策最適化において弱く不安定な学習信号が生じる。我々はDSDRを提案する。これはLLM推論における多様性を大域的および結合的要素に分解する二重尺度多様性正則化強化学習フレームワークである。大域的には、DSDRは正しい推論軌道間の多様性を促進し、異なる解決モードを探索する。局所的には、正しい軌道に限定した長さ不変のトークンレベルエントロピー正則化を適用し、各モード内でのエントロピー崩壊を防ぎつつ正確性を保持する。二つの尺度は、より特徴的な正解軌道に対して局所的正則化を重点化する大域-局所割り当てメカニズムにより結合される。理論的裏付けとして、DSDRが有界正則化下で最適な正確性を保持すること、グループベース最適化において有益な学習信号を持続させること、そして原理に基づいた大域-局所結合則を導出することを示す。複数の推論ベンチマークにおける実験では、精度とpass@kの一貫した改善が実証され、RLVRにおける深い探索に対する二重尺度多様性の重要性が明らかとなった。コードはhttps://github.com/SUSTechBruce/DSDRで公開されている。

ロボキュレート：行動検証済み神経軌道による多様性の活用とロボット学習
RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Feb 21

BySeungku Kim, Suhyeok Jang, Byungjun Yoon, Dongyoung Kim, John Won, Jinwoo Shin

映像生成モデルによって生成された合成データは、ロボット学習におけるスケーラブルなパイプラインとして有望視されているが、不完全に生成された映像に起因する動作品質の不一致に悩まされることが多い。近年、映像の品質検証にビジョン言語モデル（VLM）が利用されているが、物理的に正確な映像を区別する能力には限界があり、仮に区別できたとしても生成された動作そのものを直接評価することはできない。この問題に取り組むため、我々は注釈付き動作の品質をシミュレーション再生と比較して評価・選別する新しい合成ロボットデータ生成フレームワーク、RoboCurateを提案する。具体的には、RoboCurateは予測された動作をシミュレータ内で再生し、シミュレータのロールアウトと生成された映像間の動作の一貫性を測定することで動作品質を評価する。さらに、画像間編集により利用可能なデータセットを超えた観測の多様性を実現し、動作を保持した映像間変換を適用して外観をさらに拡張する。RoboCurateで生成されたデータは、実データのみを使用した場合と比較して成功率において顕著な相対的改善をもたらし、GR-1 Tabletop（300デモ）で+70.1%、事前学習設定のDexMimicGenで+16.1%、困難な実世界タスクであるALLEXヒューマノイド精密把持設定で+179.9%を達成した。

tttLRM：長文脈および自己回帰的3D再構成のためのテストタイムトレーニング
tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction

Feb 23

ByChen Wang, Hao Tan, Wang Yifan, Zhiqin Chen, Yuheng Liu, Kalyan Sunkavalli, Sai Bi, Lingjie Liu, Yiwei Hu

本論文では、テストタイムトレーニング（TTT）層を活用した新規の大規模3D再構成モデルであるtttLRMを提案する。本モデルは線形計算量で長文脈・自己回帰的な3D再構成を実現し、モデルの能力をさらに拡張する。我々のフレームワークは、複数の画像観測をTTT層の高速重みに効率的に圧縮し、潜在空間に暗黙的な3D表現を形成する。この表現は、ガウススプラッティング（GS）など、下流アプリケーション向けの様々な明示的フォーマットにデコード可能である。オンライン学習版のモデルは、ストリーミング観測からの漸進的な3D再構成と精緻化をサポートする。新規視点合成タスクでの事前学習が明示的3Dモデリングに効果的に転移し、再構成品質の向上と収束の高速化をもたらすことを実証する。大規模な実験により、本手法が物体とシーンの両方において、最新の手法と比較してフィードフォワード型の3Dガウス再構成で優れた性能を達成することを示す。

DODO: 離散OCR拡散モデル
DODO: Discrete OCR Diffusion Models

Feb 18

BySean Man, Roy Ganz, Roi Ronen, Shahar Tsiper, Shai Mazor, Niv Nayman

光学文字認識（OCR）は情報をデジタル化するための基盤技術であり、視覚データとテキスト理解の重要な橋渡しとして機能する。現代の視覚言語モデル（VLM）はこの領域で高い精度を達成しているが、その多くは自己回帰的なデコーディングに依存しており、生成される各トークンに対して順次的なフォワードパスを必要とするため、長文ドキュメントでは計算コストが高く処理速度が低下するという課題がある。我々はこのボトルネックを克服する決定的な可能性を見出した：オープンエンドな生成とは異なり、OCRは視覚入力を厳密に反映した一意の出力系列が定まる高い決定性を有するタスクであり、理論的には拡散モデルによる効率的な並列デコーディングが可能である。しかし、既存のマスク拡散モデルはこの潜在能力を活かし得ていない。それらはキャプション生成のような柔軟なタスクでは許容される構造的不安定性を生じるが、OCRの厳密な一致が要求される条件下では破滅的な誤りを引き起こす。この課題を解決するため、我々はブロック離散拡散を採用しOCRの高速化を実現する初のVLMであるDODOを提案する。生成プロセスをブロック単位に分解することで、DODOは大域的な拡散における同期誤差を軽減する。実験では、自己回帰ベースラインと比較して最大3倍の高速な推論を実現しつつ、ほぼ最先端の精度を達成した。

エージェント記憶の解剖学：評価とシステム限界に関する分類法と実証分析
Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Feb 22

ByDongming Jiang, Yi Li, Songtao Wei, Jinxin Yang, Ayushi Kishore, Alysa Zhao, Dingyi Kang, Xu Hu, Feng Chen, Qiannan Li, Bingzhe Li

エージェント記憶システムは、大規模言語モデル（LLM）エージェントが長い対話を通じて状態を維持することを可能にし、固定されたコンテキストウィンドウを超えた長期的な推論とパーソナライゼーションを支援する。アーキテクチャの急速な発展にもかかわらず、これらのシステムの実証的基盤は脆弱である。既存のベンチマークは規模不足であることが多く、評価指標は意味的効用と整合せず、性能は基盤モデルによって大きく変動し、システムレベルのコストが軽視されがちである。本調査は、アーキテクチャとシステムの両観点からエージェント記憶を体系的分析する。まず、4つの記憶構造に基づくMAGシステムの簡潔な分類法を提示する。次に、ベンチマークの飽和効果、指標の有効性と評価器の感度、基盤モデル依存的な精度、記憶維持によってもたらされるレイテンシとスループットのオーバーヘッドなど、現行システムを制限する主要な課題点を分析する。記憶構造と実証的限界を結びつけることで、現在のエージェント記憶システムが理論的な可能性を十分に発揮できていない理由を明らかにし、信頼性の高い評価とスケーラブルなシステム設計に向けた方向性を示す。

ML判断のデコーディング：大規模ランキングシステムのためのエージェント的推論フレームワーク
Decoding ML Decision: An Agentic Reasoning Framework for Large-Scale Ranking System

Feb 20

ByLongfei Yun, Yihan Wu, Haoran Liu, Xiaoxuan Liu, Ziyun Xu, Yi Wang, Yang Xia, Pengfei Wang, Mingze Gao, Yunxiang Wang, Changfan Chen, Junfeng Pan

現代の大規模ランキングシステムは、競合する目的、運用上の制約、進化する製品要件が交錯する複雑な環境で動作している。この領域における進歩は、モデリング技術そのものよりも、曖昧な製品意図を合理的で実行可能かつ検証可能な仮説へと変換する困難なプロセス、すなわちエンジニアリングコンテキストの制約によって、ますますボトルネックが生じている。本論文では、ランキング最適化をプログラム可能な実験環境内での自律的な発見プロセスとして再定義するフレームワーク、GEARSを提案する。GEARSは最適化を静的なモデル選択として扱うのではなく、専門的なエージェント技能を活用してランキングの専門知識を再利用可能な推論能力としてカプセル化し、オペレーターが高次の意図、すなわち「雰囲気のパーソナライゼーション」を通じてシステムを誘導することを可能にする。さらに、本番環境での信頼性を確保するため、統計的ロバスト性を強化し、短期的シグナルに過剰適合する脆弱なポリシーをフィルタリングする検証フックをフレームワークに組み込んでいる。多様な製品インターフェースにおける実験的検証により、GEARSが厳格なデプロイ安定性を維持しつつ、アルゴリズムシグナルと深いランキングコンテキストを相乗的に活用することで、優れた、ほぼパレート効率的なポリシーを一貫して特定できることが実証されている。

K-サーチ：内在的世界モデルの共進化によるLLMカーネル生成
K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model

Feb 22

ByShiyi Cao, Ziming Mao, Joseph E. Gonzalez, Ion Stoica

GPUカーネルの最適化は、現代の効率的な機械学習システムにおいて極めて重要であるが、設計要因の複雑な相互作用とハードウェアの急速な進化により、依然として困難な課題である。既存の自動化アプローチは、典型的には大規模言語モデル（LLM）を、ヒューリスティックに導かれた進化的ループ内での確率的コード生成器として扱うことが多い。これらの手法は、協調的な多段階の構造変換を必要とする複雑なカーネルに対して苦戦することが多い。なぜなら、明示的な計画能力を欠き、非効率的または不正確な中間実装のために有望な戦略を頻繁に破棄してしまうからである。この問題に対処するため、我々は「共進化する世界モデルによる探索（Search via Co-Evolving World Model）」を提案し、この手法に基づいてK-Searchを構築した。静的な探索ヒューリスティックを共進化する世界モデルで置き換えることで、本フレームワークはLLMの事前の領域知識を活用して探索を導き、最適化空間を能動的に探査する。このアプローチは、高レベルのアルゴリズム的計画と低レベルのプログラム具体化を明示的に分離し、システムが非単調な最適化経路を進みながら、一時的な実装上の欠陥に対して耐性を保つことを可能にする。我々はK-Searchを、FlashInferのGQA、MLA、MoEカーネルを含む多様で複雑なカーネルで評価した。その結果、K-Searchは最新の進化的探索手法を大幅に上回り、平均2.10倍、複雑なMoEカーネルでは最大14.3倍の性能向上を達成した。GPUMode TriMulタスクでは、K-SearchはH100上で1030usを達成し、従来の進化的手法および人間が設計した解法の両方を凌駕する、最新の性能を実現した。

SimVLA: ロボットマニピュレーションのためのシンプルなVLAベースライン
SimVLA: A Simple VLA Baseline for Robotic Manipulation

Feb 20

ByYuankai Luo, Woping Chen, Tong Liang, Baiqiao Wang, Zhenguo Li

Vision-Language-Action（VLA）モデルは、大規模事前学習を活用して高い性能を達成する一般目的ロボットマニピュレーションの有望なパラダイムとして登場した。この分野は、空間事前情報の追加や多様なアーキテクチャの革新により急速に進化している。しかし、これらの進展には往々にして異なる訓練レシピや実装詳細が伴い、実験的な性能向上の正確な要因を特定することを困難にしている。本研究では、VLA研究の透明性のある参照点を確立するために、合理化されたベースラインSimVLAを提案する。知覚と制御を厳密に分離し、標準的な視覚言語バックボーンと軽量なアクションヘッドを使用し、重要な訓練ダイナミクスを標準化することで、最小限の設計が最先端の性能を達成できることを実証する。パラメータ数がわずか0.5Bであるにもかかわらず、SimVLAはロボット事前学習なしで標準シミュレーションベンチマークにおいて数十億パラメータモデルを上回る性能を示す。また実ロボット評価ではpi0.5と同等の性能に達する。本結果は、SimVLAが将来のアーキテクチャ革新による実験的成果を明確に帰属可能にする、堅牢で再現性の高いベースラインであることを示す。ウェブサイト: https://frontierrobo.github.io/SimVLA

系列モデルにおける「帰納バイアス」について
On the "Induction Bias" in Sequence Models

Feb 20

ByM. Reza Ebrahimi, Michaël Defferrard, Sunny Panchal, Roland Memisevic

トランスフォーマーベースの言語モデルは実用上顕著な成功を収めているにもかかわらず、最近の研究では、それらの状態追跡能力に懸念が提起されている。特に、長さ外挿などの分布外汎化における失敗を通じて、この限界を指摘する研究が増えている。本研究では、これらの限界が分布内に与える影響に注目する。我々は、複数の教師あり学習体制において、トランスフォーマーとリカレントニューラルネットワーク（RNN）のデータ効率について大規模な実験的検討を行った。その結果、トランスフォーマーが必要とする訓練データ量は、状態空間のサイズや系列長の増加に伴って、RNNと比較してはるかに急速に増大することがわかった。さらに、学習された状態追跡メカニズムが異なる系列長間でどの程度共有されているかを分析する。トランスフォーマーは、系列長間での重み共有が無視できるか、むしろ有害でさえあることを示し、系列長に特化した解を個別に学習していることを明らかにする。対照的に、リカレントモデルは系列長を超えた重み共有による効果的な償却学習を示し、ある系列長のデータが他の系列長での性能向上に寄与する。これらの結果は、訓練分布と評価分布が一致する場合であっても、状態追跡がトランスフォーマーにとって依然として根本的な課題であることを示している。

Nacrith: アンサンブル文脈モデリングと高精度CDF符号化による神経網無損失圧縮
Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

Feb 23

ByRoberto Tacconelli

本論文では、135Mパラメータのトランスフォーマー言語モデル（SmolLM2-135M）と、軽量なオンライン予測器のアンサンブル、および32ビット算術符号器を組み合わせた、ロスレス圧縮システム「Nacrith」を提案する。基本となるLLMと算術符号のパラダイムを超えて、Nacrithは以下の複数の貢献をもたらす：(1) CDFの精度を2^16から2^24に向上させ、大規模語彙における最小確率フロアによる量子化オーバーヘッドを約75%削減；(2) 高速な局所予測のためのトークンレベルN-gramモデル；(3) オンライン勾配降下法により文書単位のLLM誤差を補正する適応型対数空間バイアスヘッド；(4) 予測可能性の高いトークンを高速化する信頼度ベースのLLMスキップ；(5) ニューラル圧縮を任意のバイナリファイルに拡張するハイブリッドバイナリ形式（NC06）——我々の知る限りLLMベース圧縮器では初の試み；(6) llama.cpp推論バックエンドによる、PyTorch比～7倍高速なシングルトークンデコード；(7) 最大8ワーカーによる並列マルチGPU圧縮；(8) スライドごとのコストを約37分の1に削減するネイティブKVキャッシュスライディングウィンドウ。本システムは約500MBのGGUF重みとワーカーあたり約1.2GBのVRAMのみを必要とし、コンシューマー向けGPUで動作する。 Canterbury Corpusのalice29.txt（152KB）において、Nacrithは0.918ビット/バイト（bpb）を達成——gzipの3.1倍、bzip2の2.5倍、CMIX v21より44%、ts_zipより20%優れ、0次、1次、2次のバイトレベルシャノンエントロピー下限を下回る圧縮を実現した。enwik8（100MB）では0.9389 bpb（11.74%）を達成し、ts_zip（約1.11 bpb）を15%、FineZip（1.024 bpb）を8%上回った（これは60倍小さなモデルを使用し、ファインチューニングなしでの結果である）。モデルの学習カットオフ後に公開された文書を用いた分布外評価では、これらの性能向上が記憶の産物ではないことを確認し、未見テキストで0.723 bpbを達成した。

AssetFormer: 自己回帰型トランスフォーマーによるモジュラー式3Dアセット生成
AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer

Feb 12

ByLingting Zhu, Shengju Qian, Haidi Fan, Jiayu Dong, Zhenchao Jin, Siwei Zhou, Gen Dong, Xin Wang, Lequan Yu

デジタル産業では、特にユーザ生成コンテンツ（UGC）向けに、高品質で多様なモジュラー3Dアセットの需要が高まっている。本論文では、テキスト記述からモジュラー3Dアセットを生成するために設計された、自己回帰型トランスフォーマーベースのモデルであるAssetFormerを提案する。パイロット研究では、オンラインプラットフォームから収集した実世界のモジュラーアセットを活用する。AssetFormerは、様々な応用に向けて制約のある設計パラメータに準拠したプリミティブで構成されるアセット作成の課題に取り組む。言語モデルに着想を得たモジュールシーケンシングとデコーディング技術を革新的に適用することで、本手法は自己回帰モデリングを通じてアセット生成の品質を向上させる。初期結果は、プロフェッショナルな開発やUGCシナリオにおけるアセット作成の効率化において、AssetFormerの有効性を示している。本研究は、様々な種類のモジュラー3Dアセットに拡張可能な柔軟なフレームワークを提示し、3Dコンテンツ生成の広範な分野に貢献する。コードはhttps://github.com/Advocate99/AssetFormer で公開されている。

Ani3DHuman: 自己指導型確率的サンプリングによる写実的3D人物アニメーション
Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Feb 22

ByQi Sun, Can Wang, Jiaxiang Shang, Yingchun Liu, Jing Liao

現在の3D人間アニメーション手法は、写実性の達成に課題を抱えている。キネマティクスベースの手法は非剛体ダイナミクス（例：衣服の動き）を欠き、ビデオ拡散事前分布を活用する手法は非剛体運動を合成できるものの、品質上のアーティファクトやアイデンティティの喪失に悩まされている。これらの限界を克服するため、我々はキネマティクスベースのアニメーションとビデオ拡散事前分布を融合したフレームワークであるAni3DHumanを提案する。まず、剛体運動と残差非剛体運動を分離する階層化モーション表現を導入する。剛体運動はキネマティクス手法により生成され、粗いレンダリングを生成して、残差非剛体運動を復元するビデオシーケンスをビデオ拡散モデルが生成する際のガイドとして機能する。しかし、この拡散サンプリングに基づく復元タスクは非常に困難である。初期レンダリングが分布外であるため、標準的な決定論的ODEサンプラーは失敗する。そこで我々は、確率的サンプリング（写実的な品質のため）と自己ガイダンス（アイデンティティの忠実性のため）を組み合わせることで、分布外問題を効果的に解決する新しい自己ガイド型確率的サンプリング法を提案する。これらの復元されたビデオは高品質な教師信号を提供し、残差非剛体運動フィールドの最適化を可能にする。大規模な実験により、Ani3DHumanが写実的な3D人間アニメーションを生成し、既存手法を凌駕することを実証した。コードはhttps://github.com/qiisun/ani3dhuman で公開されている。

AAVGen：腎臓選択的ターゲティングのためのアデノ随伴ウイルスカプシドの精密工学
AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting

Feb 21

ByMohammadreza Ghaffarzadeh-Esfahani, Yousof Gheisari

アデノ随伴ウイルス（AAV）は遺伝子治療における有望なベクターであるが、その天然血清型は組織指向性、免疫回避、生産効率において限界に直面している。カプシドの改修によるこれらの課題の克服は、膨大な配列空間と複数の機能特性の同時最適化の困難さから挑戦的である。特に腎臓においては、独特の解剖学的障壁と精密かつ効率的なベクター設計を必要とする細胞標的が存在するため、複雑さが増す。本論文では、複数の特性プロファイルが強化されたAAVカプシドをde novo設計するための生成的AIフレームワーク、AAVGenを提案する。AAVGenは、タンパク質言語モデル（PLM）を教師ありファインチューニング（SFT）およびGroup Sequence Policy Optimization（GSPO）と呼ばれる強化学習技術と統合する。本モデルは、3つのESM-2ベースの回帰予測器（それぞれが生産適合性、腎指向性、熱安定性という主要特性を予測するように訓練された）に由来する複合報酬信号によって導かれる。結果として、AAVGenは多様な新規VP1タンパク質配列ライブラリーを生成する。in silico検証により、生成された変異体の大部分が、採用した3つの指標すべてにおいて優れた性能を示し、多目的最適化の成功が示された。さらに、AlphaFold3による構造解析は、配列の多様化にもかかわらず、生成された配列が標準的なカプシド折り畳みを保持することを確認する。AAVGenは、データ駆動型ウイルスベクター工学の基盤を確立し、機能特性を設計した次世代AAVベクターの開発を加速するものである。

四足ロボットのための接触点固定型固有受容オドメトリ
Contact-Anchored Proprioceptive Odometry for Quadruped Robots

Feb 19

ByMinxing Sun, Yao Mao

カメラやLiDARを用いない脚式ロボットの信頼性高いオドメトリは、IMUドリフトと関節速度センシングのノイズにより依然として課題である。本論文は、IMUとモータ測定値のみを用いて身体の姿勢と速度を統合的に推定する純粋なプロプリオセプティブ（自己受容的）状態推定器を提案する。この統一的な定式化は二足、四足、車輪脚の各ロボットに適用可能である。鍵となる考え方は、接触脚をそれぞれ運動学的なアンカーとして扱うことである。関節トルクに基づく足部レンチ推定が信頼できる接触を選択し、対応する足跡位置が間欠的な世界座標系の制約を提供し、長期的なドリフトを抑制する。長距離移動における高度ドリフトを防ぐため、新しく記録された足跡の高さを過去に観測された支持平面に吸着させる、軽量な高度クラスタリングと時間減衰補正を導入する。エンコーダ量子化下での足部速度観測を改善するため、関節角度と速度から足先速度を直接フィルタリングする逆運動学に基づくキャビチャーカルマンフィルタを適用する。実装ではさらに、多接触幾何学的整合性によるヨードリフトの緩和、およびIMUヨー制約が利用不能または信頼できない場合に運動学から導出される方位基準へ優雅に劣化する機能を備える。本手法を4つの四脚プラットフォーム（Astrallロボット3台とUnitree Go2 EDU）で閉軌道を用いて評価する。Astrall点足ロボットAでは、水平sim200mループで0.1638m、垂直sim15mループで0.219mの誤差を達成。車輪脚ロボットBでは、それぞれ0.2264m、0.199mの誤差。車輪脚ロボットCでは、水平sim700mループで7.68m、垂直sim20mループで0.540mの誤差。Unitree Go2 EDUは、水平sim120mループを2.2138m誤差で、垂直sim8mループを垂直誤差0.1m未満で閉じる。github.com/ShineMinxing/Ros2Go2Estimator.git

時間的因果発見のための大規模因果モデル
Large Causal Models for Temporal Causal Discovery

Feb 20

ByNikolaos Kougioulis, Nikolaos Gkorgkolis, MingXue Wang, Bora Caglayan, Dario Simionato, Andrea Tonon, Ioannis Tsamardinos

従来、横断データおよび時系列データの因果発見は、個々のデータセットごとに新たなモデルを構築するデータセット特化型のパラダイムに従ってきた。このようなアプローチは、複数データセットを用いた事前学習の可能性を制限している。大規模因果モデル（LCM）の概念は、時系列因果発見に特化して設計された事前学習済みニューラルネットワークアーキテクチャのクラスを提唱する。従来手法は変数の数が少ない場合に限定され、入力サイズが大きくなると性能が劣化し、合成データへの依存度が高いため一般化が困難である。本研究では、多様な合成データ生成器と現実的な時系列データセットを組み合わせたLCMの原則的フレームワークを提案し、大規模学習を可能にする。合成、半合成、現実的なベンチマークを用いた広範な実験により、LCMが変数の数が多く深いアーキテクチャにおいても強固な性能を維持しつつ効果的にスケールすることを示す。学習済みモデルは、従来手法やニューラルネットワークベースラインと比較して、特に分布外設定において競争力のある精度、あるいはそれを上回る精度を達成し、高速な単一パス推論を実現する。結果は、LCMが時系列因果発見のための有望な基盤モデルパラダイムであることを示唆している。実験結果とモデル重みはhttps://github.com/kougioulis/LCM-paper/で公開されている。

SenTSR-Bench：知識注入による時系列推論
SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

Feb 23

ByZelin He, Boran Han, Xiyuan Zhang, Shuai Zhang, Haotian Lin, Qi Zhu, Haoyang Fang, Danielle C. Maddix, Abdul Fatir Ansari, Akash Chandrayan, Abhinav Pradhan, Bernie Wang, Matthew Reimherr

時系列診断推論は多くの応用分野で不可欠であるが、既存の手法には決定的な課題が存在する。汎用推論大規模言語モデル（GRLM）は強力な推論能力を有するものの、複雑な時系列パターンを理解するための分野特化知識を欠いている。一方、ファインチューニングされた時系列LLM（TSLM）はこれらのパターンを理解できるが、より複雑な問題に対する汎化的な推論能力が不足している。この課題を解決するため、我々はTSLMが生成した知見をGRLMの推論過程に直接注入するハイブリッド知識注入フレームワークを提案する。これにより、ドメイン知識を備えた強力な時系列推論を実現する。知識注入のためのファインチューニングデータ収集は高コストであるため、検証可能な報酬に基づく強化学習（RLVR）手法を活用し、人的監督なしで知識豊富な推論過程を生成し、そのドメイン特化的思考過程をGRLMに転移することで効率的な知識注入を実現する。さらに、実世界の産業オペレーションから収集した多変量時系列ベースの診断推論ベンチマーク「SenTSR-Bench」を公開する。SenTSR-Benchおよび他の公開データセットにおける評価では、本手法はTSLMを9.1%-26.1%、GRLMを7.9%-22.4%上回り、頑健で文脈を考慮した時系列診断知見を提供する。