HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

34 papers found

Moebius: 0.2Bパラメータの軽量画像インペインティングフレームワーク、10Bレベルの性能を達成
Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

Jun 17

ByKangsheng Duan, Ziyang Xu, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

117

10Bレベルの産業用基盤モデルは画像インペインティングの限界を押し広げてきたが、その膨大な計算コストが実用的な展開を著しく妨げている。高度に最適化されたタスク特化型専門家モデルを構築することは有望な解決策を提供するが、極端な構造圧縮は必然的に深刻な表現のボトルネックを引き起こす。これに対処するため、我々はMoebiusという高効率な軽量インペインティングフレームワークを提案する。我々はLocal-λ Mix Interaction（LλMI）ブロックを導入することで、拡散バックボーンを体系的に再構築する。このブロックはLocal-λモジュールとInteractive-λモジュールから構成され、空間的文脈と大域的意味的先行知識を固定サイズの線形行列にエレガントに要約し、複雑な潜在相互作用を維持しつつパラメータを劇的に削減する。さらに、この高度にコンパクトなアーキテクチャの表現能力を最大限に引き出すために、適応的なマルチ粒度蒸留戦略と相乗的に組み合わせる。この戦略は、高価なピクセル空間でのデコードを避けるために潜在空間内でのみ厳密に動作し、複数の勾配ベースの損失を動的にバランスさせて高忠実度なアライメントを実現する。自然画像およびポートレートベンチマークでの広範な実験により、この最適な相乗効果によりMoebiusが10Bレベルの産業用汎用モデルFLUX.1-Fill-Devと同等以上の生成品質を達成できることが示された。特筆すべきは、Moebiusがパラメータの2%未満（0.22B対11.9B）でこれを実現し、総推論時間で15倍以上の高速化を達成し、高忠実度インペインティングの新たな効率基準を打ち立てたことである。プロジェクトページ：https://hustvl.github.io/Moebius

DragMesh-2: 物理的に妥当な関節物体との巧みな手-物体インタラクション
DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

Jun 13

ByTianshan Zhang, Yijia Duan, Yanjun Li, Zeyu Zhang, Hao Tang

多関節物体との巧みなインタラクションは、家庭用、介助用、およびヒューマノイドのマニピュレーションにおいて重要であり、多指ハンドは平行ジョー把持を超えたコンプライアントな接触パターンを提供できる。しかし、多関節物体のマニピュレーションは静的な物体のマニピュレーションとは異なる。すなわち、対象部品を直接駆動することはできず、その動作は手とハンドルとの持続的な物理的接触を通じて生じなければならない。このため、物体中心の関節動作生成から手駆動の巧みな手-物体インタラクションへの移行は容易ではない。なぜなら、幾何学的な軌道の再生や開ループ実行では、関節部品を動かすために必要な接触ダイナミクスをモデル化できないからである。さらに、固定されたダイナミクスの下でタスク完了のみを目的として訓練されたポリシーは、特に触覚または力覚フィードバックがない場合に公称接触荷重に過適合し、接触荷重が変化した際に性能が低下する可能性がある。これらの課題に対処するため、我々はDragMesh-2を提案する。これは多関節物体との巧みなインタラクションのための接触駆動フレームワークであり、関節動作を物体中心の生成から、関節運動が物理的接触を通じて生じなければならない手駆動の巧みな手-物体インタラクションへと拡張する。さらに、我々はPICAを提案する。これは物理知識に基づく接触認識訓練メカニズムであり、触覚または力覚フィードバックなしで物理的信号をポリシー学習に注入し、変化する接触荷重下でのロバスト性とタスク成功率を向上させる。最後に、我々は複数の減衰条件と多関節物体カテゴリにわたる系統的評価を行い、接触荷重変動下でのロバスト性を調査し、将来の移動操作やヒューマノイドの手-物体インタラクション研究を支援するための純幾何学的な巧みなインタラクションリソースを提供する。7つのGAPartNet物体において、DragMesh-2は比較手法よりも接触荷重変動下でのロバスト性が強く、かつ減衰条件全体で高いタスク成功率を維持する。

Multi-LCB: LiveCodeBenchの複数プログラミング言語への拡張
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Jun 18

ByMaria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench（LCB）は近年、大規模言語モデル（LLM）のコード生成タスクを評価するための広く採用されたベンチマークとなっている。競技プログラミング問題を厳選し、新しい問題を継続的に追加し、リリース日でフィルタリングすることで、LCBは汚染を考慮した評価を提供し、コーディング能力の全体的な視点を示している。しかし、LCBは依然としてPythonに限定されており、LLMが実際のソフトウェアエンジニアリングで必要とされる多様なプログラミング言語にわたって一般化できるかどうかという疑問が残っている。我々は、Pythonを含む12のプログラミング言語にわたってLLMを評価するベンチマークであるMulti-LCBを導入する。Multi-LCBは、LCBデータセットのPythonタスクを他の言語の同等のタスクに変換し、LCBの汚染管理と評価プロトコルを維持する。元のLCB形式と完全に互換性があるため、Multi-LCBは将来のLCB更新を自動的に追跡し、言語横断的なコード生成能力の体系的な評価を可能にし、モデルがPythonを超えて性能を維持することを要求する。我々は、24のLLMをMulti-LCB上で指示追従と推論について評価し、Pythonへの過適合、言語固有の汚染、多言語性能の大幅な格差の証拠を明らかにした。結果は、Multi-LCBを多プログラミング言語コード評価のための厳格な新しいベンチマークとして確立し、LCBの主要な制限に直接対処し、現在のLLM能力における重要なギャップを露呈するものである。

遊び心のあるエージェント的ロボット学習
Playful Agentic Robot Learning

Jun 17

ByJunyi Zhang, Jiaxin Ge, Hanjun Yoo, Letian Fu, Zihan Yang, Yaowei Liu, Raj Saravanan, Shaofeng Yin, Justin Yu, Dantong Niu, Zirui Wang, Roei Herzig, Ken Goldberg, Yutong Bai, David M. Chan, Ion Stoica, Angjoo Kanazawa, Jiahui Lei, Haiwen Feng, Trevor Darrell

現在のエージェント型ロボットシステムは、実行可能なCode-as-Policyプログラムを記述し、フィードバックを観察し、複数回の試行を通じて行動を修正できるが、依然としてタスク駆動型である。すなわち、再利用可能なスキルは明示的な指示を受けて初めて獲得される。本稿では、遊び心のあるエージェント型ロボット学習（Playful Agentic Robot Learning）を研究する。これは、具現化されたコーディングエージェントが、下流タスクが到来する前に自己主導的な遊びを継続的なスキル学習段階として活用するものである。我々は、遊び時間中のスキル獲得のために設計されたロボティクスエージェントチームRATsを提案する。遊びの間、RATsは新しくかつ学習可能な探索的タスクを提案し、ロボットコードポリシーを計画・実行し、中間進捗を検証し、障害を診断し、密なステップレベルのフィードバックで再試行し、成功した実行内容を永続的なコードスキルライブラリに抽出する。テスト時には、エージェントはこの凍結されたライブラリから関連スキルを再利用して新しいタスクの解決に役立てる。LIBERO-PROおよびMolmoSpacesにおける実験では、遊びを通じて学習したスキルが、遊びなしおよびランダムプレイのベースラインと比較して、未評価の下流タスクを改善することを示し、LIBERO-PROとMolmoSpacesにおいてCaP-Agent0に対してそれぞれ20.6ポイントおよび17.0パーセントポイントの向上を達成した。さらに、学習済みスキルは、推論時の他のCode-as-Policyエージェントに単にコンテキストへ検索して挿入するだけで利用でき、基礎モデルをファインチューニングすることなく、RoboSuiteおよび実世界への転移をそれぞれ8.9ポイントおよび8.8ポイント改善する。

S-Agent: 空間ツール使用が空間知能の推論を誘発する
S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

Jun 18

ByYalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

実世界の空間知能には、連続的かつ動的に変化する3D世界に対する推論が必要である。しかし、既存のVLMやツール拡張エージェントの大半は、孤立した視覚観察からの静的かつステートレスな推論に留まっている。本稿では、連続的なマルチビュー画像や動画の理解と推論のための空間ツール利用エージェントパラダイムである \textsc{S-Agent} を導入する。空間推論を孤立したフレームレベルの予測ではなく時空間的な証拠の蓄積として定式化することで、S-Agentは空間認識をフレーム中心の認識を超えたシーン中心の理解へと再構成する。具体的には、S-AgentはVLMを、どの証拠が必要かを決定する意味プランナーとして位置づける一方、空間ツールとエキスパートの階層が物体を2Dでグラウンディングし、それらを3D幾何学的証拠へと持ち上げ、この証拠を高レベルの空間知識（例：計数、計測、方位、相対位置）に集約する。さらに、時間的記憶機構として、進化するシーン状態を維持するScene Memoryと推論コンテキストを蓄積するAgent Memoryを含むことで、フレーム間および推論ステップ間での証拠統合を可能にする。マルチビューおよび動画の空間推論ベンチマークに関する包括的な実験により、S-Agentがオープンソースとクローズドソースの両方のVLMを訓練不要の形で一貫して改善することが示された。推論時の拡張を超えて、S-Agentが生成した空間軌跡S-300Kを用いた教師あり微調整（SFT）により、S-Agent-8Bが得られた。これはコンパクトな空間エージェントであり、同規模のベースライン（例：Qwen3-VL-8B）を大幅に上回り、高度なクローズドソースモデル（例：GPT-5.4やGemini 3）と同等の性能を発揮する。

静的リーダーボードを超えて：LLMエージェント評価のための予測的妥当性
Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

Jun 18

ByDhaval C. Patel, Kaoutar El Maghraoui, Shuxin Lin, Yusheng Li, Tianjun Feng, Chun-Yi Tsai, Yihan Sun, Wei Alexander Xin, Akshat Bhandari, Tanisha Rathod, Aaron Fan, Sanskruti Vijay Shejwal, Tomas Pasiecznik, Sagar Chethan Kumar, Tanmay Agarwal, Rohith Kanathur, Sam Colman, Amaan Sheikh, Dev Bahl, Ann Li, Krish Veera, Alimurtaza Mustafa Merchant, Shambhawi Baswaraj Bhure, Sajal Kumar Goyla, Chengrui Li, Kirthana Natarajan, Rui Li, Thomas Ajai, Rujing Li, Vivek G. Iyer, Sanjaii Vijayakumar, Yitong Bai, Ayal Yakobe, Darief Maes, Yassine Jebbouri, Tianyang Xu, Thai Quoc On, Vera Mazeeva, Winston Li, Yuval Shemla, Yeshitha Bhuvanesh, Rushin Bhatt, Siddharth Chethan Gowda, Alisha Vinod, Caroline Cahill, Shriya Aishani Rachakonda, Yunfeng Chen, Aryaman Agrawal, Aman Upganlawar, Mao Le Jonathan Ang, Yubin Sally Go, Madhav Rajkondawar, Yang-Jung Chen, Trisha Maturi, Ananya Kapoor, Andrew Li, Shrey Arora, Mana Abbaszadeh, Shen Li, Charles Xu, Byeolah Kwon

エージェントベンチマークは急速に拡大しているが、単一のベンチマークが実際のデプロイメントで露呈する次元のうち4～5以上をカバーすることはない。本論文では、MCPベースの産業用エージェントベンチマークに対する現在までで最大規模の協調的詳細調査を集約する。すなわち、新たな資産クラス（マルチモーダル視覚拡張を含む）、代替オーケストレーション、検索戦略、推論モード、インフラ最適化、評価手法の探究を網羅する14件の並行実装研究である。これらを先行する7件のエージェントベンチマークと統合し、総合スコアによるリーダーボードがデプロイされたエージェントの評価を体系的に過小特定していると論じる。総合スコアに由来するランキングは、分布外の設定に転移しない。最近の公開から非公開への競技振り返りは、このランク不安定性の直接的な実証的証拠を提供している。我々は、サンプル内平均ではなく、サンプル内とサンプル外のランク間の相関である予測妥当性によって構成をランク付けすることを提案し、HELMおよびそのエージェント時代の後継手法が崩壊させるデプロイメント関連次元を露呈する12層の測定装置を報告する。本立場は、明示的な閾値を備えた3つの反証可能な分布外基準を通じて運用化される。既存の証拠は部分的にこれを支持するが、確認するには乏しすぎる。最後に、事前登録されたパイロット設計と、次世代のエージェントベンチマークが報告すべき分野レベルのビジョンを提示する。

DF3DV-1K: 妨害要素のない新規視点合成のための大規模データセットとベンチマーク
DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

Jun 18

ByCheng-You Lu, Yi-Shan Hung, Wei-Ling Chi, Hao-Ping Wang, Charlie Li-Ting Tsai, Yu-Cheng Chang, Yu-Lun Liu, Thomas Do, Chin-Teng Lin

放射輝度場の進歩により、フォトリアリスティックな新規視点合成が可能になった。いくつかの分野では、包括的なベンチマーキングを支援し、シーン固有の再構成を超えた進展を促進するために、大規模な実世界データセットが開発されてきた。しかし、妨害要素除去放射輝度場に関しては、シーンごとにクリーンな画像と乱雑な画像の両方を備えた大規模データセットが依然として不足しており、開発が制限されている。このギャップを解消するために、我々はDF3DV-1Kを導入する。これは1,048シーンからなる大規模実世界データセットであり、各シーンはベンチマーキング用にクリーンな画像セットと乱雑な画像セットを提供する。データセット全体には、コンシューマーカメラで撮影され、カジュアルなキャプチャを模した89,924枚の画像が含まれており、128種類の妨害要素タイプと161のシーンテーマが屋内および屋外環境にわたって網羅されている。また、41シーンからなる厳選されたサブセットDF3DV-41は、困難なシナリオ下での妨害要素除去放射輝度場手法のロバスト性を評価するために体系的に設計されている。DF3DV-1Kを用いて、9つの最近の妨害要素除去放射輝度場手法と3Dガウススプラッティングをベンチマークし、最もロバストな手法と最も困難なシナリオを特定した。ベンチマークに加えて、DF3DV-1Kの応用例として、拡散ベースの2Dエンハンサーを微調整して放射輝度場手法を改善し、ホールドアウトセット（例：DF3DV-41）およびOn-the-goデータセットにおいて平均でPSNRが0.96 dB、LPIPSが0.057向上したことを実証する。DF3DV-1Kが妨害要素除去ビジョンの発展を促進し、シーン固有のアプローチを超えた進歩に貢献することを期待する。データセットとリーダーボードはhttps://johnnylu305.github.io/df3dv1k_web/で入手可能である。

FreeStyle: コミュニティLoRAマイニングに基づくスタイル・コンテンツ二重参照生成の自由制御
FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

Jun 18

ByJinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang

スタイル・コンテンツ二重参照生成は、コンテンツ参照画像の構造と意味情報を保持しつつ、別のスタイル参照画像のスタイルを適用した画像を合成することを目的とする。近年の進展にもかかわらず、この設定は依然として困難である。なぜなら、モデルはコンテンツの忠実性、スタイルの一致、指示追従、そしてスタイル参照からの意味的漏洩の回避をバランスよく実現しなければならないからである。主要なボトルネックは、クリーンなコンテンツ‐スタイルの分離と広範なロングテールスタイルをカバーする大規模な三重項データが不足していることにある。本研究では、コミュニティLoRAマイニングに基づくスケーラブルな二重参照生成フレームワークFreeStyleを提案する。コミュニティLoRAをスタイルとコンテンツの構成アンカーとして扱い、厳密な生成とフィルタリングパイプラインを設計することで、複数のベースモデルにわたる大規模なスタイル参照・コンテンツ参照の三重項データを構築する。コンテンツ漏洩に対処するため、段階固有の分離メカニズムを持つ二段階カリキュラムを採用する。すなわち、スタイル変換段階でスタイル参照からの漏洩を抑制するアテンションレベルのエンリッチメント制約と、より困難な二重参照段階で位置対応に基づく漏洩を対象とする周波数対応RoPE変調戦略である。また、スタイル参照生成と二重参照生成の両方をカバーするベンチマークを導入し、スタイル類似性、コンテンツ保存性、美観、指示追従性、漏洩抑制性を評価する。このベンチマークには、スタイル不変のコンテンツアライメントスコア（CAS）と、生成信頼性と漏洩抑制を評価するための較正済みVLMベースのリジェクションスコアが含まれる。広範な実験により、本モデルがスタイルの一致、コンテンツ保存性、漏洩抑制の間に強力なバランスを達成することを示す。

FlowBender: 自己修正条件付きフローのためのフィードバック認識型学習
FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows

Jun 18

ByDaniel Gilo, Sven Elflein, Ido Sobol, Or Litany

条件付き拡散モデルやフローモデルは、そのタスクを定義する制約自体を満たすことにしばしば失敗する。例えば、深度条件付きモデルは、訓練時と推論時の両方で利用可能な順方向演算子（制約を定義する深度予測器）があるにもかかわらず、再抽出した深度が入力と一致しない画像を生成することが多い。既存のアプローチは一般に二つのカテゴリに分類される。すなわち、条件付け信号を静的な手がかりとして扱い、推論時に位置合わせ情報を無視する教師ありモデルと、手動調整された線形更新を通じて条件を参照するガイダンスベースの手法であり、後者は通常、条件への忠実性と生成サンプルの妥当性の間でトレードオフを行う。我々は、両方のパラダイムにおける根本的なギャップは、モデルが自身の位置合わせ誤差を利用するように訓練されることが決してないことにあると主張する。本論文では、この誤差を第一級の入力として扱う閉ループフレームワークであるFlowBenderを導入し、推論時のフィードバックに条件付けられた修正ポリシーを学習するようにネットワークを訓練する。各ステップにおいて、非ガイダンスの先読みパスがクリーンな信号を推定し、順方向演算子を介してタスク固有の偏差が計算され、リファインメントパスがこの信号を消費して修正された速度を生成する。我々は、微分可能演算子のための勾配ベースの定式化や、JPEG圧縮のような非微分可能設定のためのゼロ次変種を含む、FlowBenderのいくつかの変種を提案する。効率的なサンプリングのために、最小限の追加計算コストで閉ループ修正を可能にする事前ステップショートカットを導入する。画像間変換、復元、3Dメッシュテクスチャリングにおいて、FlowBenderは標準的な教師ありベースライン、位置合わせ損失を拡張した訓練、および最先端の推論時ガイダンスを一貫して上回り、忠実性と妥当性をトレードオフするのではなく同時に改善する。プロジェクトページ: https://flow-bender.github.io/

JanusMesh: クロススペースノイズ除去による高速ゼロショット3D視覚錯覚生成
JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

Jun 18

BySiang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang, Yu-Lun Liu

3D錯視の生成、すなわち一枚の3Dメッシュが異なる視点から全く異なる意味を呈するという課題は、魅力的でありながらも困難である。既存の最適化ベースの手法は処理が遅く、過剰に彩度の高い色を生成する可能性がある。対照的に、単純な接合手法では幾何学的に一貫性のあるオブジェクトを生成できず、不自然な継ぎ目や意味の漏れが生じる。本論文では、テキスト駆動型の3D錯視を生成するための高速かつ学習不要のフレームワークを提案する。本手法は生成を二段階に分離する。第一に、クロススペース・デュアルブランチノイズ除去プロセスを提案する。このプロセスは3D潜在変数を動的にボクセル空間にデコードし、CLIPガイドによる方向合わせおよびSigned Distance Field (SDF) のブレンディングを行い、シームレスな幾何学的融合を実現する。第二に、視点条件付きテクスチャ合成モジュールを導入し、視点固有の2D拡散事前情報を融合後の幾何形状に投影・集約する。広範な実験により、本手法は3～5分で極めてリアルな二重意味3D錯視を生成し、幾何学的完全性、意味認識性、効率性において既存手法を大幅に上回ることを示す。プロジェクトページ: https://siang1105.github.io/JanusMesh.github.io/

ImageWAM: 世界行動モデルは本当に動画生成を必要とするのか、それとも画像編集だけで十分なのか？
ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

Jun 17

ByYuyang Zhang, Wenyao Zhang, Zekun Qi, He Zhang, Haitao Lin, Jingbo Zhang, Yao Mu, Xiaokang Yang, Wenjun Zeng, Xin Jin

世界行動モデル（WAM）は通常、ビデオ生成を活用して視覚的世界モデリングとロボット制御を橋渡しする。しかし、ビデオベースのWAMには三つの相互に関連する制約がある。すなわち、密度の高い複数フレームの将来トークンにより推論コストが増大すること、完全なビデオ予測では動作に無関係な時間的・外観的詳細に容量が割かれること、そして長期の将来想像において行動予測を誤らせる誤差が生じうることである。これらの問題は単純な疑問を提起する：世界行動モデルは本当にビデオ生成を必要とするのか？我々はImageWAMを提案する。これは、事前学習済み画像編集モデルをロボットの行動予測に転用するシンプルなWAMフレームワークである。ビデオ生成とは対照的に、画像編集はより適した事前分布を提供する。すなわち、目標フレームの変換のみをモデル化すればよく、動作に関連する現在と目標の視覚的差異に焦点を当て、編集事前学習を通じてタスク指示を局所的な視覚変化に接地する。実際には、ImageWAMは推論時に目標フレームをデコードせず、代わりに画像編集のデノイジングによって生成されるKVキャッシュを利用してフローマッチング行動エキスパートを条件付け、これらをコンパクトな世界行動コンテキストとして使用する。ImageWAMは、シミュレータおよび実世界の実験の両方において、追加のポリシー事前学習を必要とせずに、標準的なVLAベースラインや競争力のあるWAMを上回る性能を示す。また、ビデオベースのWAMと比較して、FLOPsを1/6、レイテンシを1/4に削減する。アテンション分析はさらに、編集キャッシュがタスク関連の変化領域に焦点を当てることを示し、画像編集がビデオベースの世界行動モデリングの有効な代替手段であることを支持する。

現在の世界モデルは持続的状態コアを欠いている
Current World Models Lack a Persistent State Core

Jun 18

ByJinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju

世界モデルは、汎用人工知能への決定的な一歩としてますます認識されている。しかし、物理世界をモデル化するには、要求に応じて説得力のあるフレームを描画するだけでは不十分であり、観測から切り離された、時間とともに進化し続ける内部世界状態が必要となる。これにより、カメラが見ているかどうかに関わらず、物体は持続し、出来事はその結末に至る。ちょうど、誰も見ていなくても月が軌道を守るのと同様である。この要件は、既存のベンチマークの盲点であり、それらは忠実度、動き、カメラ制御可能性などの表面的な特性を評価する一方で、生成された世界が観測されなくなった後も進化し続けるかどうかを問うことは決してない。我々は、カメラ運動を観測可能性への介入として扱い、評価を人間に較正された連鎖へと分解する、初の体系的な診断ベンチマークであるWRBenchを導入する。その連鎖では、カメラが要求された操作を実行するか、視野内にある間シーンが連続性と識別可能性を保つか、そして戻ってくる対象が開始された出来事と整合しているかが問われる。4つの制御パラダイムにわたる23モデルからの9,600本の動画を調査した結果、1つの知見が頑強に示される。すなわち、現行システムは観測された世界を追跡ショットとして維持し、戻ってくる対象を、それが見過ごされている間に出来事を進展させるのではなく、放棄された時点の状態で再開するのである。この失敗が制御パラダイム、モデルファミリー、スケールの増分を超えて再発するため、頑強な世界状態の進化は、より鮮明な画像、より厳密な制御、より豊かな幾何学的先験知識、あるいは単なるパラメータ数からはもたらされない。したがって、我々は、物理状態カーネルの安定性と視点介入下での世界線の一致性が、世界モデル設計の第一級の目的となるべきであり、それにより世界モデルが次のフレームがどのように見えるかではなく、世界がどのように展開するかを捉えるようになると主張する。

エージェント的およびマルチモーダルLLMのための文脈認識強化学習
Context-Aware RL for Agentic and Multimodal LLMs

Jun 15

ByPeiyang Xu, Bangzheng Li, Sijia Liu, Karthik R. Narasimhan, Pramod Viswanath, Prateek Mittal, Xingyu Fu

大規模言語モデル（LLM）は、長いまたは複雑な文脈の中で、ツールトレースの一行や画像の微妙な細部といった、小さくとも決定的な証拠を特定する必要がある回答において、しばしば失敗する。我々はContextRLを提案する。これは、間接的な補助目的関数を通じて、長期的推論とマルチモーダル性能を向上させる文脈認識型強化学習手法である。最終的な回答のみを監督するのではなく、ContextRLはモデルに対して、クエリ、回答、および極めて類似した二つのコンテキストを提示し、クエリと回答のペアを支持するコンテキストを選択した場合に報酬を与えることで、細粒度の接地を促進する。我々は二つの領域において対照的なコンテキストデータを構築する。コーディングエージェントについては、トレースをコンテキストとして用い、条件フィルタリングにより1kペアを生成する。マルチモーダル推論については、画像をコンテキストとして用い、生成的編集と類似性検索により7kペアを生成する。ContextRLは、5つの長期的ベンチマークにおいて標準的なGRPOを平均+2.2%上回り、12の多様な視覚的質問応答ベンチマークにおいて平均+1.8%の改善を達成する。提案する目的関数の効果を追加データの効果から切り離すため、同一の対照的コンテキストを標準的なクエリ-コンテキスト-回答例として再利用するデータ拡張ベースラインと比較する。これらのベースラインはほとんど改善を示さず、その利得が対照的データ単独ではなく、提案するコンテキスト選択目的関数に起因することを示している。

ENPIRE: 実世界におけるエージェント型ロボットポリシーの自己改善
ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

Jun 18

ByWenli Xiao, Jia Xie, Tonghe Zhang, Haotian Lin, Letian "Max" Fu, Haoru Xue, Jalen Lu, Yi Yang, Cunxi Dai, Zi Wang, Jimmy Wu, Guanzhi Wang, S. Shankar Sastry, Ken Goldberg, Linxi "Jim" Fan, Yuke Zhu, Guanya Shi

実世界での器用なロボット操作を達成するには、人間の監視とアルゴリズムエンジニアリングに大きく依存しており、これが一般的な物理的知能を追求する上での中心的なボトルネックとなっている。新興のコーディングエージェントはコードを生成してアルゴリズム探索を自動化できるが、その成功は主にデジタル環境に限定されている。我々は、ロボティクス研究を自動化するために欠けている抽象化は、実世界でのポリシー改善のための反復可能なフィードバックループ（シーンをリセットし、ポリシーを実行し、結果を検証し、次の反復を改善する）であると推測する。このギャップを埋めるために、我々はENPIREを導入する。これはコーディングエージェントのためのハーネスフレームワークであり、この物理的フィードバックルーチンを4つのコアモジュールで具体化する。すなわち、自動リセットと検証のための環境モジュール(EN)、ポリシー改良を開始するポリシー改善モジュール(PI)、1台または複数の物理ロボットを並行して動作させてポリシーを評価するロールアウトモジュール(R)、そしてコーディングエージェントがログを分析し、文献を参照し、トレーニングインフラとアルゴリズムコードを改善して障害モードに対処する進化モジュール(E)である。この閉ループシステムは、実世界の操作学習を制御可能な最適化手順に変換し、人間の労力を最小限に抑えつつ、トレーニングレシピとエージェントバリアント間での公平なアブレーションを可能にする。ENPIREを活用することで、最先端のコーディングエージェントは、ピンボックスの整理、ジップタイの締め付け、道具の使用といった困難で器用な操作タスクにおいて、自律的にポリシーを訓練し99%の成功率を達成できる。このプロセスは、ロボットフリートにエージェントチームを派遣することでさらに加速する。我々の結果は、物理世界でロボティクスを自律的に進歩させるためにコーディングエージェントを展開する、実用的かつスケーラブルな道筋を示唆している。

視覚的グラウンディングによる思考
Thinking with Visual Grounding

Jun 15

ByJunkai Zhang, Yihe Deng, Kai-Wei Chang, Wei Wang

視覚的思考は単に言語的に正しいだけでなく、その根拠を示すべきである。近年のビジョンランゲージモデル（VLM）は自然言語による推論過程を生成できるが、これらの過程はしばしば対応する画像領域を暗黙のままにし、検証や監督が困難である。本稿では、視覚的に根拠付けられた思考（visually grounded thinking）を導入する。これは、モデルが自然言語による思考と、各ステップで使用される視覚的根拠の明示的な点またはボックスによる根拠付けを交互に配置する推論過程である。これにより、モデルは中間推論を言語で表現しつつ、参照する画像領域内の主要オブジェクトを根拠付けできる。この振る舞いを学習するために、正しい視覚的推論過程を抽出し、その過程に必要な視覚オブジェクトを抽出し、SAM3ベースのエージェントで根拠付けを行い、得られたマスクから整合する点とボックスの監督信号を導出するスケーラブルな合成パイプラインを構築する。さらに、正解報酬と、生成されたオブジェクト参照が正しい画像根拠と一致するかを評価する密な根拠付け報酬を組み合わせた、根拠付け認識強化学習を提案する。2つのカウントベンチマークと4つの空間推論ベンチマークにおいて、Gemma3-4B-ITに視覚的根拠付け思考を追加することで、元のモデルおよび根拠付けなし思考ベースラインと比較して一貫して性能が向上する。空間推論では、視覚的根拠付け思考を備えた4Bモデルが、同じモデルファミリーのGemma3-27B-ITに匹敵し、場合によってはそれを上回る。分析により、点根拠付けはカウントタスクに適しており、ボックス根拠付けは空間タスクにおいて明示的な根拠付け報酬から最も恩恵を受けることが示された。全体として、本結果は、中間思考がそれを真とする画像領域に結び付けられているとき、VLMはより良く思考することを示している。

FAPO: 完全自律型マルチステップLLMパイプラインのプロンプト最適化
FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

Jun 17

ByPaul Kassianik, Baturay Saglam, Huaibo Zhao, Blaine Nelson, Supriti Vijay, Aman Priyanshu, Amin Karbasi

多段LLMパイプラインは、検索・推論・整形の各ステップ間の相互作用によって失敗するため、プロンプトのみの最適化ではチェーン内のボトルネックを見逃す可能性がある。本稿では、Claude Codeが標準化されたコードベース内でLLMパイプラインを最適化できるフレームワークであるFAPO（完全自律型プロンプト最適化）を提案する。FAPOはパイプラインを評価し、中間ステップを検査し、失敗を診断し、スコープを限定した変更を提案し、バリアントを繰り返し検証することで、スコア関数に対して最適化を行う。まずはプロンプト編集を試み、プロンプト最適化だけでは不十分と判断された場合にのみ、属性分析によって構造的ボトルネックが特定されたとき、許可されたスコープ内でチェーン構造を変更する。6つのベンチマークと3つのタスクモデルを用いた評価では、FAPOは18のモデル・ベンチマーク比較のうち15でベースラインのGEPAを上回った。11のモデル・ベンチマーク比較では、平均±試行標準偏差の範囲が重複しない形でFAPOが勝利し、平均FAPO-GEPA利得は+14.1ポイントであった。プロンプト優先探索が構造変更に発展した6つのHoVerおよびIFBench比較では、FAPOは全6件で勝利し、平均利得は+33.8ポイントであった。また、セキュリティタスクにおいても性能向上を達成した。セキュリティ上のCVEからCWEへのタスクであるCTIBench-RCMでは、プロンプトのみのFAPOにより、GPT-5でテスト精度が+4.0ポイント、Foundation-Sec-8B-Instructで+7.1ポイント、Foundation-Sec-8B-Reasoningで+2.0ポイント向上した。これらの結果により、FAPOは汎用タスクおよびセキュリティ特化タスクの両方において、最先端のパイプライン最適化手法として位置づけられる。

HumanScale: エゴセントリックな人間のビデオは身体性事前学習において実ロボットデータを凌駕できる
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Jun 18

ByJuncheng Ma, Jianxin Bi, Yufan Deng, Xuanran Zhai, Kewei Zhang, Ye Huang, Bo Liang, Shukai Gong, Jiankai Tu, Xiaotian Tang, Jiaxin Li, Kaiqi Chen, Duomin Wang, Yuqi Wang, Bingyi Kang, Eric Huang, Zhiyang Dou, Zhen Dong, Enze Xie, Wojciech Matusik, Tat-Seng Chua, Daquan Zhou

身体化基盤モデルは、大規模言語モデルと同様にデータスケーリングの恩恵を受けると期待されているが、はるかに厳しいデータボトルネックに直面している。遠隔操作による実ロボット軌跡は、その正確な行動ラベルと身体性の一致から、依然として主要な事前学習ソースであるが、収集コストの高さ、取得の困難さ、行動および環境の多様性の低さにより、そのスケーラビリティは制限されている。これらの制約から、身体化モデルの事前学習において、スケーラブルで大幅に低コストかつより多様な代替手段として、自己中心視点の人間ビデオへの関心が高まっている。しかし、遠隔操作による実ロボットデータと比較したその有効性は十分に検討されていない。この疑問に答えるため、我々は固定された事後学習および評価プロトコルの下で、身体化基盤モデルの事前学習データソースとして自己中心視点の人間ビデオと遠隔操作による実ロボット軌跡を比較する体系的な研究を行う。驚くべきことに、自己中心視点データは、注意深く設計されたフィルタリングおよびラベル付けのパイプラインを通じて処理された場合、モデル事前学習の単なる代替手段として有効であるだけでなく、優れた性能をもたらす可能性があることが判明した。同一量の事前学習データを用いた場合、自己中心視点データで事前学習されたモデルは、実ロボット行動予測における検証損失が24%低減され、分布内および分布外の実ロボットタスク実行においてそれぞれ52.5%および90%高い成功率を達成する。この発見は、身体化基盤モデルに対するスケーラブルなパラダイム、すなわち多様な世界表現を学習するために自己中心視点の人間ビデオで事前学習し、その後少量のラベル付き実ロボットデータを用いて行動空間のアライメントを行うというパラダイムを検証するものである。本研究が、自己中心視点データのより広範な探求を促進し、高コストなロボットデータ収集の前にデータ品質評価の指針を提供することを期待する。

Holo-World: ビデオワールドモデルのためのカメラ・物体・天候の統合制御
Holo-World: Unified Camera, Object and Weather Control for Video World Model

Jun 18

ByXiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun

ビデオワールドモデルは、カメラと物体の動きを制御可能にしつつ、観測された世界を保存し、環境状態の変化を許容する方向へと進んでいる。しかし、これらの制御は依然として独立しており、天候生成は通常、将来の構造をすでに特定するソースビデオや再構成されたシーンに依存している。本研究では、最初のフレームを基準としたソース・トゥ・ステート設定を研究する。この設定では、モデルは単一画像から開始し、明示的なカメラと物体の制御、およびオプションの天候指示に従って、ソースの世界を保持するか、あるいは対象の天候状態に転送するビデオを生成する。これらの課題に取り組むために、まずHoloStateDataを構築する。これは、多様なビデオをカメラ、物体、天候の監視のための統一された制御サンプルに変換する状態ビデオデータセットである。次に、単一画像からシーンを共同制御する統合制御可能ビデオワールドモデルであるHolo-Worldを導入する。その統一シーンアダプターは、世界保存と天候転送を別個のパラメータ部分空間に分解し、レンダリングされた背景、ジオメトリバッファ、物体制御を用いて、制御されたシーン構造を維持しながら、天候に依存する外観や粒子効果をモデル化する。さらに、シーン・天候分解CFGは、シーン残差と天候残差を個別にガイドし、全条件を過度に増幅することなく、対象の天候効果を強化する。定量的および定性的な実験により、Holo-Worldは、正確なカメラと物体の制御と一貫したシーン構造を維持しながら、シーンを多様な対象天候状態に転送し、天候状態生成においてビデオ間天候編集ベースラインを上回ることを示す。プロジェクトページはhttps://xiangchenyin.github.io/Holo-World/で公開している。

LLM FP4事前学習における収縮バイアスの再考：幾何学的起源、システム全体への影響、およびUFP4レシピ
Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

Jun 18

ByQian Zhao, Kunlong Chen, Changxin Tian, Zhonghui Jiang, Haitao Zhang, Chaofan Yu, Peijie Jiang, Mingliang Gong, Jia Liu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou

FP4トレーニングは、大規模言語モデルの事前学習におけるメモリと計算コストの大幅な削減を約束する。しかしながら、NVIDIA Blackwell/RubinクラスシステムやAMD MI350シリーズGPUを含む現在のFP4ハードウェアパスとレシピは、依然としてE2M1データ要素を中心に設計されている。本研究では、この選択の根本的な限界を特定する。すなわち、E2M1のような非一様フォーマットは、表現可能なビンの幾何学的非対称性に起因する系統的な負の丸め誤差である「縮小バイアス（Shrinkage Bias）」を本質的に抱えている。我々は、このバイアスが層を超えて乗法的に蓄積され、ランダムアダマール変換（Random Hadamard Transform, RHT）によって増幅されることを示し、既存のE2M1ベースのFP4レシピで観察されるトレーニング不安定性に対する統一的な説明を提供する。対照的に、一様グリッド（E1M2/INT4）は、このグリッド形状に起因する誤差を回避し、RHTによる改善されたバケット利用率をより高い量子化品質に変換する。この発見に基づき、3つのトレーニング用GEMM全てにRHTを適用し、確率的丸めをdYのみに限定する、一様4ビットトレーニングレシピ「UFP4」を提案する。Dense 1.5B、MoE 7.9B、およびMoE 124Bの長期事前学習において、UFP4は、スケーリング則分析とアブレーション研究に裏付けられ、強力なE2M1ベースのベースラインと比較して、一貫して低いBF16相対損失劣化を達成する。我々の結果は、将来のアクセラレータは、E2M1と並ぶ第一級のトレーニング用プリミティブとして、E1M2/INT4スタイルの一様4ビットグリッドをサポートすべきであることを示唆している。

LOCUSによる法の解放：米国向け地方条例コーパス
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States

Jun 17

ByDenis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport

法域AIの進展は、権威ある法テキストへの大規模なアクセスに依存する度合いを強めている。しかしながら、既存の機械可読コーパスでは、アメリカ法の最も重要な層の一つである地方法令がほぼ欠落している。地方条例は、ゾーニング、住宅、事業許認可、公衆衛生、騒音、動物管理など、日常生活の規制の多くの領域を統治しているが、人間が閲覧するために設計されたベンダープラットフォーム上に分散しており、一括研究目的でのアクセスには適していない。本稿では、LOCUS（Local Ordinance Corpus for the United States）を紹介する。これは、米国の市および郡の条例コードを対象とした包括的コーパスであり、郡単位で調和化されたアクセス層を提供するものである。研究者への公開が予定されている生のコーパスは、公開されているほぼすべての市および郡の条例コードを網羅しており、結果として9,239の市および郡の条例コードが含まれている。より小規模な郡調和化LOCUSアクセス層は、全3,144郡のうち最大の2,309郡をカバーし、人口の過半数を占める。我々は、法を公共リソース化することを阻んできた多種多様な文書形式に対処するためにOCRを採用した。再現可能性、下流の法域AI研究、およびローカル法への機械可読アクセスの段階的拡大を支援するため、カバレッジメタデータとともにコーパスを公開する。さらに、これまでこの規模では研究されてこなかった不透明性やパターナリズムといった複数の観点から米国地方法を分析するために、モダンBERTベースの分類器およびスコアラーを複数訓練した。LOCUS-v1およびその派生モデルは、https://huggingface.co/datasets/LocalLaws/LOCUS-v1 で入手可能である。

FIDロッタリー：生成モデル評価における隠れたランダム性の定量化
The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

Jun 18

ByNicolas Dufour, Alexei A. Efros, Patrick Pérez

フレシェ・インセプション距離（FID）は画像生成の事実上の評価基準であるが、ほとんどの論文では単一のトレーニングシードを用いた単一の訓練済みモデルから得られる一つの数値のみを報告している。もしモデルを再訓練したり、単にそこから再サンプリングしたりした場合、その数値はどの程度再現可能だろうか？本論文では、FIDを訓練シードと生成シードの二次元軸上の確率変数として扱い、クラス条件付きImageNet 256x256で訓練された数百のSiTネットワークに対してその分散を直接測定する。以下の驚くべき知見を報告する：(a) 同じレシピで異なるシードを用いてモデルを再訓練すると、固定ネットワークからのサンプルを引き直す場合よりもFIDが（インセプション特徴空間で）3.2倍大きく変動する。(b) その差は、ランダム初期化、データ順序、フローマッチング損失におけるステップごとのガウスノイズの三つの要因によって引き起こされる。(c) 計算量やモデルサイズを増やしてもばらつきはほとんど縮まらず、FIDの変動係数（CoV）は1〜2%の範囲内に留まる。(d) セルごとの分類器なしガイダンスチューニングはばらつきを半減させるが、どのシードが最適かを並べ替え、幸運な訓練シードは不運なシードに比べて最大2倍少ない計算量で同じFIDに到達する。これらの知見に基づき、新たなFID評価プロトコルを推奨する：セルごとの最適ガイダンスのもとで評価し、経験的に測定された約1.3%のCoV以下のFID差は決定的でないとみなし、単一のFID数値ではなく複数の訓練シードにわたる誤差範囲を報告する。

環境認識型情報検索の振る舞いの理解
Understanding the Behaviors of Environment-aware Information Retrieval

Jun 15

ByRuifeng Yuan, Chaohao Yuan, David Dai, Yu Rong, Hong Cheng, Hou Pong Chan, Chenghao Xiao

近年の検索拡張生成（RAG）手法は複雑なクエリ処理において高い能力を示しているが、現在の研究では決定的な課題が見落とされている。すなわち、異なる検索器（レトリーバー）は最適な性能を発揮するために、根本的に異なるクエリ作成戦略を必要とするという点である。本研究では、強化学習（RL）を通じて大規模言語モデル（LLM）が異なる検索器に応じてクエリ作成戦略を適応させる方法を学習できるかについて、初の体系的な分析を提示する。我々の実証研究により、RLがLLMに特定の検索器特性に合わせたクエリを調整することを効果的に教えることが明らかになった。驚くべきことに、異なる検索器は記述的スタイルと質問的スタイルなど、それぞれ最適なクエリスタイルが著しく異なり、ある検索器で学習した戦略は別の検索器では効果が低いことが示唆される。さらに、検索器固有の人間のガイダンスを組み込むことやモデルサイズを拡大することで、性能が向上することを示す。複数検索ステップからなる軌跡にわたる学習を容易にするため、訓練の安定性を高める分岐ベースのロールアウト手法を導入する。本研究は、真に検索器を認識するRAGシステムを構築するための初の実証的証拠と実践可能な知見を提供する。コードとリソースは https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval で入手可能である。

LedgerAgent: ポリシー準拠のツール呼び出しエージェントのための構造化状態
LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

Jun 18

ByMd Nayem Uddin, Amir Saeidi, Eduardo Blanco, Chitta Baral

カスタマーサービス領域におけるポリシー準拠型ツール呼び出しエージェントは、ターン間でタスク状態を維持しつつツールを呼び出し、ドメインポリシーに従わなければならない。タスク状態は、ユーザーとの対話やツール呼び出しを通じて観測される関連事実、識別子、制約、条件から構成される。標準的なエージェントでは、タスク状態は別途表現されない。観測結果、ツールの戻り値、ポリシー指示はプロンプトに配置され、エージェントは次に何を行うかを決定するたびに、プロンプトから関連状態を再構築する必要がある。この設計は状態管理を暗黙的にし、二つの一般的な障害モードを引き起こす。エージェントが正しい事実を取得しても、後にその意思決定を古い、欠落した、または誤った情報に基づいて行う可能性がある。また、構文的に正しいツール呼び出しであっても、現在のタスク状態に依存するドメインポリシーに違反する場合がある。本稿では、LedgerAgentを提案する。これは、ツール呼び出しエージェントのための推論時手法であり、観測されたタスク状態を別の台帳に保持し、その状態をプロンプトにレンダリングする。また、環境を変更するツール呼び出しが実行される前に、台帳を用いて状態依存のポリシー制約をチェックし、ポリシー違反を防止する。カスタマーサービスの4つのドメイン、ならびにオープンウェイトモデルとクローズドウェイトモデルの混合パネルにおいて、LedgerAgentは標準的なプロンプトベースのツール呼び出し手法よりも平均passkを改善し、特に厳格な複数試行一貫性指標のもとで最大の向上を示した。

Taylor-Calibrate: ハイブリッド線形注意蒸留のための原理に基づく初期化
Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

Jun 15

ByZhongzhu Zhou, Qingyang Wu, Junxiong Wang, Mayank Mishra, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu

ハイブリッド線形注意モデルは、より高速な長文脈推論への魅力的な経路を提供する。これらは、完全なソフトマックス注意の二次的なコストとKVキャッシュの負担を軽減しつつ、Transformerモデルの品質の多くを保持する。このようなモデルを得る実用的な方法の一つは、新しいアーキテクチャをゼロから事前学習する代わりに、事前学習済みTransformerを変換することであるが、この変換は依然として脆弱である。単に教師の注意射影をGated DeltaNet（GDN）生徒にコピーするだけでは、新しい再帰的減衰、書き込み、出力ゲーティングのダイナミクスを指定できない。その結果、変換されたモデルはしばしば貧弱な動的状態から開始し、残りの教師行動を学習するよりも、多くの蒸留トークンを初期化の修復に費やさざるを得なくなる。本稿では、ハイブリッドGDN生徒のための軽量な初期化手法であるTaylor-Calibrateを提案する。本手法は、テイラー誘導による教師注意統計量を用いて値射影、記憶タイムスケール、書き込みゲート、出力ゲートを設定し、その後、各変換層を教師出力に一致させるための短い層ごとのアライメントステップを適用する。4つの教師設定と3つの保持層ポリシーにわたって、Taylor-Calibrateははるかに強力なゼロショット生徒を与え、代表的なアブレーションでは最大88倍の改善を示し、ナイーブな変換と比較して4.9倍から9.2倍少ない訓練トークンで一致した回復目標に達する。

解像度に不変な適応的体積力学特性場
Adaptive Volumetric Mechanical Property Fields Invariant to Resolution

Jun 16

ByRishit Dagli, Donglai Xiang, Vismay Modi, Xuning Yang, Gavriel State, David I. W. Levin, Maria Shugrina

デジタル世界の信頼性の高い物理シミュレーションには、正確な機械的特性（または材料）——ヤング率（E）、ポアソン比（ν）、密度（ρ）——が不可欠であるが、ほとんどの3Dアセットにはこの情報が欠けている。本稿では、入力3Dオブジェクトに対して高精度な空間的に変化する（E, ν, ρ）を予測し、解像度、精度、メモリ効率を従来手法より向上させる手法AdaVoMPを提案する。本手法の基盤は、入力3D形状と材料フィールド出力の両方を効率的に表現するスパースかつ適応的なボクセル構造SAVである。従来の最も高精度な手法VoMPの固定ボクセルモデルを、新たなスパーストランスフォーマーエンコーダデコーダモデルに置き換え、入力形状ごとに材料を表現する独自のSAVを自己回帰的に生成することを学習することで、従来手法と比べて16^3倍の解像度を達成する。実験により、AdaVoMPは全従来手法よりも少ないテスト時計算量で、より正確な体積特性を推定できることが示された。これにより、高解像度で複雑な3Dオブジェクトをシミュレーション対応アセットに変換し、現実的な変形シミュレーションを実現する。

LegalHalluLens: 型付き幻覚監査と調整済みマルチエージェント討論による信頼できる法的AI
LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AI

Jun 16

ByLalit Yadav, Akshaj Gurugubelli

法務ワークフローに導入されたAIシステムは、総合指標で約52%と報告される割合で幻覚（ハルシネーション）を生じるが、この平均値はエラーがどこに集中し、どの方向に偏っているかを隠蔽してしまい、コンプライアンス担当者は信頼できる導入のための実用的なシグナルを得られない。本稿では、LegalHalluLensという監査フレームワークを提案する。これは、以下の3つの要素から構成される: CUAD（Hendrycksら、2021）上の4つの法的に動機づけられたクレームカテゴリ（数値的、時間的、義務/権利、事実的）にわたる型付き幻覚プロファイル、省略対創作バイアスを展開比較可能な単一スカラーに集約するリスク方向指標（RDI）、ならびにその大きさと方向の両方に較正された型付き討論パイプラインである。510件の契約書と249,252件の条項レベルのインスタンスにわたる評価では、総合報告では隠される義務/権利および数値的クレームと時間的クレームの間に約38〜40パーセンテージポイントのモデル内ギャップが計測され、さらに、一致した52%の割合を示す2つのシステムが逆のRDIを持つ可能性があることを示す。討論パイプラインは、診断に追従するカテゴリ別の利得とともに、捏造検出を45%削減し、大幅に小型のバックボーン（40億アクティブパラメータ）で商用APIに匹敵する性能を達成する。型付きプロファイルとRDIは、総合指標が隠す故障モードを表面化する。さらに、これらの診断がマルチエージェント討論パイプラインの較正入力として機能し、測定された故障モードを標的とする懐疑者の挑戦と非対称ゲートが、汎用的に調整された討論よりも優れた性能を示すことを実証する。本フレームワークは、実環境に展開される法務AIに対する方向認識型の調達、説明責任、およびエージェント設計を支援する。

エージェント型RAGを用いた構成可能な臨床情報抽出：機能する点、機能しない点、そしてその理由
Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why

Jun 17

ByOsman Alperen Çinar-Koraş, Marie Bauer, Sameh Khattab, Merlin Engelke, Moon Kim, Stephan Settelmeier, Shigeyasu Sugawara, Fabian Freisleben, Felix Nensa, Jens Kleesiek

患者コンテキストは数百の異種文書と数千の構造化データポイントに及びますが、AIシステムが検索やトリアージに必要とする文書レベルのメタデータは存在しないか不完全です。標準的な検索拡張生成(RAG)はこのデータに対して機能せず、時間的推論、文書間依存関係、欠落メタデータを適切に処理できません。私たちはエッセン大学病院においてACIE（エージェント型臨床情報抽出）を導入しました。これはオンプレミスのエージェントベースRAGパイプラインであり、患者コンテキスト全体を推論し、すべての回答を臨床医の検証のためにソースパッセージに基づいて根拠づけます。私たちはメタデータギャップを定量化し、それによって形成されたアーキテクチャ上の決定を追跡し、抽出の評価を独立した後ろ向きリンパ腫登録研究と併せて実施しました。この研究では核医学医が抽出された各値を引用元に対して検証しています。7,326件の判定にわたり、臨床医は抽出結果の96.5%を承認し、タイプ別の受容率は80%から99%の範囲でした。

LooseControlVideo: 空間ブロッキングを用いた監督的ビデオ制御
LooseControlVideo: Directorial Video Control using Spatial Blocking

Jun 17

ByShariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

テキストから動画生成における精密な3D空間オーケストレーションは、特に意味的レイアウトと時間的ダイナミクスがしばしば絡み合うマルチオブジェクトシーンにおいて、依然として重要な課題である。既存の深度条件付きモデルは良好な構造的忠実度を達成するが、変形可能なオブジェクトを含む動的イベントに対しては、フレーム単位の密なガイダンスを必要とし、その作成には多大な労力を要する。我々はLooseControlVideoを提案する。これは、疎な方向性3Dボックスを「ブロッキング」プロキシとして使用することで、直感的かつ表現力豊かな制御を可能にするフレームワークである。これにより、ユーザーは高レベルのレイアウトと軌跡を作成する一方で、動画生成モデルを活用して現実的な遮蔽、ダイナミクス、インタラクションを生成できる。我々はこれを、3Dサイズ、方向、深度順序付けられた遮蔽のための新規エンコーディングであるDNOCSでアノテーションされた動画データセット上でWan 2.2バックボーンを微調整することにより達成する。さらに、本手法は、ジャンプ軌道の調整やインタラクションの追加といった局所的なリファインメントを、大域的なシーンコンテキストへの影響を最小限に抑えながら可能にする。nuScenes、HO-3D、BEHAVEベンチマークでの広範な評価により、LooseControlVideoは既存の2Dボックスやフローベースのベースラインを大幅に上回ることが示された。我々の発見は、軌道誤差において1.2倍から3倍の改善、剛体運動一貫性において2倍の改善、遮蔽精度において1.5倍から2倍の改善を、現在の最先端レイアウト条件付きモデルと比較して示しており、方向性のある3Dプリミティブが複雑なマルチエージェント動画作成において優れた幾何学的事前情報を提供することを実証している。

JAMER: プロフェッショナルゲームエンジンにおけるプロジェクトレベルのコードフレームワークデータセットとベンチマーク
JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

Jun 18

ByJianwen Sun, Chuanhao Li, Zizhen Li, Yukang Feng, Fanrui Zhang, Yifei Huang, Yu Dai, Kaipeng Zhang

現在のAI駆動型ゲーム開発は、アセット生成、ゲームプレイ設計、Webベースのゲームコーディングにおいて顕著な進歩を遂げているが、プロフェッショナルなゲームエンジン上でのプロジェクトレベルのコードエンジニアリングは、大規模データセットと確定的評価手法の欠如により、ほとんど未開拓のままである。本稿では、JamSetおよびJamBenchを提案する。これらは、プロフェッショナルなゲームエンジン上に構築された初のプロジェクトレベルのゲームコードフレームワークデータセットおよびベンチマークである。我々の重要な洞察は、ゲームジャム競技会（開発者が厳しい時間制約のもとで完全なゲームを構築するコミュニティイベント）が、この目的に適した数千ものオープンソースプロジェクトを生み出している点にある。Godotエンジンのテキストベース形式とヘッドレス実行モードを活用し、ファイル整合性からランタイム動作収集に至る確定的検証パイプラインを設計し、24万以上のリポジトリから8,133の検証済みプロジェクトを抽出した。うち300の手動検証済みプロジェクトがJamBenchを構成し、残りがJamSetを構成する。JamBenchは、テーマ駆動型生成タスクとコード補完タスクを定義し、コンパイル合格率、構造的完全性スコア（SCS）、行動的一致スコア（BAS）を組み合わせたパイプラインで評価される。9つの最先端モデルの評価により、プロジェクト規模の拡大に伴う能力の崖が明らかとなり、ランタイム合格率は小規模プロジェクトの80.4%から大規模プロジェクトでは5.7%（Task2a）に低下した。コードエージェントはコンパイル率を改善するものの、ランタイムの行動品質には向上が見られず、ボトルネックが構文的正しさではなくアーキテクチャ設計にあることを示している。実験により、JamSetが効果的な訓練データであることが検証された。すべてのデータとコードは公開されている。

ビデオ物体中心学習のための選択的相乗学習
Selective Synergistic Learning for Video Object-Centric Learning

Jun 14

ByWonJun Moon, Jae-Pil Heo

典型的なビデオオブジェクト中心学習（VOCL）手法では、再構成駆動型のエンコーダ-デコーダアーキテクチャに依存するスロットベースのフレームワークを採用しており、学習はエンコーダからのアテンションマップとデコーダからのオブジェクトマップという二つの空間マップを介して媒介される。これら二つの異なるマップは異なる特性を示すため、最近の高密度アライメント戦略では、コントラスト学習を介して全ての時空間パッチにわたる一致を強制することで、この不一致を解消しようと試みた。しかし、この無差別なアライメントは、ノイズの多いエンコーダ予測やぼやけたデコーダ境界といった各モジュールの固有の弱点を意図せず伝播させる。さらに、全てのペアにわたる高密度な類似度計算は、時空間パッチの総数に対して二次の計算コストを要し、スケーラビリティを著しく制限する。このような背景から、我々は選択的シナジー学習（Selective Synergistic Learning, SSync）を提案する。SSyncは、網羅的なパッチ間アライメントの代わりに、最も信頼性の高い手がかりのみを選択的に蒸留することでエラー伝播を防ぐ。具体的には、エンコーダは境界の精緻化に、デコーダは内部のノイズ除去に厳密に活用する。これは線形計算量の擬似ラベリングによって実現され、二次的な空間比較の必要性を排除する。また、スロット冗長性のようなアーキテクチャ上のバイアスの強化を防ぐために、時空間活性化の一貫性に基づいて重複スロットを統合する推移的擬似ラベルマージを導入する。広範な実験により、SSyncは分解品質を向上させ、汎用的でプラグアンドプレイなモジュールとして機能し、スロット構成に対して例外的なロバスト性を示すことが実証された。コードはgithub.com/wjun0830/SSyncで公開されている。

顕微鏡下のデータ多様体
The Data Manifold under the Microscope

Jun 14

ByMarios Koulakis, Constantin Seibold

深層学習における理論と実践の間には大きな乖離が存在する。一般化誤差や近似誤差のバウンドは、多くの場合、単純化されたモデルに対して導出されるか、緩すぎて有益な情報をもたらさない。その多くは多様体仮説や、内在次元、曲率、リーチといった幾何学的正則性に依存している。進展にはデータ多様体の幾何学に対する洞察と適切なベンチマークが不可欠であるが、既存の選択肢は二極化している。すなわち、幾何学が既知であるが適用範囲が限られる解析的多様体か、あるいは幾何学が粗くしか推定できない実世界データセットのいずれかである。本稿では、データ幾何学を研究するためのベンチマークフレームワークを導入する。我々は、追加の変換次元と密な軸整列サンプリングを備えたdSpritesおよびCOIL-20を転用・拡張し、これらを有限差分推定器と組み合わせる。この推定器は、汎用推定器が信頼できないか導入が困難な状況において、曲率、リーチ、体積をほぼ真値に近い精度で回復する。本フレームワークは制御されたテストベッドとして意図されており、幾何学的推定器の校正環境や理論的仮定を探求するための砂場として有用である。その利用例として、GenoveseらおよびFeffermanらのバウンドのスケーリング挙動の評価、ならびにβ-VAEの層別幾何学の追跡という二つの応用研究を提示し、現状のバウンドの挙動と、将来の理論を導き検証するための制御されたベンチマークの価値を強調する。参考実装はhttps://github.com/koulakis/manifold-microscopeで入手可能である。

リソースもベンチマークもない？リソースのない言語におけるコード生成のためのLLMの評価と改善
No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages

Jun 15

ByAlessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota

大規模言語モデル（LLM）は、ソフトウェアエンジニアリングタスクの自動化を大幅に進歩させてきた。顕著な例の一つにコード生成があり、LLMは自然言語記述に基づいて指定されたプログラミング言語のコードを生成する。この分野の研究の多くは、豊富な訓練データの恩恵を受けるPythonやJavaなどの高リソース言語に焦点を当ててきた。一部の研究では、訓練コーパスでの出現頻度が低い低リソース言語を扱っている。対照的に、LLMが実質的に訓練データを全く見ていない無リソース言語は、ほとんど研究されていない。これらの言語は、組織がGitHub Copilotのような商用ツールでサポートされていない独自言語やドメイン固有言語を開発する産業界でしばしば出現する。その結果、企業は独自の社内コード推薦システムを展開する必要に迫られる。この文脈における可能な解決策を探るため、我々は、訓練データが非常に少ない最近提案された2つのプログラミング言語に基づいて、無リソース言語向けのコード生成ベンチマークを3つ構築し公開する。これらのベンチマークを用いて、プロンプトベースの手法や、利用可能な少数のデータを活用した事前学習とファインチューニングを含む、無リソース言語をLLMに教えるための複数の解決策を実験する。無リソース言語に対して最大の性能向上をもたらすのはさらなる事前学習であるが、それを指示チューニング済みモデルに直接適用すると、指示に従う能力が損なわれる。この問題に対処するため、ベースモデルから開始し、対象言語でさらに事前学習を行い、その後、指示モデルからの重み差分転送によって指示追従能力を注入する。このアプローチにより、無リソース環境でのコード生成能力が大幅に向上し、企業は指示ファインチューニングの計算コストを負担することなく、安価に特化型指示モデルを展開できるようになる。

ワークロード変動下におけるASRサービングのための持続時間認識スケジューリング
Duration Aware Scheduling for ASR Serving Under Workload Drift

Mar 11

ByDarshan Makwana, Yash Jogi, Harsh Kotta, Aayush Kubba

大規模自動音声認識（ASR）サービングパイプラインにおけるスケジューリングポリシーは、エンドツーエンド（E2E）レイテンシを決定する上で重要な役割を果たす。しかし、広く使われているサービングエンジンは先着順（FCFS）スケジューリングに依存しており、これはリクエスト時間長のばらつきを無視し、ワークロード変動下でヘッドオブラインブロッキングを引き起こす。我々は、WhisperのようなASRモデルにおいて、音声時間長がジョブ処理時間の正確な代理指標であることを示し、この知見を活用して時間長を考慮したスケジューリングを実現する。我々は、2つの古典的アルゴリズムである最短ジョブ優先（SJF）と最高応答比次（HRRN）をvLLMに統合し、現実的および変動のあるワークロード下で評価する。LibriSpeech test-cleanにおいて、ベースラインと比較して、SJFは高負荷時にE2Eレイテンシ中央値を最大73%削減するが、長いリクエストのスターべーションにより90パーセンタイルテールレイテンシを最大97%増加させる。HRRNはこのトレードオフに対処する。すなわち、E2Eレイテンシ中央値を最大28%削減する一方、テールレイテンシの悪化を最大24%に抑える。これらの利得はワークロード変動下でも持続し、スループットペナルティはなく、リクエストあたりのスケジューリングオーバーヘッドは0.1ミリ秒未満である。

ReSyn: 汎用的な再帰的正規表現合成フレームワーク
ReSyn: A Generalized Recursive Regular Expression Synthesis Framework

Jun 13

BySeongmin Kim, Hyunjoon Cheon, Su-Hyeon Kim, Yo-Sub Han, Sang-Ki Ko

既存のProgramming-By-Example（PBE）システムは、複雑な入れ子構造や和集合演算の頻繁な使用など、現実世界の正規表現が持つ高い構造的複雑性を捉えきれていない単純化されたベンチマークに依存することが多い。この結果生じる性能低下を克服するため、我々はReSynを提案する。ReSynは、合成器に依存しない分割統治フレームワークであり、複雑な合成問題を管理可能な部分問題に分解する。また、例の置換不変性を捉えるパラメータ効率的な合成器Set2Regexを導入する。実験結果は、ReSynが様々な合成器にわたって精度を大幅に向上させること、そしてSet2Regexとの組み合わせにより、困難な現実世界ベンチマークにおいて新たな最先端を達成することを示している。完全なソースコード、データセット、および事前学習済みモデルのチェックポイントは、https://github.com/mrseongminkim/ReSyn で公開されている。