翻訳付きの日次キュレーションされたAI研究論文
我々はBeing-H0.5を紹介する。これは多様なロボットプラットフォーム間での堅牢なクロス・エンボディメント汎化を目的とした、基盤的Vision-Language-Action(VLA)モデルである。既存のVLAモデルが形態学的異質性とデータ不足に悩む中、我々は物理的インタラクションにおける普遍的な「母国語」として人間のインタラクション軌跡を扱う、人間中心の学習パラダイムを提案する。これを支えるため、30種類の異なるロボットエンボディメントにわたる35,000時間以上のマルチモーダルデータから構成される、現在最大規模の具身化事前学習レシピUniHand-2.0を提示する。我々のアプローチは、異種混在するロボット制御を意味的に整列されたスロットにマッピングする統一行動空間を導入し、低リソースロボットが人間データや高リソースプラットフォームから技能をブートストラップできるようにする。この人間中心の基盤の上に、人間のデモンストレーションとロボット実行を橋渡しする統一的な逐次モデリングとマルチタスク事前学習パラダイムを設計する。アーキテクチャ的には、Being-H0.5はMixture-of-Transformers設計を採用し、共有運動プリミティブを特殊化されたエンボディメント固有の専門家から分離する新規のMixture-of-Flow(MoF)フレームワークを特徴とする。最後に、クロス・エンボディメント方策を実世界で安定化させるため、センサリーシフト下での堅牢性を確保する多様体保存ゲーティングと、異なる遅延・制御プロファイルを持つエンボディメント間でチャンク制御を普遍化する普遍非同期チャンキングを導入する。実験により、Being-H0.5がLIBERO(98.9%)やRoboCasa(53.9%)などのシミュレーションベンチマークで最先端の結果を達成し、さらに5つのロボットプラットフォームで強力なクロス・エンボディメント能力を示すことを実証する。
課題解決は、現実世界のソフトウェア開発において不可欠な複雑なソフトウェア工学(SWE)タスクであり、人工知能にとって魅力的な課題として浮上している。SWE-benchのようなベンチマークの確立により、このタスクが大規模言語モデルにとって極めて困難であることが明らかになり、自律型コーディングエージェントの進化を大幅に加速させた。本論文では、この新興領域に関する体系的サーベイを提示する。まず、データ構築パイプラインを検討し、自動収集と合成アプローチを網羅する。次に、モジュラー構成要素を持つトレーニング不要のフレームワークから、教師ありファインチューニングや強化学習を含むトレーニングベースの技術まで、方法論の包括的分析を提供する。続いて、データ品質とエージェント挙動に関する批判的考察を実践応用と共に議論する。最後に、主要な課題を特定し、将来研究の有望な方向性を概説する。この分野の動的リソースとして、オープンソースリポジトリをhttps://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution で維持している。
近年、大規模言語モデルをエージェントシステムへ拡張することへの関心が高まっている。エージェントの有効性は継続的に向上している一方で、実世界での運用に不可欠な効率性は往々にして軽視されてきた。本稿ではこの問題に対し、エージェントの中核をなす三要素——メモリ、ツール学習、プランニング——に着目し、レイテンシ、トークン数、ステップ数などのコストを考慮しながら効率性を検証する。エージェントシステムそのものの効率性を包括的に研究することを目的として、実装手法は多岐にわたるものの、高次元の原理において共通点の見られる近年のアプローチを広くレビューする。具体的には、圧縮と管理による文脈の制限、ツール呼び出しを最小化する強化学習の報酬設計、効率向上のための制御付き探索手法の採用などに焦点を当て、詳細に議論する。これに伴い、効率性を二つの相補的な観点から特徴づける:固定コスト予算下での有効性の比較、および同等の有効性を達成するためのコストの比較である。このトレードオフは、有効性とコストのパレートフロンティアを通じて捉えることも可能である。この観点から、各構成要素の評価手法をまとめ、ベンチマーク研究および方法論研究で広く報告されている効率性指標を統合することで、効率性に焦点を当てたベンチマークを検証する。さらに、主要な課題と今後の方向性について論じ、有望な知見を提供することを目指す。
物理世界を理解し推論するには、空間的知性が必要である。これは、2D知覚を超えて幾何学、遠近法、空間関係を解釈する能力を指す。近年の視覚大規模モデル(VLM)は視覚的理解に優れるが、本質的には2D知覚器であり、真の3D推論には課題を残している。本論文では、VLMエージェントが3D空間を用いて思考する枠組み「Think3D」を提案する。Think3Dは、画像や動画から点群とカメラ姿勢を復元する3D再構成モデルを活用し、カメラ操作やエゴ/グローバル視点切替を通じてエージェントが能動的に空間を操作することを可能とし、空間推論を対話的な3D連鎖思考プロセスへと変換する。追加学習なしで、Think3DはGPT-4.1やGemini 2.5 Proなどの先進モデルの空間推論性能を大幅に向上させ、BLINK Multi-viewとMindCubeでは平均+7.8%、VSI-Benchでは+4.7%の改善をもたらした。さらに、空間探索が困難な小規模モデルでは、情報量の多い視点と操作を選択する強化学習ポリシーにより顕著な改善が見られ、ツール活用による効果が+0.7%から+6.8%に向上した。我々の知見は、学習不要なツール拡張型空間探索が、マルチモーダルエージェントにおける柔軟で人間的な3D推論への有効な道筋であることを示し、マルチモーダル知能の新たな次元を確立する。コードと重みはhttps://github.com/zhangzaibin/spagentで公開されている。
機構的解釈性(Mechanistic Interpretability: MI)は、大規模言語モデル(LLM)のブラックボックス化した意思決定プロセスを解明する重要な手法として台頭してきた。しかし、既存のサーベイ論文はMIを観察科学として扱うことが多く、分析的な知見をまとめる一方で、実践的な介入のための体系的枠組みを欠いている。この隔たりを埋めるため、本稿では「特定・操作・改善」のパイプラインに沿った実践的サーベイを提案する。我々は、解釈可能対象(Interpretable Objects)に基づいて、診断にあたる「局所化(Localizing)」と介入にあたる「操作(Steering)」の手法を形式的に分類し、厳密な介入プロトコルを確立する。さらに、この枠組みがモデルのアラインメント・能力・効率性の具体的な改善を可能にし、MIをモデル最適化の実践的手法として機能させることを示す。本調査の厳選された論文リストはhttps://github.com/rattlesnakey/Awesome-Actionable-MI-Surveyで公開されている。
動画は画像やテキストよりも豊富な情報を伝達し、空間的・時間的ダイナミクスを同時に捕捉する。しかし、既存の動画カスタマイズ手法の多くは参照画像やタスク固有の時間的事前情報に依存しており、動画が本来持つ豊富な時空間情報を十分に活用できていない。これにより、動画生成における柔軟性と一般化性能が制限されている。こうした課題を解決するため、我々は時空間的動画転送の統一フレームワークであるOmniTransferを提案する。本手法は、フレーム間のマルチビュー情報を活用して外観一貫性を高め、時間的手がかりを利用して微細な時間制御を可能にする。様々な動画転送タスクを統一するため、OmniTransferは3つの核心的な設計を組み込んでいる:参照動画情報を適応的に活用して時間的整列や外観一貫性を改善する「タスク認識位置バイアス」、参照ブランチと目標ブランチを分離することで正確な参照転送と効率化を両立する「参照分離型因果学習」、マルチモーダル意味情報を活用して異なるタスクを動的に識別・処理する「タスク適応型マルチモーダル調整」である。大規模な実験により、OmniTransferが外観転送(IDとスタイル)および時間的転送(カメラ動作と映像効果)において既存手法を凌駕し、ポーズ誘導手法を使用せずに動作転送ではポーズ誘導手法と同等の性能を達成することを実証した。これにより、柔軟で高精細な動画生成の新たなパラダイムを確立する。
マルチモーダル大規模言語モデル(MLLM)は強力な全モーダル知覚能力を示すが、視聴覚的手がかりから未来事象を予測する能力は未開拓の領域であり、既存のベンチマークは主に回顧的理解に焦点を当てている。この課題を解決するため、我々は視聴覚環境からの全モーダル未来予測を評価する初のベンチマーク「FutureOmni」を提案する。評価対象モデルは、クロスモーダルな因果関係・時間的推論を実行し、内部知識を効果的に活用して未来事象を予測する能力が求められる。FutureOmniはLLM支援型のスケーラブルなヒューマンインザループパイプラインで構築され、8主要分野にわたる919本の動画と1,034組の多肢選択式QAペアを含む。13の全モーダルモデルと7つの動画専用モデルによる評価では、現行システムは(特に音声情報が豊富な場面での)視聴覚的未来予測に課題があり、最高精度はGemini 3 Flashによる64.8%であった。この制約を緩和するため、7,000サンプルの指示チューニングデータセットを精選し、全モーダル未来予測(OFF)学習戦略を提案する。FutureOmni及び主要な視聴覚/動画専用ベンチマークでの評価により、OFFが未来予測能力と汎化性能を強化することを実証した。全てのコード(https://github.com/OpenMOSS/FutureOmni)とデータセット(https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni)を公開する。
既存研究では、長文コンテキストをセグメント単位で処理するメモリ中心のメカニズムが広く採用されるようになっており、効果的なメモリ管理は大規模言語モデルがシーケンス全体にわたって情報を効果的に伝播させるための重要な能力の一つです。したがって、報酬モデル(RM)を活用してメモリ品質を自動的かつ信頼性高く評価することが極めて重要です。本研究では、RMが長期メモリ管理プロセスを評価する能力を体系的に研究する初のベンチマークであるMemoryRewardBenchを提案します。MemoryRewardBenchは長文理解タスクと長文生成タスクの両方を網羅し、異なるメモリ管理パターンを持つ10の設定を特徴とし、コンテキスト長は8Kトークンから128Kトークンまで多岐にわたります。13の最先端RMによる評価結果から、オープンソースモデルとプロプライエタリモデルの性能差が縮小していること、パラメータ数に関わらず新世代モデルが一貫して前世代モデルを上回ることが明らかになりました。さらに、様々な設定におけるLLMメモリ管理評価に関して、現在のRMが持つ能力と根本的限界を浮き彫りにします。
LightOnOCR-2-1Bを紹介する。これは、10億パラメータ規模のエンドツーエンド多言語ビジョン言語モデルであり、文書画像(例:PDF)を脆弱的なOCRパイプラインなしで、整然と自然な順序のテキストに変換する。スキャン資料、フランス語文書、科学技術PDFを広範にカバーする大規模で高品質な蒸留データにより学習されたLightOnOCR-2は、OlmOCR-Benchにおいて従来の最高性能モデルと比較して9倍小さく、大幅に高速でありながら、State-of-the-artの結果を達成する。さらに、出力形式を拡張して埋め込み画像の正規化バウンディングボックスを予測し、resume戦略による事前学習中の位置情報予測の導入と、IoUベースの報酬を用いたRLVRによる精緻化を実現した。最後に、チェックポイント平均化とタスク算術マージによりロバスト性を向上させる。モデルチェックポイントはApache 2.0ライセンスの下で公開し、データセットとLightOnOCR-bbox-bench評価はそれぞれのライセンスの下で公開する。
視覚言語ナビゲーション(VLN)において人間レベルの性能を達成するには、具現化エージェントがマルチモーダルな指示と視覚空間的文脈を統合的に理解し、長い行動系列にわたる推論を行う必要がある。NavCoTやNavGPT-2などの最近の研究は、Chain-of-Thought(CoT)推論が解釈性と長期計画の改善に有効である可能性を示している。さらに、OctoNav-R1やCoT-VLAといったマルチモーダル拡張は、人間に近いナビゲーション推論に向けたCoTの有望な道筋を裏付けている。しかし、既存手法には重大な欠点がある:テキストのみのCoTは空間的接地が不足し、疎な注釈付き推論ステップに過適合しやすく、マルチモーダルCoTは想像された視覚観測を生成するためトークン数が急増し、実時間ナビゲーションを非現実的なものにする。本研究では、明示的なトークンオーバーヘッドなしにCoT推論の利点を保持する統合的暗黙推論フレームワーク「FantasyVLN」を提案する。具体的には、CoT推論学習時に事前学習済み視覚自己回帰モデル(VAR)を用いて想像された視覚トークンをコンパクトな潜在空間に符号化し、統一マルチCoT戦略の下でテキスト、視覚、マルチモーダルCoTモードから統合的に学習する。推論時、本モデルは指示から行動への直接マッピングを実行しつつ、推論を意識した表現を維持する。LH-VLNにおける大規模実験により、本手法が推論を意識しつつ実時間でのナビゲーションを実現し、成功率と効率を向上させるとともに、推論遅延を明示的CoT手法と比較して一桁削減することを実証した。
エージェント型検索は近年、複雑な質問を解決するために、エージェントが多段階の推論とオンデマンドの検索を交互に行う強力なパラダイムとして登場している。その成功にもかかわらず、エージェント型検索のための検索器(レトリーバー)をどのように設計すべきかは、ほとんど未開拓のままである。既存の検索エージェントは一般に類似性ベースの検索器に依存しているが、類似した文書が常に最終的な回答生成に有用であるとは限らない。本論文では、エージェント型検索に特化した新しい検索器訓練フレームワークを提案する。単一ターンの検索拡張生成(RAG)向けに設計され、局所的な文書の有用性のみに依存する検索器とは異なり、我々は、多ターンにわたるエージェント型検索における文書の有用性を測る指標として、局所的なクエリ-文書関連性と大域的な回答の正しさの両方を利用することを提案する。さらに、検索エージェントと検索器が双方向的かつ反復的に最適化される、反復訓練戦略を導入する。固定された質問で一度だけ訓練されるRAGの検索器とは異なり、我々の検索器は、エージェントから進化し、高品質なクエリを用いて継続的に改善される。7つの単一ホップおよびマルチホップ質問応答ベンチマークによる大規模な実験により、我々の検索器(と呼称)が、様々な検索エージェントにおいて強力なベースライン手法を一貫して上回ることを実証する。コードは以下で公開されている:https://github.com/8421BCD/Agentic-R.
近年の進歩にもかかわらず、医療基盤モデルは視覚的理解と生成の統合に依然として苦戦している。これらのタスクは本質的に相反する目標(意味的抽象化とピクセルレベルの再構築)を持つためである。既存のアプローチ、特にパラメータ共有型の自己回帰アーキテクチャに基づく手法では、一方または両方のタスクで性能が犠牲になることが多い。この問題に対処するため、我々は胸部X線画像の理解と生成を統合する次世代医療基盤モデルUniXを提案する。UniXは二つのタスクを、理解のための自己回帰ブランチと、高精細生成のための拡散ブランチに分離する。特に重要なのは、生成プロセスを理解特徴で動的に誘導するクロスモーダル自己注意機構を導入した点である。厳格なデータクリーニングパイプラインと多段階学習戦略と組み合わせることで、このアーキテクチャはタスク間の相乗的協調を可能にし、拡散モデルの強みを活かした優れた生成を実現する。代表的な2つのベンチマークにおいて、UniXはLLM-CXRのパラメータ数の4分の1のみを使用しながら、理解性能(Micro-F1)で46.1%、生成品質(FD-RadDino)で24.2%の向上を達成した。タスク特化型モデルと同等の性能を実現することで、本研究は医療画像の理解と生成を相乗的に行うスケーラブルなパラダイムを確立する。コードとモデルはhttps://github.com/ZrH42/UniXで公開されている。
報酬誘導型探索手法は、複雑な行動空間におけるサンプリングと探索を効果的に導くことで、ツール利用エージェントの性能向上に強い可能性を示している。中核的な設計として、これらの探索手法はプロセス報酬モデル(PRM)を利用してステップ単位の報酬を提供し、より細かなモニタリングを可能にしている。しかし、ツール利用環境におけるPRMの体系的かつ信頼性の高い評価ベンチマークは不足している。本論文では、ツール利用エージェント向けPRMを評価するために特別に設計された大規模ベンチマーク「ToolPRMBench」を提案する。ToolPRMBenchは、いくつかの代表的なツール利用ベンチマークを基盤とし、エージェントの軌跡をステップ単位のテストケースに変換する。各ケースは、インタラクション履歴、正しい行動、もっともらしいが誤った代替行動、および関連するツールメタデータを含む。我々は、局所的な単一ステップの誤りを分離するためにオフラインサンプリングを、完全なエージェントのロールアウトから現実的な多ステップの失敗を捕捉するためにオンラインサンプリングをそれぞれ利用する。ラベルノイズを低減しデータ品質を確保するために、複数LLMによる検証パイプラインを提案する。ToolPRMBenchを用いて、大規模言語モデル、汎用PRM、およびツール特化型PRMにわたる広範な実験を実施した。結果は、PRMの有効性に明確な差異があることを明らかにし、ツール利用における特化型PRMの可能性を浮き彫りにしている。コードとデータはhttps://github.com/David-Li0406/ToolPRMBench で公開予定である。
現在の大規模言語モデル(LLM)は重大なモーダル分断を示している。すなわち、膨大な意味論的知識を有しながらも、物理世界の不変の法則を尊重するための手続き的基盤を欠いている。その結果、これらのエージェントは暗黙的に世界モデルとして機能するものの、そのシミュレーションはしばしば物理的幻覚(physical hallucinations)に悩まされる——論理的には妥当だが、物理的に実行不可能な計画を生成してしまうのである。既存のアライメント戦略は主に、リソースを大量に消費する訓練またはファインチューニングに依存しており、これらは動的な環境規則を静的なモデルパラメータに圧縮しようと試みる。しかし、そのようなパラメトリックな封じ込めは本質的に硬直的であり、継続的でコストのかかる再訓練なしには、物理ダイナミクスのオープンエンドな変動性に適応するのに苦労する。この隔たりを埋めるため、我々はWorldMindを提案する。これは環境フィードバックを統合することで記号的な世界知識リポジトリを自律的に構築するフレームワークである。具体的には、予測誤差を通じて物理的実現可能性を強制する「プロセス経験」と、成功軌跡を通じてタスクの最適性を導く「ゴール経験」を統合する。EB-ALFREDおよびEB-Habitatにおける実験により、WorldMindがベースラインと比較して優れた性能を達成し、顕著なクロスモデル・クロス環境転移性を示すことを実証した。
大規模言語モデルを用いた自己対戦は、自己改善型人工知能を実現する有望なパラダイムとして登場した。しかし、既存の自己対戦フレームワークは、以下の二つの要因により最適化の不安定性に悩まされることが多い。(i) 質問者に対するソルバー依存の報酬フィードバックによって引き起こされる非定常的な目的関数、(ii) ソルバーの監督に用いられる自己生成された擬似ラベルからのブートストラップ誤差。これらの課題を緩和するため、我々は自己進化プロセスを安定化する二段階フレームワークであるDARC(Decoupled Asymmetric Reasoning Curriculum)を提案する。第一段階では、明示的な難易度レベルと外部コーパスを条件として、質問者に難易度調整された質問を生成するように学習させる。第二段階では、非対称な自己蒸留メカニズムを用いてソルバーを学習させる。ここでは、文書拡張された教師モデルが高品質な擬似ラベルを生成し、文書アクセス権限を持たない生徒ソルバーを監督する。実験結果は、DARCがモデル非依存であり、3つの基盤モデルと9つの推論ベンチマークにおいて平均10.9ポイントの改善をもたらすことを示している。さらに、DARCは全てのベースラインを一貫して上回り、人間の注釈に依存することなく完全教師ありモデルの性能に迫る。コードはhttps://github.com/RUCBM/DARC で公開されている。
実用環境における大規模言語モデル(LLM)システムでは、安全性やその他の分類タスクが頻繁に必要となるステップに対して、専用のモデルを併用するケースが多く見られます。しかし、この手法にはレイテンシの増大、VRAM使用量の拡大、運用の複雑化といった課題があります。本研究では、推論に使用するLLMが既に行った計算を再利用する手法を提案します。具体的には、LLMの隠れ状態に軽量なプローブを接続して訓練し、生成と同じフォワードパス内でラベル予測を同時に行います。分類タスクを、特定のトークン(例:先頭トークンのロジット)や特定の層(例:最終層のプーリング)に固定するのではなく、全トークン・全層にわたる隠れ状態テンソルからの表現選択問題として再定義します。これを実現するため、2段階のアグリゲータを導入しました。(i) 各層内のトークン情報を要約し、(ii) 層ごとの要約を統合して、分類のための単一の表現を形成します。この枠組みを具体化するため、直接プーリング、10万パラメータのスコアリングアテンションゲート、最大3500万の学習可能パラメータを持つダウンキャスト型マルチヘッド自己注意(MHA)プローブを実装しました。安全性評価と感情分析のベンチマークにおいて、提案するプローブはロジットのみの再利用手法(MULI等)を上回り、大幅に大規模なタスク特化型ベースラインと競合する性能を示しました。これらを、推論レイテンシをほぼ維持したまま達成し、専用のガードモデルパイプラインがもたらすVRAMとレイテンシのコストを回避しています。
概念ベース説明法は、高水準の概念(性別や経験など)がモデルの挙動に与える影響を定量化するもので、高リスク領域における意思決定者にとって極めて重要である。近年の研究では、反実仮想から推定された基準因果効果との比較を通じて、こうした説明法の忠実性を評価する。実際には、既存のベンチマークは不完全な代理指標となる、コストの高い人手作成の反実仮想に依存している。この問題に対処するため、我々は構造的反実仮想ペアを含むデータセット構築の枠組み「LIBERTy」(LLM-based Interventional Benchmark for Explainability with Reference Targets)を提案する。LIBERTyは、テキスト生成の明示的に定義された構造的因果モデル(SCM)に基づいており、概念への介入はSCMを伝播した後、LLMによって反実仮想が生成される。我々は3つのデータセット(疾病検出、履歴書選考、職場暴力予測)と新評価指標「順序忠実性」を導入する。これらを用いて、5つのモデルにわたる多様な手法を評価し、概念ベース説明法に大幅な改善余地があることを明らかにする。LIBERTyはまた、介入に対するモデル感応度の体系的分析を可能にする:プロプライエタリLLMは、学習後緩和策の影響により、人口統計的概念への感応度が顕著に低いことが判明した。総合的に、LIBERTyは忠実な説明手法を開発するための待望のベンチマークを提供する。
ピクセルベースの強化学習エージェントは、潜在的なダイナミクスと報酬が変化しない場合でも、純粋に視覚的な分布シフトの下ではしばしば失敗する。しかし、既存のベンチマークでは複数のシフト要因が絡み合っており、体系的な分析を妨げている。本研究では、基礎となる制御問題を固定したまま、観測プロセスを独立に制御可能な視覚軸へと分解するJAXネイティブの2Dプラットフォーマー「KAGE-Env」を提案する。この設計により、視覚軸を変化させることはピクセルポリシーの状態条件付き行動分布を介してのみ性能に影響し、視覚的汎化のための明確な抽象化を提供する。この環境を基盤として、個々の視覚的シフトを分離した34の学習-評価設定ペアからなる6つの既知軸スイートで構成されるベンチマーク「KAGE-Bench」を定義する。標準的なPPO-CNNベースラインを用いた実験では、背景や測光的シフトが成功率を大幅に低下させるのに対し、エージェント外観のシフトは比較的影響が小さいなど、軸に依存した顕著な失敗が観察された。いくつかのシフトでは、タスク完了を妨げながら前進動作は維持されており、リターンだけでは汎化失敗を捉えられないことが示された。最後に、完全ベクトル化されたJAX実装により、単一GPUで毎秒最大3,300万環境ステップを達成し、視覚要因に関する高速かつ再現性のある網羅的検証を可能にしている。コード: https://avanturist322.github.io/KAGEBench/。
長い思考連鎖(CoT)軌跡は、教師から生徒LLMへ推論能力を蒸留するための豊富な教師信号を提供する。しかし、先行研究および我々の実験の両方が、より強力な教師からの軌跡が必ずしも優れた生徒モデルを生み出すわけではないことを示しており、蒸留におけるデータと生徒モデルの適合性の重要性を浮き彫りにしている。既存の手法は適合性を主に生徒モデルの尤度を通じて評価するが、これは現在のモデルの挙動に密接に沿った軌跡を優先し、より情報量の多い軌跡を見落としがちである。この問題に対処するため、我々はランク-驚愕比(RSR)を提案する。これは、推論軌跡の適合性を評価するために、整合性と情報量の両方を捉える単純な指標である。RSRは、効果的な軌跡が一般的に、生徒モデルにおいて絶対確率が低い一方でトークンの相対的ランクが比較的高いという観察に基づいており、学習信号の強度と挙動の整合性のバランスを取っている。具体的には、RSRは軌跡のトークン単位の平均ランクを平均負の対数尤度で割った比として定義され、計算と解釈が直感的である。5つの生徒モデルと11の多様な教師からの推論軌跡にわたる実験では、RSRは学習後の性能と強い相関(平均スピアマン相関係数0.86)を示し、既存の指標を凌駕した。さらに、軌跡選択と教師選択の両方における実用的有用性を実証する。
音声認識(PR)は、言語に依存しないモデリングのための原子インターフェースとして、クロスリンガル音声処理および音声分析において機能する。PRシステムの開発に長年取り組んできたにもかかわらず、現在の評価は表層的な転写精度のみを測定している。本論文では、PRシステムの内在的・外在的評価を通じて音声知覚の盲点を明らかにする初のオープンソースベンチマーク「PRiSM」を提案する。PRiSMは転写ベースの評価を標準化し、臨床、教育、多言語設定における下流有用性を、転写プローブと表現プローブを用いて評価する。我々の調査により、訓練時の多様な言語への曝露がPR性能の鍵となること、エンコーダー-CTCモデルが最も安定していること、専門的なPRモデルが大規模音声言語モデルを依然として凌駕することが明らかとなった。PRiSMはコード、レシピ、データセットを公開し、頑健な音声能力を備えた多言語音声モデルへの発展を促進する:https://github.com/changelinglab/prism
結果報酬型強化学習(RL)は大規模言語モデル(LLM)の推論能力向上に有効であることが実証されている。しかし、標準的なRLは最終回答のみで信用配分を行うため、結果が誤っている場合には推論過程全体がペナルティを受け、正しい場合にはすべてのステップが一律に強化される。この結果、失敗した推跡では正しい中間ステップが抑制され、成功した推跡では誤ったステップが強化される可能性がある。我々はこの問題を**信用配分問題**と呼ぶ。自然な解決策はプロセス報酬モデルを訓練することだが、修正すべき推論ステップを特定するためにこのようなモデルを正確に最適化することは依然として困難である。本論文では**介入訓練(InT)** を提案する。これは、モデル自身が短く焦点を絞った修正を提案することで、より高い報酬に向けて軌道を導き、自身の推論過程に対して細かい信用配分を行う訓練パラダイムである。数学的推論データセットで一般的に利用可能な参照解答を使用し、モデル生成された解答を検証することがゼロから正しい解答を生成するよりも容易であるという事実を利用して、モデルは自身の推論における最初の誤りを特定し、正しい解に向けて軌道をリダイレクトするための単一ステップの介入を提案する。次に、誤りが生じた時点までのオン方策ロールアウトと介入を連結したものに対して教師ありファインチューニング(SFT)を適用し、失敗を引き起こした特定のステップに誤りを局在化させる。これによって得られたモデルは、RL訓練のためのはるかに優れた初期化として機能することを示す。InTとそれに続くRLを用いたファインチューニングを実施後、IMO-AnswerBenchにおいて4Bパラメータのベースモデルより精度を約14%向上させ、gpt-oss-20bなどの大規模オープンソースモデルを上回る性能を達成した。
本論文では、低リソース言語における大規模な意味関係データセットを生成するためのハイブリッド手法を提案し、包括的なトルコ語意味関係コーパスを通じて実証する。本アプローチは3つの段階を統合する:(1) FastText埋め込みと凝集型クラスタリングによる意味クラスタの同定、(2) Gemini 2.5-Flashを用いた自動意味関係分類、(3) 厳選された辞書リソースとの統合。生成されたデータセットは、3種類の関係タイプ(同義語、反義語、共下位語)にわたる843,000のユニークなトルコ語意味ペアから構成され、既存リソース比10倍の規模を僅か65ドルのコストで実現した。当データセットは、2つの下流タスクを通じて検証する:トップ1検索精度90%を達成した埋め込みモデル、およびF1-macro 90%を達成した分類モデルである。本スケーラブルなプロトコルは、トルコ語自然言語処理における深刻なデータ不足問題に対処し、他の低リソース言語への適用可能性を実証する。データセットとモデルは公開する。
ニューラル埋め込みには有名な弱点がある。それは、類義語と反義語を確実に区別できないことだ。このため、類似度の閾値を上げても、反対語が同じグループに分類されるのを防げないことが多い。我々は、この問題に正面から取り組むために設計された大規模な意味クラスタリングシステムを構築した。このパイプラインは1500万の語彙項目を処理し、5億2000万もの潜在的な関係性を評価し、最終的に290万の高精度な意味クラスターを生成する。本システムは主に3つの貢献がある。第一に、Gemini 2.5-Flash LLMによる拡張を用いて構築し、人手で整備された辞書リソースを用いて検証した、類義語、反義語、共下位語にまたがる84万3000の概念ペアからなるラベル付きデータセットを導入する。第二に、90%のマクロF1値を達成する専門的な三方向の意味関係識別器を提案し、生の埋め込み類似度を超えた頑健な曖昧性解消を可能にする。第三に、意味的ドリフトを軽減し、誤った推移連鎖(例: hot -> spicy -> pain -> depression)を防ぎながら、多義性を解決する新しいソフトからハードへのクラスタリングアルゴリズムを導入する。我々のアプローチは、トポロジーを考慮した2段階の拡張・剪定プロセスとトポロジカル投票を採用し、各用語が厳密に一つの意味的に首尾一貫したクラスターに割り当てられることを保証する。その結果得られるリソースは、高精度な意味検索と検索拡張生成を可能にし、特に形態的に豊かでリソースの少ない言語において、既存の類義語データベースが乏しい状況を改善する。
大規模言語モデル(LLM)の学習データが不透明化するにつれ、学習過程で著作権保護されたテキストが使用されたかどうかを監査する手段として、メンバーシップ推論攻撃(MIA)が提案されている。しかし現実的な条件下での信頼性に対する懸念が高まる中、本論文では、被告となるモデル開発者が意味内容を保持しつつ学習データを難読化する可能性のある敵対的著作権紛争において、MIAが証拠として採用され得るかを問う。この設定を、裁判官-検察-被告の通信プロトコルを通じて形式化する。本プロトコル下での頑健性を検証するため、スパースオートエンコーダ(SAE)に導かれたパラフレーズフレームワークSAGE(Structure-Aware SAE-Guided Extraction)を提案する。SAGEは語彙構造を変更しつつ意味内容と下流タスクの有用性を保持する訓練データの書き換えを実現する。実験結果から、SAGE生成パラフレーズでファインチューニングされたモデルに対して、最新のMIAの性能が劣化することが示され、その信号が意味保存的変換に対して頑健ではないことが明らかとなった。特定のファインチューニング体制ではある種の情報漏洩が残存するものの、これらの結果はMIAが敵対的環境では脆弱であり、LLMの著作権監査における単独の仕組みとして不十分であることを示唆している。
SciCoQAは、科学論文とそのコードベース間の不一致を検出し、実装の忠実性を確保するためのデータセットである。本データセットはGitHubのIssueと再現性論文から構築され、規模拡大のため論文とコードの不一致を生成する合成データ手法を提案する。論文とコードの不一致を詳細に分析し、発生するミスマッチを理解するための不一致タイプとカテゴリを定義した。データセットは合計611件(実データ81件、合成データ530件)の不一致事例からなり、AI、物理学、定量生物学など多様な計算科学分野に及ぶ。21種類の大規模言語モデルによる評価では、SciCoQAの難易度の高さが明らかとなり、特に論文詳細の省略、長文コンテキスト、事前学習コーパス外のデータを含む事例で課題が顕著であった。評価で最高性能を示したGPT-5ですら、実世界の論文とコードの不一致の45.7%しか検出できなかった。
差分プライバシー確率的勾配降下法(DP-SGD)は、プライベートな学習における主要なパラダイムであるが、最悪ケースの敵対的プライバシー定義におけるその根本的な限界は十分に理解されていない。本研究では、仮説検定のトレードオフ曲線によってプライバシーを特徴づけるf-差分プライバシーフレームワークにおいてDP-SGDを分析し、M回の勾配更新による1エポックのシャッフルサンプリングを検討する。我々は、達成可能なトレードオフ曲線に対する明示的な最適でない上界を導出する。この結果は、分離度κ(機構のトレードオフ曲線と理想的な無作為推測線との間の最大距離)に対する幾何学的な下界を誘導する。大きな分離度は敵対者にとって有意な優位性を意味するため、意味のあるプライバシーを保つにはκを小さくする必要がある。しかしながら、小さな分離度を強制することは、ガウシアンノイズ乗数σに対して厳格な下界を課し、達成可能な有用性を直接制限することを証明する。具体的には、標準的な最悪ケースの敵対的モデルの下では、シャッフルDP-SGDは σ ≥ 1/√(2ln M) または κ ≥ 1/8 * (1 - 1/(4πln M)) を満たさなければならず、したがって強力なプライバシーと高い有用性を同時に達成することはできない。この下界はM→∞で漸近的に消失するが、その収束は極めて遅く、実用的な更新回数においても必要なノイズ量は依然として相当なものとなる。さらに、同じ限界が定数因子の範囲内でポアソン部分サンプリングにも拡張されることを示す。実験により、この下界によって示唆されるノイズレベルが現実的な学習設定において精度の著しい低下を招くことを確認し、標準的な最悪ケースの敵対的仮定の下でのDP-SGDにおける重大なボトルネックを示す。
命令チューニングは大規模言語モデル(LLM)を適応させる標準的なパラダイムであるが、現代の命令データセットは大規模でノイズが多く冗長性が高いため、全データを用いたファインチューニングはコストがかかり、往々にして不必要である。既存のデータ選択手法は、高コストな勾配データストアを構築するか、弱い代理モデルから静的なスコアを割り当てるもので、変化する不確実性をほとんど考慮しておらず、したがってLLMの解釈可能性における重要な情報源を見逃している。本研究では、GRADFILTERINGを提案する。これは目的に依存せず、不確実性を考慮したデータ選択フレームワークであり、LoRAアンサンブルを適用した小規模なGPT-2代理モデルを用い、事例ごとの勾配を Gradient Signal-to-Noise Ratio (G-SNR) という有用性指標に集約する。我々の手法は、LLM-as-a-judge評価および人間評価の両方において、ランダムなサブセットや強力なベースラインを上回るか、あるいは同等の性能を発揮した。さらに、GRADFILTERINGで選択されたサブセットは、同じ計算予算の下で競合するフィルタ手法よりも高速に収束し、不確実性を考慮したスコアリングの利点を反映している。
リモートセンシング変化検出は、2時点間のシーン変化の位置特定と特徴付けを目的とし、環境モニタリングや災害評価などの応用において中心的な役割を果たす。一方、視覚的自己回帰モデル(VAR)は近年、印象的な画像生成能力を示しているが、制御性の弱さ、最適とは言えない密な予測性能、および曝露バイアスにより、ピクセルレベルの識別タスクへの応用は限られている。本論文では、これらの課題を解決する新しいVARベースの変化検出フレームワークであるRemoteVARを提案する。具体的には、クロスアテンションを介したマルチ解像度融合二時相特徴に基づく自己回帰予測と、変化マップ予測に特化して設計された自己回帰型学習戦略を採用する。標準的な変化検出ベンチマークによる大規模な実験により、RemoteVARが強力な拡散ベースおよびトランスフォーマーベースのベースラインを一貫して大幅に上回り、リモートセンシング変化検出における競争力のある自己回帰型手法として確立されることを示す。コードはhttps://github.com/yilmazkorkmaz1/RemoteVAR で公開予定である。
近年のLLMベースのデータエージェントは、データ分析から深層学習に至るデータサイエンスタスクの自動化を目指している。しかし、現実世界のデータサイエンス課題は、複数の分類体系にまたがり標準的な答えが存在しないというオープンエンドな性質を持つため、評価において重大な課題となっている。この問題に対処するため、我々はDSAEvalを提案する。これは285の多様なデータセットに基づく641の現実世界のデータサイエンス問題から構成されるベンチマークであり、構造化データと非構造化データ(画像やテキストなど)の両方をカバーしている。DSAEvalには3つの特徴的な要素がある:(1) マルチモーダル環境知覚:エージェントがテキストや画像を含む複数のモダリティから観察結果を解釈することを可能にする、(2) マルチクエリ相互作用:現実世界のデータサイエンスプロジェクトの反復的かつ累積的な性質を反映する、(3) 多次元評価:推論、コード、結果にわたる総合的な評価を提供する。我々はDSAEvalを用いて11の先進的なエージェント型LLMを体系的に評価した。その結果、Claude-Sonnet-4.5が総合的に最も優れた性能を発揮し、GPT-5.2が最も効率的であり、MiMo-V2-Flashが最もコスト効率に優れていることがわかった。さらに、マルチモーダル知覚が画像関連タスクの性能を一貫して向上させ(2.04%から11.30%の向上)、構造化データと定型的なデータ分析ワークフローでは現在のデータサイエンスエージェントは良好に機能するものの、非構造化データ領域では依然として大きな課題が残されていることを示した。最後に、データサイエンスエージェントの開発を推進するための批判的考察と今後の研究方向性を示す。
多くの学生は専門的な研究指導へのアクセスが不足している。本稿では、AIメンターが学部生をアイデアから論文執筆まで導けるかどうかを検討する。我々は文献検索、精選されたガイドライン、方法論チェック、記憶機能を備えたツール拡張型の段階認識アシスタントMETISを構築した。METISをGPT-5およびClaude Sonnet 4.5と、LLM審判を用いたペアワイズ選好評価、学生ペルソナに基づくルーブリック評価、短いマルチターン指導セッション、証拠/準拠チェックの観点から論文執筆6段階で比較評価した。単一ターンプロンプト90件では、LLM審判は71%でClaude Sonnet 4.5より、54%でGPT-5よりMETISを選好した。学生評価(明確性/実現可能性/制約適合性、90プロンプト×3審判)は全段階で高かった。マルチターンセッション(5シナリオ/エージェント)では、METISはGPT-5より最終成果物の品質がわずかに高かった。利得は文書に基づく段階(D-F)に集中し、これは段階認識型ルーティングと接地の有効性と一致する。失敗モードには、時期尚早なツール起動、浅い接地、および散発的な段階誤分類が含まれる。
抑うつ、不安、トラウマ関連状態などの感情的表現は、臨床記録、カウンセリング対話、オンライン精神保健コミュニティに遍在しており、これらの感情の正確な認識は臨床トリアージ、リスク評価、適時的な介入に不可欠である。大規模言語モデル(LLM)は感情分析タスクにおいて強力な汎化能力を示しているものの、高リスクで文脈集約的な医療現場におけるその診断信頼性は、プロンプト設計に極めて敏感である。さらに既存手法は二つの重大な課題に直面している:複数の感情状態が絡み合って予測を複雑にする「感情的重複障害」と、臨床的に関連する手がかりの非効率な探索である。これらの課題に対処するため、我々はAPOLO(言語的感情診断のための自動プロンプト最適化フレームワーク)を提案する。これは診断効率と頑健性を向上させるため、より広範で細粒度なプロンプト空間を体系的に探索する枠組みである。APOLOは指示文改良を部分観測マルコフ決定過程として定式化し、Planner、Teacher、Critic、Student、Targetの役割からなるマルチエージェント協調機構を採用する。この閉ループ枠組み内で、Plannerは最適化軌道を定義し、Teacher-Critic-Studentエージェント群は推論の安定性と有効性を高めるためプロンプトを反復改良し、Targetエージェントは性能評価に基づき最適化継続の可否を判断する。実験結果では、APOLOが領域特化型および層別化ベンチマークにおいて診断精度と頑健性を一貫して向上させ、精神医療分野における信頼性の高いLLM応用のための拡張可能で汎化性のあるパラダイムを実証した。
能動学習(AL)は、3D生体医用画像セグメンテーションにおけるアノテーションコストを大幅に削減する可能性を秘めている。ボリュームデータの専門家によるラベリングは時間とコストを要するためである。しかし、既存のAL手法は、3Dデータに適応させた改良版ランダムサンプリングベースラインを一貫して上回ることができず、信頼性の高い解決策が欠如している状況にある。本研究では、標準的な不確実性ベースのAL手法の二つの主要な限界であるクラス不均衡と初期選択における冗長性に着目した、シンプルかつ効果的なクエリ戦略「Class-stratified Scheduled Power Predictive Entropy (ClaSP PE)」を提案する。ClaSP PEは、低頻度構造の網羅性を確保するクラス階層化クエリと、対数スケールのべき乗ノイズ付加と減衰スケジュールを組み合わせることで、AL初期段階ではクエリの多様性を強制し、後期段階では活用を促進する。包括的nnActiveベンチマーク内の4つの3D生体医用データセットを用いた24の実験設定による評価において、ClaSP PEは、統計的有意差を持つセグメンテーション品質の向上において、改良版ランダムベースラインを一般的に上回った唯一の手法であり、同時にアノテーション効率も維持した。さらに、手動での適応なしに4つの未見データセットで提案手法をテストすることで、現実世界の応用を明示的にシミュレートした。全ての実験パラメータは事前に定義されたガイドラインに従って設定された。結果は、ClaSP PEがデータセット固有の調整を必要とせず、新しいタスクに対して頑健に一般化することを確認した。nnActiveフレームワーク内で、我々は、現実的かつ実運用に近いシナリオにおいて、性能とアノテーション効率の両面で、3Dセグメンテーションに適応したランダムベースラインをAL手法が一貫して上回り得るという説得力のある証拠を提示する。オープンソース実装と明確な導入ガイドラインにより、本手法は実践的に即座に適用可能である。コードはhttps://github.com/MIC-DKFZ/nnActiveにある。