翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の自律エージェント化への進化に伴い、AIによるコーディングの範囲は、局所的なコード生成から、リポジトリレベルかつ実行駆動型の複雑な問題解決へと拡大している。しかし、現在のベンチマークは静的コンテキストにおけるコード論理の評価に偏っており、実世界のエンジニアリング、特に厳密な環境設定とサービスデプロイを要求されるバックエンド開発において必要とされる、動的かつ全プロセスにわたる要件を見落としている。この課題を解決するため、我々は現実的な実行可能ワークフロー内におけるエージェント的バックエンドコーディングを評価するために明示的に設計されたベンチマーク「ABC-Bench」を提案する。スケーラブルな自動化パイプラインを用いて、オープンソースリポジトリから8言語・19フレームワークにわたる224の実践的タスクを精選した。従来の評価と異なり、ABC-Benchはエージェントがリポジトリ探索からコンテナ化サービス実装までの開発ライフサイクル全体を管理し、外部エンドツーエンドAPIテストを通過することを要求する。大規模評価の結果、最先端モデルであってもこれらの総合的タスクで信頼性の高い性能を発揮することに苦戦しており、現在のモデル能力と実践的バックエンドエンジニアリングの要求との間に大きな隔たりがあることが明らかになった。コードはhttps://github.com/OpenMOSS/ABC-Bench で公開されている。
大規模言語モデルは、思考連鎖(CoT)を用いることで複雑な推論タスクを効果的に解決することが多いが、長く低帯域なトークン列を必要とするコストが伴う。一方、人間は多くの場合、可能性のある次のステップの分布を維持することで「ソフトな」推論を行う。この観察に基づき、我々は確率的ソフト推論機構であるMultiplex Thinkingを提案する。これは各思考ステップにおいてK個の候補トークンをサンプリングし、その埋め込みを単一の連続的な多重化トークンに集約する。これにより、標準的な離散生成の語彙埋め込み事前分布とサンプリング動態を維持しつつ、多重化ロールアウト上の扱いやすい確率分布を誘導する。その結果、多重化軌道は方策オン強化学習(RL)で直接最適化できる。重要な点として、Multiplex Thinkingは自己適応的である:モデルが確信がある場合、多重化トークンはほぼ離散的となり標準CoTと同様に振る舞う;不確実性が高い場合、系列長を増加させることなく複数の可能性のある次のステップをコンパクトに表現する。難易度の高い数学推論ベンチマークにおいて、Multiplex ThinkingはPass@1からPass@1024にわたり、強力な離散CoT及びRLベースラインを一貫して上回り、かつより短い系列を生成する。コードとチェックポイントはhttps://github.com/GMLR-Penn/Multiplex-Thinkingで公開されている。
SAM3のようなプロンプト可能なセグメンテーション基盤モデルは、対話型および概念ベースのプロンプティングを通じて強力な汎化能力を実証してきた。しかし、医療画像セグメンテーションへの直接的な適用性は、深刻なドメインシフト、特権的な空間プロンプトの欠如、複雑な解剖学的および体積構造に対する推論の必要性によって制限されている。本論文では、大規模で多様な2Dおよび3D医療画像データセットと対応するセグメンテーションマスク、テキストプロンプトを用いてSAM3を完全にファインチューニングすることで得られた、ユニバーサルなプロンプト駆動型医療画像セグメンテーションのための基盤モデルMedical SAM3を提案する。vanilla SAM3の系統的な分析を通じて、その性能が医療データにおいて大幅に低下し、見かけ上の競争力が正解データから導出されたバウンディングボックスなどの強力な幾何学的事前知識に大きく依存していることを観察した。これらの知見は、プロンプトエンジニアリングのみならずモデル全体の適応の必要性を動機付けている。10の医療画像モダリティにわたる33のデータセットでSAM3のモデルパラメータをファインチューニングすることにより、Medical SAM3はドメイン固有の頑健な表現を獲得しつつ、プロンプト駆動の柔軟性を保持する。臓器、画像モダリティ、次元性にわたる広範な実験により、特に意味的曖昧性、複雑な形態、長距離3Dコンテキストを特徴とする困難なシナリオにおいて、一貫した大幅な性能向上が実証された。我々の結果は、Medical SAM3を医療画像におけるユニバーサルなテキスト誘導型セグメンテーション基盤モデルとして確立し、深刻なドメインシフト下での頑健なプロンプト駆動セグメンテーションを実現するための包括的なモデル適応の重要性を明らかにする。コードとモデルはhttps://github.com/AIM-Research-Lab/Medical-SAM3で公開予定である。
大規模言語モデル(LLM)をミッションクリティカルな事実領域に導入するには、モデルの信頼度を正確に評価することが不可欠である。 Retrieval-Augmented Generation(RAG)は接地性の向上に広く採用されているが、RAG環境下での信頼度校正の理解は依然として不十分である。 我々は4つのベンチマークで体系的調査を実施し、LLMがノイズの多い検索された文脈により校正性能が低いことを明らかにした。具体的には、矛盾した証拠や無関係な証拠がモデルの誤った確信を膨らませ、深刻な過信を引き起こす傾向がある。 この問題に対処するため、我々はノイズ下での過信解決の原理的基盤を提供するNAACL Rules(Noise-AwAre Confidence CaLibration Rules)を提案する。 さらにこれらの規則に基づき、約2,000のHotpotQA事例から監督信号を合成するノイズ対応校正フレームワークNAACLを設計した。 このデータを用いた教師ありファインチューニング(SFT)により、NAACLはより強力な教師モデルに依存せずに本質的なノイズ認識能力をモデルに付与する。 実証結果では、NAACLが大きな改善をもたらし、ECEスコアをインサイドで10.9%、アウトサイドで8.0%向上させることが示された。 検索ノイズと言語的校正の間のギャップを埋めることで、NAACLは正確かつ認識論的に信頼できるLLMへの道を開くものである。
大規模言語モデルは多様なペルソナを表現可能ですが、一般的には学習後調整によって形成された「支援アシスタント」という同一性をデフォルトとします。本研究では、様々なキャラクター類型に対応する活性化方向を抽出することで、モデルペルソナ空間の構造を調査します。複数の異なるモデルにおいて、このペルソナ空間の主要成分が「アシスタント軸」であることを発見しました。この軸は、モデルが標準的なアシスタントモードで動作する程度を捉えています。アシスタント方向への制御は、有益かつ無害な振る舞いを強化し、逆方向への制御はモデルが他の存在として自己認識する傾向を高めます。さらに、より極端な値で逆方向に制御すると、神秘的で演劇的な話し方が誘発されることが多いです。この軸は事前学習済みモデルにも存在し、主にコンサルタントやコーチなどの有益な人間類型を促進し、精神的な類型を抑制することがわかりました。アシスタント軸に沿った偏差を測定することで、モデルが典型的なペルソナに特徴的ではない有害または奇妙な行動を示す「ペルソナドリフト」現象を予測できます。ペルソナドリフトは、モデルのプロセスに関するメタ認証を要求する会話や、感情的に脆弱なユーザーが関与する会話によって引き起こされることが多いです。アシスタント軸に沿った特定領域に活性化を制限することで、こうしたシナリオや、敵対的ペルソナベースのジャイルブレークに対するモデル行動の安定化が可能であることを示します。我々の結果は、学習後調整がモデルをペルソナ空間の特定領域に向けて誘導するものの、緩やかな拘束しか与えていないことを示唆しており、モデルを一貫したペルソナに強固に固定する訓練・制御戦略の開発の必要性を動機付けます。
大規模言語モデル(LLM)の活性化介入による制御は、アライメントとパーソナライゼーションにおいてファインチューニングに代わる軽量な手法として登場している。双方向選好最適化(BiPO)に関する最近の研究では、直接選好最適化(DPO)の形式で選好データから密な制御ベクトルを直接学習できることが示されており、真実性、虚構生成、安全性の振る舞いを制御できる。しかし、ニューロンの多重意味性により、密な制御ベクトルは複数の潜在因子が絡み合うことが多く、文化的アライメントのような細粒度設定(例えば中東文化間で密接に関連する価値観や振る舞いを区別する必要がある場合)における有効性と安定性が制限される。本論文では、スパース自己符号化器(SAE)の潜在空間でスパースな制御ベクトルを学習する参照不要手法「Yet another Policy Optimization(YaPO)」を提案する。スパースコードを最適化することで、YaPOは分離可能で解釈性が高く効率的な制御方向を生成する。実証的に、YaPOは密な制御ベースラインと比較して収束が速く、より強力な性能を達成し、訓練安定性が向上することを示す。文化的アライメントを超えて、YaPOは虚構生成、富の追求、ジェイルブレイク、権力追求など、アライメント関連の幅広い振る舞いに一般化する。重要なことに、YaPOは一般知識を保持し、MMLUでの性能劣化は認められない。全体として、我々の結果はYaPOがLLMの効率的で安定した細粒度アライメントの一般的な手法を提供し、制御性とドメイン適応への広範な応用が可能であることを示す。関連するコードとデータは公開されている(https://github.com/MBZUAI-Paris/YaPO)。
検証可能な報酬を用いた強化学習(RLVR)はLLMの推論能力向上に極めて有効であるが、最近の研究ではQwen 2.5のようなモデルが、虚偽または誤った報酬条件下でも顕著な性能向上を示すことが明らかになっている。本論文ではこの現象を調査し、「パープレキシティの逆説」を特定した。すなわち、虚偽のRLVRが引き起こす分岐現象において、回答トークンのパープレキシティは低下する一方で、プロンプト側の一貫性は劣化し、モデルが推論を回避して記憶依存に移行していることが示唆される。Path Patching、Logit Lens、JSD解析、神経微分方程式を用いた分析により、このショートカットを促進する隠れた「Anchor-Adapter回路」を解明した。中間層(L18-20)に位置する機能的アンカー(Functional Anchor)が記憶された解答の検索をトリガーし、後続層(L21以降)の構造的アダプター(Structural Adapters)が表現を変換してショートカット信号を処理するメカニズムを局所化した。最後に、この回路内の特定のMLPキーをスケーリングすることで、汚染駆動性能の人為的増幅または抑制という双方向の因果制御が可能であることを実証する。本研究はRLVR調整済みモデルにおけるデータ汚染の特定と緩和に向けた機構論的な道筋を提供する。コードはhttps://github.com/idwts/How-RLVR-Activates-Memorization-Shortcutsで公開されている。
キャラクター画像アニメーションは、頑健で柔軟なマルチサブジェクトレンダリングへの需要により、様々な領域でその重要性を増している。既存手法は単体人物のアニメーションでは優れた性能を発揮するが、任意の数のサブジェクト、多様なキャラクタータイプ、参照画像と駆動ポーズ間の空間的な位置ずれに対処することが困難である。我々はこれらの限界を、ポーズと参照画像間の厳密なピクセル単位の位置合わせを強制する過度に硬直した空間的バインディングと、意図したサブジェクトへのモーションの一貫した再バインディングの不能に起因すると考える。これらの課題に対処するため、我々はCoDanceを提案する。これは単一の(位置ずれのある可能性もある)ポーズ系列を条件として、任意の数のサブジェクト、タイプ、空間配置のアニメーションを可能にする新しいUnbind-Rebindフレームワークである。具体的には、Unbindモジュールは新規のポーズシフトエンコーダを採用し、ポーズとその潜在特徴の両方に確率的な摂動を導入することで、ポーズと参照画像間の硬直した空間的バインディングを打破し、モデルに位置に依存しないモーション表現を学習させる。正確な制御とサブジェクトの関連付けを確保するため、次にRebindモジュールを考案する。これはテキストプロンプトからの意味的ガイダンスとサブジェクトマスクからの空間的ガイダンスを活用して、学習されたモーションを意図したキャラクターに向けて誘導する。さらに、包括的な評価を可能にするため、新しいマルチサブジェクトベンチマークであるCoDanceBenchを導入する。CoDanceBenchおよび既存データセットにおける広範な実験により、CoDanceがSOTA性能を達成し、多様なサブジェクトと空間レイアウトにわたって顕著な汎化性能を示すことを確認した。コードと重みは公開予定である。
マルチモーダル大規模言語モデルが長編科学論文を真に理解しているか評価することは依然として困難である。回答一致のみを重視する評価指標や合成的「干し草の中の針」テストは、文書内の因果的・証拠連鎖に基づく推論過程を要求せずに回答一致を報いる傾向がある。我々は「海の中の魚」(FITO)パラダイムを提案する。これはモデルが科学文書内で明示的なマルチモーダル証拠連鎖を構築することを要求する。FITOを具体化するため、テキストと図表の自然な交互配置を保持した科学インターリーブコーパスSIN-Dataを構築した。これを基盤に、証拠発見(SIN-Find)、仮説検証(SIN-Verify)、接地QA(SIN-QA)、証拠に基づく要約(SIN-Summary)の4段階タスクから成るSIN-Benchを構築する。さらに「証拠なし、スコアなし」方式を導入し、検証可能なアンカーに基づく予測のみを評価対象とし、証拠の一致度、関連性、論理性を通じて証拠品質を診断する。8つのMLLMによる実験では、接地能力が主要なボトルネックであることが明らかになった。Gemini-3-proが最高の平均総合スコア(0.573)を達成した一方、GPT-5はSIN-QA回答精度(0.767)で最高値を記録したものの、証拠整合型総合スコアでは低く、回答の正確性と追跡可能な支持根拠の間に乖離が生じていることが示された。
PubMed-OCRは、PubMed CentralのオープンアクセスPDFから抽出された、OCRに特化した科学論文コーパスである。各ページ画像はGoogle Cloud Visionで注釈付けされ、単語・行・段落レベルのバウンディングボックスを含むコンパクトなJSONスキーマで公開されている。本コーパスは20万9500報の論文(150万ページ、約13億語)を網羅し、レイアウト認識モデリング、座標に基づく質疑応答、OCR依存パイプラインの評価を支援する。コーパスの特性(例:ジャーナル coverage や検出されたレイアウト特徴)を分析し、単一OCRエンジンへの依存やヒューリスティックな行再構成といった限界について議論する。下流研究の促進のためデータとスキーマを公開し、拡張を呼びかける。
複雑な把持タスクをロボットに学習させる際、事前学習済みの視覚言語行動モデル(VLA)をタスク固有データでファインチューニングする方法が一般的である。しかし、この手法は既存の表現を更新するため、新しいタスクや環境への継続的適応が必要でありながら、獲得済み知識の保持が求められる実世界での長期的運用には不向きである。既存のロボット工学向け継続学習手法は、従来データの保存を必要とする場合が多く、長いタスク系列に苦戦したり、導入時にタスク識別子に依存したりする課題がある。これらの制約を解決するため、本論文ではVLAを用いた Exemplar-free 継続学習のための汎用的でパラメータ効率の高いフレームワーク「CLARE」を提案する。CLAREは選択されたフィードフォワード層に軽量モジュラーアダプターを導入し、層ごとの特徴類似度に基づいて、新しいタスクの学習時に必要な箇所のみ自律的にモデルを拡張する。導入時には、オートエンコーダベースのルーティング機構がタスクラベルを必要とせず、最も関連性の高いアダプターを動的に活性化する。LIBEROベンチマークによる大規模実験を通じて、CLAREが従来タスクの破滅的忘れを起こすことなく新規タスクで高い性能を達成し、Exemplar-based 手法を大幅に上回ることを実証した。コードとデータは https://tum-lsy.github.io/clare で公開している。