翻訳付きの日次キュレーションされたAI研究論文
拡散言語モデル(DLM)は急速に進化していますが、多くの最新モデルは共通の構成要素に収束しつつあります。しかしこれらの構成要素は、断片的な研究用コードベースに分散していたり、透明性の実装を欠いていたりするため、再現や拡張が困難です。この分野が加速する中、共通コンポーネントを標準化しつつ、新しい手法やアーキテクチャを柔軟にサポートできる統一フレームワークが明確に必要とされています。 この課題に対処するため、私たちはdLLMを導入します。これは拡散言語モデリングの核心要素——学習、推論、評価——を統合し、新しい設計に対して容易にカスタマイズ可能にするオープンソースフレームワークです。dLLMでは、LLaDAやDreamなどのオープンソース大規模DLMを標準化されたパイプラインを通じて再現、ファインチューニング、デプロイ、評価できます。本フレームワークはさらに、アクセス可能な計算資源で小さなDLMをスクラッチから構築するための最小限かつ再現性のあるレシピを提供し、任意のBERTスタイルのエンコーダーまたは自己回帰言語モデルをDLMに変換する機能も含みます。私たちはこれらの小型DLMのチェックポイントも公開し、DLMのアクセシビリティ向上と将来の研究加速を図ります。
GPUカーネル最適化は現代の深層学習において基本技術であるが、高度なハードウェア専門知識を要する特化された作業であり続けている。大規模言語モデル(LLM)は一般的なプログラミングでは高い性能を発揮するものの、CUDAカーネル生成においてtorch.compileなどのコンパイラベースのシステムには依然として及ばない。既存のCUDAコード生成手法は、訓練不要の改良に依存するか、固定化されたマルチターン実行フィードバックループ内でモデルをファインチューニングするが、いずれのパラダイムもモデルの本質的なCUDA最適化能力を根本的に改善できず、性能向上が限定的となっている。本論文ではCUDA Agentを提案する。これは、スケーラブルなデータ合成パイプライン、信頼性のある報酬信号を提供する自動検証とプロファイリング機能を備えた技能拡張CUDA開発環境、安定した訓練を可能にする強化学習アルゴリズム技術の3要素を通じてCUDAカーネル専門性を獲得する大規模エージェント強化学習システムである。CUDA AgentはKernelBenchにおいて最先端の結果を達成し、Level-1、Level-2、Level-3分割においてtorch.compileよりもそれぞれ100%、100%、92%高速な処理速度を実現した。最も困難なLevel-3設定では、Claude Opus 4.5やGemini 3 Proなどの最強のプロプライエタリモデルを約40%上回る性能を示した。
近年のテキストから画像への生成技術は、視覚的な忠実度と創造性を大きく進歩させてきたが、それと同時にプロンプトの複雑さ、特に複雑な空間関係の符号化に対する要求も高めている。このような場合、満足のいく結果を得るには、複数回のサンプリング試行が必要となることが多い。この課題に対処するため、我々は現在の画像生成モデルの空間理解を強化する新規手法を提案する。まず、8万組以上の選好ペアからなるSpatialRewardデータセットを構築した。このデータセットに基づき、テキストから画像生成における空間関係の正確性を評価する報酬モデルであるSpatialScoreを開発し、空間評価において主要なプロプライエタリモデルを凌駕する性能を達成した。さらに、この報酬モデルが複雑な空間生成に対するオンライン強化学習を効果的に可能にすることを実証する。複数のベンチマークによる大規模な実験を通じて、専門化された報酬モデルが画像生成における空間理解に有意かつ一貫した改善をもたらすことを示す。
多言語大規模言語モデル(LLM)の評価の信頼性は、現在、翻訳されたベンチマークの品質不安定によって損なわれている。既存のリソースは、意味のずれや文脈の喪失に悩まされることが多く、誤解を招く性能指標につながりかねない。本研究では、データセットとベンチマークの拡張性の高い高品質な翻訳を実現する、完全自動化フレームワークを提案する。テスト時計算量スケーリング戦略、特にUniversal Self-Improvement(USI)および我々が提案する多段階ランキング手法T-RANKを適用することで、従来のパイプラインと比較して大幅に高品質な出力が得られることを実証する。本フレームワークは、ベンチマークがローカライズ過程において元のタスク構造と言語的ニュアンスを保持することを保証する。本手法を応用し、広く利用されているベンチマークとデータセットを8つの東・南ヨーロッパ言語(ウクライナ語、ブルガリア語、スロバキア語、ルーマニア語、リトアニア語、エストニア語、トルコ語、ギリシャ語)に翻訳した。参照ベース指標とLLM-as-a-judgeの両方を用いた評価により、我々の翻訳が既存リソースを凌駕し、下流モデル評価の精度向上につながることを示す。堅牢で再現性のある多言語AI開発を促進するため、フレームワークと改良されたベンチマークを公開する。
秒単位から分単位へのビデオ生成のスケーリングには、重大なボトルネックが存在します。すなわち、短い動画のデータは豊富で高精細である一方、一貫性のある長尺の動画データは乏しく、限られた分野に限定されていることです。この問題に対処するため、我々は「モード追従」と「平均追従」を融合した新しい学習パラダイムを提案します。これは、Decoupled Diffusion Transformerによる統一された表現に基づき、局所的な精細度と長期的な一貫性を分離するものです。本手法では、長尺ビデオに対して教師あり学習で訓練された大域的なFlow Matchingヘッドを用いて物語構造を捕捉します。同時に、局所的なDistribution Matchingヘッドを併用し、スライディングウィンドウ単位で固定された短尺ビデオ教師モデルに対して、モード追従型の逆KLダイバージェンスを用いて整合を図ります。この戦略により、限られた長尺ビデオから教師ありフローマッチングによって長距離の一貫性と動きを学習しつつ、学生モデルのあらゆるスライディングウィンドウセグメントを固定された短尺ビデオ教師モデルに整合させることで局所的なリアリズムを継承した、分単位のビデオを数ステップで高速生成する手法を実現します。評価結果より、本手法は局所的なシャープネス、動きの質、長距離一貫性を共同で改善することで、精細度と時間軸のギャップを効果的に解消することが示されました。プロジェクトサイト: https://primecai.github.io/mmm/。
speculative decoding(投機的デコーディング)は、軽量なドラフトモデルが候補トークンを提案し、それをターゲットモデルが並列で検証する方式により、自己回帰型大規模言語モデル(LLM)の推論を高速化する技術です。その高速化効果は主に受理率(acceptance rate)によって決まりますが、従来の学習では代理目的関数としてKLダイバージェンス(Kullback-Leibler divergence)の最小化が用いられてきました。KLダイバージェンスと受理率は大域的最適点を共有するものの、容量が限られた小型のドラフトモデルは通常、KL最小化が受理率最大化を保証しない局所最適解に収束しがちです。この問題を解決するため、我々は受理率を直接最適化する特別な学習目的関数であるLK lossesを提案します。4種類のドラフトモデルアーキテクチャと8Bから685Bパラメータ規模の6つのターゲットモデルを用いた網羅的実験により、従来のKLベースの学習と比較して、あらゆる設定で受理率関連指標の一貫した改善が実証されました。一般領域、コード生成、数学推論の各ドメインで評価を行い、平均受理長(average acceptance length)で最大8-10%の向上を確認しています。LK lossesは実装が容易で、計算オーバーヘッドがなく、既存のあらゆるspeculator学習フレームワークに直接統合可能であり、既存のドラフトモデル学習目的関数に対する有力な代替手法となります。
科学的研究は、帰属表示と誠実性の観点から正確な引用に依存しているが、大規模言語モデル(LLM)は新たなリスクをもたらす。実際には存在しない学術出版物を参照する、もっともらしい虚偽の参考文献である。このような幻覚的引用は、主要な機械学習カンファレンスの投稿論文や採録論文において既に確認されており、査読プロセスの脆弱性を露呈している。一方、急速に増加する参考文献リストにより手動での検証は非現実的となり、既存の自動ツールは雑多で多様な引用形式に弱く、標準化された評価手法を欠いている。本研究は、科学論文における幻覚的引用に対する初の包括的ベンチマークと検出フレームワークを提案する。マルチエージェント検証パイプラインは、引用チェックを「主張抽出」「証拠検索」「文章照合」「推論」「較正判断」に分解し、引用元が実際に主張を裏付けているかを評価する。大規模な人手検証データセットを学術分野横断的に構築し、引用の忠実性と証拠整合性の統一指標を定義した。最先端LLMを用いた実験では、深刻な引用誤りが明らかとなり、本フレームワークが従来手法を精度と解釈可能性の両面で大幅に上回ることを示した。本研究成果は、LLM時代における引用監査の初のスケーラブルな基盤を提供し、科学文献の信頼性向上に寄与する実用的ツールとなる。
構成性的一般化(慣れ親しんだ要素を新たな文脈で認識する能力)は、知的システムの定義的特徴である。現代のモデルは大規模データセットで学習されているものの、可能な入力の組み合わせ空間のごく一部しかカバーしておらず、未見の組み合わせへの一般化を支えるために表現がどのような構造を持つ必要があるのかという疑問が生じる。本研究では、標準的な学習条件下での構成性的一般化に対する3つの要請(分割可能性、転移可能性、安定性)を定式化し、これらが幾何学的な制約を必然的に課すことを示す:表現は概念ごとの構成要素へ線形分解可能でなければならず、これらの構成要素は概念間で直交していなければならない。これは「線形表現仮説」に理論的根拠を与える:神経表現に広く観察される線形構造は、構成性的一般化の必然的な帰結なのである。さらに、組み合わせ可能な概念の数と埋め込み幾何学を結び付ける次元の限界を導出する。実証的には、現代の視覚モデル(CLIP、SigLIP、DINO)でこれらの予測を検証し、表現が低ランクでほぼ直交する概念単位の因子による部分的な線形分解を示し、この構造の程度が未見の組み合わせにおける構成性的一般化と相関することを見出した。モデルがスケールし続けるにつれ、これらの条件はモデルが収束すべき表現的幾何学を予測する。コードはhttps://github.com/oshapio/necessary-compositionalityで公開されている。
画像記憶性、すなわち画像が記憶に残りやすさの度合いは、従来、コンピュータビジョン分野において、モデルがスカラー値を回帰する受動的な予測タスクとして、あるいは、記憶に残りやすさを高めるために視覚入力を変更する生成的アプローチによって研究されてきた。しかし、これらのパラダイムはいずれも、写真の記憶性を「どのように向上させるか」という核心的な問いが生じる撮影時点において、ユーザーを支援するものではない。本研究では、**Memorability Feedback (MemFeed)** という新たなタスクを提案する。これは、自動化されたモデルが、画像の将来的な想起を高めることを目的として、ユーザーに対して実行可能で人間が解釈可能な指針を提供すべきタスクである。さらに我々は、記憶性向上のための具体的な提案(例:「表情を強調する」「被写体を手前に出す」)を自然言語で提供する、初のアプローチである**MemCoach**を発表する。マルチモーダル大規模言語モデルに基づく本手法は訓練不要であり、教師-生徒の連携戦略を採用する。これは、モデルの内部活性化を、記憶性の低いサンプルから高いサンプルへと進む教師モデルから学習した、より記憶に残りやすいパターンに向けて調整するものである。この新規タスクの体系的な評価を可能にするため、注釈付き記憶性スコアを持つ連続した写真群から構成される新しいベンチマーク**MemBench**をさらに導入する。複数のMLLMを考慮した実験により、MemCoachの有効性が実証され、いくつかのゼロショットモデルを一貫して上回る性能が示された。この結果は、記憶性が予測可能であるだけでなく、教え、指示することも可能であり、単なる予測から人間の創造者への実行可能なフィードバックへと焦点を移行し得ることを示唆している。
対照学習は、現代的な表現学習の基盤となり、タスク特化型モデルと汎用(基盤)モデルの両方において、大規模なラベルなしデータを用いた学習を可能にしている。対照学習における典型的な損失関数はInfoNCEとその派生形である。本研究では、InfoNCE目的関数が対照学習から生じる表現にガウス構造を誘導することを示す。この結果を二つの相補的な領域で確立する。まず、特定の整列性と集中性の仮定の下で、高次元表現の射影が漸近的に多変量ガウス分布に近づくことを示す。次に、より緩い仮定の下で、特徴ノルムの低さと特徴エントロピーの高さを促進する漸近的に消失する正則化項を追加すると、同様の漸近的結果が得られることを示す。我々の分析は、合成データセットとCIFAR-10データセットを用い、複数のエンコーダ構造とサイズにわたって一貫したガウス振る舞いを実証する実験によって支持される。この視点は、対照的表現で一般的に観察されるガウス性に対する原理的な説明を提供する。結果として得られるガウスモデルは、学習された表現の原理的分析的処理を可能にし、対照学習における幅広い応用を支えることが期待される。
参照表現理解(REC)は、言語と領域レベルの視覚的知覚を結びつけるタスクである。標準的なベンチマーク(RefCOCO、RefCOCO+、RefCOCOg)はマルチモーダルLLMの登場により急速に進展したが、視覚的推論とグラウンディングに関するテストとしては未だ不十分である。その理由は、(i) 多くの参照表現が極めて短く、推論の要求が低い、(ii) 画像に混乱要因が少なく、対象物が容易に見つかる、(iii) 冗長な記述子により、真のテキスト理解と視覚的推論を経ないショートカット解法が可能になる、という点にある。本研究では、これらのショートカットを抑制する現代的なRECベンチマーク「Ref-Adv」を提案する。Ref-Advは、言語的に意味のある表現を、対象を一意に特定するために必要な情報のみと組み合わせることで構成される。このデータセットは実画像に対する参照表現を含み、困難な混乱要因を意図的に配置し、否定を含む推論の側面を注記している。包括的な ablation 実験(語順摂動および記述子削除の十分性検証)により、Ref-Advの解決には単純な手がかりを超えた推論が必要であることを示す。さらに、現代の多種多様なマルチモーダルLLMをRef-Advで評価した。その結果、RefCOCO、RefCOCO+、RefCOCOgでは高い性能を示すモデル群も、Ref-Advでは性能が大幅に低下し、ショートカットへの依存と、視覚的推論・グラウンディング能力の欠如が明らかになった。詳細な失敗例分析を提供し、Ref-AdvがMLLMの視覚的推論とグラウンディングに関する将来の研究を導くことを目指す。
本論文は、計算予算が限られた条件下での長尺ビデオ理解という、重要でありながら十分に検討されていない課題に取り組む。我々は、網羅的探索の冗長性を回避する効率的なビデオコンテキストナビゲーションのために設計された、推論能力を備えた能動的なマルチモーダル大規模言語モデル(MLLM)エージェント「LongVideo-R1」を提案する。LongVideo-R1の中核には、高次元的な視覚的手がかりを活用して、後続の処理にとって最も情報量の多いビデオクリップを推論する推論モジュールが存在する。推論時、エージェントはトップレベルの視覚的要約から走査を開始し、反復的に焦点を絞り込み、質問に答えるのに十分な知識を獲得すると即座に探索プロセスを停止する。訓練を促進するため、まずグラウンディング注釈付きビデオコーパスであるCGBenchから階層的なビデオキャプションを抽出し、GPT-5を誘導して33K件の高品質な思考連鎖ツール軌跡を生成する。LongVideo-R1エージェントは、Qwen-3-8Bモデルを基に、教師ありファインチューニング(SFT)と強化学習(RL)からなる2段階のパラダイムを通じてファインチューニングされる。RLでは、選択的かつ効率的なクリップナビゲーションを最大化するために特別に設計された報酬関数が採用される。複数の長尺ビデオベンチマークにおける実験により、本手法の有効性が検証され、QA精度と効率性の優れたトレードオフを実現することが示された。作成した全てのデータとソースコードは補足資料で提供され、公開予定である。コードとデータは以下で利用可能:https://github.com/qiujihao19/LongVideo-R1
マスク画像生成モデル(MIGM)は大きな成功を収めているものの、その効率は双方向注意機構の多段階処理によって阻害されている。実際、その計算には顕著な冗長性が存在する:離散トークンをサンプリングする際、連続特徴量に含まれる豊富な意味情報が失われてしまう。既存研究の一部は特徴量をキャッシュして将来の特徴量を近似しようと試みているが、積極的な高速化率の下では近似誤差が大きくなる。我々はこれを、表現力の限界とサンプリング情報の考慮不足に起因すると考える。この課題を解決するため、過去の特徴量とサンプリング済みトークンの両方を組み込み、特徴量進化の平均速度場を回帰する軽量モデルの学習を提案する。このモデルは、基盤モデルと比較して軽量を保ちつつ、微妙なダイナミクスを捉えるのに十分な適度な複雑性を有する。我々は本手法「MIGM-Shortcut」を、代表的な2つのMIGMアーキテクチャとタスクに適用した。特に最先端のLumina-DiMOOでは、テキスト対画像生成において品質を維持しつつ4倍超の高速化を達成し、マスク画像生成のパレートフロンティアを大幅に押し上げた。コードとモデル重みはhttps://github.com/Kaiwen-Zhu/MIGM-Shortcutで公開されている。
拡散モデルは映像生成において最先端の品質を達成しているが、多数の逐次的ノイズ除去ステップを要するため、推論時の計算コストが依然として高い。この課題に対処するため、拡散推論の高速化に関する研究が活発に行われている。訓練を必要としない高速化手法の中でも、キャッシュ法は異なるタイムステップ間で事前に計算されたモデル出力を再利用することで計算量を削減する。既存のキャッシュ法は、キャッシュ/再利用するタイムステップを選択する際に経験的な基準に依存し、多大な調整を必要とする。我々はこの制約を、理論に基づいた感度認識キャッシュフレームワークによって解決する。具体的には、ノイズを含む潜在変数とタイムステップというノイズ除去入力への摂動に対するモデル出力の感度を分析し、キャッシュ誤差を定式化する。この感度がキャッシュ誤差の主要な予測因子であることを示す。この分析に基づき、サンプル単位で適応的にキャッシュタイムステップを選択する動的キャッシュポリシーであるSensitivity-Aware Caching (SenCache)を提案する。本フレームワークは適応的キャッシュの理論的基盤を提供し、従来の経験的ヒューリスティックが部分的に有効であった理由を説明するとともに、それを動的かつサンプル特化的なアプローチに拡張する。Wan 2.1、CogVideoX、LTX-Videoを用いた実験により、SenCacheが同等の計算予算下で既存のキャッシュ法よりも優れた視覚的品質を達成することを示す。
Transformerは、文脈長に比例して拡大するメモリ容量のため、系列モデリングにおける最近の進歩の大半において事実上の基盤モデルとして確立されている。検索タスクには適しているものの、二次の計算量を要するため、近年では実行可能な準二次のリカレント代替モデルの探求が進められている。様々な領域で有望な予備結果を示すものの、こうしたリカレント構造は固定サイズのメモリが原因で、想起を要するタスクではTransformerを下回る性能となる。本論文では、メモリ状態(隠れ状態)のチェックポイントをキャッシュする、単純かつ効果的な技術であるMemory Caching(MC)を提案する。Memory Cachingにより、RNNの実効メモリ容量は系列長に応じて拡大し、RNNの固定メモリ(すなわちO(L)の計算量)とTransformerの拡張メモリ(すなわちO(L^2)の計算量)の間を補間する柔軟なトレードオフを実現する。ゲート付き集約や疎選択メカニズムを含む4つのMC変種を提案し、線形および深層メモリモジュールへの影響を考察する。言語モデリングおよび長文脈理解タスクにおける実験結果は、MCがリカレントモデルの性能を向上させ、その有効性を支持することを示している。文脈内想起タスクの結果では、Transformerが最高精度を達成する一方、我々のMC変種は競争力のある性能を示し、Transformerとの差を縮め、最先端のリカレントモデルを上回る性能を発揮した。
大規模言語モデル(LLMs)は単一の人工的な集合知へと収束しつつあり、共有された性質(事前学習の事前分布)が分布的多様性の深刻な崩壊をもたらしている。これは創造的探求や科学的発見に必要な独自の視点を制限する。この問題に対処するため、我々は「認識的進化」パラダイムを用いて、モデルに推論時の育成(個別化された認識的軌跡)を付与することを提案する。これは探索、内面化、表現の段階を経て進行する。これを具体化したのがPRISM(文脈内構造モデリングによる多元的推論)であり、動的オンザフライ認識グラフによってLLMを拡張するモデル非依存のシステムである。3つの創造性ベンチマークにおいて、PRISMは最先端の新規性を達成し、分布的多様性を大幅に拡大した。さらに、難易度の高い希少疾患診断ベンチマークを用いて実世界での有用性を評価した。結果は、PRISMが標準的なLLMが見逃す正しいロングテール診断を首尾よく発見することを示し、その多様性が無意味なノイズではなく、意味のある探索に由来することを確認した。総合的に、本研究成果は「多元的AI」の新たなパラダイムを確立するものであり、単一的な合意を超えて、集合的かつ多視点的な発見が可能な独自の認知的個体からなる多様な生態系へと向かう道筋を示す。
生成的検索は、LLMベースの推薦システムにおける強力なパラダイムとして登場した。しかし、産業界の推薦システムでは、ビジネスロジックに基づいて出力空間を限定されたアイテムの部分集合に制限することがしばしば有効である(例:コンテンツの新しさや製品カテゴリの強制)。これは標準的な自己回帰デコーディングではネイティブにサポートできない。さらに、プレフィックス木(トライ木)を利用する既存の制約付きデコーディング手法は、ハードウェアアクセラレータ(TPU/GPU)上で深刻な遅延ペナルティを被る。本研究では、TPU/GPU上での高スループットなLLMベース生成的検索のために特別に設計された、効率的かつスケーラブルな制約付きデコーディング技術であるSTATIC(Sparse Transition Matrix-Accelerated Trie Index for Constrained Decoding)を提案する。プレフィックス木を静的な圧縮行格納(CSR)行列に平坦化することで、不規則な木の走査を完全にベクトル化された疎行列演算に変換し、ハードウェアアクセラレータ上で大幅な効率向上を実現する。我々はSTATICを数十億ユーザーにサービスを提供する大規模産業向け動画推薦プラットフォームに導入した。STATICは、最小限の遅延オーバーヘッド(ステップあたり0.033 ms、推論時間の0.25%)で製品指標に大きな影響を与え、CPUトライ木実装に対して948倍、ハードウェアアクセラレータ対応の二分探索ベースラインに対して47-1033倍の高速化を達成した。さらに、STATICの実行時オーバーヘッドは、様々な実用的な設定において極めて低い水準を維持する。我々の知る限り、STATICは厳密に制約された生成的検索の初の本番環境規模での導入を可能にする。さらに、学術的ベンチマークによる評価は、STATICが生成的検索のコールドスタート性能を大幅に改善できることを示している。コードはhttps://github.com/youtube/static-constraint-decoding で公開されている。
視覚言語モデル(VLM)は、優れたマルチモーダル理解・推論能力を実現しているが、高密度な視覚トークン化により計算コストが高い課題がある。既存の効率化手法は、冗長な視覚トークンを統合するか、言語バックボーン内で段階的に削除するものが多く、精度と速度のトレードオフを伴う。本研究では、汎用性の高いプラグアンドプレイ型デュアル圧縮フレームワーク「DUET-VLM」を提案する。これは、(a) 視覚エンコーダの出力を情報を保持したトークンに圧縮する視覚専用の冗長性認識圧縮と、(b) 言語バックボーン内で段階的に情報量の少ない視覚トークンを剪定する、層単位のテキスト誘導型重要度に基づくトークン削除から構成される。この協調的なトークン管理により、批判的意味を保持しつつ積極的な圧縮を実現する。LLaVA-1.5-7Bでは、ベースライン精度の99%以上を67%のトークン削減で維持し、89%削減時でも97%以上の精度を保持する。訓練時のこの二段階圧縮により、67%削減で99.7%、89%削減で97.6%の精度を達成し、複数ベンチマークで従来のSoTA視覚トークン削減手法を凌駕する。Video-LLaVA-7Bに統合した場合、53.1%の大幅なトークン削減でベースラインを上回る100%超の精度を達成し、極端な93.4%削減設定下でも97.6%の精度を維持する。これらの結果は、DUET-VLMによるエンドツーエンド訓練が、精度を犠牲にすることなく削減された視覚(画像/動画)入力への頑健な適応を可能にし、同一計算予算内でコンパクトかつ意味的に豊富な表現を生成することを示す。コードはhttps://github.com/AMD-AGI/DUET-VLM で公開されている。
指示ベース画像編集モデル(IIEM)の分野では著しい進展が見られている。しかしながら、現行のベンチマークにおいてこれらのモデルが指示への妥当な従順性と強力な推論能力を示す一方で、実画像および生成画像双方における精密な局所編集と詳細調整にとって重要であるにもかかわらず、小規模オブジェクトの編集能力は十分に検証されていない。本論文では、IIEMの小規模オブジェクト編集能力を評価する初のベンチマークであるDeepLookEditBench(DLEBench)を提案する。具体的には、7種類の指示タイプにわたる1889サンプルから構成される挑戦的なテストベッドを構築した。これらのサンプルでは対象オブジェクトが画像面積の1%~10%のみを占め、部分的な遮蔽や複数オブジェクト編集といった複雑なシナリオを網羅している。本ベンチマークにおける頑健な評価を確保するため、指示追従性と視覚的一貫性という2つの基準における主観性と曖昧性を最小化する洗練された評価基準を備えた評価プロトコルを提案する。このプロトコルはまた、DLEBenchにおけるLMM-as-a-Judgeと人間の判断の不一致に対処するデュアルモード評価フレームワーク(ツール駆動モードとオラクル誘導モード)を導入する。10のIIEMにおける実証結果は、小規模オブジェクト編集における顕著な性能差を明らかにし、この能力を進展させるための専門的なベンチマークの必要性を浮き彫りにしている。
コンテキストエンジニアリングは、ソフトウェア工学(SE)タスクにおける大規模言語モデル(LLM)の可能性を引き出す重要なパラダイムとして登場し、モデルのファインチューニングなしでテスト時の性能向上を可能にしている。その成功にもかかわらず、既存研究ではSEに特化したコンテキスト類型の体系的分類や、主要なSEワークフローにおける異種コンテキストの効果を定量化する専用ベンチマークが不足している。この課題を解決するため、我々はCL4SE(Context Learning for Software Engineering)を提案する。これは4つのSE指向コンテキスト類型(解釈可能な事例、プロジェクト固有コンテキスト、手続き的意思決定コンテキスト、肯定・否定コンテキスト)の詳細な分類体系を備えた総合ベンチマークであり、各類型は代表的なタスク(コード生成、コード要約、コードレビュー、パッチ正否判定)に対応付けられている。30以上のオープンソースプロジェクトから13,000以上のサンプルで構成される高品質データセットを構築し、5つの主流LLMを9つの指標で評価した。大規模実験により、コンテキスト学習が全タスクで平均24.7%の性能向上をもたらすことを実証した。具体的には、手続き的コンテキストがコードレビュー性能を最大33%(Qwen3-Max)向上させ、混合肯定・否定コンテキストがパッチ評価を30%(DeepSeek-V3)改善し、プロジェクト固有コンテキストがコード要約のBLEUスコアを14.78%(GPT-Oss-120B)上昇させ、解釈可能な事例がコード生成のPASS@1を5.72%(DeepSeek-V3)向上させた。CL4SEはSEコンテキスト学習における初の標準化評価フレームワークを確立し、タスク特化型コンテキスト設計に実践的な実証的知見を提供するとともに、大規模データセットを公開し、この分野の再現可能な研究を促進する。
強化学習(RL)による事後学習は近年、長い連鎖思考推論を行う大規模言語モデル(LLM)において大きな進展をもたらしてきたが、こうしたモデルの高い推論コストは、より小規模な生徒モデルへの蒸留を促進している。既存の知識蒸留(KD)手法の多くは教師ありファインチューニング(SFT)向けに設計されており、固定された教師モデルの軌跡や、教師-生徒間のKLダイバージェンスに基づく正則化に依存している。これらをRLと組み合わせる場合、分布ミスマッチと目的関数の干渉という問題が生じやすい。教師の監督は生徒の変化するロールアウト分布と整合しない可能性があり、KL正則化項は報酬最大化と競合し、損失のバランス調整を慎重に行う必要がある。これらの課題に対処するため、本論文ではRL対応蒸留(RLAD)を提案する。これはRLの実行中に選択的模倣を行い、現在のポリシー更新を改善する場合にのみ、生徒を教師の方向へ導く。中核となる要素である信頼領域比蒸留(TRRD)は、教師-生徒間のKL正則化項を、教師と旧ポリシーの混合を基準としたPPO/GRPO形式の尤度比目的関数に置き換える。これにより、生徒のロールアウトに対するアドバンテージを考慮した信頼領域制約付きの蒸留が実現され、探索、利用、模倣のバランスが自然に取れる。様々な論理推論および数学ベンチマークにおいて、RLADはオフライン蒸留、標準的なGRPO、およびKLベースのオンラインポリシー教師-生徒知識蒸留を一貫して上回る性能を示した。
現代の大規模言語モデル(LLM)は単体での能力が急速に向上しているが、依然として単一のLLMの能力を超える困難な問題が数多く存在する。このような課題に対して、複数のLLMを部品としてより大きな全体に組み合わせる最適な方法については、未だ不確かさが残っている。本ポジションペーパーでは、このようなモジュラー型言語エージェントを設計するための潜在的青図が、認知モデルや人工知能(AI)アルゴリズムに関する既存文献に見出せると論じる。この点を明確にするため、個々のLLMに与える役割と機能の合成方法を規定する「エージェントテンプレート」の概念を形式化する。続いて、既存の様々な言語エージェントを調査し、認知モデルやAIアルゴリズムに直接由来するそれらの基礎テンプレートを明らかにする。これらの設計に光を当てることで、認知科学やAIにヒントを得たエージェントテンプレートが、効果的で解釈可能な言語エージェントを開発する強力な手法として注目されるべきことを訴えたい。