翻訳付きの日次キュレーションされたAI研究論文
科学の進歩を追求する上で、研究成果の伝達は発見自体と同様に重要である。しかし研究者たちは、難解な論文を理解しやすくするためのプロジェクトWebページ作成という、手作業による反復的な雑務にしばしば時間を奪われている。これまで自動化技術は静的なスライドやポスターに対応してきたが、Webページの動的でインタラクティブな性質は未解決の課題として残されてきた。この隔たりを埋めるため、我々は問題を再定義し、解決策は単一のコマンドではなく、協調的で階層的なプロセスにあると論じる。この哲学を具現化した新しいマルチエージェントシステム「AutoPage」を提案する。 AutoPageは、論文からWebページ作成という作業を、物語の設計からマルチモーダルなコンテンツ生成、インタラクティブなレンダリングに至る、粗い粒度から細かい粒度へのパイプラインに分解する。AIの hallucination(虚偽生成)に対処するため、専用の「Checker」エージェントが各工程を原論文と照合して検証し、オプションとして設けられた人間によるチェックポイントによって最終成果物が著者の意図と完全に一致することを保証する。これにより、本システムは単なるツールではなく、強力な協調的アシスタントへと変貌する。我々のアプローチを厳密に検証するため、この新たなタスクにおいて初となるベンチマーク「PageBench」も構築した。実験の結果、AutoPageは高品質で視覚的に魅力的なページを生成するだけでなく、15分未満、費用0.1ドル未満という驚異的な効率でこれを実現することが示された。コードとデータセットはhttps://mqleet.github.io/AutoPage_ProjectPage/で公開予定である。
Speculative Decoding(SD)は、小さなドラフトモデルを用いて予測を生成し、それを大規模なターゲットモデルで検証することで、大規模言語モデルの推論を高速化する技術である。SDの効果は、これらのモデル間の整合性に依存しており、一般的にKnowledge Distillation(KD)によって強化される。しかし、従来のKD手法は、すべてのトークンにおいてドラフトモデルとターゲットモデルのKLダイバージェンスを最小化することを目的としており、これはSDの真の目的であるトークン受理率の最大化と整合していない。そのため、ドラフトモデルは容量制約のためターゲットモデルの知識を十分に吸収できず、性能が最適化されないことが多い。この課題に対処するため、我々はKDプロセスに選択的トークンフィルタリングを組み込んだ新手法AdaSPECを提案する。AdaSPECは参照モデルを利用して適合困難なトークンを特定・除去し、より単純なトークンにおいてターゲットモデルとの整合性が高いドラフトモデルの蒸留を可能にする。このアプローチにより、生成品質を損なうことなく、全体的なトークン受理率が向上する。算術推論、指示追従、コード生成、要約など多様なタスクにおいて、31M/1.4Bおよび350M/2.7Bパラメータのモデル構成を用いてAdaSPECを評価した。その結果、AdaSPECは最先端のDistillSpec手法を一貫して上回り、すべてのタスクで最大15%の受理率向上を達成した。コードはhttps://github.com/yuezhouhu/adaspecで公開されている。
大半の映像推論モデルは、テキストによる推論過程を生成するのみで、重要な証拠がいつ・どこに現れるかを示しません。OpenAI-o3のような最近のモデルは、画像における証拠中心の推論に広範な関心を集めていますが、この能力を映像に拡張することはより困難です。動的なシーンにおいて時間的追跡と空間的定位を同時に行う必要があるためです。我々はOpen-o3 Videoを提案します。これは明示的な時空間的証拠を映像推論に統合する非エージェント型フレームワークであり、前述の課題に対処するため、訓練データを注意深く収集し、訓練戦略を設計しました。本モデルは回答と併せて、重要なタイムスタンプ、オブジェクト、バウンディングボックスを強調表示し、推論を具体的な視覚的観察に基づかせます。 この機能を実現するため、我々はまず二つの高品質データセット、SFT用のSTGR-CoT-30kとRL用のSTGR-RL-36kを構築しました。既存データセットの大半は、映像に対する時間スパンまたは画像に対する空間ボックスのいずれかしか提供しておらず、統一された時空間的監督と推論過程を欠いていたためです。次に、回答精度、時間的整合性、空間的精度を同時に促進する複数の特別設計報酬を用いた、コールドスタート強化学習戦略を採用しました。 V-STARベンチマークにおいて、Open-o3 Videoは最先端の性能を達成し、Qwen2.5-VLベースラインに対しmAMを14.4%、mLGMを24.2%向上させました。VideoMME、WorldSense、VideoMMMU、TVGBenchなど、幅広い映像理解ベンチマークでも一貫した改善が確認されています。精度を超えて、Open-o3 Videoが生成する推論過程は、テスト時スケーリングに対する貴重な信号を提供し、信頼度を考慮した検証を可能にし、回答の信頼性を向上させます。
最先端のテキスト動画生成モデルは個別のクリップ生成には優れるものの、物語の本質である一貫性のあるマルチショット叙事表現の創出には至っていない。我々はこの「ナラティブギャップ」を埋めるHoloCineを提案する。このモデルはシーン全体を包括的に生成し、最初のショットから最後までグローバルな一貫性を保証する。ウィンドウ交差注意機構によってテキストプロンプトを特定ショットに局所化する精密な演出制御を実現し、疎インターショット自己注意パターン(ショット内は密、ショット間は疎)により分単位の生成に必要な効率性を確保する。物語の一貫性で新たな最先端を確立しただけでなく、HoloCineは顕著な創発能力として、キャラクターやシーンへの持続的記憶と映画的技法の直感的理解を発展させる。本研究はクリップ合成から自動映画制作への決定的転換を示し、エンドツーエンドの映画的創作を現実的な未来とする。コードはhttps://holo-cine.github.io/で公開されている。
Diffusion Transformerモデルは驚異的な忠実度と詳細さで画像を生成できるが、超高解像度でのトレーニングは、画像トークン数に対して二次関数的にスケーリングするセルフアテンション機構のため、依然として非常にコストがかかる。本論文では、事前学習済み拡散Transformerが、追加のサンプリングコストなしで、トレーニングデータをはるかに超える解像度で画像を合成できる、新しいトレーニング不要手法であるDynamic Position Extrapolation(DyPE)を提案する。DyPEは、低周波数構造が早期に収束し、高周波数は解決により多くのステップを要するという、拡散過程に固有のスペクトル進行を利用する。具体的には、DyPEは各拡散ステップでモデルの位置エンコーディングを動的に調整し、その周波数スペクトルを生成過程の現在の段階と一致させる。このアプローチにより、例えばFLUXを用いて1600万ピクセルといった、トレーニング解像度を大幅に超える解像度での画像生成が可能となる。複数のベンチマークにおいて、DyPEは一貫して性能を向上させ、超高解像度画像生成における忠実度でstate-of-the-artを達成し、その利得は解像度が高くなるほど顕著になる。プロジェクトページはhttps://noamissachar.github.io/DyPE/で利用可能。
離散拡散モデルは並列デコードによる自己回帰生成の有望な代替手段を提供するが、サンプリングの壁に直面している。カテゴリカルサンプリングが行われると、豊富な分布情報がワンホットベクトルに崩壊し、ステップ間で伝播できなくなるため、後続のステップは限られた情報しか利用できなくなる。この問題を緩和するため、我々は決定論的潜在経路を通じてこの情報を保持する新規かつ簡潔な機構「ループホーリング」を提案し、Loopholing Discrete Diffusion Models (LDDMs) を開発した。自己条件付け戦略による効率的な学習により、LDDMsは従来のベースラインと比較して生成パープレキシティを最大61%削減し、自己回帰モデルとの差を埋め(場合によっては凌駕し)、より一貫性のあるテキストを生成するという大幅な改善を達成した。推論タスクへの応用では、CountdownやGame of 24などの算術ベンチマークにおいても性能向上が確認された。これらの結果は、ループホーリングがアイドルステップと振動を緩和し、高品質な非自己回帰的テキスト生成へのスケーラブルな道筋を提供することを示唆している。
身体性AIエージェントの開発には、コンテンツの多様性と物理精度のバランスを取るスケーラブルな訓練環境が不可欠です。世界シミュレータはこうした環境を提供しますが、特有の課題に直面しています。ビデオベースの手法は多様なコンテンツを生成するものの、インタラクティブな学習に必要なリアルタイムの物理フィードバックに欠け、物理ベースのエンジンは正確な力学を提供するものの、高コストな手動アセット作成によるスケーラビリティの制約があります。本研究ではSeed3D 1.0を提案します。これは単一画像からシミュレーション対応の3Dアセットを生成する基盤モデルであり、物理的厳密性を維持しつつスケーラビリティ課題を解決します。既存の3D生成モデルとは異なり、本システムは正確なジオメトリ、適切に整合したテクスチャ、現実的な物理ベースマテリアルを備えたアセットを生成します。これらのアセットは最小限の設定で物理エンジンに直接統合可能であり、ロボット把持やシミュレーション訓練への展開を実現します。個々の物体に留まらず、オブジェクトを整合性ある環境に組み立てることで完全なシーン生成へもスケールします。シミュレーション対応コンテンツのスケーラブルな生成を可能にすることで、Seed3D 1.0は物理ベース世界シミュレータの発展基盤を提供します。Seed3D 1.0は現在、https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D で公開中です。
知識編集は、完全な再学習を必要とせずにモデルの知識を更新する効率的な方法を提供しますが、従来の研究はほぼ独占的にテキストまたは視覚モダリティに焦点を当ててきました。本論文では、大規模音声言語モデル(LALM)における聴覚的属性知識の編集に特化して設計された初のベンチマークであるSAKEを提案します。事実の更新とは異なり、SAKEはいくつかの抽象的な聴覚的属性を対象とし、従来のテキストおよび視覚領域を超える知識タイプを捉えます。2つのLALMにおいて7つの編集手法を、信頼性、一般性、音声/テキスト局所性、移植性の4次元に沿ってベンチマーク評価しました。結果から、編集対象外の属性内知識の保持、マルチモーダル推論への編集の一般化、連続的更新下での編集の維持といった課題が浮き彫りになりました。SAKEは、知識編集が聴覚モダリティにどのように拡張されるかを研究するための原理的な枠組みを提供し、より多様な実世界シナリオにおけるLALMの維持と適応に向けた新たな方向性を開拓します。
我々は、大規模言語モデル(LLM)の最適化を定量化可能な人間の価値信号に直接整合させる手法である、**明示的人間価値強化学習(Reinforcement Learning with Explicit Human Values, RLEV)** を提案する。検証可能な報酬による強化学習(RLVR)は、二値的な正解報酬を用いて客観的領域でモデルを効果的に学習させるが、全てのタスクが同等に重要ではないという点を見落としている。RLEVはこの枠組みを拡張し、人間が定義した価値信号を報酬関数に直接組み込む。明示的な正解価値ラベル付きの試験形式データを用いた実験により、RLEVは複数のRLアルゴリズムとモデル規模において、正解のみを基準としたベースライン手法を一貫して上回ることを示す。決定的に、RLEVの方策は価値加重精度を向上させるだけでなく、**価値に敏感な終了方策**も学習する。すなわち、低価値のプロンプトには簡潔に、高価値のプロンプトには徹底的に応答する。この振る舞いが、系列終端トークンに対する価値加重勾配増幅に起因することを実証する。アブレーション研究は、性能向上が価値整合に因果的に結びついていることを確認する。RLEVは、難易度に基づくラベルなどのノイズを含む価値信号下でも頑健性を維持し、明示的な効用関数に対する最適化が、LLMを人間の優先順位に整合させる現実的な道筋を提供することを示す。
大規模音声言語モデル(LALM)は、テキストベースの大規模言語モデルを聴覚的理解によって拡張し、マルチモーダル応用における新たな可能性を開くものである。その知覚・推論能力やタスク性能については広く研究が進められている一方で、パラ言語的変動下での安全性調整(セーフティアライメント)は未開拓の領域である。本研究では、話者の感情が及ぼす影響を体系的に検証する。複数の感情とその強度で表現された悪意ある音声指示から成るデータセットを構築し、いくつかの最先端LALMを評価した。結果、顕著な安全性の不整合が明らかとなった:異なる感情は不均一なレベルの不安全な応答を誘発し、強度の影響は非単調であり、中程度の感情表現が最も高いリスクをもたらす場合が多い。これらの知見は、LALMにおける見過ごされていた脆弱性を浮き彫りにするとともに、感情変動下での堅牢性を保証するために明示的に設計された調整戦略の必要性を示唆する。これは実世界での信頼できる展開における前提条件である。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデルエージェントを訓練する主流技術となっている。しかし、RLVRは正確な報酬を提供するために、精巧に設計されたタスククエリと対応する正解答案に強く依存しており、多大な人的労力を必要とし、特にエージェントシナリオ下でのRLスケーリングプロセスを妨げている。最近ではタスク合成手法を探求する研究がいくつか見られるが、生成されたエージェントタスクの難易度を制御することは難しく、効果的なRL訓練の優位性を提供するには至っていない。 スケーラビリティの高いエージェント型RLVRを実現するため、我々は深層検索エージェントに対する自己対戦訓練を探求する。この手法では、学習中の大規模言語モデルがマルチターンでの検索エンジン呼び出しを利用し、タスク提案者と問題解決者の両方の役割を同時に果たす。タスク提案者は、明確に定義された正解答案を持ち、難易度が増していく深層検索クエリを生成することを目的とする。問題解決者は、生成された検索クエリを処理し、正しい答えの予測を出力しようと試みる。生成される各検索クエリが正確な正解を持つことを保証するため、提案者の軌跡から全ての検索結果を外部知識として収集し、検索拡張生成(RAG)を実行して、提供された全ての必要な検索文書を用いて提案されたクエリに正しく答えられるかどうかをテストする。 この検索自己対戦(SSP)ゲームにおいて、提案者と解決者は競争と協力を通じて互いのエージェント能力を共進化させる。大規模な実験結果から、SSPがゼロからのRL訓練設定と継続的RL訓練設定の両方において、一切の教師信号なしに、様々なベンチマークで検索エージェントの性能を一貫して大幅に向上させ得ることがわかった。コードはhttps://github.com/Alibaba-Quark/SSP で公開されている。
本論文では、Massive Legal Embedding Benchmark(MLEB)を提案する。これは、法情報検索におけるオープンソースのベンチマークとして、現在までで最大規模かつ最も多様性に富み、包括的なものである。MLEBは、複数の法域(米国、英国、EU、オーストラリア、アイルランド、シンガポール)、文書タイプ(判例、法令、規制ガイダンス、契約書、学術文献)、タスクタイプ(検索、ゼロショット分類、質問応答)にまたがる10の専門家による注釈付きデータセットで構成される。MLEBに含まれる7つのデータセットは、オープンソースの法情報検索環境における領域的・法域的なギャップを埋めるために新たに構築された。我々はMLEBの構築と新規構成データセット作成の方法論を詳細に記述し、再現可能な評価を支援するため、コード、結果、データを公開する。
自然言語は長らく人間の協力を可能にしてきたが、その非可逆的・曖昧・間接的な性質は集合知の可能性を制限している。機械はこうした制約を受けないにもかかわらず、現在のLLMベースのマルチエージェントシステムの大半は、トークンやその埋め込み値を交換する自然言語への依存を続けている。言語の限界を超えるため、我々は思考通信という新たなパラダイムを提案する。これはテレパシーと同様に、エージェントが心から心へ直接相互作用することを可能にする。これらの潜在思考を原理的に抽出するため、エージェント状態が基盤となる思考の未知関数によって生成される一般潜在変数モデルとして過程を定式化する。非パラメトリック設定において補助情報なしで、任意のエージェント間の共有及び非共有の潜在思考が同定可能であることを証明する。さらに、どのエージェントがどの思考を共有し、これらの関係がどう構造化されるかといった思考共有の大域的構造も、理論的保証付きで回復可能である。確立された理論に基づき、通信前に全エージェントから潜在思考を抽出し、各エージェントに関連思考とその共有パターンを割り当てる枠組みを開発した。このパラダイムはLLMを超えて全てのモダリティに自然に拡張可能である。なぜなら大半の観測データは隠れた生成過程から生じるためである。合成データと実世界ベンチマークによる実験は理論を検証し、思考通信の協調的優位性を実証した。表面レベルの観測だけでは、計算資源やデータ規模に関わらず解決不能な課題が数多く存在することを踏まえ、本研究成果が隠れた世界を活用する可能性を照らす一助となることを期待する。
フレーム間の多段階推論を必要とする映像推論は、マルチモーダル大規模言語モデル(MLLMs)における主要な課題である。強化学習(RL)ベースの手法は推論能力を強化するが、テキストのみの連鎖に依存しがちで、根拠のない結論や虚構の結論を生み出すことが多い。一方、フレーム検索手法は視覚的接地を導入するものの、不正確な証拠の局在化に依然として苦戦している。これらの課題に対処するため、我々は証拠に基づく多段階映像推論フレームワーク「Conan」を提案する。Conanは文脈フレームと証拠フレームを識別し、フレーム間の手がかりを推論し、結論を出すかさらなる探索を行うかを適応的に決定する。これを実現するため、(1)フレーム識別・証拠推論・行動決定を含む自動生成された大規模推論トレースデータセットConan-91Kを構築し、(2)多段階視覚推論を共同で強化するため、多段階漸進的コールドスタート戦略とIdentification-Reasoning-Action(AIR)RLVRトレーニングフレームワークを設計した。6つの多段階推論ベンチマークにおける大規模実験により、ConanがベースラインのQwen2.5-VL-7B-Instructを平均精度で10%以上上回り、最先端の性能を達成することを実証した。さらにConanは長映像理解タスクへ効果的に汎化し、その強力な拡張性と頑健性を検証した。
既存のパーソナライズ生成モデルは視覚的な忠実度が高いものの、空間構成に対するインタラクティブな制御が欠如しており、複数被写体への拡張性に課題がある。これらの制約を解決するため、本論文ではパーソナライズされた複数被写体のテキストto画像生成のためのインタラクティブフレームワーク「LayerComposer」を提案する。本手法の主な貢献は二つある:(1) 各被写体を独立したレイヤーに配置することでオクルージョンのない合成を可能にする新規表現「階層化キャンバス」、(2) 選択したレイヤーを高忠実度で維持しつつ、残りのレイヤーを周囲の文脈に柔軟に適応させるロック機構。プロフェッショナル画像編集ソフトウェアと同様に、提案する階層化キャンバスでは直感的なレイヤー操作を通じて被写体の配置、サイズ変更、固定が可能である。汎用性の高いロック機構はアーキテクチャ変更を必要とせず、内在的な位置埋め込みと新規の相補的データサンプリング戦略に基づく。大規模な実験により、LayerComposerが複数被写体パーソナライズ画像生成において、従来手法を凌駕する空間制御性と同一性保持を実現することを示す。
本論文では、画像セグメンテーションのための新しいAutoRegressive Generationベースのパラダイム(ARGenSeg)を提案し、マルチモーダル理解とピクセルレベルの知覚を統一フレームワーク内で実現する。従来のマルチモーダル大規模言語モデル(MLLM)に画像セグメンテーションを統合する研究では、境界点表現または専用のセグメンテーションヘッドが一般的に用いられてきた。これらの手法は、タスク特化型デコーダに入力される離散表現または意味的プロンプトに依存しており、MLLMが細粒度の視覚的詳細を捕捉する能力を制限している。こうした課題に対処するため、我々は画像生成に基づくMLLM向けセグメンテーション枠組みを導入し、対象物体の高密度マスクを自然に生成する。MLLMにより出力された視覚トークンを、普遍的なVQ-VAEを用いて画像へとデトークン化することで、セグメンテーションをMLLMのピクセルレベル理解に完全に依存させる。推論遅延を低減するため、必要な視覚トークンを並列生成する次スケール予測戦略を採用する。大規模な実験により、本手法が強力な理解能力を維持しつつ、複数のセグメンテーションデータセットにおいて従来の最先端手法を凌駕し、推論速度が顕著に向上することを実証する。
コード差分の信頼性の高い処理は、リポジトリを大規模に編集・リファクタリングするエージェントの中核をなす。本稿では、コード差分理解のためのコンパクトなベンチマークDiff-XYZを提案する。Diff-XYZは3つの教師付きタスク(適用:旧コード+差分→新コード、逆適用:新コード-差分→旧コード、差分生成:新コード-旧コード→差分)で構成される。ベンチマークのインスタンスは、CommitPackFTの実際のコミットから抽出された三重項⟨旧コード, 新コード, 差分⟩であり、自動評価指標と明確な評価プロトコルを備える。本ベンチマークを用いて、統一差分フォーマットに焦点を当てた実証研究を行い、異なる差分表現のクロスフォーマット比較を実施した。その結果、ユースケースとモデルサイズに応じて異なるフォーマットを使用すべきであることが明らかになった。例えば、検索置換形式での差分表現は、差分生成シナリオにおける大規模モデルでは有効であるが、差分分析や小規模モデルには適さない。Diff-XYZベンチマークは、LLMの差分処理能力を評価・改善するための再利用可能な基盤であり、今後の差分フォーマットやコード編集モデルの開発に寄与し得る。データセットはHuggingFace Hubで公開されている:https://huggingface.co/datasets/JetBrains-Research/diff-xyz。
大規模言語モデル(LLM)は科学論文執筆における有望な支援ツールとして登場した。しかし、生成テキストの品質と信頼性、特に引用の正確性と忠実性に関して懸念が生じている。最近の研究の多くはLLM-as-a-Judgeなどの手法に依存しているが、それ単体での信頼性も疑問視されている。本研究では、引用評価を「引用帰属の整合性」問題、すなわちLLMが生成した引用が、同一テキストに対して人間の著者が付与する引用と一致するかを評価する課題として再定義する。我们は、引用検証により忠実な根拠付けを提供する検索対応エージェントフレームワークCiteGuardを提案する。CiteGuardは従来のベースラインを12.3%改善し、CiteMEベンチマークで最大65.4%の精度を達成、人間レベルの性能(69.7%)に匹敵する。さらに、代替となり得る有効な引用の特定も可能にする。
MeanFlowは、スクラッチから学習された数ステップ生成モデリングの強力なフレームワークとして最近登場したが、その成功はまだ完全には理解されていない。本研究では、MeanFlowの目的関数が自然に二つの部分、すなわち軌道フローマッチングと軌道一貫性に分解されることを示す。勾配分析を通じて、これらの項が強い負の相関を持ち、最適化の衝突と収束の遅延を引き起こしていることを明らかにする。これらの知見に基づき、我々はalpha-Flowを提案する。これは、軌道フローマッチング、Shortcut Model、MeanFlowを一つの定式化の下に統合する広範な目的関数群である。軌道フローマッチングからMeanFlowへ滑らかに移行するカリキュラム戦略を採用することで、alpha-Flowは衝突する目的関数を分離し、より優れた収束性を達成する。クラス条件付きImageNet-1K 256x256において、標準的なDiTバックボーンを用いてスクラッチから学習した場合、alpha-Flowは様々なスケールと設定において一貫してMeanFlowを上回る性能を示す。我々の最大のモデルであるalpha-Flow-XL/2+は、標準的なDiTバックボーンを用いて新たなstate-of-the-art結果を達成し、FIDスコアは2.58(1-NFE)および2.15(2-NFE)であった。
パラメータ数と訓練データ規模の拡大は、大規模言語モデル(LLM)の性能向上において有効な戦略であることが実証されている。しかし、これらのモデルが強力化し広く展開されるにつれ、推論コストが喫緊の課題となっている。重要性にもかかわらず、モデル精度と推論効率のトレードオフ関係は十分に解明されていない。本研究では、隠れ層サイズ、MLPとAttention間のパラメータ配分(MLP対Attention比率)、グループ化クエリ注意(GQA)といった主要なアーキテクチャ要因が、推論コストと精度の両方に与える影響を検証する。我々は、Chinchillaフレームワークにアーキテクチャ情報を付加した条件付きスケーリング則と、推論効率と精度を両立するアーキテクチャを特定するための探索フレームワークを提案する。本手法を検証するため、8000万から30億パラメータ、80億から1000億訓練トークンにわたる200以上のモデルを学習し、提案した条件付きスケーリング則を適合させた。その結果、条件付きスケーリング則が最適なアーキテクチャ選択を確実に予測すること、および得られたモデルが既存のオープンソースベースラインを凌駕することを示す。同一の訓練予算条件下では、最適化されたアーキテクチャはLLaMA-3.2と比較して最大2.1%の精度向上と42%の推論スループット向上を達成した。
これは従来の世界モデルサーベイとは異なり、世界構築を目指す者のためのガイドである。我々の目的は「世界モデル」に言及したあらゆる論文を網羅することではなく、一つの明確な道筋を辿ることにある。すなわち、マルチモーダルにおける表現学習を統一した初期のマスクモデルから、単一パラダイムを共有する統一アーキテクチャへ、そして知覚-行動ループを閉じる対話的生成モデルを経て、最終的には時間を通して一貫した世界を維持するメモリ拡張システムに至る道である。我々は関連性の薄い分岐を迂回し、核心—生成の中核、対話的ループ、メモリシステム—に焦点を当てる。これこそが真の世界モデルへ向けた最も有望な道筋であることを示す。
タスクを完了するための「ショートカット」を見つけて利用する傾向は、大規模言語モデル(LLM)の信頼性の高い評価と展開に重大なリスクをもたらす。例えば、単体テストへのアクセス権を持つLLMエージェントが、根本的なバグを修正する代わりに、失敗するテストを削除する可能性がある。このような振る舞いは、ベンチマーク結果の正当性と、実世界でのLLMコーディングアシスタント展開の信頼性の両方を損なう。 このような振る舞いを定量化、研究、軽減するため、我々はImpossibleBenchを提案する。これは、LLMエージェントがテストケースを悪用する傾向を体系的に測定するベンチマークフレームワークである。ImpossibleBenchは、LiveCodeBenchやSWE-benchなどの既存ベンチマークからタスクを選び、自然言語仕様と単体テストの間に直接的な矛盾を導入することで「不可能」なバリアントを作成する。エージェントの「不正行為率」を、これらの不可能なタスクにおける合格率として測定する。ここでの合格は、必ず仕様違反のショートカットを意味する。 実用的なフレームワークとして、ImpossibleBenchは単なる評価ツールではなく、多目的なツールである。その有用性を以下の点で実証する:(1) モデルの振る舞いの研究:単純なテスト改変から複雑な演算子オーバーロードに至る、不正行為のより詳細な実態を明らかにする。(2) コンテキストエンジニアリング:プロンプト、テストへのアクセス権、フィードバックループが不正行為率に与える影響を示す。(3) 監視ツールの開発:検証済みの欺瞞的解決策を含むテストベッドを提供する。我々は、ImpossibleBenchがより堅牢で信頼性の高いLLMシステム構築のための有用なフレームワークとなることを期待する。 実装は以下で公開されている。 https://github.com/safety-research/impossiblebench
Transformerベースの大規模言語モデル(LLM)は目覚ましい成功を収めているが、標準的なアテンション機構は系列長に対して二次的な計算量とメモリコストが発生し、長文脈学習における主要なボトルネックとなっている。従来の研究はこの課題に二つの方向から取り組んできた:(1)密および疎なアテンション演算子を高速化するカーネルレベル最適化、(2)分散アテンションまたは文脈並列学習と呼ばれるモジュールレベル戦略(複数デバイス間でアテンションをスケーリングする手法)である。しかし、体系的な評価は依然として限られている:演算子レベルの比較は往々にして不完全であり、文脈並列戦略は通常フレームワーク依存で、様々な文脈における性能分析が不明確である。これらの課題を解決するため、我々は代表的なアテンションカーネルと文脈並列メカニズムを統合し、モジュール化された拡張可能な評価インターフェースを備えた統一ベンチマークを提案する。本ベンチマークは、効率性・拡張性・実用性に強く影響する(1)アテンションマスクパターンと、極端に長い文脈学習における性能を決定する(2)系列長と分散規模という二つの重要次元に沿って手法を評価する。最大96GPUクラスタでの包括的実験を通じて、本ベンチマークは再現可能な比較を実現し、手法固有のトレードオフを明らかにし、長文脈LLM学習におけるアテンション機構の設計と導入に対する実践的な指針を提供する。
複雑なタスクにおけるワークスペースでのチームワークには多様なコミュニケーション戦略が不可欠であるが、現在のマルチエージェントLLMシステムには、タスク指向型コミュニケーションの体系的なフレームワークが欠如している。本論文では、この課題を解決するスケーラブルなフレームワーク「Communication to Completion(C2C)」を提案する。C2Cは以下の2つの核心的革新により実現されている:(1)作業効率に直接影響するエージェントのタスク整合性を定量化する新規指標「アラインメント因子(AF)」、(2)段階的実行と智能的なコミュニケーション判断を統合する「逐次行動フレームワーク」である。C2Cはエージェントがコストを考慮したコミュニケーション選択を可能にし、焦点を絞った相互作用を通じてタスク理解を動的に改善する。現実的なコーディングワークフローを用い、複雑度3段階・チーム規模5~17エージェントで評価を実施し、非通信ベースライン及び固定ステップベースラインと比較した。結果としてC2Cは許容可能な通信コストでタスク完了時間を約40%短縮し、標準設定では全タスクを成功裏に完了させ、スケール時にも有効性を維持した。本フレームワークは、マルチエージェントシステムにおける通信効率測定の理論的基盤と、複雑協調タスクの実用的フレームワークの両方を確立するものである。
本論文では、階層型モデル・コンテクストプロトコル(MCP)エコシステムにおけるLLMエージェントのマルチホップかつエンドツーエンドのツールオーケストレーションを評価する大規模ベンチマーク、MSC-Benchを提案する。既存のベンチマークはツールを単体で評価することが多く、機能の重複やクロスサーバーオーケストレーションといった課題を無視しているため、評価が過度に楽観的になりがちである。MSC-Benchは、「同等機能セット」によるグラウンドトゥルースの構築を通じてこれらの課題に対処し、F1スコアなどの客観的指標を可能にし、評価手法としてのLLM依存度を低減する。5段階のカリキュラムで構成され、単一ツールのオーケストレーションから複雑なクロスサーバー計画、スコープ外リクエストへのロバスト性まで、エージェントの能力を体系的に試験する。実験により、共同設計された戦略なしでは硬直的な階層構造が性能を阻害すること、また、最先端のエージェントでさえロバスト性に体系的な弱点があることが明らかになった。MSC-Benchはこれらの限界を明らかにし、より高能力で効率的なツール利用エージェントの開発を導く診断フレームワークを提供する。ベンチマークと関連リソースはhttps://github.com/snooow1029/MSC_Bench で公開されている。
大規模言語モデル(LLM)は現在、数十万から数百万トークンに及ぶコンテキストウィンドウをサポートし、長文書要約、大規模コード合成、複数文書にわたる質問応答、持続的なマルチターン対話などの応用を可能にしている。しかし、このように拡張されたコンテキストは自己注意機構の二次コストを悪化させ、自己回帰的なデコードにおける深刻な遅延を引き起こす。既存のスパース注意メカニズムはこれらのコストを軽減するが、ヒューリスティックなパターンに依存しており、各クエリに対する重要なキー・バリューペアの呼び出しに課題を抱え、精度低下を招く。本論文では、長文コンテキスト推論向けに設計された軽量かつ高精度なスパース注意メカニズム「Adamas」を提案する。Adamasはアダマール変換、バケット化、2ビット圧縮を適用してコンパクトな表現を生成し、マンハッタン距離推定を活用した効率的なトップk選択を実現する。実験結果では、Adamasが64トークンの予算で完全な注意機構と同等の精度を達成し、128トークンではほぼロスレスの性能を発揮する。さらに、従来の最先端手法と比較して最大8倍のスパース性を実現し、32Kトークン長のシーケンスにおいて自己注意処理で最大4.4倍、エンドツーエンド処理で最大1.5倍の高速化を達成する。特筆すべきは、Adamasが完全な注意機構と同等あるいはそれ以下のパープレキシティを達成し、積極的なスパース化条件下でも精度維持の有効性を実証している点である。
様々な事前学習済み大規模言語モデルの登場以来、科学テキストからの構造化知識抽出は、従来の機械学習や自然言語処理技術と比べて革命的な変化を経験している。しかしながら、科学文献からの抽出結果を用いてユーザーがデータセットを構築・検証・可視化することを可能にする利用しやすい自動化ツールは、依然として不足している。そこで我々はComProScannerを開発した。これは、機械可読な化学組成と特性の抽出・検証・分類・可視化を促進する自律型マルチエージェントプラットフォームであり、包括的なデータベース作成のために論文からの合成データと統合されている。我々は、セラミック圧電材料と対応する圧電歪み係数(d33)に関連する高度に複雑な組成を抽出するために、100報の論文を用いて10種類のオープンソースおよびプロプライエタリモデルを含むLLMを比較評価した。これは、こうした材料に関する大規模データセットの不足に動機づけられたものである。DeepSeek-V3-0324は0.82の顕著な総合精度で全てのモデルを上回った。本フレームワークは、文献に埋もれた高度に複雑な実験データを抽出して機械学習や深層学習のデータセットを構築するための、シンプルでユーザーフレンドリーな即時利用可能なパッケージを提供する。
最近のプロービング研究により、大規模言語モデルには真偽の陳述を分離する線形部分空間が存在することが明らかになっているが、その発生メカニズムは未解明である。本研究では、このような真理部分空間をエンドツーエンドで再現し、その発生経路を具体的に示す透過的な1層トランスフォーマーのトイモデルを提案する。我々は、真理符号化が発生し得る単純な設定——事実陳述が他の事実陳述と共起(およびその逆)するデータ分布——を検討し、モデルが将来のトークンに対するLM損失を低減するためにこの区別を学習する過程を分析する。このパターンは事前学習済み言語モデルにおける実験でも実証される。最後に、トイ設定では2段階の学習ダイナミクスが観察される:ネットワークはまず数ステップで個々の事実連合を記憶し、その後より長い期間をかけて真偽の線形分離を学習する。これにより言語モデリング損失がさらに低減される。これらの結果は、言語モデルにおいて線形真理表現が如何にして、そして何故発生するのかについて、メカニズム的実証と経験的動機の両方を提供する。