翻訳付きの日次キュレーションされたAI研究論文
我々はMiroThinker v1.0を発表する。これはツール拡張推論と情報探索能力を進化させるために設計されたオープンソースの研究エージェントである。従来のエージェントがモデルサイズやコンテキスト長のスケールアップのみを追求してきたのに対し、MiroThinkerはモデルレベルでのインタラクションスケーリングを探求し、エージェントと環境のより深く頻繁な相互作用を体系的に処理するようモデルを訓練する、第三の性能向上次元を開拓する。長い推論連鎖で劣化リスクのあるLLMのテスト時スケーリングとは異なり、インタラクティブスケーリングは環境フィードバックと外部情報取得を活用して誤りを修正し軌道を洗練させる。強化学習を通じて、モデルは効率的なインタラクションスケーリングを実現:256Kのコンテキストウィンドウでタスクあたり最大600回のツール呼び出しが可能となり、持続的なマルチターン推論と複雑な実世界研究ワークフローを可能にする。4つの代表的なベンチマーク(GAIA、HLE、BrowseComp、BrowseComp-ZH)において、72Bバリアントはそれぞれ最大81.9%、37.7%、47.1%、55.6%の精度を達成し、従来のオープンソースエージェントを凌駕しGPT-5-highなどの商用モデルに迫る性能を示した。分析により、MiroThinkerがインタラクションスケーリングから一貫して利益を得ていることが明らかになった:モデルがより深く頻繁なエージェント-環境相互作用を行うにつれ、研究性能が予測可能に向上し、インタラクション深度がモデルサイズやコンテキスト長と同様のスケーリング挙動を示すことを実証する。これらの発見は、モデル能力とコンテキストウィンドウを補完する、次世代オープン研究エージェント構築のための第三の重要次元としてインタラクションスケーリングを確立する。
大規模言語モデル(LLM)は多様な領域で顕著な能力を発揮しているが、その学習には依然として多大なリソースと時間を要し、膨大な計算能力と学習手順の慎重な調整が要求される。モデルスープ(同一アーキテクチャの複数モデルの重みを平均化する手法)は、高価な再学習を必要とせずに性能を向上させることができる有望な事前・事後学習技術として登場した。本論文では、ベンチマーク構成を活用して最適なモデル候補を特定し、性能を最大化するために非一様重み付き平均化を適用する、原理に基づいたモデルスープ手法であるSoCE(Soup Of Category Experts)を提案する。従来の一様平均化アプローチとは異なり、本手法はベンチマークカテゴリー間でモデル性能の相互相関が低いという観察事実を利用する。SoCEは、弱相関のカテゴリー群それぞれに対して「エキスパート」モデルを特定し、一様重みではなく最適化された重み付き平均化によってそれらを結合する。提案手法が、多言語対応、ツール呼び出し、数学など複数領域にわたる性能とロバスト性を向上させ、Berkeley Function Calling Leaderboardにおいてstate-of-the-artの結果を達成することを実証する。
大規模言語モデル(LLMs)の最近の進展は、パズル解決から科学的推論のフロンティアへと移行し、その答えが単なる採点基準に適合するだけでなく、自然の法則に耐えうるような問題に取り組む能力を求められるようになった。物理学はこのシフトにおいて最も厳密なテストケースであり、記号と現実を根本的に結びつけることで、現代技術の基盤としての役割を果たしている。本研究では、特に物理オリンピックレベルの問題解決に優れた物理推論能力を持つ大規模言語モデルを開発し、物理学研究の進展に貢献する。我々は、強化学習(RL)を通じて完全に訓練されたオープンソースの物理推論モデルファミリーであるP1を紹介する。その中でも、P1-235B-A22Bは、最新の国際物理オリンピック(IPhO 2025)において金メダルレベルの性能を発揮する初のオープンソースモデルであり、2024/2025年の13の国際/地域物理コンテストのうち12個の金メダルを獲得した。また、P1-30B-A3BもIPhO 2025において他のほとんどのオープンソースモデルを上回り、銀メダルを獲得した。さらに、エージェントフレームワークであるPhysicsMinionsを搭載したP1-235B-A22B+PhysicsMinionsは、IPhO 2025で総合1位を達成し、13の物理コンテストにおける最高平均スコアを記録した。物理学以外の分野においても、P1モデルは数学やコーディングなどの推論タスクで優れた性能を示し、P1シリーズの高い汎用性を証明している。
私たちはライチファミリーからUni-MoE 2.0を発表します。完全オープンソースのオムニモーダル大規模モデル(OLM)として、言語中心のマルチモーダル理解・推論・生成において、LycheeのUni-MoEシリーズを大幅に進化させました。Qwen2.5-7Bの密なアーキテクチャを基盤とし、3つの核心的貢献を通じてUni-MoE-2.0-Omniを一から構築しました:動的容量Mixture-of-Experts(MoE)設計、反復的強化学習戦略で強化された段階的訓練戦略、そして注意深く選別されたマルチモーダルデータマッチング技術です。本モデルはオムニモーダル理解に加え、画像・テキスト・音声の生成が可能です。 アーキテクチャ面では、共有・ルーティング・ヌルエキスパートを活用した新MoEフレームワークが10種のクロスモーダル入力に対する計算効率と能力を両立し、Omni-Modality 3D RoPEが自己注意層における時空間的クロスモーダル調整を保証します。訓練プロセスでは、クロスモーダル事前学習後、モダリティ特化型エキスパートを活性化する段階的教師ありファインチューニング戦略を採用。均衡の取れたデータ構成と反復的GSPO-DPO手法により強化学習訓練を安定化し、推論能力を向上させました。 データ面では、約750億トークンのオープンソースマルチモーダルデータで訓練された基盤モデルに、特殊な音声・画像生成トークンを組み込むことで、言語情報を条件付けた生成タスクの学習を実現しています。85のベンチマークによる広範な評価により、当モデルが主要OLMに対してSOTAまたは高い競合性能を達成し、76ベンチマーク中50以上でQwen2.5-Omni(1.2兆トークンで訓練)を上回ることを実証しました。特に優れた点は、映像理解(8指標で平均+7%)、オムニモーダル理解(4指標で平均+7%)、音声視覚推論(+4%)です。長音声処理(WER4.2%改善)や、5指標にわたる低レベル画像処理・制御可能生成でも先進的な成果を示しています。
RGB点群と自然言語プロンプトを入力として、我々のモデルはパートレベルのバウンディングボックス、意味記述、編集コマンドを符号化した単一の首尾一貫したトークン列を自己回帰的に生成します。この構造化出力は、パートベースの生成と編集のための下流の形状認識モジュールを駆動する汎用インターフェースとして機能します。記号的計画と幾何学的合成を分離することで、任意の互換性のある形状エンジンを単一の言語ネイティブなフロントエンドで制御可能にします。構造と意味論を分離するデュアルエンコーダーアーキテクチャを事前学習し、大規模なパート中心データセットで命令チューニングを実施しました。実験により、本モデルが高品質な構造化計画の生成に優れ、接地されたQ&A、合成的生成、局所的な編集において最先端の性能を実現することが示されました。プロジェクトページ: https://chunshi.wang/Part-X-MLLM/
思考を伴う生成は複雑なタスクにおける性能向上を目指すが、既存の逐次的な自己回帰的アプローチでは、誤差伝播によって逆に性能が劣化するという重大な失敗モードが存在する。この問題を体系的に分析するため、テキストと画像の両方の出力モダリティを評価する新しいベンチマークであるParaBenchを提案する。ParaBenchを用いた分析により、この性能劣化が生成された推論と最終画像間の不適切なアライメントと強く相関していることが明らかとなった。この問題を解決するため、デノイジング軌道全体を通じてテキストと画像の連続的かつ双方向的な相互作用を可能にする並列マルチモーダル拡散フレームワーク、MMaDA-Parallelを提案する。MMaDA-Parallelは教師ありファインチューニングで学習された後、軌道に沿って意味的報酬を適用しクロスモーダル一貫性を強化する新規戦略であるParallel Reinforcement Learning (ParaRL) によってさらに最適化される。実験により、本モデルがクロスモーダルアライメントと意味的一貫性を大幅に改善し、最先端モデルであるBagelと比較してParaBenchのOutput Alignmentで6.9%の向上を達成し、思考を伴う画像合成のより堅牢なパラダイムを確立することを検証した。コードはhttps://github.com/tyfeld/MMaDA-Parallelで公開されている。
今日のノイズ除去拡散モデルは、従来の意味での「ノイズ除去」を行っているわけではありません。つまり、クリーンな画像を直接予測するわけではないのです。むしろ、ニューラルネットワークはノイズ、あるいはノイズが加わった量を予測します。本論文では、クリーンデータの予測とノイズが加わった量の予測は根本的に異なるものであると提案します。多様体仮説によれば、自然データは低次元多様体上に存在すべきであるのに対し、ノイズが加わった量はそうではありません。この仮説に基づき、我々はクリーンデータを直接予測するモデルを提唱します。このアプローチにより、一見すると容量不足と思われるネットワークが、非常に高次元の空間において効果的に動作することが可能になります。我々は、単純な大パッチサイズのピクセルベースのTransformerが、強力な生成モデルとなり得ることを示します:トークナイザーなし、事前学習なし、追加の損失関数なしで。我々のアプローチは概念的に、「ただの画像Transformer」、我々が「JiT」と呼ぶものに他なりません。ImageNetにおいて、256および512解像度で、パッチサイズ16および32のJiTを用いて競争力のある結果を報告します。この条件下では、高次元のノイズ付き量を予測する手法は壊滅的に失敗し得ます。我々のネットワークが多様体の基本に立ち返ってマッピングを行うことで、我々の研究も基本に立ち返り、生の自然データに対するTransformerベースの拡散モデルのための自己完結的なパラダイムを追求します。
大規模言語モデルは、RAGシステムの全体的な性能を向上させるリランカーとして強力な可能性を示している。しかし、既存のリランキング手法は、核心的な理論的・実践的ジレンマに制約されている。ポイントワイズ手法は単純で高い柔軟性を持つ一方、文書を独立に評価するため、文書間の相対的重要性を見落とす「ランキング近視の罠」に陥りやすい。対照的に、リストワイズ手法は大域的なランキング文脈を把握できるが、本質的な「リスト硬直性」を抱え、大規模候補集合を扱う際に深刻な拡張性と柔軟性の問題が生じる。これらの課題を解決するため、我々は新しいリランキングパラダイムであるGroupwiseを提案する。この手法では、クエリと候補文書群をモデルに同時に入力し、グループ内比較を通じて各文書に個別の関連性スコアを付与する。この設計は、ポイントワイズ手法の柔軟性を維持しつつ、リストワイズ手法の比較能力を可能にする。モデル訓練にはGRPOを採用し、ランキング指標とグループ間のスコア分布調整を目的とした分布報酬を統合した異種報酬関数を装備する。高品質なラベル付きデータの不足によるボトルネックを克服するため、高品質な検索・ランキングデータを合成する革新的なパイプラインをさらに提案する。生成されたデータは、リランカーの訓練だけでなく、リトリーバーの訓練にも活用可能である。大規模な実験により、我々の手法の有効性が検証された。推論集約型検索ベンチマークであるBRIGHTとR2MEDにおける評価結果を報告する。
3Dモデリングは、静的な視覚的表現から、シミュレーションやインタラクションに直接活用可能な物理的で関節構造を持つアセットへと移行しつつある。しかし、既存の3D生成手法の多くは、重要な物理特性や関節特性を見落としており、具体化AIにおける実用性を制限している。この課題を解決するため、我々はPhysX-Anythingを提案する。これは単一の実世界画像を入力として、明示的な形状・関節構造・物理属性を備えた高品質なシミュレーション対応3Dアセットを生成する、初のシミュレーション対応物理3D生成フレームワークである。具体的には、VLMベースの初の物理3D生成モデルに加え、形状を効率的にトークン化する新たな3D表現を開発した。これによりトークン数を193分の1に削減し、ファインチューニング時に特殊トークンを追加することなく標準的なVLMのトークン予算内で明示的な形状学習を可能とし、生成品質を大幅に向上させている。さらに、既存の物理3Dデータセットの多様性不足を克服するため、従来の物理3Dデータセットの物体カテゴリ数を2倍以上拡張し、2,000点以上の実世界オブジェクトに豊富な物理注釈を付与した新データセットPhysX-Mobilityを構築した。PhysX-Mobilityおよび実世界画像を用いた大規模実験により、PhysX-Anythingが優れた生成性能と堅牢な一般化能力を発揮することを実証した。さらにMuJoCoスタイル環境でのシミュレーション実験により、本手法で生成されたアセットが接触を多用するロボティクス方策学習に直接活用可能であることを検証した。PhysX-Anythingは、特に具体化AIおよび物理ベースシミュレーションにおける幅広い下流応用を大幅に強化できると確信している。
動画生成モデルの急速な進化により、その焦点は視覚的に妥当な出力の生成から、物理的な妥当性と論理的一貫性を必要とする課題への対応へと移行している。しかし、Veo 3の連鎖的フレーム推論のような近年の飛躍的進歩にもかかわらず、これらのモデルが大規模言語モデル(LLM)と同様の推論能力を示すことができるかどうかは依然として不明である。既存のベンチマークは主に視覚的忠実度と時間的一貫性を評価するものであり、高次元の推論能力を捉えられていない。このギャップを埋めるため、我々は画像から動画への生成モデルの推論能力を評価するために特別に設計された階層的ベンチマーク「TiViBench」を提案する。TiViBenchは、i) 構造的推論と探索、ii) 空間的・視覚的パターン推論、iii) 記号的・論理的推論、iv) 行動計画とタスク実行という4次元にわたる推論を、3つの難易度レベルにまたがる24の多様なタスクシナリオで体系的に評価する。大規模な評価を通じて、商用モデル(Sora 2、Veo 3.1など)はより強力な推論の潜在能力を示す一方、オープンソースモデルは、限られた訓練規模とデータ多様性によって阻害された未開拓の潜在能力を明らかにしている。この潜在能力をさらに解放するため、我々は選好最適化に着想を得た、単純ながら効果的なテスト時戦略「VideoTPO」を導入する。VideoTPOは、生成された候補に対してLLM自己分析を実行し、強みと弱みを特定することで、追加の訓練、データ、または報酬モデルを必要とせずに推論性能を大幅に向上させる。TiViBenchとVideoTPOは共に、動画生成モデルにおける推論の評価と進歩への道を開き、この新興分野における将来の研究の基盤を築くものである。
大規模言語モデル(LLM)向けの自動レッドチーミングフレームワークは高度化が進んでいるが、根本的な限界を共有している。既存の攻撃戦略を選択・結合・改良するというジャイブレック(脱獄)ロジックに閉じ込められており、自律的に全く新しい攻撃手法を創出できない。この課題を克服するため、我々は攻撃計画から進化的合成へのパラダイム転換を図る自律フレームワーク「EvoSynth」を提案する。EvoSynthはプロンプトの改良ではなく、マルチエージェントシステムを用いてコードベースの新しい攻撃アルゴリズムを自律的に設計・進化・実行する。特に重要なのはコードレベルでの自己修正ループであり、失敗に応じて攻撃ロジックを反復的に書き換えることができる。大規模な実験を通じて、EvoSynthがClaude-Sonnet-4.5のような堅牢なモデルに対して85.5%という新たな最高水準の攻撃成功率(ASR)を達成するだけでなく、既存手法よりもはるかに多様な攻撃を生成することを実証した。本フレームワークを公開し、ジャイブレック手法の進化的合成という新たな研究方向の促進を図る。コードは以下で公開されている:https://github.com/dongdongunique/EvoSynth
大規模言語モデル(LLM)を中核とするエージェントは、デジタルデバイスを受動的なツールから能動的な知的協働者へと変革しつつある。しかし、既存のフレームワークの多くは単一のOSやデバイスに閉じたままであり、デバイスを跨ぐワークフローは脆弱で、その大部分が手動操作に依存している。本論文では、異種エンドポイント(デスクトップ、サーバー、モバイルデバイス、エッジ端末)を単一のオーケストレーション基盤に統合するシステム、UFO^3を提案する。UFO^3は各ユーザー要求を可変的なTaskConstellationとしてモデル化する。これは、明示的な制御およびデータ依存関係(TaskStarLines)を持つ原子サブタスク(TaskStars)の分散DAG(有向非循環グラフ)である。TaskConstellationは、分散デバイスから結果がストリーミングされると継続的に進化し、非同期実行、適応的リカバリ、動的最適化を可能にする。Constellation Orchestratorは、動的DAG更新を適用しながらタスクを安全かつ非同期に実行し、Agent Interaction Protocol(AIP)は、信頼性の高いタスクディスパッチと結果ストリーミングのための永続的かつ低遅延のチャネルを提供する。これらの設計は、デバイスとプラットフォーム間の従来の境界を解消し、エージェントがシームレスに協調して集合知を増幅することを可能にする。 我々は、5台のマシンと10カテゴリにわたる55のクロスデバイスタスクからなるベンチマークNebulaBenchを用いてUFO^3を評価した。UFO^3は、サブタスク完了率83.3%、タスク成功率70.9%を達成し、平均幅1.72の並列性を実現するとともに、逐次実行ベースラインと比較してエンドツーエンドのレイテンシを31%削減した。フォルトインジェクション実験では、一時的および恒久的なエージェント障害下でも、優雅な性能低下と回復を示した。これらの結果は、UFO^3が異種デバイスに跨る正確で効率的、かつ耐障害性のあるタスクオーケストレーションを実現し、分断されたエージェントをユビキタスコンピューティング環境全体に拡張された一貫性と適応性を備えた計算基盤へと統合することを示している。
視覚-言語-行動(VLA)モデルは、様々な具体化タスクにおいて有望な性能を示しているが、特に異なる身体構造や実世界環境に展開する場合、信頼性と汎化性能において未だ課題を残している。本研究では、事前学習済みNORAバックボーンにフローマッチングに基づく行動エキスパートを追加したVLAモデル、NORA-1.5を提案する。このアーキテクチャ強化のみで大幅な性能向上が達成され、NORA-1.5はシミュレーションと実世界の両方のベンチマークにおいて、NORAおよびいくつかの最先端VLAモデルを凌駕する。堅牢性とタスク成功率をさらに向上させるため、VLAポリシーのポストトレーニング用に一連の報酬モデルを開発した。我々の報酬は、(i) 生成された行動が所望の目標に向かうかどうかを評価する行動条件付き世界モデル(WM)と、(ii) 良好な行動と不良な行動を区別する地面真実からの逸脱ヒューリスティックを組み合わせたものである。これらの報酬信号を用いて選好データセットを構築し、直接選好最適化(DPO)を通じてNORA-1.5を対象の身体構造に適応させる。大規模な評価により、報駆動型ポストトレーニングがシミュレーションと実ロボット環境の両方で一貫して性能を向上させ、シンプルかつ効果的な報酬モデルを通じてVLAモデルの信頼性が大幅に向上することを実証した。我々の知見は、NORA-1.5と報酬誘導型ポストトレーニングが、実世界展開に適したより信頼性の高い具体化エージェントへの有効な道筋であることを示唆している。
Segment Anything Model(SAM)ファミリーは広く採用されている視覚基盤モデルとなったが、セグメンテーションの粒度制御能力には依然として限界がある。ユーザーは所望の詳細度を達成するために、より多くのプロンプトを追加したり、事前生成されたマスクから選択したりする手作業による結果の調整を必要とすることが多い。同一のプロンプトが複数の妥当なマスクに対応し得るため、このプロセスは曖昧になりがちであり、全粒度にわたる密なアノテーション収集は非現実的なコストがかかるため、教師ありソリューションは実現不可能である。この課題を解決するため、我々は人的アノテーションを必要とせず任意の粒度でのセグメンテーションを可能にするUnSAMv2を提案する。UnSAMv2は、豊富なマスク・粒度ペアを発見し、セグメンテーションスケールを精密かつ連続的に制御可能な新規の粒度制御埋め込みを導入することで、UnSAMの分割統治戦略を拡張する。驚くべきことに、6K枚の未ラベル画像と0.02%の追加パラメータのみで、UnSAMv2はSAM-2を大幅に強化し、対話的セグメンテーション・画像全体セグメンテーション・動画セグメンテーションの各タスクにわたって任意の粒度でのセグメンテーションを実現する。11以上のベンチマークで評価した結果、UnSAMv2はNoC_{90}(5.69→4.75)、1-IoU(58.0→73.1)、AR_{1000}(49.6→68.3)を改善し、少量の未ラベルデータと粒度を考慮した自己教師あり学習手法によって視覚基盤モデルの潜在能力を解放できることを示した。
マルチモーダルLLMを搭載したエージェントは、最近、ウェブナビゲーションにおいて印象的な能力を示し、多様な領域にわたる複雑なブラウジングタスクの遂行を可能にしている。しかし、現在のエージェントは繰り返し発生するエラーに悩まされ、セッションを越えた過去の経験から学習する能力を欠いており、長期的なロバスト性とサンプル効率が制限されている。本論文では、WebCoachを提案する。これはモデルに依存しない自己進化型フレームワークであり、ウェブブラウジングエージェントに永続的なクロスセッションメモリを装備させることで、再学習なしに、改善された長期的計画、振り返り、継続的学習を可能にする。WebCoachは3つの主要コンポーネントで構成される:(1) 生のナビゲーションログを簡潔な要約に標準化するWebCondenser、(2) 完全な軌跡をエピソード的経験として整理する外部メモリストア、(3) 類似性と新しさに基づいて関連する経験を検索し、ランタイムフックを介してエージェントにタスク固有のアドバイスを注入するかどうかを判断するCoachである。この設計により、ウェブエージェントは自身の本来のコンテキストウィンドウを超えた長期的メモリにアクセス可能となり、複雑なブラウジングタスクにおけるロバスト性が向上する。さらに、WebCoachは新しいナビゲーション軌跡からエピソード記憶を継続的に構築することで自己進化を達成し、エージェントが再学習なしに時間とともに改善されることを可能にする。WebVoyagerベンチマークによる評価では、WebCoachが3つの異なるLLMバックボーンを用いたブラウザ利用エージェントの性能を一貫して向上させることが実証された。38Bモデルでは、タスク成功率を47%から61%に向上させるとともに、平均ステップ数を減少または維持した。特筆すべきは、WebCoachを組み込んだより小規模なベースモデルが、GPT-4oを使用する同じウェブエージェントと同等の性能を達成した点である。
地球観測データは、画像のように空間的であり、動画やテキストのように時系列的であり、さらに高度にマルチモーダルであるという独特の課題を提示します。本論文では、地球観測領域に特化して設計された、新規の自己教師あり学習の定式化、マスキング戦略、損失関数を採用したマルチモーダル時空間基盤モデル「OlmoEarth」を提案します。OlmoEarthは、様々な研究ベンチマークおよび外部パートナーによる実世界タスクにおいて、他の12の基盤モデルと比較して最先端の性能を達成しました。埋め込み表現の評価では、24のタスク中15タスクで最高の性能を達成し、フルファインチューニングでは29のタスク中19タスクで最高となりました。我々はOlmoEarthを、地球観測モデルのためのデータ収集、ラベリング、学習、推論をエンドツーエンドで行うプラットフォームの基盤として展開しています。OlmoEarthプラットフォームは、世界の最も深刻な問題の解決に取り組む非営利団体やNGOに、最先端の基盤モデルと強力なデータ管理ツールを提供します。OlmoEarthのソースコード、学習データ、事前学習済み重みはhttps://github.com/allenai/olmoearth_pretrain で公開されています。
大規模言語モデル(LLM)は、ソフトウェア工学を含むほぼすべての産業を再構築しつつある。近年、現実世界のソフトウェア問題を解決するために、数多くのLLMエージェントが提案されてきた。このようなソフトウェアエージェントは通常、一連のコーディングツールを装備し、自律的に次のアクションを決定して完全な軌跡を形成し、エンドツーエンドのソフトウェアタスクを解決することができる。有望ではあるものの、エージェントのスキャフォールド設計空間全体を網羅することは極めて困難でコストがかかるため、これらは通常、専用の設計を必要とし、依然として最適ではない可能性がある。ソフトウェエージェントが本質的にさらに改良/修正可能なソフトウェアそのものであることを認識し、研究者らは最近、Darwin-Gödel Machine(DGM)を含む、数多くの自己改善型ソフトウェアエージェントを提案している。一方、このような自己改善型エージェントは、特定のベンチマークでの高コストなオフライントレーニングを必要とし、異なるLLMやベンチマーク間で十分に汎化しない可能性がある。本論文では、現実世界のソフトウェア問題を解決する際に、実行時に自律的かつ継続的に自己を進化させることができる、初のライブソフトウェアエージェントであるLive-SWE-agentを提案する。具体的には、Live-SWE-agentは、bashツールへのアクセスのみを備えた最も基本的なエージェントスキャフォールド(例:mini-SWE-agent)から開始し、現実世界のソフトウェア問題を解決しながら自身のスキャフォールド実装を自律的に進化させる。広く研究されているSWE-bench Verifiedベンチマークによる評価では、Live-SWE-agentがテスト時のスケーリングなしで75.4%という印象的な解決率を達成し、既存のすべてのオープンソースソフトウェアエージェントを上回り、最高のプロプライエタリソリューションの性能に迫ることを示している。さらに、Live-SWE-agentは、最近のSWE-Bench Proベンチマークにおいて、人手で精巧に作られた最先端のソフトウェアエージェントを上回り、既知最高の解決率である45.8%を達成した。
インコンテクスト学習(ICL)――すなわち、モデルが入力内に提供された事例から抽象的なパターンを推論し適用する能力――は、人間のテキストに対する次トークン予測で訓練された大規模言語モデルにおいて広く研究されてきた。実際、従来の研究では、この創発的振る舞いはしばしば人間の言語に特有の統計的特性に帰因されるとされる。これは根本的な疑問を提起する:ICLは、他の系列領域においても、大規模な予測訓練のみを通じて有機的に出現しうるのか? この疑問を探るため、我々は統計的構造に富む別の記号的領域であるゲノム配列に着目する。具体的には、中規模のLLMに匹敵する規模で、主に次ヌクレオチド(A/T/C/G)予測により訓練されたゲノムモデル「Evo2」を研究対象とする。我々は、言語的形態とゲノム的形態の両方で具体化された記号的推論タスクからなる制御実験フレームワークを開発し、ゲノムモデルと言語モデル間でのICLの直接比較を可能にした。その結果、ゲノムモデルは言語モデルと同様に、インコンテクストで提示する事例数が増加するにつれて、パターン誘導の性能が対数線形的に向上することを示した。我々の知る限り、これはゲノム配列において有機的に創発したICLの初めての証拠であり、ICLが豊富なデータに対する大規模な予測モデリングの帰結として出現するという仮説を支持する。これらの発見は、創発的メタ学習を言語の枠を超えて拡張し、モダリティに依存しない統一的なインコンテクスト学習の視点を示唆するものである。
大規模言語モデル(LLM)は知識グラフ質問応答(KGQA)を大きく進展させたが、既存システムは一般的に、関連性が高く予測可能な回答を返すように最適化されている。現在不足しているが望まれる能力は、LLMを活用して驚きと新規性に富む(「セレンディピティな」)回答を提案することである。本論文では、セレンディピティを考慮したKGQAタスクを正式に定義し、科学的KGQAタスクにおいてLLMが予期せぬ知見を発見する能力を評価するためのSerenQAフレームワークを提案する。SerenQAは、関連性、新規性、驚きに基づく厳密なセレンディピティ指標と、臨床知識グラフから抽出した医薬品再目的化に焦点を当てた専門家による注釈付きベンチマークを含む。さらに、知識検索、部分グラフ推論、セレンディピティ探索の3つのサブタスクから構成される構造化評価パイプラインを特徴とする。実験結果から、最先端のLLMは検索タスクでは良好な性能を示すものの、真に驚きと価値のある発見を特定するには依然として課題があり、将来の改善の余地が大きいことが明らかとなった。構築したリソースと詳細版は以下で公開している:https://cwru-db-group.github.io/serenQA。
Vision-Language Models (VLMs) はゼロショット推論に優れるが、テスト時のドメインシフト下では性能が低下しがちである。このため、単一のラベルなし画像にVLMsを適応させる手法として、エピソード型テスト時適応戦略が最近有力な技術として登場している。しかし、テスト時プロンプトチューニングなどの既存の適応戦略は、一般的に大規模なエンコーダーの重みを通した誤差逆伝播や、コアモデルコンポーネントの変更を必要とする。本研究では、Spectrum-Aware Test-Time Steering (STS) を提案する。これは、テキスト埋め込みからスペクトル部分空間を抽出して主要な意味方向を定義し、拡張ビュー間のエントロピーを最小化するためにサンプル毎の少数のシフトパラメータを適応させることで、潜在表現をスペクトルを考慮した方法で制御する軽量な適応フレームワークである。STSは推論時に潜在空間において完全に動作し、凍結されたエンコーダーを通した誤差逆伝播や変更を一切必要としない。標準的な評価プロトコルに基づく総合的な実験により、STSが既存の最先端テスト時適応手法を大きく上回る、または同等以上の性能を発揮する一方で、追加パラメータはごく少数であり、従来のテスト時プロンプトチューニングと比較して推論速度は最大8倍、メモリフットプリントは12分の1に抑えられることを実証する。コードは https://github.com/kdafnis/STS で公開されている。
マルチモーダル大規模言語モデルは生体医学画像分野への応用が進んでいるが、顕微鏡画像における科学的推論は、大規模で高品質な訓練データの不足によって制限されている。本研究では、BIOMEMORICAアーカイブから構築した3段階構成の大規模高品質顕微鏡画像VQAコーパス「MicroVQA++」を提案する。第1段階では、査読付き論文から収集した専門家検証済みの図版-キャプションペアから教師信号をブートストラップする。第2段階では、画像・キャプション・QAをノードとする新規異種グラフ「HiCQA-Graph」を適用し、NLIベースのテキスト含意関係、CLIPベースの視覚言語アライメント、エージェント信号を融合することで、不整合サンプルの特定とフィルタリングを行う。第3段階では、マルチモーダル大規模言語モデル(MLLM)エージェントを用いて多肢選択問題(MCQ)を生成後、人手によるスクリーニングを実施する。最終リリースでは、大規模な訓練用分割と人手チェック済みのテスト用分割を提供し、そのブルーム分類水準に基づく難問分布はMicroVQAベンチマークを上回る。本成果は以下を含む:(i)専門家による文献データとグラフベースフィルタリング・人手精選を結合した品質管理データセット、(ii)画像・キャプション・QAのクロスモーダル整合性フィルタリングを共同モデル化する初のグラフ構造であるHiCQA-Graph、(iii)注意深いデータ構築により4B規模MLLMが競合的な顕微鏡推論性能(例:GPT-5)を達成し、オープンソースMLLMの中で最先端性能を実現する実証。コードとデータセットは査読終了後に公開予定。
大規模言語モデル(LLM)は多様なタスクで顕著な性能を示しているが、高精度モデルの大半はクローズドソースまたは部分的オープンに留まっており、透明性と再現性が制限されている。本論文では、完全オープンな30億パラメータ言語モデルファミリー「Instella」を提案する。本モデルは全て公開データとコードベースで学習され、AMD Instinct MI300X GPUを活用した大規模事前学習、汎用指示チューニング、人間の選好に基づくアライメントを経て開発された。多くの同時期モデルよりも事前学習トークン数が大幅に少ないにも関わらず、Instellaは完全オープンモデルの中で最高水準の性能を達成し、同規模の主要オープンウェイトモデルと競合する。さらに二つの専門特化版も公開する:128Kトークンまでの文脈長を扱えるInstella-Longと、数学タスクに対する教師ありファインチューニングと強化学習により推論能力を強化したInstella-Mathである。これらの貢献により、Instellaは透明性・高性能・多機能性を備えたコミュニティ向け代替案として位置づけられ、オープンで再現性のある言語モデリング研究の推進に寄与する。
マルチモーダル大規模言語モデル(MLLM)は、印象的な推論能力と指示追従能力を示しているが、拡張されたモダリティ空間は、複雑なテキスト-画像相互作用から生じる新たな合成的安全性リスクを導入する。このようなクロスモーダル結合は、個々の入力が無害であっても安全でない意味を生成する可能性があり、現在のMLLMの脆弱な安全性認識を露呈する。最近の研究は潜在リスクについて推論するようモデルを導くことで安全性を強化しているが、規制されていない推論痕跡はアライメントを損なう可能性がある。Group Relative Policy Optimization(GRPO)は人間の監督なしで自己報酬型の改良を提供するが、推論の安全性に関する検証可能な信号を欠いている。この問題に対処するため、我々はルールに基づく報酬構築をGRPOに統合し、推論安全性の解釈可能かつ検証可能な最適化を可能にする自己報酬型マルチモーダル安全性アライメントフレームワークであるSafeGRPOを提案する。明示的な視覚的、テキスト的、および複合的な安全性タグを付与した構築済みデータセットSafeTag-VL-3Kに基づき、SafeGRPOは段階的に導かれる安全性思考を実行して構造化推論と行動アライメントを強化し、一般的な能力を犠牲にすることなく、多様なベンチマークにおいてマルチモーダル安全性認識、合成的ロバスト性、および推論安定性を大幅に改善する。
近年、異なるモダリティ間における表現のアライメントが、多様なデータタイプにわたるエンコーダーの構造的類似性や下流タスク性能に関する知見をもたらすことが示されている。画像とテキストのアライメントでは大きな進展が見られる一方で、ビデオデータの時間的性質に着目した研究はほとんど行われていない。本研究では、現代のビデオ・言語エンコーダーの能力を探るため、ビデオとテキストの表現アライメントに関する初の包括的調査を実施する。実験結果からいくつかの重要な知見が得られた。第一に、クロスモーダルアライメントは、特に最先端のビデオエンコーダーを使用する場合、テスト時に提供される視覚データ(静止画 vs 複数フレームのビデオ)とテキストデータ(単一キャプション vs コレクション)の豊富さに強く依存することを示す。この挙動を捉えるパラメトリックなテスト時スケーリング則を提案し、実測値に対して顕著な予測精度を示す。第二に、意味的アライメントと、意味的・非意味的下流タスクの性能相関を調査し、テキストエンコーダーに対する強力なアライメントが汎用的なビデオ表現・理解能力と関連する可能性を示唆する証拠を提示する。最後に、時間推論とクロスモーダルアライメントの相関を分析し、視覚言語モデルに対する挑戦的な評価基盤を提供する。総じて本研究は、時空間データに対する様々なエンコーダーの表現力を探る情報豊富なゼロショット手法として、ビデオ-テキストアライメントを初めて導入するものである。プロジェクトページはhttps://video-prh.github.io/で公開されている。
大規模言語モデル(LLM)が複雑なソフトウェア開発タスクを実行できる高度な自律エージェントへと進化するにつれ、その実世界での能力を評価することが極めて重要となっている。既存のベンチマークであるLoCoBench~qiu2025locobenchは長文脈のコード理解を評価するが、シングルターンの評価に焦点を当てており、実世界のコーディングエージェントに必要とされる、マルチターンの対話的性質、ツール利用パターン、適応的推論を捉えることができない。本研究では、現実的な長文脈のソフトウェアエンジニアリングワークフローにおいて、LLMエージェントを評価するために特別に設計された包括的評価フレームワーク「LoCoBench-Agent」を提案する。本フレームワークは、LoCoBenchの8,000シナリオを対話型エージェント環境へ拡張し、長時間の開発セッションにおけるマルチターン会話、ツール利用効率、エラー回復、アーキテクチャ一貫性の系統的な評価を可能にする。さらに、理解度と効率性の次元にわたる9つの指標からなる評価手法も導入する。本フレームワークは、8つの専門ツール(ファイル操作、検索、コード分析)をエージェントに提供し、10Kトークンから1Mトークンにわたる文脈長で評価を行うことで、長文脈性能を精緻に評価する。最先端モデルの系統的評価を通じて、いくつかの重要な知見を得た:(1)エージェントは顕著な長文脈ロバスト性を示す;(2)理解度と効率性の間には負の相関があるトレードオフ関係が存在し、徹底的な探索は理解度を高めるが効率性を低下させる;(3)会話効率はモデル間で劇的に異なり、戦略的なツール利用パターンが高性能エージェントを特徴づける。ソフトウェアエンジニアリングにおける初の長文脈LLMエージェントベンチマークとして、LoCoBench-Agentは、エージェント能力の測定、性能ギャップの特定、大規模な自律的ソフトウェア開発の推進に向けた厳密な基盤を確立する。
目的駆動型説得対話は、テレマーケティングなどの応用に代表されるが、高度なマルチターン計画と厳密な事実正確性が要求され、これは最先端の大規模言語モデル(LLM)にとっても重大な課題である。従来研究はタスク特化データの不足に制限され、LLMの直接応用は戦略的脆弱性や事実に関する虚構生成(ハルシネーション)の問題を抱える。本論文ではまず、この領域初の実世界に基づく対話データセットであるTeleSalesCorpusを構築し公開する。次に、新規フレームワークAI-Salesmanを提案する。これは二段階アーキテクチャを特徴とし、訓練段階では、ノイズの多い対話からロバストな販売戦略を学習するベイズ監督強化学習アルゴリズムを設計する。推論段階では、事前構築されたスクリプトライブラリを活用し、ターン単位の動的战略ガイダンスを提供するDynamic Outline-Guided Agent(DOGA)を導入する。さらに、主要販売スキルに対する細粒度指標とLLM-as-a-Judgeパラダイムを組み合わせた総合評価フレームワークを設計する。実験結果から、提案するAI-Salesmanが自動評価指標および総合的な人間評価の両方においてベースラインモデルを大幅に上回り、複雑な説得シナリオにおける有効性が実証された。
既存の検索拡張生成(RAG)システムは、通常、集中型アーキテクチャを採用している。これにより、データ収集・統合・管理のコストが高くなるだけでなく、プライバシー上の懸念も生じている。データ提供元が完全な管理権限を維持したまま、基盤モデルが直接情報を活用できる分散型RAGシステムが強く求められている。しかし、分散化には課題がある。多数の独立したデータソースは信頼性が大きく異なり、検索精度や応答品質の低下を招く可能性がある。この問題に対処するため、我々の分散型RAGシステムは、応答生成への貢献度に基づいて各ソースの信頼性を動的に評価し、検索時に高品質なソースを優先する新たな信頼性スコアリング機構を備えている。透明性と信頼性を確保するため、スコアリングプロセスはブロックチェーン基盤のスマートコントラクトにより安全に管理され、中央機関に依存することなく検証可能で改ざん防止された信頼性記録を生成する。我々は2つのLlamaモデル(3Bおよび8B)を用い、6つのデータソースが異なる信頼性レベルを持つ2種類のシミュレーション環境で分散型システムを評価した。本システムは、実世界に近い信頼性の低いデータ環境において、集中型システムを10.7%上回る性能向上を達成した。特に、理想的な信頼性のデータ環境下では、集中型システムの上限性能に迫る結果を示した。分散型インフラは安全で信頼性の高いスコアリング管理を実現し、バッチ更新処理により約56%の限界コスト削減を達成している。コードとシステムはgithub.com/yining610/Reliable-dRAGで公開している。
超音波(US)は、その低コスト、携帯性、リアルタイム性、および電離放射線の不使用から、最も広く利用されている医用画像モダリティの一つである。しかし、超音波画像の解釈は依然として操作者への依存度が高く、解剖学的部位、撮影プロトコル、装置タイプによって大きく異なる。これらのばらつきに加え、スペックルノイズ、低コントラスト、標準化された注釈の不足といった特有の課題が、汎用性が高くラベル効率の良い超音波AIモデルの開発を妨げている。本論文では、大規模な公開データに基づき初めての再現性のあるオープンソースの超音波基盤モデルであるOpenUSを提案する。OpenUSは視覚Mambaバックボーンを採用し、画像全体の局所的および大域的な長距離依存関係を捕捉する。事前学習において豊富な特徴を抽出するため、対照学習とマスク画像モデリングを組み合わせた新しい自己適応型マスキングフレームワークを導入する。この戦略は教師の注意マップと生徒の再構成損失を統合し、臨床的に関連性の高いマスキングを適応的に洗練することで、事前学習の効果を高める。OpenUSはまた、動的学習スケジュールを適用し、事前学習プロセスの難易度を段階的に調整する。基盤モデルを構築するため、42の公開データセットから30万8千点以上の画像から成る、これまでで最大の公開超音波データセットを構築した。これには多様な解剖学的部位、施設、画像装置、疾患タイプが含まれる。事前学習済みのOpenUSモデルは、ラベル効率の良いファインチューニングのバックボーンとして機能させることで、特定の下流タスクに容易に適応可能である。コードはhttps://github.com/XZheng0427/OpenUS で公開されている。