翻訳付きの日次キュレーションされたAI研究論文
LLMに付けられる「エンドツーエンド」というラベルは誤称である。実際には、それらは非微分可能なデコードプロセスに依存しており、温度やtop-pのようなハイパーパラメータの煩雑な手動調整を必要とする。本論文では、真に「エンドツーエンド」な生成を可能にする新規アーキテクチャであるAutoDecoを提案する。AutoDecoは、標準的なトランスフォーマーに軽量なヘッドを追加し、各ステップで次のトークンの対数尤度とともに、文脈に応じた温度とtop-pの値を動的に予測する。このアプローチにより、デコーディングをパラメトリックなトークンレベルのプロセスへと変換し、モデルが単一のフォワードパス内で自身のサンプリング戦略を自己調整できるようにする。 8つのベンチマークを用いた広範な実験を通じて、AutoDecoが単にデフォルトのデコード戦略を大幅に上回るだけでなく、「テストセットをハッキングする」ことで得られる実用的な上限値であるオラクル調整ベースラインに匹敵する性能を達成することを実証した。決定的には、指示に基づくデコード制御という創発的な能力を発見した。モデルは自然言語の命令(例:「低いランダム性で生成せよ」)を解釈して学習し、トークン単位で予測される温度とtop-pを調整する。これは、ステアラブルで対話的なLLMデコーディングの新たなパラダイムを開くものである。
我々は、ハイブリッド線形アテンションアーキテクチャ「Kimi Linear」を提案する。本アーキテクチャは、短コンテキスト・長コンテキスト・強化学習(RL)のスケーリング体制など様々なシナリオにおける公平な比較において、初めて完全アテンションを性能で上回る成果を達成した。その中核には、Kimi Delta Attention(KDA)と呼ばれる表現力豊かな線形アテンションモジュールが位置する。KDAはGated DeltaNetを拡張し、より細粒度なゲーティング機構を備えることで、限られた有限状態RNNメモリをより効果的に活用する。また、我々が独自に設計したチャンク単位のアルゴリズムは、対角プラス低ランク(DPLR)遷移行列の特殊化された変種を採用し、一般的なDPLR定式化と比較して計算量を大幅に削減しつつ、古典的なデルタ則との整合性を高め、高いハードウェア効率を実現している。 我々は、KDAとMulti-Head Latent Attention(MLA)を層ごとにハイブリッド化した、活性化パラメータ3B・総パラメータ48B規模のKimi Linearモデルを事前学習した。実験結果によれば、同一の訓練レシピを用いた場合、Kimi Linearは評価対象の全タスクにおいて完全なMLAを大幅に上回る性能を示し、KVキャッシュ使用量を最大75%削減、さらに100万トークンのコンテキスト長において最大6倍のデコードスループットを達成した。これらの結果は、Kimi Linearが、より長い入出力長を要するタスクを含め、性能と効率の両面で優れ、完全アテンションアーキテクチャの代替としてそのまま利用可能であることを実証している。 今後の研究発展を支援するため、我々はKDAカーネルおよびvLLM実装をオープンソースとして公開し、事前学習済み及び指示チューニング済みのモデルチェックポイントをリリースする。
我々は、視覚と言語にわたる次の状態をネイティブに予測する大規模マルチモーダル世界モデル「Emu3.5」を提案する。Emu3.5は、主にインターネット動画の連続フレームとトランスクリプトからなる10兆トークン超の視覚-言語交互データコーパスに対し、統一された次トークン予測目標でエンドツーエンド事前学習されている。本モデルは視覚と言語が交互に入力されるデータを自然に受け入れ、交互出力を生成する。さらに大規模強化学習による事後学習により、マルチモーダル推論と生成能力を強化している。推論効率向上のため、我々は離散拡散適応(DiDA)を提案し、トークン単位の逐次デコードを双方向並列予測に変換することで、性能を損なわずに画像単位の推論速度を約20倍に加速した。Emu3.5は、長期視覚-言語生成、任意入力から画像生成(X2I)、複雑な文字情報を含む画像生成など、強力なネイティブマルチモーダル能力を示す。また一般化可能な世界モデリング能力を有し、多様なシナリオやタスクにおいて時空間的一貫性のある世界探索やオープンワールドでの具身操作を実現する。比較実験では、画像生成・編集タスクにおいてGemini 2.5 Flash Image(Nano Banana)に匹敵する性能を達成し、一連の交互生成タスクでは優れた結果を示した。コミュニティ研究を支援するため、Emu3.5をhttps://github.com/baaivision/Emu3.5 でオープンソース化する。
OpenAIのChatGPT Atlasは、ウェブインタラクションの新機能を導入し、モデルがウェブページを分析し、ユーザーの意図を処理し、ブラウザ内で直接カーソルおよびキーボード入力を実行できるようにしました。情報検索タスクにおける能力は実証されているものの、動的で対話的な環境でのパフォーマンスは未だ十分に検証されていません。本研究では、ブラウザベースのゲーム(GoogleのT-Rex Runner、数独、Flappy Bird、Stein.worldなど)をテストシナリオとして用い、Atlasのウェブインタラクション能力に関する初期評価を実施します。ゲーム内のパフォーマンススコアを定量的指標として活用し、異なるタスク種別間でのパフォーマンスを評価しました。結果によると、Atlasは数独のような論理的推論タスクでは強力なパフォーマンスを発揮し、人間の基準値を大幅に上回る速度でパズルを完了する一方、精密なタイミングと運動制御を要するリアルタイムゲームでは著しく困難を示し、初期障害を超えて進めないケースが多発しました。これらの知見は、Atlasが優れた分析処理能力を示すものの、リアルタイムインタラクションを必要とする動的ウェブ環境には顕著な限界が残されていることを示唆しています。本プロジェクトのウェブサイトはhttps://atlas-game-eval.github.ioで公開されています。
大規模言語モデル(LLM)は、多段階の推論を必要とする問題に苦戦することが多い。小規模なオープンソースモデルにおいては、検証可能な報酬を用いた強化学習(RLVR)は、多数の試行後も正しい解法がほとんどサンプリングされない場合に失敗し、教師ありファインチューニング(SFT)は長いデモンストレーションに対して厳密なトークン単位の模倣により過学習する傾向がある。この課題を解決するため、我々は問題解決を論理的な「アクション」の系列生成として再定義するSupervised Reinforcement Learning(SRL)フレームワークを提案する。SRLは、各アクションを決定する前にモデルが内部的な推論モノローグを生成するように訓練する。SFTデータセットから抽出された専門家のアクションとモデルのアクションとの類似性に基づき、ステップ単位でよりスムーズな報酬を提供する。この監督信号は、全てのロールアウトが不正解の場合でもより豊富な学習信号を提供しつつ、専門家のデモンストレーションに導かれた柔軟な推論を促進する。その結果、SRLにより小規模モデルが、従来のSFTやRLVRでは学習不能であった困難な問題を学習できるようになる。さらに、RLVRによる精密化の前にSRLで訓練を初期化することで、全体として最も強力な性能が得られる。推論ベンチマークに加えて、SRLはエージェント的なソフトウェア工学タスクにも効果的に一般化し、推論指向のLLMのための堅牢で汎用的な訓練フレームワークとしての地位を確立する。
事前学習済み視覚表現は模倣学習を大きく進展させたものの、政策学習中に固定されたままであるため、多くの場合タスク非依存的な性質を持つ。本研究では、モデル自体のファインチューニングを行わずに、ロボット制御のためのタスク適応型視覚表現を獲得するために、事前学習済みテキスト-to-画像拡散モデルの活用を探求する。しかしながら、他の視覚領域で成功しているテキスト条件付けの手法を単純に適用しても、制御タスクでは効果が限定的あるいは逆効果さえ生じることを見出した。この要因を、拡散モデルの学習データとロボット制御環境の間のドメインギャップに帰し、制御に必要な特定の動的視覚情報を考慮した条件付けの必要性を提唱する。この目的のために、我々はORCAを提案する。これは制御環境に適応する学習可能なタスクプロンプトと、細粒度のフレーム固有の詳細を捕捉する視覚プロンプトを導入する。新たに考案した条件付けによるタスク適応型表現の促進を通じて、本手法は様々なロボット制御ベンチマークで従来手法を大幅に上回る最高性能を達成する。
Web、デスクトップ、モバイル環境を横断して汎化するエージェントの構築は、従来のシステムが環境固有のインターフェースに依存するためクロスプラットフォーム展開が制限され、未解決の課題となっている。本論文では、純粋に視覚観測のみから動作する統一アーキテクチャSurfer 2を提案し、これら3環境全てでState-of-the-Artの性能を達成する。Surfer 2は、階層的コンテキスト管理、分離された計画と実行、適応的回復を伴う自己検証を統合し、長いタスク時間軸にわたる信頼性の高い操作を実現する。本システムはWebVoyagerで97.1%、WebArenaで69.6%、OSWorldで60.1%、AndroidWorldで87.1%の精度を達成し、タスク特化的なファインチューニングなしで従来の全てのシステムを上回った。複数回の試行を許容した場合、Surfer 2は全てのベンチマークで人間の性能を凌駕する。これらの結果は、体系的なオーケストレーションが基盤モデルの能力を増幅し、視覚インタラクションのみによる汎用コンピュータ制御を可能にする一方で、パレート最適なコスト効率を達成するには次世代の視覚言語モデルが必要であることを示唆している。
最近のビデオ生成モデルは、高精細で時間的一貫性のある動画を生成可能であり、これらが相当量の世界知識を符号化している可能性を示唆しています。現実的な合成を超えて、これらのモデルは視覚的知覚、モデリング、操作を示す創発的振る舞いも見せます。しかし、重要な疑問が残っています:ビデオモデルは困難な視覚推論シナリオにおいて、ゼロショット推論器として機能する準備が整っているのでしょうか?本研究では、この疑問を包括的に調査する実証的研究を行い、主要で人気のあるVeo-3に焦点を当てます。空間的、幾何学的、物理的、時間的、具身化された論理を含む12次元にわたってその推論行動を評価し、その強みと失敗モードを系統的に特徴付けます。この研究を標準化するため、評価データをMME-CoFに精選しました。これはフレーム連鎖(CoF)推論の詳細かつ徹底的な評価を可能にするコンパクトなベンチマークです。私たちの調査結果は、現在のビデオモデルが短期的な空間的一貫性、細粒度の接地、局所的に一貫した力学において有望な推論パターンを示す一方で、長期的な因果推論、厳密な幾何学的制約、抽象的論理においては限界があることを明らかにしています。全体として、現時点では単独のゼロショット推論器として信頼できるものではありませんが、専用の推論モデルと併用する補助的視覚エンジンとしての可能性を示しています。プロジェクトページ: https://video-cof.github.io
我々はAMO-Benchを提案する。これは国際数学オリンピック(IMO)以上の難易度を持つ高度な数学的推論ベンチマークであり、50問の人手による厳選された問題で構成されている。既存のベンチマークでは、大規模言語モデル(LLM)の数学的推論能力評価に高校数学競技会の問題が広く用いられてきた。しかし、AIME24/25のように性能飽和が生じている既存の数学競技会の多くは、最先端LLMの評価において効果性が低下している。この課題に対処するため、AMO-Benchでは以下の2点を保証することでより厳格な挑戦を提供する:(1)専門家による相互検証を経てIMO難易度基準を満たすこと、(2)データ記憶による性能漏洩を防ぐため完全に独自に作成された問題であること。さらに、AMO-Benchの各問題は証明ではなく最終解答のみを要求するため、自動的かつ頑健な採点が可能である。26のLLMで実施した実験結果では、最高性能モデルでもAMO-Benchにおいて52.4%の精度に留まり、大半のLLMは40%未満のスコアであった。これらの低性能を超えて、さらなる分析ではテスト時計算量の増加に伴う有望なスケーリング傾向が明らかとなった。これらの結果は、現行LLMの数学的推論能力には大きな改善余地があることを示唆している。我々はAMO-Benchを公開し、言語モデルの推論能力向上に向けた研究の促進に貢献する。
我々は、エージェントが協調的かつ並行的に作業することで複雑な問題を解決し、個々の知能を超えた成果を可能とする「エージェンシック組織」という新たなAIの時代を構想する。このビジョンを実現するため、大規模言語モデルによる新しい推論パラダイムとして非同期思考(AsyncThink)を提案する。これは内的思考プロセスを並行実行可能な構造に組織化するものである。具体的には、オーガナイザーが動的にサブクエリをワーカーに割り当て、中間知識を統合し、一貫性のある解を生成する思考プロトコルを設計する。さらに重要なのは、このプロトコル内の思考構造が強化学習を通じて最適化可能な点である。実験結果では、AsyncThinkが並列思考と比較して推論遅延を28%低減しつつ、数学的推論の精度向上を達成することを示す。加えて、AsyncThinkは学習した非同期思考能力を一般化し、追加の訓練なしに未見タスクにも効果的に対処できる。
標準的なベンチマークにおける3次元人体動作生成(MoGen)の近年の進展にもかかわらず、既存モデルはその汎化能力において根本的なボトルネックに直面している。一方、隣接する生成分野、特に映像生成(ViGen)は、人間の行動モデリングにおいて顕著な汎化性能を示しており、MoGenが活用できる転移可能な知見を浮き彫りにしている。この観察に動機づけられ、我々はデータ、モデリング、評価という3つの重要な柱において、ViGenからMoGenへの知識を体系的に転移する包括的フレームワークを提案する。まず、高精細光学式モーションキャプチャデータと、Webビデオからの意味的注釈付き動作、および最先端ViGenモデルによって生成された合成サンプルを統合した、22万8,000件の高品質な動作サンプルからなる大規模データセットViMoGen-228Kを紹介する。このデータセットはテキスト-動作ペアとテキスト-映像-動作トリプレットを含み、意味的多様性を大幅に拡張する。次に、MoCapデータとViGenモデルからの事前分布をゲート型マルチモーダル条件付けによって統合する、フローマッチングベースの拡散トランスフォーマーであるViMoGenを提案する。効率性を高めるため、映像生成への依存性を排除しながら強力な汎化性能を維持する蒸留版であるViMoGen-lightをさらに開発した。最後に、動作品質、プロンプト忠実度、汎化能力にわたる詳細な評価のための階層的ベンチマークMBenchを提示する。大規模な実験により、本フレームワークが自動評価および人間評価の両方において既存手法を大幅に上回ることを示す。コード、データ、ベンチマークは公開予定である。
3Dシーン構築には、手続き型生成と2Dリフティングという2つの主要な手法が存在する。このうち、パノラマベースの2Dリフティングは、強力な2D生成事前知識を活用して没入感のある現実的で多様な3D環境を生成する有望な技術として登場した。本研究では、物理ベースレンダリング(PBR)、再照明、シミュレーションに適した、グラフィックス対応の3Dシーンを生成するためにこの技術を発展させる。我々の重要な洞察は、ジオメトリ、テクスチャ、PBRマテリアルをパノラマ的に知覚するために2D生成モデルを転用することである。外観生成を重視し内在的特性の知覚を無視する既存の2Dリフティング手法とは異なり、我々は汎用的で統一されたフレームワークであるOmniXを提案する。軽量で効率的なクロスモーダルアダプタ構造に基づくOmniXは、パノラマ知覚、生成、補完を含む広範なパノラマ視覚タスクに対して、2D生成事前知識を再利用する。さらに、多様な屋内・屋外シーンからなる高品質なマルチモーダルパノラマを収録した大規模合成パノラマデータセットを構築した。大規模な実験により、我々のモデルがパノラマ視覚知覚およびグラフィックス対応3Dシーン生成において有効であることを実証し、没入感があり物理的に現実的な仮想世界生成への新たな可能性を開く。
現在のテキストから画像への生成モデルは、多様な生成能力を実現するために大規模な未精選データセットで学習されています。しかし、これはユーザーの嗜好と十分に一致していません。最近では、生成された画像を事後的に選択し、一般的にユーザー嗜好である報酬に合わせるために特別に設計された報酬モデルが登場しています。この情報豊富なデータの破棄と単一報酬の最適化は、多様性、意味的忠実性、効率性を損なう傾向があります。私たちは、この後処理の代わりに、学習中に複数の報酬モデルに基づいてモデルを条件付けし、モデルが直接ユーザー嗜好を学習することを提案します。これは、生成される画像の視覚的品質を劇的に改善するだけでなく、学習を大幅に高速化することを示します。MIROと呼ばれる私たちの提案手法は、GenEvalコンポジショナルベンチマークおよびユーザー嗜好スコア(PickAScore、ImageReward、HPSv2)において、state-of-the-artの性能を達成します。
スマートグラスなどのウェアラブルデバイスは、ユーザーが視野内の実体に関する情報を取得することを可能にし、人々が周囲環境と相互作用する方法を変革しつつある。マルチモーダル検索拡張生成(MM-RAG)は、このような質問を支援する上で重要な役割を果たすが、特にウェアラブルシナリオにおけるこのタスクの包括的なベンチマークは未だ存在しない。このギャップを埋めるため、我々はCRAG-MMを提案する。これは、マルチモーダル・マルチターン対話のための包括的RAGベンチマークである。CRAG-MMは、13のドメインにわたる6.5Kの多様な(画像、質問、回答)トリプレットと2Kの視覚ベースのマルチターン対話を含み、そのうち6.2Kの画像はウェアラブルデバイスからの撮影を模倣するために設計されたエゴセントリック画像である。質問は、5種類の画質問題、6種類の質問タイプ、実体の人気度のばらつき、情報の動的性質の違い、異なる対話ターンなど、現実世界のシナリオと課題を反映するように注意深く構築した。我々は、単一ソース拡張、複数ソース拡張、マルチターン対話の3つのタスクを設計し、それぞれに画像-KG検索とウェブページ検索のための関連する検索コーパスとAPIを組み合わせた。評価の結果、単純なRAGアプローチはCRAG-MMの単一ターンQAおよびマルチターンQAにおいてそれぞれ32%、43%の真実性しか達成できないのに対し、最先端の産業界のソリューションも同程度の品質(32%/45%)であり、改善の余地が十分にあることが示された。このベンチマークはKDD Cup 2025で採用され、約1,000人の参加者と5,000件の提出を集め、優勝ソリューションはベースライン性能を28%改善し、この分野の発展に対する早期の影響力を示している。
電子健康記録(EHR)は豊富ながら複雑な情報を含み、その自動分析は臨床意思決定において極めて重要である。大規模言語モデル(LLM)の臨床ワークフローへの応用が近年進展しているものの、タスク範囲の狭さやEHR指向の推論能力の不足により、EHR分析能力は依然として限られている。本論文はこの課題の解決を目指し、特に42種類のEHRタスクにわたる30万件の高品質推論事例と400万件の非推論事例から構成される大規模包括的EHR推論指示データセット「EHR-Ins」を提案する。中核的革新は、思考グラフ駆動フレームワークにより大規模な高品質推論データ生成を可能にした点である。これを基盤に、EHR分析に特化した最大720億パラメータの推論機能強化型LLMシリーズ「EHR-R1」を開発した。ドメイン適応、推論強化、強化学習を含む多段階訓練パラダイムを通じて、EHR-R1は体系的に領域知識と多様な推論能力を獲得し、正確かつ頑健なEHR分析を実現する。最後に、MIMIC-IVから精選した42タスクにわたる新規ベンチマーク「EHR-Bench」を導入し、EHRシナリオにおける推論と予測を包括的に評価する。実験では、EHR-R1がDeepSeek-V3やGPT-4oを含む最先端の商用・オープンソースLLMを一貫して上回り、MIMIC-BenchではGPT-4oを30ポイント以上、EHRSHOTではゼロショットAUROCで10%高い性能を達成した。総じて、EHR-Ins、EHR-R1、EHR-Benchは信頼性が高く臨床関連性の強いEHR分析の発展に大きく貢献するものである。
文書AIは急速に進歩し、ますます注目を集めている。しかし、これまでの研究の大半は文書レイアウト分析(DLA)に焦点が当てられており、その生成的な対極である文書レイアウト生成は未開拓のままである。主な障壁は、多様なレイアウトの不足にある。既存の研究はマンハッタン様式の構造を持つ学術論文が中心で、新聞や雑誌といった現実世界の多様な文書ジャンルは深刻なまでに過少表現されている。この格差を埋めるため、我々は初の100万規模の多様な文書レイアウトデータセットであるOmniLayout-1Mを構築した。これは6つの一般的な文書タイプを網羅し、複数のソースから収集された現代的なレイアウトで構成されている。さらに、既存手法は複雑な領域での対応が難しく、長いシーケンスを一貫して配置することに往々にして失敗するため、0.5BパラメータのOmniLayout-LLMを提案する。これは、設計された2段階のCoarse-to-Fine学習パラダイムを特徴とする:1) 大まかなカテゴリ定義を用いてOmniLayout-1Mから普遍的なレイアウト原理を学習し、2) その知識を細粒度のアノテーションが付与された特定領域に転移する。大規模な実験により、本手法がM^{6}Docデータセットにおける複数領域で強力な性能を発揮し、既存のレイアウト生成専門モデルやいくつかの最新汎用LLMを大幅に上回ることを実証した。コード、モデル、データセットは公開予定である。
大規模言語モデル(LLM)エージェントが発展するにつれ、製品発見から取引まで、ユーザーに代わって経済的意思決定を仲介する機会が増えている。このような応用は便益をもたらす一方で、エージェントの説明責任やユーザーに対する価値について多くの疑問を提起する。これらの疑問に答えるには、現実的な市場環境下でのエージェントの行動を理解する必要がある。しかし、従来の研究は主に、単一タスク市場(例:交渉)や構造化された二者間相互作用など、制約のある環境でエージェントを評価してきた。現実世界の市場は根本的に異なる:エージェントは多様な経済活動を処理し、行動が不透明な複数のエージェントがオープンエンドの対話を行う大規模で動的なエコシステム内で調整を行う必要がある。この隔たりを埋めるため、我々は、消費者を代表するアシスタントエージェントと競合する事業者を代表するサービスエージェントが存在する両面エージェント市場を調査する。これらの相互作用を安全に研究するため、アシスタントとサービスが活動できるシミュレーション環境「Magentic-Marketplace」を開発した。この環境により、エージェントが達成する効用、行動バイアス、操作への脆弱性、検索メカニズムが市場の帰結をどう形成するか、といった主要な市場ダイナミクスを研究できる。実験結果から、先端モデルは理想的な検索条件下でのみ最適な厚生に接近しうることが示された。性能は規模の拡大とともに急激に劣化し、全てのモデルは最初の提案に強く依存するバイアスを示し、応答の質よりも速度に10~30倍の優位性が生じた。これらの発見は、様々な市場条件において行動がどう創発するかを明らかにし、公平で効率的なエージェント市場の設計に寄与するものである。
部品ベースの3D生成は、様々な応用において大きな可能性を秘めています。これまでの部品生成手法では、暗黙的なベクトル集合トークンを用いて部品を表現するものが多く見られましたが、幾何学的な詳細が不十分になりがちでした。別の手法では、明示的なボクセル表現を採用していますが、全ての部品で単一の大域的なボクセルグリッドを共有するため、小さな部品が占めるボクセル数が少なくなり、品質の低下を招くことがよくあります。本論文では、暗黙的・明示的パラダイムの両方を組み合わせた新しいフレームワークであるFullPartを提案します。本手法ではまず、暗黙的なボックスベクトル集合拡散過程を通じてバウンディングボックスのレイアウトを導出します。ボックストークンは幾何学的詳細をほとんど含まないため、このタスクは暗黙的拡散が効果的に処理します。次に、各部品をそれぞれ独自の固定されたフル解像度のボクセルグリッド内で詳細に生成します。大域的な低解像度空間を共有する代わりに、本手法では小さな部品も含む全ての部品がフル解像度で生成されるため、複雑な詳細の合成が可能となります。さらに、実際のサイズが異なる部品間で情報を交換する際の位置ずれ問題を解決するために、中心点エンコーディング戦略を導入し、大域的な一貫性を維持します。加えて、信頼性の高い部品データの不足に対処するため、4万オブジェクト、32万部品からなるこれまでで最大の人手注釈付き3D部品データセットであるPartVerse-XLを構築しました。大規模な実験により、FullPartが3D部品生成において最先端の結果を達成することを実証します。今後の3D部品生成研究の発展に貢献するため、全てのコード、データ、モデルを公開する予定です。
大規模マルチモーダルモデル(LMM)は、画像とテキストの統合的理解を要する医療質問への回答能力を高めつつあるが、大規模で公開利用可能かつ高品質なコーパスの不足が汎用医療VQAシステムの開発を阻害している。本研究では、オープンな生物医学文献から図版・キャプション・本文参照を条件として、高品質な多肢選択式VQA項目を直接生成するルーブリック指導型の生成者-検証者フレームワーク「MedVLSynther」を提案する。生成者は機械検証可能なJSONスキーマに基づき自己完結型の問題文と並列的で互いに排他的な選択肢を生成し、多段階検証者は必須条件(自己完結性・単一正答・臨床妥当性・画像-テキスト一貫性)の審査、細粒度の加点評価、一般的な失敗パターンの減点を実施した上で採択する。このパイプラインをPubMed Centralに適用して構築した「MedSynVQA」は、13種類の画像モダリティと28の解剖学的領域にわたる14,803枚の画像に対応する13,087問の審査済み問題を包含する。検証可能な報酬を用いた強化学習によるオープンウェイトLMMの訓練により、6つの医療VQAベンチマークで精度向上を達成し(3Bモデル平均55.85%、7Bモデル平均58.15%)、VQA-RADでは77.57%、PathVQAでは67.76%を記録し、強力な医療LMMを凌駕した。アブレーション研究は生成と検証の双方が必須であること、検証済みデータの増加が一貫して有効であることを実証し、対象別汚染分析では評価セットからの漏洩を検出しなかった。オープン文献とオープンウェイトモデルのみで動作するMedVLSyntherは、監査可能性・再現性・プライバシー保護を備えた医療VQA訓練データのスケーラブルな生成経路を提供する。
AIは知識や推論に関する研究志向のベンチマークで急速な進歩を遂げているが、こうした進歩が経済的価値や自動化にどのように転換されるかは不明瞭である。これを測定するため、我々は実用的な環境におけるエンドツーエンドのエージェント性能を評価するために設計された、現実世界の経済的価値を持つプロジェクトで構成される広範なマルチセクターベンチマーク「Remote Labor Index(RLI)」を導入する。AIエージェントのRLIにおける性能は最低水準に近く、最高性能のエージェントでも自動化率は2.5%に留まった。これらの結果はAI自動化に関する議論を実証データに基づいて基礎づけ、AIの影響を追跡する共通基盤を設定し、ステークホルダーがAI駆動の労働自動化を先行的にナビゲートすることを可能にする。
本研究では、小規模言語モデルが指示チューニングの恩恵を受け得るかどうかを検証する。会話型と質問応答型の指示チューニングデータセットを統合方式と逐次カリキュラム方式で適用し、パラメータ数1億と1.4億のデコーダのみのモデルで比較した。評価はファインチューニング(SuperGLUE)とゼロショット(BLiMP、EWoK、WUGs、実体追跡、心理言語学的相関)の両設定で実施。結果は、指示チューニングがファインチューニングでは小幅ながら一貫した改善をもたらし、統合データより逐次カリキュラムが優位であることを示した。しかし、改善効果はゼロショット課題に一貫して転移せず、対話特化の適応と広範な言語一般化の間にトレードオフが存在することが示唆された。これらの知見は、人間の学習戦略を低リソース言語モデルに適用する際の可能性と限界を浮き彫りにするとともに、生態学的訓練制約下での一般化向上に向け、カリキュラムに基づくハイブリッド手法の有効性を示唆するものである。
現在のツール利用大規模言語モデル(LLM)は静的なデータセットで学習されており、外部ツールとの連携や複数ステップにわたるツール統合型推論を可能にし、ツール呼び出し軌道を生成する。しかし、これらのモデルは汎用的なツール呼び出しルーチンにおけるクエリ解決方法を模倣するに留まるため、可能性のある解決策を探索できず、進化した動的なツール呼び出し環境では限定的な性能しか発揮しない。本研究では、ツール利用LLMが正答をもたらす多様な軌道を探索することを促進する強化学習(RL)手法PORToolを提案する。具体的には、まず与えられたクエリに対し複数のロールアウトを生成し、その一部は最初の数ステップのツール呼び出しを共有することで木構造を形成する。次に、各ステップに対して正答の生成能力とツール呼び出しの成功度に基づき報酬を付与する。異なる軌道間で共有されるステップは同一の報酬を受け、同一分岐下の異なるステップは異なる報酬を受ける。最後に、これらのステップ単位の報酬を用いて分岐相対アドバンテージを算出し、軌道相対アドバンテージと組み合わせることでLLMのツール利用能力を学習させる。実験では17種類のツールを活用し、時間敏感性と非敏感性の両主題を網羅するユーザークエリに対応する。アブレーション研究を通じて、ステップ単位報酬の必要性と設計の堅牢性を体系的に検証する。さらに、提案手法PORToolを他の学習手法と比較し、最終精度およびツール呼び出しステップ数において顕著な改善を実証する。
大規模言語モデル(LLM)は、自然言語理解および生成タスクにおいて最先端の性能を提供する。しかしながら、電子商取引などの専門タスクにおける主要な商用モデルの導入は、高い計算コスト、レイテンシ、運用コストによって妨げられることが多い。本論文は、リソース効率に優れた代替案として、より小規模なオープンウェイトモデルの実用性を検証する。我々は、多言語電子商取引意図認識向けに10億パラメータのLlama 3.2モデルを最適化する手法を提案する。このモデルは、実世界のユーザークエリを模倣して設計された合成データセットを用いた量子化低ランク適応(QLoRA)によりファインチューニングされた。続いて、GPU最適化(GPTQ)版とCPU最適化(GGUF)版を作成するため、学習後量子化技術を適用した。結果として、専門化された1Bモデルは99%の精度を達成し、遥かに大規模なGPT-4.1モデルと同等の性能を示した。詳細な性能分析により、ハードウェア依存の重大なトレードオフが明らかになった:4ビットGPTQはVRAM使用量を41%削減したが、古いGPUアーキテクチャ(NVIDIA T4)では脱量子化のオーバーヘッドにより推論速度が82%低下した。逆に、CPU上のGGUFフォーマットは、FP16ベースラインと比較して、推論スループットで最大18倍の高速化とRAM消費量で90%超の削減を実現した。適切に最適化された小規模オープンウェイトモデルは、ドメイン特化型アプリケーションにおいて、単に実用的であるだけでなく、計算コストを大幅に削減しつつ最先端の精度を提供する、より適した代替手段であると結論付ける。
自己改善は、大規模視覚言語モデル(LVLM)の推論能力を向上させる主流のパラダイムとして登場し、モデルが成功した軌跡を反復的に探索・学習する手法である。しかし、このプロセスにおいて重大な問題を特定した:モデルは単純なクエリ(ヘッドデータ)に対する高品質な軌跡生成には優れるが、複雑なクエリ(テールデータ)では困難を抱える。これにより、モデルが単純な推論スキルを優先し、より複雑な推論課題への対応能力が阻害される不均衡な最適化が生じる。反復を重ねるにつれ、この不均衡は顕著化し——我々が「マタイ効果」と呼ぶ動態——最終的にモデル改善を妨げ性能ボトルネックを招く。この課題に対処するため、探索学習型自己改善プロセスにおける頭部-尾部の再均衡化を実現すべく、分布再形成と軌道再抽出の二視点から四つの効率的戦略を導入する。視覚推論タスクにおけるQwen2-VL-7B-InstructとInternVL2.5-4Bモデルでの大規模実験により、本手法が視覚推論能力を一貫して向上させ、従来の自己改善手法を平均3.86ポイント上回ることを実証した。
大規模言語モデルは、多様な自然言語タスクにおいて顕著な推論能力を実証している。しかし、科学的発見における同等の飛躍はより限定的である。なぜなら、複雑な物理現象の理解には、言語のみならず多面的な表現が求められるためだ。その好例が、二酸化炭素回収や水素貯蔵といった影響力のある応用分野で重要なMOF(金属有機骨格)のような機能性材料の設計である。LLMが解釈可能な言語ベースの表現で、その広大で複雑な設計空間を探索することは、無数の可能な3次元原子配列や、配位幾何学・トポロジーの厳格な網目構造規則により困難を極める。より単純な材料システムにおけるLLM支援発見の有望な初期成果にもかかわらず、MOF設計は依然として、テキスト情報のみではほとんど体系化されない暗黙的な人的専門知識に大きく依存している。この障壁を克服するため、我々はMOF向け初のマルチモーダルLLMであるL2M3OFを提案する。L2M3OFは結晶表現学習と言語理解を統合し、構造的、テキスト的、知識的モダリティを共同で処理する。L2M3OFは、事前学習済み結晶エンコーダと軽量な投影層を用いて構造情報をトークン空間に圧縮し、言語指示との効率的な連携を可能にする。訓練と評価を容易にするため、我々は結晶性材料の構造-物性-知識データベースを構築し、L2M3OFをGPT-5、Gemini-2.5-Pro、DeepSeek-R1といった最先端のクローズドソースLLMと比較評価した。実験の結果、L2M3OFは、はるかに少ないパラメータ数にもかかわらず、物性予測と知識生成タスクにおいて主要なテキストベースのクローズドソースLLMを凌駕することを示した。これらの結果は、多孔性材料の理解におけるマルチモーダルアプローチの重要性を強調し、材料発見における次世代AIシステムの基盤としてL2M3OFを確立するものである。
基質特異的機能を有する酵素バックボーンの設計は、計算タンパク質工学における重要な課題である。現在の生成モデルはタンパク質設計において優れた性能を発揮するが、結合データの不足、基質特異的制御の難しさ、およびde novo酵素バックボーン生成における柔軟性の点で限界がある。この問題に対処するため、我々はPDBbindから特に選定された11,100の実験的に検証された酵素-基質ペアからなるデータセットEnzyBindを構築した。これを基盤として、酵素バックボーン生成において機能的かつ基質特異的な制御を可能にする手法EnzyControlを提案する。本手法は、精選された酵素-基質データから自動抽出されたMSA注釈付き活性部位とそれに対応する基質を条件として、酵素バックボーンを生成する。EnzyControlの中核を成すのはEnzyAdapterであり、これは事前学習済みモチーフ・スキャフォールディングモデルに統合された軽量でモジュール型のコンポーネントであり、モデルが基質を認識できるようにする。2段階の訓練パラダイムにより、正確で機能的な酵素構造を生成するモデルの能力がさらに洗練される。実験結果は、我々のEnzyControlがEnzyBindおよびEnzyBenchベンチマークにおいて、構造的および機能的指標の両方で最高の性能を達成し、特に設計適合性で13%、触媒効率で13%と、ベースラインモデルと比較して顕著な改善を示したことを実証している。コードはhttps://github.com/Vecteur-libre/EnzyControlで公開されている。
音声言語処理の最近の進歩により、自動音声認識(ASR)、音素認識(PR)、文字-音素変換(G2P)、音素-文字変換(P2G)といった音声関連タスクにおいて大幅な進展が見られている。概念的類似性にもかかわらず、これらのタスクはこれまで個別に研究されることが多く、それぞれがタスク固有のアーキテクチャとデータセットに依存してきた。本論文では、複数の音声関連タスクを統合的に実行可能な初のフレームワークであるPOWSM(Phonetic Open Whisper-style Speech Model)を提案する。POWSMは音声、文字、音素間のシームレスな変換を可能とし、普遍的な音声処理および低リソース音声処理の新たな可能性を拓く。提案モデルは、類似サイズの専門PRモデル(Wav2Vec2PhonemeおよびZIPA)を性能で凌駕あるいは同等でありながら、G2P、P2G、ASRを統合的にサポートする。研究の透明性確保のため、学習データ、コード及びモデルを公開する。
ストリートビューや衛星画像などの公的で大規模なウェブデータを活用した都市の社会経済センシングは、地球規模の持続可能な開発目標(SDGs)を達成する上で極めて重要である。大規模視覚言語モデル(LVLM)の登場により、この課題をマルチモーダルな知覚・理解問題として扱う新たな可能性が生まれている。しかし、最近の研究では、LVLMが視覚データから正確で解釈可能な社会経済的予測を行うには依然として課題があることが明らかになっている。これらの限界に対処し、LVLMの可能性を最大限に引き出すため、我々は純粋強化学習(RL)を用いてLVLMにおける都市の社会経済状態を推論する新規フレームワーク「CityRiSE」を提案する。注意深くキュレーションされたマルチモーダルデータと検証可能な報酬設計により、本手法はLVLMに意味的に有意義な視覚的手がかりに注目させ、汎用的な社会経済状態予測のための構造化された目標指向の推論を可能にする。実験により、創発的な推論プロセスを備えたCityRiSEが既存のベースライン手法を大幅に上回り、多様な都市環境における予測精度と汎化性能の両方を向上させること、特に未見の都市や未見の指標に対する予測において有効であることを実証する。本研究は、強化学習とLVLMを組み合わせることで、解釈可能かつ汎用的な都市社会経済センシングが実現できる可能性を示している。
チャートは、可視化、推論、データ分析、および人間同士のアイデア交換において重要な役割を果たす。しかし、既存の視覚言語モデル(VLM)は、詳細の正確な知覚が不十分で、チャートから細粒度の構造を抽出することに苦戦している。このようなチャート接地の限界は、複数のチャートを比較し、それらを推論する能力も妨げている。本論文では、多様な種類と複雑さのチャートから表形式データを抽出し、可視化要素を位置特定し、様々な属性を認識するという、チャート接地タスクにおけるVLMの総合的な評価を提供するために、新規の「ChartAlign Benchmark (ChartAB)」を提案する。各接地タスクに特化した評価指標の計算を容易にするため、JSONテンプレートを設計する。新規の2段階推論ワークフローを組み込むことで、このベンチマークはさらに、2つのチャート間で要素や属性を対応付け比較するVLMの能力を評価できる。いくつかの最近のVLMに対する評価分析を通じて、チャート理解におけるそれらの知覚バイアス、弱点、頑健性、および幻覚に関する新たな知見が明らかになった。これらの発見は、チャート理解タスクにおけるVLM間の細粒度の不一致を浮き彫りにし、現行のモデルで強化が必要な特定のスキルを示唆している。