翻訳付きの日次キュレーションされたAI研究論文
我々はTongyi DeepResearchを発表します。これは自律的な深層情報探索研究タスクに特化したエージェント型大規模言語モデルです。自律的な深層研究エージェンシーを促進するため、Tongyi DeepResearchはエージェント型中間訓練とエージェント型事後訓練を組み合わせたエンドツーエンドの訓練フレームワークを通じて開発され、複雑なタスクにわたるスケーラブルな推論と情報探索を可能にします。我々は、コストの高い人手による注釈に依存しない完全自動の高い拡張性を持つデータ合成パイプラインを設計し、全ての訓練段階を強化します。各段階にカスタマイズされた環境を構築することで、システムは一貫した安定した相互作用を実現します。総パラメータ数305億(トークンごとに活性化されるのは33億のみ)のTongyi DeepResearchは、Humanity's Last Exam、BrowseComp、BrowseComp-ZH、WebWalkerQA、xbench-DeepSearch、FRAMES、xbench-DeepSearch-2510を含む一連のエージェント型深層研究ベンチマークで最先端の性能を達成します。我々はモデル、フレームワーク、および完全なソリューションをオープンソース化し、コミュニティの発展を支援します。
言語エージェントは、Web検索や情報検索において顕著な可能性を示してきました。しかし、既存の検索エージェントはユーザークエリが完全で曖昧性がないことを前提としており、これは現実のユースケース—ユーザーが不完全なクエリから開始し、対話を通じて明確化を必要とする場面—と乖離しています。にもかかわらず、大半のエージェントは検索プロセスにおける対話的メカニズムを欠いており、既存のベンチマークもこの能力を評価できません。この課題を解決するため、我々はInteractCompを提案します。これは、検索エージェントがクエリの曖昧性を認識し、検索中に能動的に対話して解決できるかを評価するベンチマークです。 「検証容易性」と「対話による曖昧性解消」を原則として、我々はターゲット・ディストラクター手法を用いて9分野にわたる210の専門家監修済み質問を構築しました。これにより、対話を通じてのみ解決可能な真の曖昧性が創出されます。17のモデルを評価した結果、驚くべき欠陥が明らかになりました:完全な文脈が与えられた場合の精度71.50%に対し、最高性能モデルでも精度は13.73%に留まり、推論能力の欠如ではなく体系的な過信が原因であることが判明しました。強制的な対話を導入すると劇的な改善が見られ、現在の戦略では活かされていない潜在能力が存在することが実証されました。 経時的分析により、対話能力が15ヶ月間停滞する一方、検索性能は7倍向上したことが明らかになり、重大な盲点が浮き彫りになりました。検索タスクに内在する即時フィードバック特性とこの停滞を考慮すると、InteractCompは検索エージェントの対話能力を評価し訓練するための貴重なリソースとなります。コードはhttps://github.com/FoundationAgents/InteractComp で公開されています。
LLMベースのWebエージェントは情報探索において非常に有望ですが、長期的なタスクにおける有効性は、コンテキスト管理における根本的なトレードオフによって妨げられています。従来のReActベースのエージェントは、ノイズの多い生の履歴を蓄積するにつれてコンテキスト飽和に悩まされる一方、各ステップで履歴全体を固定的に要約する手法は、重要な詳細情報が不可逆的に失われるリスクを伴います。これらの課題に対処するため、我々は人間の認知的プロセスである「回顧的統合」にヒントを得た、能動的コンテキスト管理を中核とする新しいエージェントパラダイム「AgentFold」を提案します。AgentFoldはコンテキストを、単に埋め尽くす受動的なログではなく、能動的に形成すべき動的な認知的作業空間として扱います。各ステップで、エージェントは「フォールディング」操作を実行することを学習します。この操作は履歴軌跡を複数のスケールで管理します:重要な細粒度の詳細を保持するための粒度の細かい凝縮や、複数ステップにわたるサブタスク全体を抽象化する深い統合を実行できます。主要ベンチマークでの結果は顕著です:単純な教師ありファインチューニング(継続事前学習や強化学習なし)のみで、我々のAgentFold-30B-A3BエージェントはBrowseCompで36.2%、BrowseComp-ZHで47.3%を達成しました。特筆すべきは、この性能がDeepSeek-V3.1-671B-A37Bのような大幅に大規模なオープンソースモデルを上回るか匹敵するだけでなく、OpenAIのo4-miniのような先行するプロプライエタリエージェントも凌駕している点です。
近年のマルチモーダル大規模言語モデル(MLLM)の進展に伴い、ロボット操作のための視覚・言語・行動(VLA)モデルが急速に発展している。既存手法は多くの場面で有効であるものの、現状では明示的な指示への依存度が高く、現実世界の人間同士の相互作用では直接的な指示が稀であることを考慮すると不十分である。効果的な協働には、ロボットが能動的に人間の意図を推論する能力が不可欠だ。本研究では、明示的な命令ではなく、音声対話・環境音・視覚的手がかりから意図を推定する新たな設定「クロスモーダル文脈指示」を提案する。この課題に対処するため、エンドツーエンドの全モーダルLLMに基づくPerceiver-Thinker-Talker-Executorフレームワーク「RoboOmni」を開発した。本枠組みは意図認識・対話確認・行動実行を統合し、聴覚信号と視覚信号を時空間的に融合して頑健な意図認識を実現するとともに、直接音声対話を可能にする。ロボット操作における能動的意図認識の訓練データ不足に対応するため、14万エピソード・5,000人以上の話者・2,400種のイベント音・640背景・6種類の文脈指示を含むデータセット「OmniAction」を構築した。シミュレーションと実世界環境での実験により、RoboOmniがテキストベース及び自動音声認識(ASR)ベースのベースラインを成功率・推論速度・意図認識精度・能動的支援の面で凌駕することを実証した。
我々はGame-TARSを提案する。これは人間のキーボード・マウス操作に基づいた統一的なスケーラブルな行動空間で学習された汎用ゲームエージェントである。APIやGUIベースの手法とは異なり、このパラダイムによりOS、Web、シミュレーションゲームなど異種ドメインにわたる大規模な継続事前学習が可能となる。Game-TARSは500Bトークン以上の多様な軌跡データとマルチモーダルデータで事前学習されている。主要技術として、因果的混雑を軽減する減衰型継続損失と、推論深度と推論コストのバランスを取る効率的なSparse-Thinking戦略を採用。実験では、Game-TARSがオープンワールドMinecraftタスクで従来のSOTAモデル比約2倍の成功率を達成、未体験のWeb 3Dゲームでは人間初心者に近い汎化性能を示し、FPSベンチマークではGPT-5、Gemini-2.5-Pro、Claude-4-Sonnetを上回った。訓練時と推論時のスケーリング結果は、統一的行動空間がゲーム横断的・マルチモーダルデータへのスケールアップにおいて改善を維持することを確認。本研究は、単純でスケーラブルな行動表現と大規模事前学習の組み合わせが、広範なコンピュータ利用能力を持つ汎用エージェントへの有望な道筋を示すことを実証する。
連続空間におけるビデオ生成は急速に進歩している一方で、離散的手法は誤差蓄積と長文脈における不一致の問題から遅れをとっている。本研究では離散的生成モデリングを再検討し、Uniform discRete diffuSion with metric pAth(URSA)という、スケーラブルなビデオ生成において連続的手法とのギャップを埋めるシンプルかつ強力なフレームワークを提案する。URSAの核心は、ビデオ生成タスクを離散的時空間トークンの反復的グローバル refinement として定式化することである。本フレームワークは2つの重要な設計、すなわち線形化メトリックパスと解像度依存タイムステップシフトメカニズムを統合している。これらの設計により、URSAは高解像度画像合成および長時間ビデオ生成への効率的なスケーリングを実現し、かつ推論ステップ数を大幅に削減する。さらに、補間や画像からのビデオ生成など多様なタスクを単一モデル内で統一する非同期時間的ファインチューニング戦略を導入する。挑戦的なビデオおよび画像生成ベンチマークにおける大規模な実験により、URSAが既存の離散的手法を一貫して上回り、最先端の連続拡散手法に匹敵する性能を達成することを実証する。コードとモデルはhttps://github.com/baaivision/URSAで公開されている。
大規模な教師ありファインチューニングによるAIエージェントの研究結果は、公開されているものが比較的少ない状況です。これは、エージェントの訓練データの収集が独特の課題を伴うためです。本研究では、このボトルネックが基盤となるデータ源の不足ではなく、多様なデータが異種混合の形式、ツール、インターフェースに散在している点にあると主張します。この問題に対処するため、我々はエージェントデータプロトコル(ADP)を提案します。ADPは軽量な表現言語であり、多様な形式のエージェントデータセットと、下流で統一されたエージェント訓練パイプラインとの間の「中間言語」として機能します。ADPの設計は、API/ツール使用、ブラウジング、コーディング、ソフトウェアエンジニアリング、一般的なエージェントワークフローなど、多岐にわたるタスクを捕捉するのに十分な表現力を持ちつつ、データセットごとのエンジニアリングを必要とせず、簡単に解析・訓練できるように簡素さを保っています。実験では、13の既存のエージェント訓練データセットをADP形式に統一し、標準化されたADPデータを複数のエージェントフレームワーク向けの訓練対応形式に変換しました。これらのデータを用いて教師ありファインチューニングを実施した結果、対応するベースモデルと比較して平均約20%の性能向上を実証し、コーディング、ブラウジング、ツール使用、研究ベンチマークにおいて、ドメイン固有の調整なしに、State-of-the-Artまたはそれに迫る性能を達成しました。すべてのコードとデータを公開しており、ADPが標準化された、スケーラブルで再現性のあるエージェント訓練への参入障壁を下げる一助となることを期待しています。
既存の視覚言語行動(VLA)モデルは3D実世界で動作するが、通常2Dエンコーダに基づいて構築されているため、空間推論のギャップが生じ、汎化性と適応性が制限されている。最近のVLA向け3D統合技術は、特殊なセンサーを必要としモダリティ間での転移が困難であるか、幾何学的情報を欠き視覚言語アライメントを劣化させる弱い手がかりを注入するものに留まっている。本研究では、行動ヘッドに豊富な3D空間トークンを注入する新規パラダイムFALCON(From Spatial to Action)を提案する。FALCONは空間基盤モデルを活用し、RGBのみから強力な幾何学的事前分布を提供し、深度や姿勢を利用可能な場合に再学習やアーキテクチャ変更なしで高精度に融合可能な具現化空間モデルを含む。言語推論を維持するため、空間トークンは視覚言語バックボーンに連結されるのではなく、空間拡張行動ヘッドによって処理される。これらの設計により、FALCONは空間表現、モダリティ転移性、アライメントの課題に対処可能である。3つのシミュレーションベンチマークと11の実世界タスクにわたる総合的な評価において、提案するFALCONは最先端の性能を達成し、競合ベースラインを一貫して上回り、雑音環境、空間プロンプト条件付け、物体の規模や高さの変動下でも堅牢性を維持した。
最近、Diffusion-in-Transformerモデルに基づく画像編集技術は急速な発展を遂げています。しかし、既存の編集手法では編集の度合いを効果的に制御することが難しく、よりカスタマイズされた結果を得る能力が限られています。この課題を解決するため、我々はDiTモデル内のMM-Attentionメカニズムを調査し、QueryトークンとKeyトークンがレイヤ依存のバイアスベクトルを共有していることを発見しました。このバイアスはモデル固有の編集挙動を表し、各トークンと対応するバイアスとの差分はコンテンツ固有の編集信号を符号化していると解釈します。この知見に基づき、我々はGroup Relative Attention Guidance(GRAG)を提案します。これは異なるトークンの差分値を再重み付けすることで、編集指示に対するモデルの入力画像への注目度を調整し、チューニングなしで編集強度の連続的できめ細かい制御を可能とするシンプルかつ効果的な手法です。既存の画像編集フレワークを用いた大規模な実験により、GRAGがわずか4行のコードで統合可能であり、編集品質を一貫して向上させることが実証されました。さらに、一般的に使用されるClassifier-Free Guidanceと比較して、GRAGは編集の度合いに関してより滑らかで精密な制御を実現します。コードはhttps://github.com/little-misfit/GRAG-Image-Editingで公開予定です。
推測デコードは、小さなドラフトモデルを使用してターゲットモデルが並列で検証する複数のトークンを提案することで、LLM推論を高速化する。このアイデアをバッチ処理に拡張することは実運用において不可欠だが、不規則テンソル問題を引き起こす。同一バッチ内のシーケンスが異なる数のドラフトトークンを受け入れるため、右揃えが崩れ、位置ID、アテンションマスク、KVキャッシュ状態が破損する。既存の複数のバッチ実装が、推測デコードが標準的な自己回帰生成と同一のトークンシーケンスを生成しなければならないという基本要件である出力等価性に違反していることを示す。これらの違反は、不規則テンソル問題の不適切な処理が原因で発生する。これに対し、我々は (1) 正確性を保証する同期要件を特徴付け、(2) オーバーヘッドの40%を占めるリアラインメント処理を明らかにする正確性優先のバッチ推測デコードEQSPECを提示し、(3) リアラインメントのオーバーヘッドを削減しつつシーケンス単位の推測的加速を維持するため、スライディングプールを管理し動的に同じ長さのグループを形成するEXSPECを提案する。SpecBenchデータセットにおいて、Vicuna-7B/68M、Qwen3-8B/0.6B、GLM-4-9B/0.6Bのターゲット/ドラフトモデルペアを用いた実験では、バッチサイズ1と比較してバッチサイズ8で最大3倍のスループット向上を達成し、バッチサイズ8まで効率的にスケーリングしながら95%の出力等価性を維持した。本手法はカーネルカスタマイズを必要とせず、既存の推論スタックに容易に統合可能である。コードはhttps://github.com/eBay/spec_decで公開されている。
LLMベースの検索エージェントは、複雑で知識集約的なタスクを解決するために、エンティティ中心の合成データで学習されることが増えている。しかし、Group Relative Policy Optimization(GRPO)のような主流の学習手法では、この豊富なエンティティ情報が捨てられ、代わりにスパースで結果ベースの報酬に依存している。この重大な限界により、情報量の多い「ニアミス」サンプル(推論はほぼ正しいが最終回答が不正確なもの)と完全な失敗とを区別できず、貴重な学習シグナルが失われてしまう。我々は、学習中に捨てられているエンティティそのものを活用することでこの問題に取り組む。実証分析により、エージェントの推論プロセス中に特定された正解エンティティの数と最終回答の精度との間に強い正の相関があることが明らかになった。この知見に基づき、我々はEntity-aware Group Relative Policy Optimization(E-GRPO)という新規フレームワークを提案する。これは、密なエンティティを考慮した報酬関数を定式化するものである。E-GRPOは、不正解サンプルに対し、そのエンティティ一致率に比例した部分報酬を割り当てることで、モデルがこれらの「ニアミス」から効果的に学習することを可能にする。多様な質問応答(QA)および深層調査ベンチマークにおける実験により、E-GRPOがGRPOベースラインを一貫して大幅に上回ることを示す。さらに分析の結果、E-GRPOは精度の向上だけでなく、より少ないツール呼び出しで済む効率的な推論方策を誘導し、検索エージェントのアラインメントにおいてより効果的でサンプル効率の高いアプローチを実現することが明らかになった。
大規模言語モデルエージェントを、その能力限界に位置するタスクで訓練することは、高度な推論能力を解き放つ鍵である。本論文では、教育的理論である「発達の最近接領域(ZPD)」に着想を得たデータ合成手法を提案する。ZPDとは、LLMが単独では解決できないが、指導を受ければ習得可能なタスクの領域として定義される。これを具体化するため、LLMのZPD内に正確に位置する高品質で学際的なデータを自動生成するパイプライン「AgentFrontier Engine」を開発した。このエンジンは、知識集約型データを用いた継続事前学習と、複雑な推論タスクに対する事後学習の両方を支援する。同一のフレームワークから、これらの最先端タスクにおけるエージェント能力を評価するために設計された動的かつ自動化されたベンチマーク「ZPD Exam」も導出した。合成データで訓練したAgentFrontier-30B-A3Bモデルは、Humanity's Last Examといった難易度の高いベンチマークでState-of-the-Artを達成し、一部の主要なプロプライエタリエージェントを凌駕する結果を示した。本研究は、ZPDに導かれたデータ合成アプローチが、より高能力なLLMエージェント構築へのスケーラブルで効果的な道筋を提供することを実証する。
意思決定と推論能力の進化に伴い、マルチモーダルエージェントはコンピュータ応用シナリオにおいて強力な可能性を示している。従来の評価は主にGUI操作スキルに焦点が当てられてきたが、Model Context Protocol(MCP)によって実現されるツール呼び出し能力はほとんど評価の対象外となっていた。ツール呼び出し機能を統合したエージェントと、GUI操作のみで評価されたエージェントを比較することは、本質的に不公平である。本論文ではOSWorld-MCPを提案する。これは実環境下でのコンピュータ利用エージェントのツール呼び出し、GUI操作、意思決定能力を包括的かつ公平に評価する初のベンチマークである。我々は新規の自動コード生成パイプラインを設計し、ツールを創出するとともに、既存ツールから精選したものを組み合わせた。厳格な手動検証により、158個の高品質なツール(7つの一般的なアプリケーションをカバー)を開発し、それぞれについて機能の正確性、実用性、汎用性を確認した。OSWorld-MCPを用いた最先端マルチモーダルエージェントの大規模評価により、MCPツールがタスク成功率を全般的に向上させることが明らかになった(例えば、OpenAI o3では15ステップで8.3%から20.4%へ、Claude 4 Sonnetでは50ステップで40.1%から43.3%へ)。これはツール呼び出し能力の評価の重要性を強調するものである。しかし、最も強力なモデルであってもツール呼び出し率は36.3%と比較的低く、改善の余地があるとともに、本ベンチマークの難易度の高さを示している。MCPツール使用スキルを明示的に測定することにより、OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境における性能評価の新たな基準を確立する。コード、環境、データはhttps://osworld-mcp.github.ioで公開している。
マルチモーダル大規模言語モデル(MLLM)は視覚的理解において優れた性能を発揮するが、視覚的計画と想像力を必要とする複雑なシナリオではしばしば困難に直面する。本研究では、人間がアイデアを発展させ伝達するための視覚的思考手段としてスケッチを活用する方法に着想を得て、MLLMに内部的な視覚的スクラッチパッドを装備するフレームワーク「Latent Sketchpad」を提案する。従来のMLLMの内部視覚表現は知覚的理解に限定される傾向があったが、我々は推論能力を損なうことなく生成的視覚思考を支援するようにその役割を再定義する。先進的なMLLMを基盤として、視覚生成をその本来の自己回帰的推論プロセスに直接統合するアプローチを採用する。これにより、モデルはテキストによる推論と視覚的潜在変数の生成を交互に行うことが可能となる。これらの潜在変数は内部思考プロセスを導くとともに、解釈可能性のためにスケッチ画像へ変換可能である。これを実現するため、コンテキストを意識したビジョンヘッドが視覚表現を自己回帰的に生成し、事前学習済みスケッチデコーダがこれを人間が解釈可能な画像にレンダリングする二つのコンポーネントを導入した。新たに構築したデータセットMazePlanningを用いた評価では、Latent Sketchpadが基盤モデルと同等あるいはそれを上回る推論性能を発揮することが各種MLLMにおける実験で示された。さらに、Gemma3やQwen2.5-VLを含む異なる先進MLLM間での汎化性を確認した。モデルのテキスト推論を視覚的思考に拡張する本フレームワークは、より豊かな人間とコンピュータの相互作用と幅広い応用への新たな可能性を開くものである。詳細と関連リソースはプロジェクトページ(https://latent-sketchpad.github.io/)で公開している。
大規模言語モデル(LLM)の発展により、視覚化コードの生成・実行・修正が可能なコーディングエージェントが実現されつつある。しかし、既存のモデルは、言語対応の限界、実行の信頼性不足、反復的修正メカニズムの欠如により、実践的なワークフローではしばしば失敗する。進展は、単一ラウンドの生成と単一言語タスクを重視した狭義のデータセットとベンチマークによって制約されてきた。これらの課題に対処するため、我々は視覚化コーディングエージェントを推進するための3つの相補的リソースを提案する。VisCode-Multi-679Kは、12のプログラミング言語にわたるマルチターン修正対話を含む、679Kの検証済みで実行可能な視覚化サンプルから構成される大規模教師付きデータセットである。VisPlotBenchは、実行可能なタスク、レンダリングされた出力、初期生成とマルチラウンド自己デバッグの両方のプロトコルを特徴とする体系的な評価のためのベンチマークである。最後に、VisCode-Multi-679Kで学習させた多言語視覚化モデルファミリーであるVisCoder2を提示する。実験結果から、VisCoder2は強力なオープンソースベースラインを大幅に上回り、GPT-4.1のようなプロプライエタリモデルの性能に迫り、反復的自己デバッグによりさらに向上し、32Bスケールで全体の実行パス率82.4%に達することが示された。これは特に、記号的またはコンパイラに依存する言語において顕著である。
大規模言語モデル(LLM)の出力を評価しフィードバックを提供する批判的言語モデルを訓練することは、複雑な推論タスクにおけるLLM改善の有望な手法である。しかし、既存の手法では通常、批判データの注釈付けにより強力な監督者に依存している。この問題を解決するため、我々は強力な監督を必要としない批判的言語モデル開発のためのオンライン強化学習(RL)手法「Critique-RL」を提案する。本手法は2プレイヤーのパラダイムに基づく:アクターが応答を生成し、批評家がフィードバックを提供し、アクターがそれに応じて応答を改良する。まず、RL最適化においてアクターの出力からの間接的な報酬信号のみに依存すると、批評家の性能が不十分になることを明らかにする。すなわち、有益性(建設的フィードバックの提供)は向上するものの、識別性(応答の質の高低判断)は低いままとなり、性能向上が限定的となる。この問題を克服するため、Critique-RLは2段階最適化戦略を採用する。第I段階では、ルールベースの直接報酬信号を用いて批評家の識別性を強化する。第II段階では、アクターの改良に基づく間接報酬を導入して批評家の有益性を向上させつつ、適切な正則化により識別性を維持する。様々なタスクとモデルを用いた大規模な実験により、Critique-RLが実質的な性能向上をもたらすことを示す。例えば、Qwen2.5-7Bでは、ドメイン内タスクで9.02%、ドメイン外タスクで5.70%の性能向上を達成し、その有効性が確認された。
並列思考は探索の幅を拡大し、情報探索型エージェントの深い探索を補完することで、問題解決能力をさらに強化する。しかし、従来の並列思考はこの設定において二つの課題に直面する:最初から繰り返し実行することによる非効率性と、回答生成時の長期的な推論軌道の統合の難しさである。これは限られた文脈容量が推論プロセスの完全な考慮を妨げるためである。これらの課題に対処するため、我々は深層情報探索エージェント向けの二段階パラダイム「ParallelMuse」を提案する。第一段階である「機能指定部分ロールアウト」は、生成された系列を機能領域に分割し、不確実性誘導型の経路再利用と分岐を行い探索効率を向上させる。第二段階の「圧縮推論集約」は、推論の冗長性を活用して回答導出に関連する情報を損失なく圧縮し、首尾一貫した最終回答を統合する。複数のオープンソースエージェントとベンチマークによる実験では、探索的なトークン消費量を10~30%削減しながら、最大62%の性能向上を実証した。
大規模言語モデル(LLM)ベースのエージェントは、オープンエンドな問題解決における革新的なアプローチとして登場し、情報探索(IS)は自律的推論と意思決定を可能にする中核的能力である。従来の研究は主に検索深度の向上に焦点を当ててきたが、現在のISエージェントは検索効率の低さに悩まされており、これが全体の性能を制約している。この非効率性の背景にある要因は、学習タスクにおける対象エンティティの希薄性であり、エージェントが効率的な検索行動を学習し一般化する機会を制限している。これらの課題に対処するため、我々は高カバレッジなISタスクを構築し、効率的な解決軌道を生成するフレームワークWebLeaperを提案する。ISを木構造の推論問題として定式化することで、制約のあるコンテキスト内に大幅に多くの対象エンティティを埋め込むことを可能にする。厳選されたWikipediaテーブルを活用し、Basic、Union、Reverse-Unionの3つのバリエーションを提案して、ISの効率性と有効性を体系的に高める。最後に、正確性と効率性を同時に満たす学習軌道のみを選別することで、モデルが正確性と検索性能の両方で最適化されることを保証する。5つのISベンチマーク(BrowserComp、GAIA、xbench-DeepSearch、WideSearch、Seal-0)を用いた基本設定と包括的設定での大規模実験により、本手法が強力なベースラインを上回る有効性と効率性の両方で一貫した改善を達成することを実証する。
スケーリング則の研究は英語に偏重してきたが、最も先進的なAIモデルは明示的に数十億人の国際ユーザーにサービスを提供している。本論文では、774件の多言語訓練実験、1000万〜80億パラメータモデル、400以上の訓練言語、48の評価言語を網羅する、過去最大規模の多言語スケーリング則研究を実施する。単言語と多言語事前学習の両方に対応するAdaptive Transfer Scaling Law(ATLAS)を提案し、既存のスケーリング則のサンプル外一般化性能をR²値で0.3以上上回ることを示す。実験分析を通じて、多言語学習ダイナミクス、言語間転移特性、多言語性の呪いを解明する。第一に、38言語×38言語=1444言語ペアの相互利益スコアを実証的に計測する言語間転移行列を導出。第二に、性能を犠牲にせず言語を追加する際のモデルサイズとデータの最適スケーリング方法を明らかにする言語普遍的なスケーリング則を確立。第三に、ゼロから事前学習すべき場合と多言語チェックポイントからのファインチューニング適応期を見極める計算量的クロスオーバーポイントを特定する。これらの発見が、言語横断的なスケーリング則の民主化の科学的基盤となり、実務家が英語優先AIを超えた効率的なモデルスケーリングを可能にすることを期待する。
Mixture-of-Experts (MoE) は、計算効率を維持しながらモデル容量を拡張する強力なパラダイムとして登場した。大規模言語モデル(LLM)における顕著な成功にもかかわらず、MoEをDiffusion Transformer(DiT)に適用する既存の試みは限定的な効果しか得られていない。我々はこの隔たりの原因を、言語トークンと視覚トークンの根本的な差異に帰する。言語トークンは意味的に高密度でトークン間の変動が顕著であるのに対し、視覚トークンは空間的な冗長性と機能的な不均質性を示し、視覚MoEにおける専門家の特化を妨げている。この問題に対処するため、我々は専門家の特化を促進する明示的なルーティング指導を備えた2段階ルーターを特徴とするMoEフレームワーク、ProMoEを提案する。具体的には、この指導により、ルーターは機能役割に応じた条件付きルーティングを通じて画像トークンを条件付き集合と無条件集合に分割し、さらに、意味内容に基づく学習可能なプロトタイプを用いたプロトタイプルーティングを通じて条件付き画像トークンの割り当てを洗練させる。さらに、プロトタイプルーティングによって可能となる潜在空間内での類似性に基づく専門家割り当ては、明示的な意味的指導を組み込む自然なメカニズムを提供し、このような指導が視覚MoEにおいて極めて重要であることを検証する。これを基盤として、我々はプロトタイプルーティングプロセスを明示的に強化し、専門家内の一貫性と専門家間の多様性を促進するルーティング対照損失を提案する。ImageNetベンチマークにおける大規模な実験により、ProMoEがRectified FlowとDDPMの両方の訓練目標において、最先端の手法を凌駕することを実証する。コードとモデルは公開予定である。
マルチモーダル大規模言語モデルや大規模音声言語モデルの急速な進展にもかかわらず、既存の音声ベンチマークの多くは、テキストキャプションから復元可能な意味論のテストに留まっており、細粒度の知覚的推論における欠陥を隠蔽している。本論文では、時間および3次元空間における音のダイナミクスに対する推論として定義される「音声4D知能」を定式化し、それを測定するためのSTAR-Benchを提案する。STAR-Benchは、基礎的な聴覚知覚設定(絶対的・相対的体制下の6属性)と、連続的・離散的なプロセスに対するセグメント再順序付け、および静的定位、複数音源関係、動的軌道にわたる空間的タスクを含む全体的な時空間推論設定を組み合わせている。我々のデータキュレーションパイプラインは、高品質なサンプルを確保するために2つの方法を採用している。基礎的タスクには、手続き的に合成された音声および物理シミュレーションによる音声を使用する。全体的なデータについては、人間による注釈と人間のパフォーマンスに基づく最終選定を含む4段階のプロセスを経る。従来のベンチマークではキャプションのみの回答でも精度がわずかに低下する程度であったが、STAR-Benchでははるかに大きな低下(時間的-31.5%、空間的-35.2%)を引き起こし、言語的に記述が困難な手がかりに焦点を当てていることを示唆している。19のモデルを評価した結果、人間との間には大きな隔たりが存在し、能力階層が明らかになった。クローズドソースモデルは細粒度の知覚によってボトルネックが生じている一方、オープンソースモデルは知覚、知識、推論の全般にわたって遅れをとっている。我々のSTAR-Benchは、物理世界をより頑健に理解する将来のモデルを開発するための重要な知見と明確な道筋を提供する。
現在まで、多数の言語と文化を網羅する、文化に特化した大規模言語モデル(LLM)の評価ベンチマークはほとんど存在しない。本論文では、世界65カ国から集った335名の研究者が手作業で構築した、100以上の言語を対象とする参加型常識推論ベンチマーク「Global PIQA」を提案する。Global PIQAに含まれる116の言語変種は、五大陸、14の語族、23の書記体系をカバーしている。Global PIQAの非並列分割データでは、事例の50%以上が各地域の食文化、習慣、伝統、その他文化的に特異な要素を参照している。我々は、最先端のLLMがGlobal PIQAにおいて全体としては良好な性能を示すものの、低リソース言語では性能が低下することを見出した(ランダム選択の正解率が50%であるのに対し、最大37%の精度差が生じた)。オープンモデルは一般にプロプライエタリモデルよりも性能が低い。Global PIQAは、複雑な推論や専門知識といった広く議論される能力と同様に、多くの言語と文化において、日常的な知識が改善の余地を残す領域であることを浮き彫りにしている。LLM評価への利用に加えて、Global PIQAが、人間の言語が埋め込まれた文化の広範な多様性を垣間見る機会を提供することを期待する。
自己改善システムは、継続的な適応のために環境との相互作用を必要とする。本稿では、単一のモデルが二つの役割(大規模コーパスから文書を抽出して多様な推論タスクを生成する Challenger と、それらを解決する Reasoner)を遂行する強化学習フレームワーク、SPICE(Self-Play In Corpus Environments)を提案する。敵対的ダイナミクスを通じて、Challenger は Reasoner の能力限界に沿った自動カリキュラムを生成し、コーパスに基づく(grounding)ことで、持続的改善に必要な豊富でほぼ枯渇しない外部信号を提供する。より限定的な利点しか持たない既存の非接地型(ungrounded)自己対戦法とは異なり、SPICE は複数のモデルファミリーにおいて、数学的推論(+8.9%)および一般推論(+8.9%)ベンチマークで一貫した性能向上を達成する。分析により、文書に基づく手法が、SPICE において独自に難易度を増す目標を継続的に生成し達成するための鍵となる要素であり、持続的な自己改善を可能にすることが明らかとなった。
検証可能な報酬を用いた強化学習(RLVR)は、数学的・マルチモーダル推論において顕著な成果をもたらし、現代の言語モデルおよび視覚言語モデルにおける標準的な事後学習パラダイムとなっている。しかし、RLVRの手法は正則化戦略を採用せずに長期間学習を続けると、モデルが基礎的な能力を忘れるという「能力退行」の重大なリスクを伴う。我々は実証的にこの懸念を確認し、オープンソースの推論モデルにおいて知覚や忠実性といった中核的能力の性能低下が生じることを観察した。KLダイバージェンスのような正則化項を課すことは基底モデルからの乖離を防ぐのに有効だが、これらの項は現在のタスクに基づいて計算されるため、より広範な知識の保持を保証しない。一方、異種ドメインにわたる経験再生は一般に用いられるが、各目的関数にどれだけ学習の焦点を当てるべきかの決定が容易ではない。この問題に対処するため、我々は一般的な知識保持のための動的目的関数再重み付けを備えた再生戦略、RECAPを提案する。我々の再重み付けメカニズムは、収束と不安定性の短期的シグナルを用いてオンラインで適応し、飽和した目的関数から、低性能または不安定な目的関数へと事後学習の焦点を移行させる。本手法はエンドツーエンドであり、追加モデルの学習や煩雑な調整を必要とせず、既存のRLVRパイプラインに容易に適用可能である。Qwen2.5-VL-3BおよびQwen2.5-VL-7Bに基づくベンチマークでの大規模な実験により、本手法の有効性が実証された。提案手法は一般的な能力を保持するだけでなく、タスク内報酬間のより柔軟なトレードオフを可能にすることで推論性能も向上させる。
可視化は、ドメイン固有でありながら広く用いられる画像表現形式であり、複雑なデータセットを直感的な知見へと変換する効果的な手段である。その価値は、データが忠実に表現され、明確に伝達され、美的に設計されているかどうかに依存する。しかしながら、可視化の品質評価は困難が伴う。自然画像とは異なり、データ符号化の正確性、情報表現力、視覚的美観という複数の次元にわたる同時判断が要求されるためである。マルチモーダル大規模言語モデル(MLLM)は自然画像の美的評価において有望な性能を示しているものの、可視化評価における能力を測定する体系的なベンチマークは存在しなかった。この問題に対処するため、我々は可視化の美的品質評価におけるMLLMの性能を評価する初の包括的ベンチマークであるVisJudge-Benchを提案する。これは実世界シナリオから収集した専門家注釈付きの3,090サンプルを含み、32種類のチャートタイプにわたる単一可視化、複数可視化、ダッシュボードを網羅する。本ベンチマークを用いた体系的なテストにより、GPT-5のような最先端MLLMでさえ、平均絶対誤差(MAE)0.551、人間の評価との相関0.429と、専門家の判断との間に顕著な隔たりがあることが明らかとなった。この課題解決のため、我々は可視化の美的品質評価に特化して設計されたVisJudgeモデルを提案する。実験結果では、VisJudgeが人間の判断との隔たりを大幅に縮め、GPT-5と比較してMAEを0.442(19.8%改善)、専門家との一致度を0.681(58.7%向上)させることを実証した。ベンチマークはhttps://github.com/HKUSTDial/VisJudgeBench で公開されている。
超高解像度(UHR)テキストから画像への生成技術は著しい進歩を遂げている。しかし、依然として2つの重要な課題が残されている。1)大規模で高品質なUHR T2Iデータセットの欠如、および2)UHRシナリオにおける細粒度の詳細合成に特化した訓練戦略の軽視である。最初の課題に対処するため、我々は10万枚の高品質UHR画像と豊富なキャプションから成るデータセット「UltraHR-100K」を提案する。本データセットは多様なコンテンツと強固な視覚的忠実性を提供し、各画像は3K解像度を超え、詳細の豊富さ、コンテンツの複雑さ、美的品質に基づいて厳選されている。2番目の課題に対処するため、我々はT2I拡散モデルにおける細部生成を強化する周波数認識型ポストトレーニング手法を提案する。具体的には、(i)詳細クリティカルなノイズ除去ステップに学習を集中させる「詳細指向タイムステップサンプリング」と、(ii)離散フーリエ変換を利用して周波数成分をソフトに制約し高周波詳細の保存を促進する「ソフト重み付け周波数正則化」を設計した。提案するUltraHR-eval4Kベンチマークによる大規模な実験により、本手法がUHR画像生成の細粒度詳細品質と全体的な忠実性を大幅に改善することが実証された。コードはhttps://github.com/NJU-PCALab/UltraHR-100k で公開されている。
関数呼び出し(FC)は、大規模言語モデル(LLM)や自律エージェントが外部ツールと連携することを可能にし、複雑な現実世界の問題を解決する上で極めて重要な機能である。この能力が高度なAIシステムの中核として重要性を増すにつれ、それを開発・改良するための高品質なマルチターン(対話型)トレーニングデータの必要性はいくら強調してもし過ぎることはない。既存のデータ合成手法、例えばランダムな環境サンプリングやマルチエージェントによるロールプレイングなどは、現実世界の環境において高品質なデータを生成するには十分な性能を有していない。実用的な課題は主に3点ある:対象を絞ったモデル訓練、ツールアーキテクチャの分離、そしてマルチターン間の論理的依存関係である。これらの構造的欠陥に対処するため、我々は現実世界のマルチターンツール利用のための新しいデータ合成フレームワーク、FunReason-MTを提案する。FunReason-MTは、1) 多様な高品質な軌跡を収集するための環境-APIグラフ相互作用、2) 困難なクエリ構築を簡素化する高度なツール-クエリ合成、3) 洗練された連鎖思考(CoT)生成のためのガイド付き反復連鎖、を採用することで、マルチターンFCデータの複雑性の壁を解決する。Berkeley Function-Calling Leaderboard(BFCLv3)による評価は、本フレームワークの有効性を示している:FunReason-MTで生成されたデータを用いて構築された40億パラメータモデルは、同規模のモデルの中で最高性能を達成し、ほとんどのクローズドソースモデルを凌駕した。BFCLv4におけるさらなる性能向上は、FunReason-MTがエージェント学習のための信頼性が高く頑健なデータソースを提供することを裏付けている。
思考連鎖(CoT)推論は、大規模視覚言語モデル(LVLM)の解釈可能性と信頼性を向上させる上で重要である。しかし、SFT、PPO、GRPOなどの既存の訓練アルゴリズムは、未見の推論タスクへの汎化が不十分で、偏った報酬モデルへの依存が大きいという課題がある。この課題に対処するため、我々はLVLMにおける推論を事後推論として再定式化し、償却変分推論に基づくスケーラブルな訓練アルゴリズムを提案する。多様性を追求する強化学習アルゴリズムを活用し、多様で高尤度な潜在CoTを促進するトークンレベルの学習信号として、新たなスパース報酬関数を導入する。これにより、決定論的サンプリングの限界を克服し、報酬ハッキングを回避する。さらに、ベイズ推論のスケーリング戦略として、計算コストの高いBest-of-Nやビームサーチを周辺尤度で置き換え、最適な論理根拠と回答を効率的にランク付けする手法を実装する。提案手法が、有効性、汎化性、解釈可能性の観点から、7つの推論ベンチマークにおいて現行の最先端LVLMを改善することを実証する。
大規模視覚言語モデル(LVLM)がショッピング、医療、ニュースなどの分野で展開されるにつれ、これらのモデルは広範な説得的コンテンツに晒されるようになっている。重要な課題は、これらのモデルが説得対象(persuadee)としてどのように機能するか、つまり説得的なマルチモーダル入力によってどのように、そしてなぜ影響を受けるのかである。過度に説得されやすいモデルは、操作的なメッセージに晒された際に誤った信念を採用したり、ユーザーの選好を無視したり、非倫理的あるいは安全でない出力を生成したりする可能性があるため、その説得への感受性と様々な説得手法の効果の両方を理解することが極めて重要である。我々は、LVLMにおけるマルチモーダル説得の力学を体系的に研究するための統一フレームワークであるMMPersuadeを提案する。MMPersuadeは、(i)商業的、主観的・行動的、敵対的という文脈において、画像と動画を確立された説得原理と組み合わせた包括的なマルチモーダルデータセット、および(ii)第三者による合意スコアリングと会話履歴に対する自己推定トークン確率を通じて、説得の効果とモデルの感受性の両方を定量化する評価フレームワークを提供する。6つの主要なLVLMを説得対象として調査した結果、以下の3つの重要な知見が得られた:(i)マルチモーダル入力は、テキストのみの場合と比較して、特に誤情報シナリオにおいて、説得の効果(およびモデルの感受性)を大幅に増加させる;(ii)事前に表明された選好は感受性を低下させるが、マルチモーダル情報はその説得的優位性を維持する;(iii)異なる説得手法の効果は文脈によって異なり、返報性は商業的および主観的文脈で最も強力であり、信頼性と論理性は敵対的文脈で優勢である。説得の効果と感受性を統合的に分析することにより、MMPersuadeは、説得的なマルチモーダルコンテンツと対峙する際に、頑健性、選好一貫性、倫理的整合性を備えたモデルを開発するための原理に基づいた基盤を提供する。
物体を構成要素レベルで理解することは、コンピュータビジョン、グラフィックス、ロボティクスの発展において基礎的である。PartNetのようなデータセットは3D部品理解の進展を促進してきたが、テクスチャのない幾何学形状と専門家依存のアノテーションに依存しているため、拡張性と有用性が制限されている。我々はこれらの課題を解決する次世代データセットPartNeXtを提案する。PartNeXtは50のカテゴリーにわたる細粒度の階層的部品ラベルで注釈付けされた23,000以上の高品質なテクスチャ付き3Dモデルを提供する。PartNeXtを用いて2つのタスクでベンチマーク評価を行った:(1) クラス非依存の部品セグメンテーションでは、最先端手法(PartField、SAMParts3D等)が細粒度および末端レベルの部品に対して苦戦を示し、(2) 3D部品中心質問応答では、オープン語彙による部品接地における重大な課題が明らかになった。さらに、PartNeXtでPoint-SAMを学習させた結果、PartNetを使用した場合を大幅に上回る性能向上が得られ、本データセットの優れた品質と多様性が実証された。拡張可能なアノテーション、テクスチャを考慮したラベル付け、マルチタスク評価を組み合わせることで、PartNeXtは構造化された3D理解の研究に新たな道を開くものである。
大規模言語モデル(LLM)は、言語領域において大規模な事前学習が、わずかな監督で新しい問題へ迅速に適応するシステムを可能にすることを実証してきた。しかし、この成功は視覚領域ではそれほど効果的に波及しておらず、LLMを含むモデルは、合成的理解、サンプル効率、汎用的な問題解決において依然として苦戦している。我々は、このギャップを埋める有望な方向性としてビデオ拡散モデル(VDM)を検討する。時空間データによる事前学習は、これらのモデルに構造とダイナミクスに対する強力な帰納的バイアスを与え、これが広範なタスク適応性を支えると仮説を立てる。これを検証するため、事前学習済みLLMと事前学習済みVDMの両方に軽量なアダプタを装備し、それぞれの自然なモダリティにおけるタスクに直面させる制御評価を設計する。ARC-AGI、ConceptARC、ビジュアルゲーム、経路計画、セルオートマタを含むベンチマークにおいて、VDMは言語モデルと比較して高いデータ効率を示した。総合的に、我々の結果は、ビデオ事前学習が視覚基盤モデルに向けた進歩を支える帰納的バイアスを提供することを示唆している。
生成モデルは、短いテキスト記述から高忠実度のオーディオを合成する分野で大きな進歩を遂げてきた。しかし、自然言語を用いた既存オーディオの編集技術は、依然として未開拓の領域が多い。既存の手法では、編集後のオーディオを完全に記述する必要があるか、あるいは事前定義された編集指示に制限され柔軟性に欠ける。本研究では、Stable Audio Openを基盤としたSAO-Instructモデルを提案する。このモデルは任意の自由形式の自然言語指示を用いてオーディオクリップを編集できる。モデル学習のために、Prompt-to-Prompt、DDPM反転、手動編集パイプラインを組み合わせたオーディオ編集トリプレット(入力オーディオ、編集指示、出力オーディオ)データセットを構築した。合成データで部分的に学習されているものの、本モデルは実世界のオーディオクリップや未学習の編集指示に対しても良好な汎化性能を示す。SAO-Instructは客観的指標で競合性能を達成し、主観的聴取実験において他のオーディオ編集手法を凌駕することを実証する。今後の研究発展を促進するため、コードとモデル重みを公開する。
今日の急速に拡大するデータ環境において、非構造化テキストからの知識抽出は、リアルタイム分析、時間的推論、動的メモリフレームワークにとって極めて重要である。しかし、従来の静的な知識グラフ(KG)構築は、実世界データの動的かつ時間敏感な性質を見落としがちで、継続的な変化への適応性が限られている。さらに、ドメイン固有のファインチューニングや事前構築されたオントロジーへの依存を回避する最近のゼロショットまたは少数ショットアプローチは、複数回の実行にわたる不安定性や、主要な事実の不完全な網羅性に悩まされることが多い。これらの課題に対処するため、我々はATOM(AdapTive and OptiMized)を提案する。これは非構造化テキストから時間的知識グラフ(TKG)を構築し、継続的に更新する、少数ショットでスケーラブルなアプローチである。ATOMは入力文書を最小の自己完結型「原子的」事実に分割し、抽出の網羅性と安定性を向上させる。次に、これらの事実から原子的TKGを構築するとともに、情報が観測された時点とそれが有効であった時点を区別する二重時間モデリングを採用する。結果として得られた原子的TKGは、その後並列に統合される。実証評価により、ATOMはベースライン手法と比較して、約18%高い網羅性、約17%優れた安定性、90%以上の遅延削減を達成し、動的TKG構築における強力なスケーラビリティの可能性を示している。
フロンティアAIエージェントは、科学研究アシスタントとしての可能性を高めており、将来的には長期的でオープンエンドな研究ワークフローにおいて有用となる可能性がある。しかし、新規研究にエージェントを活用するためには、まずその成果の根底にある忠実性と正確性を評価しなければならない。研究アシスタントとしてのエージェントを評価するため、我々はReplicationBenchを提案する。これは、天体物理学文献から抽出した研究論文全体をエージェントが再現できるかどうかをテストする評価フレームワークである。天体物理学は、研究がアーカイブデータと計算研究に大きく依存し、現実世界での実験をほとんど必要としないため、科学研究におけるAIエージェントの特に有用なテストベッドとなる。各論文を、実験設定、式の導出、データ分析、コードベースなど、論文の核心的な貢献を再現することをエージェントに求めるタスクに分割する。各タスクは原論文の著者と共同で開発され、重要な科学的成果を対象とするため、忠実性(元の手法への準拠)と正確性(結果の技術的正確さ)の双方を客観的に評価できる。ReplicationBenchは現在の最先端言語モデルにとって極めて難易度が高く、最高性能の言語モデルであっても20%未満のスコアである。ドメイン専門家と協力してReplicationBenchの実行軌跡を分析した結果、科学研究におけるエージェントの多様で豊富な失敗モードが明らかになった。ReplicationBenchは、論文規模の専門家検証済み天体物理学研究タスクにおける最初のベンチマークを確立し、データ駆動型科学の他の分野にも一般化可能なエージェント性能に関する知見を提示し、科学研究におけるAIエージェントの信頼性を測定するためのスケーラブルなフレームワークを提供する。
大規模言語モデル(LLM)は、驚異的な汎化能力と、訓練データに対する脆弱で逐語的な記憶という、問題のある二面性を示す。この予測不可能性は、高リスク応用における信頼性を損なう。本研究では、これらの異なる推論モードを理解し、特定し、制御するための統一フレームワークを提案する。まず、情報ボトルネック(IB)原理に基づく理論モデルを導入し、汎化を圧縮されたタスク関連表現の学習として、記憶を圧縮失敗として定式化する。この理論に基づき、新規の推論時アルゴリズムである動的モードステアリング(DMS)を開発する。DMSは二要素から構成される:(1)モデルの瞬間的な記憶依存度を特定する軽量な因果的線形プローブ、(2)事前同定された汎化回路に向けてモデル計算を誘導する動的活性化ステアリング機構である。DMSは適応型自己対比デコーディングの一形態と位置付ける。推論および忠実性タスクにおける実験により、DMSが論理的一貫性と事実的精度を大幅に改善し、LLMの信頼性向上に原理的なアプローチを提供することを実証する。
視覚言語表現のアライメントにより、現在の視覚言語モデル(VLM)は強力なマルチモーダル推論能力を獲得している。しかし、マルチモーダル表現の意味を統一的な概念セットに写像する困難さから、このアライメント要素の解釈可能性は未解明のままである。この問題に対処するため、本論文では視覚言語表現を隠れ層の活性化値として符号化するスパースオートエンコーダVL-SAEを提案する。その隠れ層の各ニューロンは、意味的に類似した画像とテキストによって表現される概念に対応し、これにより統一的な概念セットを用いてこれらの表現を解釈する。ニューロンと概念の相関を確立するため、自己教師あり学習において意味的に類似した表現が一貫したニューロン活性化を示すよう促す。まず、マルチモーダル表現の意味的類似度を測定するため、コサイン類似度に基づく明示的なアライメントを実行する。次に、距離ベースのエンコーダと2つのモダリティ特化デコーダでVL-SAEを構築し、意味的類似表現の活性化一貫性を保証する。複数VLM(CLIP、LLaVA等)での実験により、VL-SAEが視覚言語アライメントの解釈と強化において優れた能力を発揮することを実証する。解釈面では、視覚と言語表現間のアライメントを概念との意味比較により理解可能となる。強化面では、概念レベルでの視覚言語表現アライメントにより統合が強化され、ゼロショット画像分類や幻覚排除などの下流タスク性能向上に寄与する。コードはhttps://github.com/ssfgunner/VL-SAE で公開されている。
医療視覚言語モデル(VLM)における忠実な推論には、正確な予測のみならず、テキストによる理論的根拠と視覚的証拠との間の透明性のある整合性が求められる。チェイン・オブ・ソート(CoT)プロンプティングは医療視覚質問応答(VQA)において有望な成果を示しているが、精密な視覚的接地を伴う段階的推論を捉えた大規模な専門家レベルのデータセットは存在しなかった。我々は、12,000枚の専門家注釈付き医療画像と境界ボックス、構造化視覚CoT(SV-CoT)から成る初の大規模データセットであるS-Chainを提案する。これは視覚領域と推論ステップを明示的に結びつけるものである。本データセットはさらに16言語をサポートし、総計70万以上のVQAペアを有し、広範な多言語適用性を実現している。S-Chainを用いて、最先端の医療VLM(ExGra-Med、LLaVA-Med)および汎用VLM(Qwen2.5-VL、InternVL2.5)をベンチマークした結果、SV-CoTによる監督が解釈可能性、接地忠実度、ロバスト性を大幅に向上させることが示された。ベンチマークを超えて、検索拡張生成との相乗効果を検討し、自己回帰推論における領域知識と視覚的接地の相互作用を明らかにする。最後に、視覚的証拠と推論の整合性を強化し、信頼性と効率性の両方を改善する新たなメカニズムを提案する。S-Chainは接地された医療推論の新たなベンチマークを確立し、より信頼性が高く説明可能な医療VLMへの道を開くものである。
構造的トポロジー最適化(TO)は工学設計において中心的な役割を果たすが、複雑な物理現象と厳格な制約条件により計算負荷が高い課題がある。既存の深層学習手法は固定された正方格子、少数の手動設定境界条件、事後最適化に限定されており、汎用的な適用が妨げられていた。本研究では、任意のアスペクト比、解像度、体積率、荷重条件、固定条件に対して最小コンプライアンスのレイアウトを直接予測する基盤モデルフレームワーク「Optimize Any Topology(OAT)」を提案する。OATは、解像度と形状に依存しないオートエンコーダ、暗黙的神経場デコーダ、および200万種類の境界条件設定を網羅する220万の最適化構造からなる新規コーパスOpenTOで訓練した条件付き潜在拡散モデルを統合している。4つの公開ベンチマークと2つの難易度の高い未見テストにおいて、OATは従来モデルと比較して平均コンプライアンスを最大90%低減し、64×64から256×256の解像度および10:1までの高アスペクト比において、単一GPUで1秒未満の推論を実現した。これらの結果は、OATが物理考慮型トポロジー最適化のための汎用的・高速・解像度非依存のフレームワークであることを示し、逆設計のための生成的モデリング研究を促進する大規模データセットを提供する。コードとデータはhttps://github.com/ahnobari/OptimizeAnyTopologyで公開されている。
近年、GRPOベースの強化学習はフローマッチングモデルの最適化において顕著な進歩を示し、タスク固有の報酬との整合性を効果的に向上させてきた。これらのフレームワーク内では、ポリシー更新は重要度比クリッピングに依存し、過度に自信過剰な正負の勾配を制約している。しかし実際には、重要度比分布に系統的な偏りが生じていることが観測される。つまり、その平均値は1を下回り、分散はタイムステップ間で大きく異なる。この左に偏り、一貫性のない分布は、正のアドバンテージを持つサンプルがクリップ領域に入るのを妨げ、過剰な正の更新を制約するメカニズムが機能不全に陥る原因となる。その結果、ポリシーモデルは暗黙的な過最適化段階に必然的に突入する——代理報酬は増加し続ける一方で、画像品質やテキストプロンプトとの整合性といった本質的な指標は急激に悪化し、最終的には学習されたポリシーが実世界での使用に耐えないものとなる。この問題を解決するため、我々は既存のGRPOフレームワークに対するシンプルかつ効果的な拡張であるGRPO-Guardを提案する。本手法は比率正規化を組み込むことで、バランスが取れタイムステップ間で一貫した重要度比を回復し、PPOクリッピングがノイズ除去の各ステップにおいて有害な更新を適切に制約することを保証する。さらに、勾配再重み付け戦略により、ノイズ条件間でのポリシー勾配が均等化され、特定のタイムステップ領域からの過剰な更新が防止される。これらの設計が連携して調整されたクリッピング機構として機能し、重いKL正則化に依存することなく最適化を安定化させ、暗黙的な過最適化を大幅に緩和する。複数の拡散モデルバックボーン(SD3.5M、Flux.1-dev等)および多様な代理タスクにおける大規模な実験により、GRPO-Guardが生成品質を維持あるいは向上させながら、過最適化を有意に低減することが実証された。
特許文書の埋め込み表現は、先行技術調査、技術動向分析、特許分析を可能にするが、既存のベンチマークは特許固有の課題を十分に捉えていない。本論文では、検索、分類、言い換え、クラスタリングにわたる15タスク、206万の事例からなる包括的ベンチマークPatenTEBを提案する。PatenTEBは、ドメイン層化分割、ドメイン固有のハードネガティブマイニング、一般的な埋め込みベンチマークには存在しない非対称な断片-文書マッチングシナリオの体系的な網羅を特徴とする。我々は、6700万から3億4400万パラメータ、最大4096トークンのコンテキスト長を有するpatembedモデルファミリーをマルチタスク学習により開発した。外部検証により強力な一般化性能が確認され、patembed-baseはMTEB BigPatentClustering.v2で従来最高値(0.445)を上回る0.494 V-measureを、patembed-largeはDAPFAMで0.377 NDCG@100を達成した。体系的なアブレーション研究により、マルチタスク学習はベンチマークスコアにわずかな悪影響があっても外部一般化を改善すること、ドメイン事前学習による初期化がタスク群を横断して一貫した利点をもたらすことが明らかになった。全てのリソースはhttps://github.com/iliass-y/patenteb で公開予定である。 キーワード:特許検索、文埋め込み、マルチタスク学習、非対称検索、ベンチマーク評価、対照学習
大規模言語モデル(LLM)の文化的に根差した言語処理能力、特に地域固有の知識や文化的ニュアンスをコード化した比喩表現を理解し実践的に使用する能力について包括的評価を行う。文化的ニュアンスと地域知識の代理指標として比喩言語を用い、アラビア語と英語における文脈理解、実践的使用、含意解釈の評価課題を設計した。エジプト方言の慣用句、多方言アラビア語の諺、英語の諺について、22のオープンソース及びクローズドソースLLMを評価した。結果には一貫した階層性が認められる:アラビア語諺の平均正答率は英語諺より4.29%低く、エジプト方言慣用句の成績はアラビア語諺より10.28%低い。実践的使用課題では理解課題に比べ正答率が14.07%低下するが、文脈付き慣用句を提示することで正答率が10.66%改善する。モデルは含意的意味の処理にも課題を示し、注釈者間一致率100%の慣用句において人間の注釈者との一致率は最大85.58%であった。これらの知見は、比喩言語が文化的推論の効果的な診断指標として機能することを示唆する:LLMは比喩的意味を解釈できる場合が多いが、適切に使用する点では課題を抱えている。将来の研究を支援するため、比喩的理解と実践的使用評価の両方を目的とした初のエジプト方言慣用句データセット「Kinayat」を公開する。