翻訳付きの日次キュレーションされたAI研究論文
現代の大規模言語モデル(LLM)は、主に連鎖思考(CoT)のような明示的なテキスト生成を通じて「思考」するように訓練されています。これは推論を学習後処理に委ね、事前学習データを十分に活用していない手法です。我々は再帰的シンボル「ウロボロス」に因んで名付けられたOuroを発表し、オープンソースで公開します。これはループ型言語モデル(LoopLM)ファミリーであり、(i)潜在空間における反復計算、(ii)学習済み深度配分のためのエントロピー正則化目標、(iii)7.7兆トークンへのスケーリングを通じて、推論能力を事前学習段階に組み込んでいます。Ouro 1.4Bおよび2.6Bモデルは、広範なベンチマークにおいて最大12Bの最先端LLMの結果に匹敵する優れた性能を発揮します。制御実験を通じて、この優位性が知識容量の増加ではなく、優れた知識操作能力に由来することを示します。またLoopLMが生成する推論トレースが、明示的CoTよりも最終出力と整合性が高いことも実証します。本成果が推論時代における新たなスケーリング手法としてのLoopLMの可能性を示すことを期待します。モデルは以下で公開されています:http://ouro-llm.github.io
ニューラルコードインテリジェンスの範囲は、テキストベースのソースコードを超えて、プログラムが生成する豊富な視覚的出力を含むように急速に拡大している。この視覚的側面は、柔軟なコンテンツ生成や視覚化のプログラム駆動による精密編集といった高度な応用において極めて重要である。しかし、高品質なマルチモーダルコードデータの不足が進展を妨げており、これは合成と品質評価における課題に起因するボトルネックとなっている。これらの課題に対処するため、我々はデータとモデリングの両面から貢献を行う。まず、データモダリティ間の相互シナジーを活用して、標準的なチャートから複雑なインタラクティブなWeb UI、コード駆動アニメーションまでを含む大規模で高品質なコーパスを効率的に生成する統合合成ツールキットを導入する。このツールキットを活用し、我々は現在までで最大のマルチモーダルコードコーパスであるJanusCode-800Kを構築した。これを基盤として、テキスト指示、視覚的入力、またはその両方の組み合わせからコードを生成する視覚的-プログラム的インターフェースを確立するモデル、JanusCoderおよびJanusCoderVを訓練する。我々の統一モデルは、分離されたタスクごとに特化したモデルを構築する既存のアプローチからの転換点である。テキスト中心およびビジョン中心のコーディングタスクにおける広範な実験により、JanusCoderシリーズの優れた性能が実証され、7Bから14Bスケールの我々のモデルは商用モデルの性能に迫り、場合によっては凌駕することさえ示された。さらに、広範な分析を通じて、プログラム的論理とその視覚的表現を調和させるための重要な知見が得られた。コードとチェックポイントはhttps://github.com/InternLM/JanusCoderで公開されている。
近年、画像推論手法の進歩、特に「イメージを用いた思考(Thinking with Images)」はマルチモーダル大規模言語モデル(MLLM)において顕著な成功を収めてきた。しかし、この動的推論パラダイムは映像推論タスクには未だ拡張されていない。本論文では、Video-Thinkerを提案する。これは推論プロセス全体において、モデルが内在的な「グラウンディング」能力と「キャプション生成」能力を自律的に活用して推論の手がかりを生成し、MLLMに映像を用いた思考を可能とするものである。この能力を喚起するため、思考の連鎖推論シーケンス内での自律的なツール利用を特徴とする精選データセットVideo-Thinker-10Kを構築した。学習戦略としては、まず教師ありファインチューニング(SFT)により推論形式を学習し、その後Group Relative Policy Optimization(GRPO)を用いて推論能力を強化する。このアプローチにより、Video-Thinkerは外部ツールの構築や呼び出しを必要とせず、MLLMが映像推論のためのグラウンディングとキャプション生成タスクを自律的に遂行できるようになる。大規模な実験により、Video-Thinkerがドメイン内タスクおよびVideo-Holmes、CG-Bench-Reasoning、VRBenchといった挑戦的なドメイン外映像推論ベンチマークの両方で顕著な性能向上を達成することが実証された。我々のVideo-Thinker-7Bは、Video-R1などの既存ベースラインを大幅に上回り、7B規模のMLLMにおいて最先端の性能を確立している。
本稿は、拡散モデルの発展を導いてきた中核的原理を提示し、その起源を辿りながら、多様な定式化が共通の数学的アイデアから如何に生じるかを示す。拡散モデリングはまず、データをノイズへと段階的に劣化させる順過程を定義することから始まる。これにより、データ分布が単純な事前分布へと、連続的な中間分布を介して結び付けられる。目標は、ノイズをデータへと変換し、同じ中間分布を回復する逆過程を学習することである。我々は三つの相補的な視点を説明する。変分自己符号化器に着想を得た変分的視点は、拡散をノイズを段階的に除去する学習と見做す。エネルギー基底モデルに根差すスコア基底視点は、変化するデータ分布の勾配を学習し、サンプルをより確からしい領域へと導く方法を示す。正規化フローに関連するフロー基底視点は、生成を、学習された速度場の下でノイズからデータへサンプルを移動させる滑らかな経路を辿るものと扱う。これらの視点は共通の基盤を有する:時間依存の速度場であり、そのフローが単純な事前分布をデータへと輸送する。サンプリングはその後、ノイズを連続的な軌道に沿ってデータへと変化させる微分方程式を解くことに帰着する。この基礎の上に、本稿は制御可能な生成のためのガイダンス、効率的な数値解法、および任意の時間間の直接写像を学習する拡散動機付けフローマップモデルについて論じる。基本的な深層学習の知識を有する読者に対して、拡散モデルの概念的かつ数学的に根拠ある理解を提供する。
自然言語で記述された数学を機械検証可能な形式記述に変換する自動形式化(Autoformalization)は、自然言語で述べられた数学問題を形式的数学推論によって解決する上で極めて重要である。大規模言語モデルは構文的に正しい形式記述を生成できるが、元の問題の意味的意図を保持できない場合が多い。この限界は、LLMアプローチが自動形式化を単純な翻訳タスクとして扱い、人間の専門家が自然に用いる内省的検討や反復的改良のメカニズムを欠いていることに起因する。これらの課題に対処するため、我々は意味的一貫性評価を自動形式化プロセスに緊密に統合した反射的自動形式化手法「ReForm」を提案する。これによりモデルは形式的記述を反復生成し、その意味的忠実性を評価し、特定された誤りを段階的改良によって自己修正できる。この反射的モデルを効果的に訓練するため、異なる系列位置で異なる報酬を用いることで、モデルが正確な自動形式化と適切な意味的検証の両方を習得し、反省の目的を損なう表面的批判を防止する「将来境界付き系列最適化(PBSO)」を導入した。4つの自動形式化ベンチマークにおける大規模実験により、ReFormが最強のベースラインを平均17.2ポイント上回ることを実証した。評価の信頼性をさらに確保するため、専門家が注釈を付けた859項目から成るConsistencyCheckベンチマークを導入。これはLLMを評価者として検証するだけでなく、自動形式化が本質的に困難であること(人間の専門家でさえ最大38.5%の事例で意味的誤りを生じる)を明らかにした。
実世界の言語エージェントは、多様なアプリケーションにわたる複雑で多段階のワークフローを扱う必要があります。例えば、エージェントはカレンダーやファイルシステムと連携してメールを管理したり、運用マニュアルに従って本番データベースを監視して異常を検出しレポートを生成したりします。しかし、既存の言語エージェントベンチマークは、狭いドメインや単純化されたタスクに焦点を当てることが多く、エージェントの実世界での性能を評価するために必要な多様性、現実性、長期的な複雑性が欠けています。このギャップを埋めるため、我々はTool Decathlon(Toolathlonと称する)を導入します。これは、多様なアプリケーションとツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークです。 Toolathlonは32のソフトウェアアプリケーションと604のツールを網羅し、GoogleカレンダーやNotionといった日常的なプラットフォームから、WooCommerce、Kubernetes、BigQueryなどの専門的なものまで範囲を広げています。ツールの大部分は、我々が修正または独自実装した高品質なModel Context Protocol(MCP)サーバー群に基づいています。従来の研究が主に機能的な現実性を確保する一方で環境状態の多様性が限られていたのに対し、我々は数十人の学生が登録されたCanvasコースや実際の財務スプレッドシートなど、実ソフトウェアから得られた現実的な初期環境状態を提供します。 このベンチマークには合計108の手動収集または作成されたタスクが含まれており、完了までに平均約20回の対話を要する複数アプリケーションとの連携が求められます。各タスクは専用の評価スクリプトを通じて厳密に検証可能です。SOTAモデルに対する包括的評価は、それらが重大な課題を抱えていることを浮き彫りにしています:最高性能のモデルであるClaude-4.5-Sonnetは、平均20.2回のツール呼び出しで成功率38.6%に留まり、トップのオープンウェイトモデルであるDeepSeek-V3.2-Expは20.1%を達成しています。我々はToolathlonが、実世界の長期的タスク実行に対応できるより優れた言語エージェントの開発を促進することを期待します。
強化学習(RL)に基づくポストトレーニングは、大規模推論モデル(LRM)における多段階推論の実現に不可欠であるが、現在の報酬設計は一般的に結果中心である。本論文では、推論を意識したグループ相対方策最適化(GRPO)であるPM4GRPOを提案する。これは標準的な回答/形式報酬に、推論プロセスに関する信号を追加するものである。この目的のために、プロセスマイニング技術を活用して、方策モデルの推論が事前学習された教師モデルにどれだけ密に沿っているかを測定するスカラー適合報酬を計算する。5つのベンチマークによる実証結果は、PM4GRPOがGRPOベースのポストトレーニングにおける既存手法を有意に上回ることを示している。これらの結果は、推論を意識したGRPOにプロセスマイニングを活用することが、方策モデルの推論能力を効果的に強化することを強調している。
我々はMing-Omniのアップグレード版であるMing-Flash-Omniを提案する。本モデルはLing-Flash-2.0のスパーサーなMixture-of-Experts(MoE)変種を基盤としており、総パラメータ数は1,000億であるが、トークンごとに活性化するパラメータは61億に留まる。このアーキテクチャは、計算効率を劇的に向上させながらモデル容量を大幅に拡大する高効率なスケーリングを可能とし、視覚・音声・言語にわたる強力な統一マルチモーダル知能を実現するもので、人工汎用知能(AGI)に向けた重要な一歩を表している。前身モデルと比較して、本アップグレード版はマルチモーダル理解と生成の両方で大幅な改善を示している。我々は音声認識能力を大幅に進化させ、文脈認識ASRではState-of-the-Art性能を達成し、方言認識ASRでは極めて競争力の高い結果を得た。画像生成においては、Ming-Flash-Omniは高精細なテキスト描画を実現し、画像編集時のシーン一貫性とアイデンティティ保存において顕著な向上を示す。さらに、Ming-Flash-Omniは生成的セグメンテーション機能を導入し、単体での強力なセグメンテーション性能を達成するだけでなく、画像生成における空間制御を強化し、編集の一貫性を向上させる。特筆すべきは、Ming-Flash-Omniがテキストからの画像生成と生成的セグメンテーションの両方でState-of-the-Artを達成し、12の文脈認識ASRベンチマーク全てで新記録を樹立したことで、これらは全て単一の統一アーキテクチャ内で実現されている。
視覚効果(VFX)はデジタルメディアの表現力において極めて重要であるにもかかわらず、その生成は生成AIにおける主要な課題として残っている。既存の手法は「1効果1LoRA」のパラダイムに依存する場合が多く、リソースを大量に消費する上に、未見の効果への汎化が原理的に不可能であるため、拡張性と創造性が制限されている。この課題に対処するため、我々は参照ベースの統合型VFX動画生成フレームワークであるVFXMasterを初めて提案する。本手法は効果生成をインコンテキスト学習タスクとして再定義し、参照動画から多様な動的効果を対象コンテンツに転写することを可能にする。さらに、未見の効果カテゴリーに対する顕著な汎化能力を示す。具体的には、参照例でモデルをプロンプトするインコンテキスト条件付け戦略を設計する。インコンテキスト注意マスクを設計することで、本質的な効果属性を精密に分離・注入し、単一の統合モデルが情報漏洩なく効果模倣を習得できるようにした。加えて、難易度の高い未見効果に対して、ユーザー提供の単一動画から迅速に汎化能力を高める効率的なワンショット効果適応メカニズムを提案する。大規模実験により、本手法が多様なカテゴリーの効果情報を効果的に模倣し、ドメイン外効果に対する優れた汎化性能を示すことを実証した。将来の研究発展を促進するため、コード、モデル、包括的なデータセットをコミュニティに公開する予定である。
近年、指示ベース画像編集(IIE)は広く注目を集めている。実際の応用では、IIEは画像の特定領域のみを変更することが多く、残りの領域はほぼ変化しない。これら2種類の領域は生成難易度と計算冗長性において大きく異なるが、既存のIIEモデルはこの差異を考慮せず、画像全体に均一な生成プロセスを適用している。この問題意識から、我々は追加学習なしでIIEタスクを高速化する適応的で領域を考慮した生成フレームワーク「RegionE」を提案する。具体的には、RegionEフレームワークは以下の3つの主要コンポーネントで構成される:1)適応的領域分割。未編集領域の軌跡が直線的であることを観測したため、複数ステップのノイズ除去予測を1ステップで推定可能である。そこで、初期のノイズ除去段階において、最終推定結果と参照画像の差分に基づき画像を編集領域と未編集領域に分割する。2)領域を考慮した生成。領域を区別した後、未編集領域では多段階ノイズ除去を1段階予測に置き換える。編集領域では軌跡が曲線的であるため、局所的な反復的ノイズ除去が必要となる。局所的反復生成の効率と品質向上のため、大域情報を保持しつつ計算コストを削減する「Region-Instruction KVキャッシュ」を提案する。3)適応的速度減衰キャッシュ。編集領域における隣接時間ステップが強い速度類似性を示すことを観測し、局所的ノイズ除去プロセスを加速する適応的速度減衰キャッシュをさらに提案する。RegionEをStep1X-Edit、FLUX.1 Kontext、Qwen-Image-Editなどの最先端IIEベースモデルに適用した結果、それぞれ2.57倍、2.41倍、2.06倍の高速化を達成した。GPT-4oによる評価では、意味的・知覚的忠実性が良好に維持されていることが確認された。
生体分子間相互作用は、ほぼすべての生物学的プロセスの基盤を成しており、その合理的設計は新たな生物学的機能をプログラムする上で中心的な重要性を持つ。生成AIモデルは分子設計の強力なツールとして登場したが、その多くは依然として個々の分子タイプに特化しており、相互作用の詳細な制御が欠如している。本稿では、全原子レベルの全対全生体分子間相互作用設計のための生成世界モデル「ODesign」を提案する。ODesignにより、科学者は任意の標的分子上のエピトープを指定し、多様なクラスの結合パートナーを詳細に制御しながら生成することが可能となる。タンパク質モダリティにおける実体レベル、トークンレベル、原子レベルのベンチマークにおいて、ODesignはモダリティ特化のベースラインモデルを上回る制御性と性能を示した。タンパク質を超えて、ODesignは核酸や低分子の設計にも一般化し、従来は達成が困難であった、タンパク質結合性RNA/DNAやRNA/DNA結合性リガンドといった相互作用タイプを実現する。多様な生体分子間相互作用を単一の生成フレームワーク内に統合することで、ODesignはプログラム可能な設計を実現する汎用分子世界モデルへと前進する。ODesignは https://odesign.lglab.ac.cn で利用可能である。
Retrieval Augmented Generation (RAG) システムは、オンラインゲームのような動的領域において重要性を増しているが、この分野における標準化された評価は、専用ベンチマークの欠如によって妨げられてきた。中核的な難しさは、デュアルダイナミクス、すなわちゲームコンテンツの更新とプレイヤーコミュニティの注目の変化との間で絶えず行われる相互作用にある。さらに、このようなベンチマークを自動化する必要性は、生成される質問を現実的なものにするために、プレイヤー中心の真正性という重要な要件をもたらす。この統合された課題に取り組むため、我々はゲームRAGベンチマークを自動的かつ継続的に生成する新しいフレームワーク、ChronoPlayを提案する。ChronoPlayは、両方の変化を追跡するデュアルダイナミック更新メカニズムと、公式情報源とプレイヤーコミュニティの両方から情報を引き出して事実の正確性と質問パターンの真正性の両方を確保するデュアルソース合成エンジンを利用する。我々はこのフレームワークを3つの異なるゲームに適用し、ゲーム領域初の動的RAGベンチマークを構築した。これにより、これらの複雑で現実的な条件下でのモデル性能に関する新たな知見が得られる。コードは https://github.com/hly1998/ChronoPlay で公開されている。
人間は、視覚や聴覚などのマルチモーダルな観察を通じて空間を理解する空間推論能力を有している。大規模マルチモーダル推論モデルは、知覚と推論を学習することでこれらの能力を拡張し、多様な空間タスクにおいて有望な性能を示している。しかし、これらのモデルに関する体系的なレビューと公開ベンチマークは依然として限られている。本サーベイでは、大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを提供し、マルチモーダル大規模言語モデル(MLLMs)の最近の進展を分類するとともに、評価のための公開ベンチマークを紹介する。まず一般的な空間推論の概要を述べ、特に学習後技術、説明可能性、アーキテクチャに焦点を当てる。従来の2Dタスクを超えて、空間関係推論、シーン・レイアウト理解、3D空間における視覚質問応答とグラウンディングを検討する。また、視覚言語ナビゲーションや行動モデルを含む具身化AIの進展もレビューする。さらに、新しいセンサーを通じて新たな空間理解に寄与する音声やエゴセントリックビデオなどの新興モダリティにも言及する。本サーベイがマルチモーダル空間推論という成長著しい分野の確固たる基礎を築き、洞察を提供すると確信している。本サーベイの最新情報、公開ベンチマークのコードと実装は、https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning で確認できる。
大規模言語モデル(LLM)およびLLM駆動エージェントの急速な進歩と広範な展開は、それらを評価する我々の能力を凌駕している。手作りで静的なベンチマークがモデル能力を評価する主要な手段であるが、これらは急速に飽和状態に達する。一方、動的ベンチマークは評価対象のモデルと共に進化するが、作成と継続的更新に多大なコストがかかる。これらの課題に対処するため、我々は環境設計原理を活用して動的ベンチマーク設計プロセスを自動化するフレームワーク「BeTaL(Benchmark Tuning with an LLM-in-the-loop)」を開発した。BeTaLは基本ベンチマークテンプレートにおける主要な設計選択をパラメータ化し、LLMを用いて結果として生じるパラメータ空間を推論させることで、費用対効果の高い方法で(難易度や現実性などの)目標特性を達成する。本アプローチの検証として、所望の難易度を持つベンチマーク作成能力を評価した。BeTaLを用いて2つの新規ベンチマークを作成し、広く使われるエージェントベンチマークtau-benchを拡張した。これら3タスクと複数の目標難易度における詳細な評価により、BeTaLが生成するベンチマークは目標難易度により近く(平均偏差は5.3%から13.2%)、ベースラインと比較して2~4倍の精度向上を達成することが示された。
本論文では、大規模モデル訓練の透明性と再現性を促進するために設計された、フランス語-英語-プログラミング言語対応の完全オープンなモデルスイート「Gaperon」を公開する。Gaperonファミリーは、2~4兆トークンで学習された15億、80億、240億パラメータモデルを含み、訓練パイプラインの全要素とともに公開される:神経网络的品質分類器でフィルタリングされた仏英データセット、効率的なデータ精製及び訓練フレームワーク、数百もの中間チェックポイントである。本研究を通じて、データフィルタリングと汚染(contamination)が、ベンチマーク性能と生成性能の双方を形成する際の相互作用を検証する。言語的品質によるフィルタリングはテキストの流暢性と一貫性を向上させるが、ベンチマーク結果は低調となり、一方で後期の意図的汚染――テストセットを含むデータ混合での訓練継続――は、生成品質を許容範囲で損なうのみで、競争力のあるスコアを回復させることを見出した。一般的な神経网络的フィルタリングが、意図せずベンチマーク漏洩を増幅し得る点についても論じる。さらなる研究を支援するため、事前学習中に無害なデータポイズニングを導入し、安全性研究の現実的なテストベッドを提供する。全てのモデル、データセット、コード、チェックポイントをオープンに公開することにより、Gaperonは多言語言語モデル開発におけるデータ精製、評価、安全性、開放性の間のトレードオフを探求する再現可能な基盤を確立する。
大規模言語モデル(LLM)は強力であるが、推論時の実用面では処理速度が遅くコストが高いことが多い。ループ化トランスフォーマーは、複数の計算ステップ(「ループ」)で同一の重みを再利用することでパラメータ数を削減する。しかしこの手法には重大な欠点がある。ループが逐次実行されるため、推論の遅延やメモリ要求量がループの追加に伴って増大し、高速な応用には実用的でない。この問題を解決するため、我々は並列ループトランスフォーマー(PLT)を提案する。PLTは新しいアーキテクチャであり、深いループ化モデルの性能を維持しつつ、標準的な非ループモデルと同程度の低遅延を実現する。PLTは二つの核心技術により機能する。第一に、クロスループ並列化(CLP)は、異なるトークンに対する異なるループを単一パス内で同時計算することで、逐次依存性を排除する。第二に、メモリコストの増大を防ぐため、効率的表現強化戦略を採用する。この手法では、第一ループのメモリ(KVキャッシュ)を他の全ループで共有し、ゲート付きスライディングウィンドウ注意機構(G-SWA)を用いて、この共有された大域情報と局所情報を統合することで高精度を維持する。実験により、PLTが従来のループ化モデルと同等の高精度を達成しつつ、標準トランスフォーマーと比べて遅延やメモリコストがほとんど増加しないことを確認した。
統一視覚言語モデル(UVLM)は単一のアーキテクチャ内で理解と生成の両方を実行する必要があるが、これらのタスクは異種のデータと教師信号に依存するため、強化学習(RL)中のバランス調整が困難である。本研究では、データを理解-生成(UG)ペアに再構成し、最適化を対応づける統一フレームワークPairUniを提案する。まずGPT-4oを活用して単一タスクデータを拡張し、理解サンプルにはキャプションを、生成サンプルには質問応答(QA)ペアを生成することで、同一インスタンスから整列されたペアを構築する。さらに各生成サンプルに対して意味的に関連する理解事例を検索し、異なるデータポイント間を結ぶ検索ベースのペアを形成する。これらのペア構造はタスク間の意味的対応関係を明示し、一貫性のある方策学習を支援する。 この構造を活用するため、Group Relative Policy Optimizationを基盤としたペア対応変種Pair-GPROを開発した。各ペアに類似度スコアを割り当ててadvantageを調整し、良好に整列した事例からの学習を強化するとともにタスク干渉を低減する。RLファインチューニング用に16Kの高品質UGペアデータセットPairUGを構築し、強力なUVLMであるJanus-ProでPairUniを評価した。本手法は各種UVLMでバランスの取れた性能向上を達成し、既存の強力なUVLM RLベースラインを上回る結果を示した。コード:https://github.com/Haochen-Wang409/PairUni
マルチエージェントシステム(MAS)の実用的な展開には、強力な推論時性能が求められ、推論時の探索を導き、計算リソースを選択的に投入して品質を向上させる手法の開発が促進されている。本論文では、マルチエージェントシステムプロセス報酬モデル(MASPRM)を提案する。MASPRMは、エージェント間の部分的な対話記録に対してアクション単位、エージェント単位の価値を割り当て、推論時のコントローラとして機能する。MASPRMは、マルチエージェントモンテカルロ木探索(MCTS)のロールアウトから学習され、ステップ単位の人手アノテーションを必要とせず、リターンを局所的なターゲットに伝播させることで訓練される。推論時には、MASPRMはステップ単位のビームサーチとMCTSを導き、計算を有望な分岐に集中させ、早期に枝刈りを行う。GSM8KとMATHにおいて、最終回答に適用された結果報酬モデル(ORM)を用いたMASPRM誘導デコーディングは、単一のストレートスルーMASパスと比較して、完全一致(EM)をそれぞれ+30.7ポイント、+22.9ポイント改善した。GSM8Kで学習されたMASPRMは、再学習なしでMATHにゼロショット転移し、同じ計算予算で8.4 EMポイントを追加する。MASPRMは、エージェント単位の進捗を推定するプラグイン型の価値モデルであり、検証器スタイルのデコーダを補完し、より信頼性が高く計算を意識したマルチエージェント推論を可能にする。コード: https://github.com/milad1378yz/MASPRM
本論文では、大規模言語モデル(LLM)を強化学習により診断エージェントとして訓練するフレームワークを提案する。これにより、モデルはマルチターンの診断プロセスを管理し、適応的に検査を選択し、最終診断を確定することが可能となる。静的な症例要約で訓練された指示チューニングモデルとは異なり、本手法は対話的探索と結果に基づくフィードバックを通じて診断戦略を獲得する。我々の貢献は以下の4点である。(i) 電子健康記録で訓練された診断世界モデルDiagGymを提示する。これは患者の病歴と推奨検査に条件付けられた検査結果を出力し、現実的な診断訓練と評価のための仮想臨床環境として機能する。(ii) エンドツーエンドのマルチターン強化学習によりDiagAgentを訓練し、情報収益と診断精度の両方を最適化する診断ポリシーを学習させる。(iii) 医師により検証された検査推奨を含む750症例と、診断プロセスに関する医師記述973件のルーブリックで注釈付けされた99症例から構成される診断ベンチマークDiagBenchを導入する。(iv) 多様な診断設定において優れた性能を実証する。DiagAgentは、DeepSeek-v3やGPT-4oを含む10の最先端LLMおよび2つのプロンプトエンジニアリングされたエージェントを有意に上回った。シングルターン設定では、診断精度が9.34%向上し、検査推奨ヒット率が44.03%改善した。エンドツーエンド設定では、診断精度が15.12%向上し、検査推奨F1スコアが23.09%上昇した。ルーブリックベースの評価では、次点モデルであるClaude-sonnet-4を加重ルーブリックスコアで7.1%上回った。これらの知見は、対話型臨床環境でのポリシー学習が、受動的訓練だけでは得られない動的かつ臨床的に意味のある診断管理能力を付与することを示唆している。
近年の運転世界モデルの進歩により、高品質なRGBビデオやマルチモーダルビデオの制御可能な生成が可能となった。既存手法は主に生成品質と制御性に関する評価指標に焦点を当てている。しかし、自動運転の性能にとって極めて重要である下流の知覚タスクの評価が往々にして見落とされている。既存手法では一般に、合成データで事前学習した後実データでファインチューニングする訓練戦略を採用するため、ベースライン(実データのみ)と比較して2倍のエポック数を要する。ベースラインのエポック数を2倍にすると、合成データの利点は無視できる程度になる。合成データの利点を徹底的に実証するため、我々は下流知覚タスクを強化する新しい合成データ生成フレームワーク「Dream4Drive」を提案する。Dream4Driveはまず入力ビデオを複数の3D認識ガイダンスマップに分解し、その後3Dアセットをこれらのガイダンスマップ上にレンダリングする。最後に、運転世界モデルを微調整して編集されたマルチビューの写実的なビデオを生成し、これを下流の知覚モデルの訓練に利用する。Dream4Driveは、大規模なマルチビューコーナーケースの生成において前例のない柔軟性を実現し、自動運転におけるコーナーケース知覚を大幅に強化する。将来の研究の発展に貢献するため、典型的な運転シナリオのカテゴリを網羅し、多様な3D認識ビデオ編集を可能にする大規模3Dアセットデータセット「DriveObj3D」も公開する。包括的な実験により、Dream4Driveが様々な訓練エポック数条件下で下流知覚モデルの性能を効果的に向上させ得ることを示す。
検証可能な報酬による強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を強化する有望なパラダイムとして登場した。この枠組みでは、モデルが推論軌道を探索し、正答を含むロールアウトを政策最適化のための正の信号として利用する。しかし、これらのロールアウトには、答えの推測や飛躍した推論といった欠陥のあるパターンが含まれる可能性がある。このような「欠陥正例」ロールアウトは完全に正しいロールアウトと同様に報酬が与えられるため、政策モデルがこれらの信頼性の低い推論パターンを内在化する原因となる。本研究ではまず、強化学習における欠陥正例ロールアウトの系統的な分析を行い、それらが最適化の初期段階では能力の急速な向上をもたらす一方、後期には信頼性の低いパターンを強化することで推論能力を制約することを明らかにする。この知見に基づき、我々はFAPO(Flawed-Aware Policy Optimization)を提案する。FAPOは欠陥正例ロールアウトに対してパラメータフリーな報酬ペナルティを課し、ウォームアップ段階では有用な近道として活用して安定した初期成長を確保しつつ、後期の精緻化段階では信頼性の高い推論へ最適化を漸進的に移行させる。欠陥正例ロールアウトを正確かつ包括的に検出するため、推論エラーを精密に特定するプロセスレベル報酬を備えた生成的報酬モデル(GenRM)を導入する。実験により、FAPOがトークン予算を増加させることなく、結果の正確性、プロセスの信頼性、学習の安定性を向上させ、幅広い領域で有効であることを示す。
DeepSeek-R1に代表されるテキスト専用大規模言語モデル(LLM)の近年の進展は、驚くべき推論能力を示している。しかしながら、これらのモデルはマルチモーダルタスクに拡張された場合、脆弱なままであるか、あるいは完全に機能しない。既存のアプローチの多くは、単一形式のキャプションに依存しており、多様性に欠け、様々なタイプの視覚質問応答(VQA)ベンチマーク間での適応にしばしば失敗する。その結果、細粒度の視覚情報を伝達するための原理的かつ効率的な経路を提供しない。本研究では、Seeing Eyeを提案する。これは、エージェントベースの小型VLMトランスレーターを通じて、テキスト専用LLMにおけるマルチモーダル推論を可能にするモジュール型フレームワークである。このトランスレーターは知覚エージェントとして機能し、専門ツール(OCRや切り抜きなど)を呼び出し、マルチモーダル入力を質問に合わせて構造化中間表現(SIR)へと反復的に蒸留する。これらのSIRはその後、推論エージェントとして機能するテキスト専用LLMに渡される。決定的に重要なのは、トランスレーターと推論機が多段階のフィードバックと相互作用を行うことで、対象を絞った視覚的詳細の抽出を可能にし、より確信の持てる回答を生み出す点である。MMMUやMIA-Benchを含む知識集約型VQAベンチマークによる実験により、Seeing Eyeが推論コストを削減するだけでなく、はるかに大規模なエンドツーエンドVLMを凌駕することを実証した。例えば、30億パラメータの視覚トランスレーターと80億パラメータの言語推論機を組み合わせたインスタンス化は、挑戦的な知識ベースの質問において、単体の320億VLMを上回る性能を示した。我々の結果は、知覚と推論をエージェント情報フローによって分離することが、強力なテキスト専用LLMがその推論能力を完全に発揮するための、スケーラブルでプラグアンドプレイ可能なマルチモーダル推論への経路を提供することを明らかにしている。コードは以下で公開されている:https://github.com/ulab-uiuc/SeeingEye
推論能力に特化した大規模言語モデル(RLLM)は、数学やコーディングなどの複雑な推論タスクにおいて、汎用LLMと比較して優れた競争力を有することが実証されている。しかし、RLLMのサービング性能と動作特性については未解明な部分が多く、実環境での展開と活用を妨げる可能性がある。このギャップを埋めるため、本論文ではRLLMサービングに関する包括的な調査を実施する。まず、RLLMと従来のLLMのサービング性能を比較する予備調査を行い、サービング動作に関していくつかの明確な相違点を明らかにする:(1)顕著なメモリ使用量とその変動、(2)遅延リクエストの存在、(3)適応的な実行時間、(4)ドメイン選好性である。次に、既存の推論最適化技術がRLLMに有効かどうかを検証する。主な知見として、モデル量子化手法と投機的デコーディングは、RLLMの精度をわずかに犠牲にするものの、サービスシステムの効率を向上させることができる。一方、プレフィックスキャッシュやKVキャッシュ量子化は、小規模なRLLMにおいて精度やサービング性能をむしろ低下させる可能性がある。最後に、ガンマ分布でモデル化した実世界のワークロードを用いて評価を実施し、我々の知見を検証する。異なるデータセットにわたる実ワークロード評価の実証結果は、RLLMサービングに関する主知見と一致する。本研究が、RLLM推論サービングの発展に向けて、学界および産業界に有益な示唆を提供することを期待する。
人工知能(AI)、および科学分野におけるAI(AIS)の開発は、責任あるAIの原則に従って行われるべきである。責任あるAIの進展は、多くの場合、評価指標を通じて定量化されるが、指標そのものの頑健性と信頼性を評価する研究は比較的少ない。本稿では、AIアプリケーションの一種である推薦システムの公平性指標の頑健性を検証した先行研究を振り返り、その重要な知見を、信頼性の高い責任あるAIの指標を開発するための非網羅的なガイドラインにまとめる。我々のガイドラインは、AISを含む幅広いAIアプリケーションに適用可能である。
大規模言語モデル(LLM)の急速な進歩に伴い、ドメインおよび文化に特化した評価の必要性が高まっている。既存のベンチマークは主にアングロサクソン中心でドメインに依存しないため、インドを中心とした文脈への適用性が限られている。この課題に対処するため、我々は重要なインドの知識体系に焦点を当てた、初のドメイン特化型・マルチタスク・二言語対応ベンチマークであるBhashaBench V1を提案する。BhashaBench V1は、政府やドメイン固有の試験から収集した信頼性の高い74,166組の質問-回答ペア(英語52,494組、ヒンディー語21,672組)を厳選して含む。農業、法律、金融、アーユルヴェーダの4つの主要ドメインを網羅し、90以上のサブドメイン、500以上のトピックを含むため、きめ細かい評価が可能である。29以上のLLMを評価した結果、特にリソースの少ないドメインにおいて、顕著なドメインおよび言語依存の性能差が明らかになった。例えば、GPT-4oは法律ドメインで76.49%の総合精度を達成したが、アーユルヴェーダでは59.74%に留まった。全てのドメインにおいて、モデルはヒンディー語コンテンツよりも英語コンテンツで一貫して高い性能を示した。サブドメインレベルの分析では、サイバー法や国際金融などの分野は比較的良好な性能であるのに対し、パンチャカルマ、種子科学、人権などの分野は特に弱点であることが示された。BhashaBench V1は、インドの多様な知識ドメインにわたる大規模言語モデルの評価包括的なデータセットを提供する。これにより、ドメイン固有の知識と二言語理解能力を統合するモデルの能力を評価できる。すべてのコード、ベンチマーク、リソースは公開研究を支援するために公開されている。
集中型AIが計算リソースの限界に達し、大規模な学習実行から得られる収益が逓減する中、需要を満たすには容量と能力の両方で水平方向にスケールする推論層が求められる。我々はFortytwoを提案する。これは群衆知能の原理と分散型ペアワイズランキング合意を活用し、AI推論において優れた性能を実現する新規プロトコルである。本アプローチは、AIノード間の協働を「群衆推論」として再定義する。これは異種モデル間でのピア評価による評判加重合意により、最高品質の応答を選出する仕組みである。カスタムBradley-Terry式集約モデルを用いたペアワイズランキングにより、群衆推論が単純多数決を大幅に上回る性能を示すことを実証した(同一モデルセットでGPQA Diamondにおいて85.90% vs 68.69%、+17.21ポイントの改善、相対改善率約+25.1%)。本プロトコルはオンチェーン評判システムを組み込むことで、ノードの影響力を実績精度に応じて動的に調整し、低品質または悪意のある参加者を選別する実力主義の合意を実現する。Sybil攻撃への耐性確保のため、Fortytwoは合意に能力証明を採用する。ノードはランキング参加に際し、較正/テスト要求を成功裏に完了し評判をステークする必要があり、オープン性を維持しつつ複数ID攻撃を経済的に非合理とする。GPQA Diamond、LiveCodeBench、AIMEを含む6つの難易度の高いベンチマークによる評価では、従来の単一モデルベースライン(プロンプトインジェクションによる性能劣化6.20%)に対し、群衆推論は高い精度と敵対的/ノイジーな自由形式プロンプトへの強靭性(劣化率0.12%)を示し、実用性を保持することが確認された。これらの成果は、信頼性や安全性を損なうことなく集団知能による高品質な推論へのアクセスを民主化する、分散型AIシステムの基盤を確立するものである。
自己回帰型ビデオ拡散モデルは、安定した履歴整合性の高い長尺の動画生成が可能であるが、将来フレームからの条件付けによる現在の生成過程の誘導ができない。事前定義されたカメラ軌道に基づくカメラ誘導型ビデオ生成において、この制約は生成シーンとの衝突を引き起こし、衝突後は自己回帰が急速に破綻する。この問題を解決するため、我々は生成的視点縫合(Generative View Stitching: GVS)を提案する。これは全シーケンスを並列にサンプリングし、生成シーンが事前定義されたカメラ軌道の全区間に対して忠実となるようにする。主な貢献は、ロボット計画のための拡散縫合の先行研究をビデオ生成に拡張したサンプリングアルゴリズムである。従来の縫合手法は専用に訓練されたモデルを必要とする場合が多いが、GVSはDiffusion Forcing(広く用いられるシーケンス拡散フレームワーク)で訓練された既存のオフ・ザ・シェルフのビデオモデルと互換性がある。本論文では、このフレームワークが既に縫合に必要な機能を備えていることを示す。さらに、過去と未来の両方で条件付けを行うことで縫合における時間的一貫性を強化し、長距離コヒーレンスを実現するループ閉鎖メカニズムを可能にするOmni Guidanceを導入する。全体として、GVSは安定性、衝突回避、フレーム間一貫性を備え、オスカー・ロイタースヴァルドの「不可能階段」を含む様々な事前定義カメラ経路に対してループ閉鎖を実現するカメラ誘導型ビデオ生成を実現する。結果はhttps://andrewsonga.github.io/gvs の動画でご覧いただくのが最適である。
本論文では、6つの主要タスクカテゴリーにまたがり、複数の深学習フレームワークに対応した豊富なメタデータを持つ2.7Kの実世界深学習計算グラフデータセット「GraphNet」を紹介する。これらのサンプルに対するテンソルコンパイラの性能評価のために、実行時間の高速化と調整可能な許容範囲内での正しさを統合的に考慮するベンチマーク指標「Speedup Score S(t)」を提案する。これは一般的な最適化能力の信頼性高い測定を提供する。さらに、S(t)を誤差情報を組み込んだ「Error-aware Speedup Score ES(t)」に拡張し、コンパイラ開発者が主要な性能ボトルネックを特定することを支援する。本報告では、コンピュータビジョン(CV)および自然言語処理(NLP)サンプルにおいて、PaddlePaddle向けデフォルトテンソルコンパイラであるCINNと、PyTorch向けTorchInductorをベンチマークし、GraphNetの実用性を実証する。グラフ抽出およびコンパイラ評価ツールを含む完全な構築パイプラインはhttps://github.com/PaddlePaddle/GraphNet で公開されている。
自己回帰(AR)モデリングは視覚的生成における新たなパラダイムとして最近登場したが、その実用的な採用は、1サンプルを生成するのに数千ステップを必要とすることが多い、トークン単位の生成に伴う遅い推論速度によって深刻に制約されている。この課題に対処するため、我々は最近導入されたSpeculative Jacobi Decoding(SJD)を拡張し、AR視覚生成を加速するように設計された、学習不要でロスレスな並列デコードフレームワークであるMC-SJDを提案する。SJDはAR生成の加速に強力な可能性を示すが、我々は、反復間でのトークンの不安定性が受理率を大幅に低下させることを実証する。この制限は主に、ドラフトトークン生成時に用いられる独立したサンプリングプロセスに起因する。これを克服するために、我々はカップリングに基づく情報理論的アプローチであるMC-SJDを導入する。これは、連続する反復間で同一のドラフトトークンをサンプリングする確率を最大化することで、ロスレスの特性を保ちつつ標準SJDを大幅に加速する。特筆すべきは、この方法が既存のアルゴリズムに対し単一行の修正のみを必要とするにもかかわらず、出力品質の劣化なしに、画像生成では最大約4.2倍、動画生成では約13.3倍の加速を実現し、大幅な性能向上をもたらす点である。
心理カウンセリング分野における大規模言語モデル(LLM)の応用への関心が高まっている。しかし、既存のアプローチでは、感情理解、適応的戦略、長期記憶に基づく複数セッションにわたる治療法の活用が不足しており、実際の臨床現場からは程遠い状況にある。これらの重要な課題を解決するため、我々は長期的な心理カウンセリングのための戦略的かつ適応的なエージェント「TheraMind」を提案する。TheraMindの基盤となるのは、複雑なカウンセリング過程を、戦術的対話管理のための「セッション内ループ」と、戦略的治療計画のための「セッション間ループ」に分離する新規の二重ループ構造である。セッション内ループは、患者の感情状態を認識して応答戦略を動的に選択するとともに、セッション間の記憶を活用して連続性を確保する。特に重要なのは、セッション間ループが、各セッション後に適用した治療法の有効性を評価し、以降の相互作用における方法を調整することで、エージェントに長期的な適応性を与える点である。我々は、実際の臨床症例に基づく高精度シミュレーション環境において本アプローチを検証した。大規模な評価の結果、TheraMindは他手法を凌駕し、特に一貫性(Coherence)、柔軟性(Flexibility)、治療的同調(Therapeutic Attunement)といった複数セッションにわたる指標で優れた性能を示し、戦略的、適応的、かつ長期的な治療行動を模倣する二重ループ設計の有効性が確認された。コードはhttps://0mwwm0.github.io/TheraMind/で公開されている。