翻訳付きの日次キュレーションされたAI研究論文
推論は、推測、問題解決、意思決定の基盤となる基本的な認知プロセスである。大規模言語モデル(LLM)は閉鎖的な環境では強力な推論能力を示すが、オープンエンドで動的な環境では苦戦する。エージェント的推論は、LLMを継続的な相互作用を通じて計画、行動、学習を行う自律エージェントとして再定義することで、パラダイムシフトを起こしている。本サーベイでは、エージェント的推論を3つの相補的な次元に沿って体系化する。第一に、環境の動態を3層で特徴付ける:基礎的エージェント的推論(安定環境における計画、ツール利用、探索を含む単一エージェントの核心能力の確立)、自己進化的エージェント的推論(フィードバック、記憶、適応を通じてエージェントが能力を洗練するプロセスの研究)、集団的多エージェント推論(調整、知識共有、共通目標を含む協調設定へ知能を拡張する)。これらの層全体において、構造化オーケストレーションによるテスト時相互作用を拡張する文脈内推論と、強化学習及び教師ありファインチューニングによる行動最適化を行う学習後推論を区別する。さらに、科学、ロボティクス、医療、自律的研究、数学などの実世界応用とベンチマークにおける代表的なエージェント的推論フレームワークを概観する。本サーベイはエージェント的推論手法を思考と行動を架橋する統一ロードマップへ統合し、パーソナライゼーション、長期相互作用、世界モデリング、スケーラブルな多エージェント訓練、実世界展開のためのガバナンスを含む未解決課題と将来方向を提示する。
深層研究エージェント(DRA)は、多段階の検索と統合により引用豊富な報告書を生成するが、既存のベンチマークは主にテキストのみの設定または短形式のマルチモーダルQAを対象としており、エンドツーエンドのマルチモーダル証拠活用を評価できていない。本研究では、21分野にわたる140の専門家作成タスクからなるベンチマークMMDeepResearch-Bench(MMDR-Bench)を提案する。各タスクは画像-テキストバンドルを提供し、マルチモーダル理解と引用根拠付き報告書生成を評価する。従来の設定と比較し、MMDR-Benchは明示的な証拠活用を伴う報告書スタイルの統合を重視し、モデルは視覚的要素と引用主張を関連付け、叙述・引用・視覚的参照間の一貫性を維持する必要がある。さらに、統一された解釈可能な評価パイプラインを提案する:報告書品質のためのFormula-LLM適応評価(FLAE)、引用根拠付き証拠整合性のための信頼性検索整合引用評価(TRACE)、テキスト-視覚的整合性のためのマルチモーダル支援整合性検査(MOSAIC)である。各評価は単一の総合スコアを超えた詳細な信号を生成し、誤り診断を支援する。25の最先端モデルによる実験では、生成品質、引用規律、マルチモーダル基盤化の間の体系的トレードオフが明らかとなり、優れた文章表現だけでは忠実な証拠活用を保証せず、マルチモーダル整合性が深層研究エージェントの主要なボトルネックであることが示された。
効果的な反論意見の作成は、単なる言語的流暢さ以上のものを要求するハイステークスな作業であり、査読者の意図と論文の詳細との正確な整合が求められます。既存のアプローチは通常、これを直接テキスト生成問題として扱うため、虚偽の生成、見過ごされた批判点、検証可能な根拠の欠如といった課題に直面しています。これらの制限を解決するため、我々は反論生成を証拠中心の計画タスクとして再定義する初のマルチエージェントフレームワーク「RebuttalAgent」を提案します。本システムは複雑なフィードバックを原子論的な懸念事項に分解し、圧縮された要約と高精度の原文を統合して動的にハイブリッドな文脈を構築します。さらに、外部文献を必要とする懸念事項に対処するため、自律的かつオンデマンドで動作する外部検索モジュールを統合しています。反論文案作成前に検査可能な応答計画を生成することで、RebuttalAgentはすべての論点が内部または外部の証拠に明示的に裏付けられることを保証します。提案するRebuttalBenchを用いた検証により、本パイプラインがカバレッジ、忠実性、戦略的一貫性の面で強力なベースラインを上回ることを示し、査読プロセスにおける透明性と制御性を備えたアシスタントを提供します。コードは公開予定です。
ビデオ生成モデルは、身体性を持つ知能を大きく進歩させ、物理世界における知覚、推論、行動を捉えた多様なロボットデータを生成する新たな可能性を切り開いた。しかし、現実世界のロボット相互作用を正確に反映する高品質なビデオの合成は依然として困難であり、標準化されたベンチマークの欠如が公平な比較と進展を妨げている。この課題を解決するため、我々は5つのタスク領域と4つの異なる身体形態にわたってロボット指向のビデオ生成を評価する包括的なロボティクスベンチマーク「RBench」を提案する。本ベンチマークは、構造的一貫性、物理的妥当性、行動完結性といった再現可能な下位指標を通じて、タスクレベルの正確さと視覚的忠実度の両方を評価する。代表的な25モデルの評価により、物理的に現実的なロボット動作を生成する能力に重大な欠陥があることが明らかになった。さらに、本ベンチマークは人間による評価との間で0.96のスピアマン相関係数を達成し、その有効性を実証している。RBenchはこれらの欠陥を特定する必要な視点を提供するが、物理的リアリズムを達成するには、評価を超えて高品質な訓練データの深刻な不足に対処する必要がある。こうした知見に基づき、我々は洗練された4段階のデータパイプラインを構築し、数千のタスクを網羅し包括的な物理属性注釈を付与した400万の注釈付きビデオクリップからなる、ビデオ生成向け最大のオープンソースロボティクスデータセット「RoVid-X」を開発した。評価とデータの相乗的エコシステムは、ビデオモデルの厳密な評価とスケーラブルな訓練のための強固な基盤を確立し、汎用知能を目指す身体性AIの進化を加速するものである。
GutenOCRは、Qwen2.5-VL-3BおよびQwen2.5-VL-7Bをファインチューニングして得られた、グラウンディング機能を備えたOCRフロントエンドのファミリーです。この単一チェックポイントの視覚言語モデルは、プロンプトベースの統一インターフェースを通じて、文書読解・検出・位置特定機能を提供します。ビジネス文書、学術論文、合成グラウンディングデータで学習されたモデルは、行単位および段落単位のバウンディングボックスを用いた全文ページ読解と局所読解、さらに条件付き「xはどこにある?」クエリに対応します。我々はグラウンディングOCR評価プロトコルを提案し、GutenOCR-7Bが10.5K件の保留されたビジネス・学術ページにおいて、基盤モデルであるQwen2.5-VL-7Bの複合グラウンディングOCRスコアを0.40から0.82へと2倍以上向上させることを実証しました。FoxおよびOmniDocBench v1.5における評価では、本手法が領域レベル・行レベルのOCR精度およびテキスト検出の再現率を大幅に改善する一方、ページレベルでの線形化、色情報を活用したOCR、数式の多いレイアウト処理においてトレードオフが生じることが明らかになりました。
強化学習(RL)は、特に専門的な推論行動を必要とするエージェンシックモデルのポストトレーニングにおいて中心的な役割を果たす。この設定において、モデルマージングは、異なるタスクから複数のRLで訓練されたエージェントを単一のジェネラリストモデルに統合する実用的なメカニズムを提供する。しかし、既存のマージング手法は教師ありファインチューニング(SFT)向けに設計されており、RLで訓練されたエージェンシックモデルにおけるタスク固有の能力を維持するには最適ではない。その根本原因は、RLとSFTの間のタスクベクトルのミスマッチにある。方策オン型RLは、高度にスパースで不均質なタスクベクトルを生成するのに対し、SFTスタイルのマージングは、暗黙的に密でグローバルに比較可能なタスクベクトルを仮定している。このミスマッチの下で標準的なグローバル平均化を適用すると、重要なタスク固有の行動を符号化するRLの非重複タスクベクトルが縮小され、パラメータ更新が希釈されてしまう。この問題を解決するため、我々はRLで訓練されたエージェンシックモデル向けに明示的に設計された分布認識型マージングフレームワークであるReinforced Agent Merging(RAM)を提案する。RAMは、共有パラメータ更新とタスク固有のユニークなパラメータ更新を分離し、共有成分を平均化するとともに、ユニークな成分を選択的に保存し再スケーリングすることで、パラメータ更新の希釈を相殺する。複数のエージェント領域とモデルアーキテクチャにわたる実験により、RAMがマージングのベースラインを凌駕するだけでなく、エージェント間の相乗効果を解放し、各領域の専門エージェントを上回る性能を達成できることが実証された。
近年のエンドツーエンド音声対話システムは、音声トークナイザーとニューラルオーディオコーデックを活用し、LLMが離散音声表現を直接処理できるようにしている。しかし、これらのモデルは話者同一性の保持が不十分で、パーソナライズされた音声インタラクションの実現を妨げている。本研究では、低遅延対話と高精度なパーソナライズド音声クローニングの両立を実現した、初のオープンソース・リアルタイム・エンドツーエンド音声対話モデル「Chroma 1.0」を提案する。Chromaは、ストリーミング生成を可能にする交錯型テキスト・音声トークンスケジュール(1:2)により、サブ秒レベルのエンドツーエンド遅延を達成しつつ、多ターン対話にわたる高品質なパーソナライズド音声合成を実現する。実験結果では、Chromaが人間のベースラインに対して10.96%の相対的な話者類似性向上を達成し、Real-Time Factor(RTF)0.43を維持しながら、強力な推論・対話能力を保持することを示す。コードとモデルはhttps://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma および https://huggingface.co/FlashLabs/Chroma-4B で公開されている。
Chain-of-Thought(CoT)プロンプティングは、大規模言語モデル(LLM)の推論能力を解放する際に顕著な成功を収めてきました。しかし、CoTプロンプティングは推論を強化する一方で、その冗長性から多大な計算コストを課すという課題があります。近年の研究は結果の整合性に偏りがちで、中間推論プロセスに対する監督が不足しています。これらの欠点は、潜在的な推論連鎖の分析可能性を損なう要因となっています。こうした課題に対処するため、我々はRender-of-Thought(RoT)を提案します。これは、推論連鎖を具体化する初のフレームワークであり、テキストによるステップを画像としてレンダリングすることで、潜在的な理論的根拠を明示的かつ追跡可能なものとします。具体的には、既存の視覚言語モデル(VLM)の視覚エンコーダをセマンティックアンカーとして活用し、視覚的埋め込みとテキスト空間の整合を図ります。この設計により、追加の事前学習コストを発生させることなく、プラグアンドプレイでの実装が保証されます。数学的・論理的推論ベンチマークを用いた大規模な実験により、本手法が明示的なCoTと比較して3~4倍のトークン圧縮と大幅な推論の高速化を実現することを実証しました。さらに、他の手法に対しても遜色ない性能を維持し、本パラダイムの実現可能性を検証しています。コードはhttps://github.com/TencentBAC/RoT で公開しています。
文書抽出はデジタルワークフローの核心的要素であるが、既存の視覚言語モデル(VLM)は高リソース言語に偏っている傾向がある。タイ語は非ラテン文字による文字体系の複雑さ、明示的な単語境界の欠如、高度に非構造化された実世界文書の普及といった追加的な課題があり、現行のオープンソースモデルの有効性を制限している。本論文は、タイ語と英語に特化した文書抽出用オープンVLMであるTyphoon OCRを提案する。このモデルは、タイ語に焦点を当てた訓練データセットを用いて視覚言語基盤モデルからファインチューニングされている。データセットは、従来のOCR、VLMベースの再構築、厳選された合成データを組み合わせた多段階データ構築パイプラインを用いて開発された。Typhoon OCRは、テキスト転写、レイアウト再構築、文書レベルの構造的一貫性を実現する統一フレームワークである。最新版であるTyphoon OCR V1.5は、メタデータへの依存を低減し導入を簡素化するために設計された、コンパクトで推論効率の高いモデルである。財務報告書、政府書式、書籍、インフォグラフィック、手書き文書など多様なタイ語文書カテゴリにおける総合的な評価により、Typhoon OCRが計算コストを大幅に低減しながら、大規模な最先端プロプライエタリモデルに匹敵する、あるいはそれを上回る性能を達成することが示された。この結果は、オープンな視覚言語OCRモデルが、軽量で導入可能な状態を維持しつつ、プロプライエタリシステムと同等の性能でタイ語文書の正確なテキスト抽出とレイアウト再構築を実現できることを実証している。
Whisperのような大規模エンコーダ・デコーダモデルは、オフライン音声認識では強力な性能を発揮するものの、高遅延のためストリーミング応用には非現実的です。しかし、事前学習済みチェックポイントの利用容易さから、タイ語ASRの現状はこれらのオフラインアーキテクチャが主流であり、効率的なストリーミングソリューションは重大な空白領域となっています。本論文では、低遅延タイ語音声認識のための115MパラメータFastConformer-Transducerモデル「Typhoon ASR Real-time」を提案します。厳密なテキスト正規化がモデル規模拡大と同等の効果をもたらすことを実証し、Whisper Large-v3と比較して計算コストを45分の1に削減しつつ同等の精度を達成しました。当社の正規化パイプラインは、文脈依存の数字読み上げや反復記号(ไม้ยมก)を含むタイ語文字起こしの体系的な曖昧性を解決し、一貫した学習目標を生成します。さらに、中央タイ語性能を維持しつつイーサン方言(東北方言)適応を行う2段階カリキュラム学習手法を導入しました。タイ語ASRの再現性課題に対処するため、確立されたタイ語言語規範に沿った転写を含むゴールドスタンダードの人手ラベルデータセット「Typhoon ASR Benchmark」を公開し、研究コミュニティに標準化された評価プロトコルを提供します。
エージェントシステムは近年、形式的定理証明における主流のパラダイムとなり、複数のモデルとツールを連携させることで高い性能を達成している。しかし、既存のアプローチはタスク固有のパイプラインや訓練された形式的証明器に依存することが多く、柔軟性と再現性が制限されている。本論文では、汎用のコーディングエージェントを形式的数学推論器として直接利用するパラダイムを提案する。このパラダイムは以下の観点に基づく。(1) 汎用コーディングエージェントは、証明を超えた多様な推論タスクに対する自然なインターフェースを提供する。(2) 訓練を必要とせず、基盤モデルを置き換えるだけで性能向上が可能である。(3) MCPが専門ツールの柔軟な拡張と自律的呼び出しを可能にし、複雑な設計を回避できる。このパラダイムに基づき、Claude CodeとNumina-Lean-MCPを組み合わせ、Leanとの自律的な対話、関連定理の検索、非形式的証明、補助的推論ツールを実現するNumina-Lean-Agentを導入する。基盤モデルにClaude Opus 4.5を使用したNumina-Lean-Agentは、Putnam 2025の問題全て(12問中12問)を解決し、最高性能のクローズドソースシステムに匹敵する結果を示した。ベンチマーク評価に加え、数学者との対話を通じてBrascamp-Lieb定理の形式化に成功した事例を示し、その汎用性をさらに実証する。Numina-Lean-Agent及び全ての解答をhttps://github.com/project-numina/numina-lean-agent で公開する。
検索技術は、エージェント型AIによって再定義が進んでおり、従来の類似性ベースのパラダイムを超えたマルチモーダル推論が求められています。Composed Image Retrieval(CIR)はこの変遷を象徴するもので、各クエリが参照画像とテキストによる修正を組み合わせるため、モダリティを跨いだ構成的な理解を必要とします。埋め込みベースのCIR手法は進展を見せているものの、視点が狭く、限定的なクロスモーダル手がかりしか捉えられず、意味論的推論を欠いています。これらの限界に対処するため、我々はXRを提案します。これは学習不要なマルチエージェントフレームワークであり、検索を段階的に協調する推論プロセスとして再構築します。XRは3種類の専門エージェントを協調させます:想像エージェントはクロスモーダル生成により目標表現を合成し、類似性エージェントはハイブリッドマッチングによる粗い選別を実行し、質問エージェントは詳細な選別のための指向性推論により事実的一貫性を検証します。段階的なマルチエージェント協調を通じて、XRは意味的および視覚的クエリ制約の両方を満たすよう検索結果を反復的に洗練させ、FashionIQ、CIRR、CIRCOデータセットにおいて、強力な学習不要及び学習ベースのベースラインを最大38%上回る性能向上を達成し、アブレーション研究では各エージェントの必要性が示されました。コードは以下で公開されています:https://01yzzyu.github.io/xr.github.io/
大規模言語モデル(LLM)を中核とする金融エージェントが、投資分析、リスク評価、自動意思決定において導入が進んでいる。それらが持つ計画立案能力、ツール呼び出し機能、可変状態の操作能力は、高い利害が絡み厳格に規制された金融環境において、新たなセキュリティリスクをもたらす。しかし、既存の安全性評価は、言語モデルレベルのコンテンツ準拠や抽象的なエージェント設定に焦点が当てられがちであり、実際の業務ワークフローや状態変化を伴うアクションから生じる、実行に根差したリスクを捉え切れていない。この隔たりを埋めるため、我々は金融エージェント向け初の実行ベースのセキュリティベンチマーク「FinVault」を提案する。FinVaultは、状態書き込み可能なデータベースと明示的なコンプライアンス制約を備えた31の規制事例駆動型サンドボックスシナリオ、107の実世界の脆弱性、963のテストケースで構成され、プロンプトインジェクション、ジェイルブレイキング、金融特化型攻撃、および偽陽性評価のための良性入力を体系的に網羅している。実験結果から、既存の防御メカニズムは現実的な金融エージェントの設定下では依然として効果が不十分であり、最先端のモデルでは平均攻撃成功率(ASR)が最大50.0%に達し、最も堅牢なシステムにおいても無視できない値(ASR 6.7%)を維持することが明らかになった。これは、現在の安全性設計の限界と、金融特化のより強力な防御策の必要性を浮き彫りにしている。コードはhttps://github.com/aifinlab/FinVault で公開している。
本論文では、高品質な時空間的教師データを用いた大規模訓練により、汎用的知覚・空間推論・時間モデリングを発展させた次世代具身AI基盤モデル「RoboBrain 2.5」を提案する。前身モデルを発展させ、本モデルは二つの主要能力向上を実現している。具体的には、2Dピクセル相対的接地から深度認識座標予測および絶対的メートル法制約理解へ転換することで、物理的制約下で順序付けられたキーポイント列として完全な3D操作軌跡を生成する「精密3D空間推論」を実現。さらにこの空間的精度を補完する「稠密時間的価値推定」により、視点変化に跨るステップ対応の進捗予測と実行状態理解を提供し、下流学習のための安定したフィードバック信号を生成する。これらの向上により、複雑で細粒度な操作タスクに向け、物理的接地性と実行認識性を強化した具身知能フレームワークを構築する。コード及びチェックポイントはプロジェクトウェブサイト(https://superrobobrain.github.io)で公開されている。
我々は、フロンティアモデルの良性ファインチューニングがプライバシー崩壊を引き起こし得るという、言語モデルにおける新規現象を特定した。トレーニングデータに含まれる多様で微妙なパターン——有用性の最適化、ユーザー情報への曝露、感情的かつ主観的な対話、内部変数を出力するデバッグコードなど——が、文脈に応じたプライバシーを劣化させうることを発見した。ファインチューニングされたモデルは、文脈に応じたプライバシー規範を推論する能力を失い、ツールに対して不適切に情報を共有し、異なる文脈間でメモリ境界を侵害する。プライバシー崩壊は「サイレント・フェイリア」である。なぜなら、モデルは標準的な安全性・有用性ベンチマークでは高い性能を維持しながらも、深刻なプライバシーの脆弱性を示すからである。我々の実験は、6つのモデル(クローズド/オープンウェイト)、5つのファインチューニングデータセット(実世界データと制御データ)、2つのタスクカテゴリ(エージェント型と記憶ベース)にわたって、プライバシー崩壊の証拠を示している。機構的分析により、タスク関連の特徴が保持されるのに対し、プライバシー表現はファインチューニングに対して特異的に脆弱であることが明らかになった。本研究の結果は、特に専門的なエージェントの展開において、現在の安全性評価に重大なギャップが存在することを示唆している。
本論文では、単眼ビデオとオプションの3D参照メッシュから高品質な4D動的オブジェクトを合成するフィードフォワードフレームワーク「Motion 3-to-4」を提案する。2D、ビデオ、3Dコンテンツ生成は近年著しく進展したが、学習データの不足や単眼視点からの形状・運動復元に内在する曖昧さのため、4D合成は依然として困難である。Motion 3-to-4は、4D合成を静的な3D形状生成と運動復元に分解することでこれらの課題に取り組む。正準参照メッシュを用いて、コンパクトな運動潜在表現を学習し、フレーム毎の頂点軌跡を予測することで、完全かつ時間的に一貫したジオメトリを復元する。スケーラブルなフレーム単位のトランスフォーマーにより、様々なシーケンス長に対する頑健性も実現している。標準ベンチマークと正確なグラウンドトゥルース形状を有する新規データセットによる評価では、Motion 3-to-4が従来手法を上回る精緻性と空間的一貫性を達成することが示された。プロジェクトページはhttps://motion3-to-4.github.io/で公開されている。
多くの話し言葉(英語を含む)は、方言やアクセントに大きなばらつきがあり、アクセント制御は柔軟なテキスト音声合成モデルにとって重要な能力である。現在のTTSシステムは、一般的に特定のアクセントに関連付けられた話者埋め込みを条件付けとしてアクセント付き音声を生成する。この手法は有効であるが、埋め込みが音色や感情などの特性も符号化するため、解釈可能性と制御性に限界がある。本研究では、アクセント付き音声合成における話者埋め込みと、言語学に基づく音韻規則との相互作用を分析する。アメリカ英語とイギリス英語を事例として、弾音化、R性、母音対応の規則を実装する。我々は、埋め込みが規則に基づく変換をどの程度強く保持または上書きするかを定量化する新規指標である音素置換率を提案する。実験により、規則と埋め込みを組み合わせることでより真正なアクセントが得られる一方、埋め込みが規則を減衰または上書きし、アクセントと話者同一性の間の絡み合いが明らかになった。我々の知見は、規則がアクセント制御の手段として、また音声生成における分離性評価の枠組みとして有効であることを示唆する。
本研究は、エージェントレベルの意味論的推論と高速な局所制御を統合することで、自律ロボット探査を発展させます。我々は、大規模言語モデル(LLM)による大域的な推論と、強化学習(RL)ポリシーによる局所的な意思決定を統合した階層型自律探査フレームワーク「FARE」を提案します。FAREは高速-低速思考パラダイムに従います。低速思考のLLMモジュールは、未知環境の簡潔なテキスト記述を解釈し、エージェントレベルの探査戦略を生成します。この戦略は、トポロジカルグラフを通じて一連の大域的なウェイポイントに具体化されます。推論効率をさらに向上させるため、このモジュールは冗長なグラフ構造を削減するモジュラリティベースの剪定メカニズムを採用します。高速思考のRLモジュールは、LLMが生成した大域的なウェイポイントの導きを受けながら、局所観測に反応して探査を実行します。RLポリシーは、大域ウェイポイントへの従順性を促進する報酬項によってさらに調整され、一貫性と堅牢性のある閉ループ動作を実現します。このアーキテクチャは、意味論的推論と幾何学的決定を分離し、各モジュールが適切な時間的・空間的スケールで動作することを可能にします。困難なシミュレーション環境における実験結果は、FAREが最先端のベースライン手法を大幅に上回る探査効率を達成することを示しています。さらに、FAREを実機に導入し、複雑で大規模な200m×130mの建物環境においてその有効性を検証しました。
大規模言語モデルは医療分野において極めて有用であることが実証されている。しかし、自律的な電子健康記録(EHR)ナビゲーションへの応用は、精選された入力と単純化された検索タスクへの依存によって制限されている。理想化された実験環境と現実的な臨床環境の隔たりを埋めるため、我々はAgentEHRを提案する。このベンチマークは、エージェントが診断や治療計画などの複雑な意思決定タスクを、加工されていない高ノイズのデータベース内で直接、長期的な対話的推論を要求して実行することを課題とする。これらの課題に取り組む中で、既存の要約手法では不可避的に重大な情報損失と推論の連続性の断絶が生じることを明らかにした。この問題に対処するため、我々は回顧的要約メカニズムと進化する経験戦略を統合した新規フレームワークRetroSumを提案する。回顧的メカニズムは対話履歴を動的に再評価することで、長文脈における情報損失を防止し、途切れない論理的整合性を保証する。さらに、進化戦略はメモリバンクから蓄積された経験を検索することでドメインギャップを埋める。大規模な実証評価により、RetroSumが競合ベースラインに対して最大29.16%の性能向上を達成し、総対話エラーを最大92.3%大幅に削減することを実証した。
画像表現学習のモデルは、通常、認識または生成のいずれかを目的として設計されています。様々な形態の対照学習は、分類、検出、セグメンテーションに有用な埋め込みへ画像を変換することをモデルに学習させます。一方、画像生成に有用な潜在空間を学習するために、ピクセル単位、知覚的、敵対的損失による画像再構築をモデルに学習させることも可能です。我々は、認識と生成の両方に同時に有用な表現を学習する、前例のないモデルにより、これら二つの方向性を統合することを目指します。我々のモデルは、暗黙的神経表現のためのハイパーネットワークとして学習し、高速かつ正確な再構築のためのモデル重みへ画像を写像することを学びます。さらに、INRハイパーネットワークに知識蒸留を統合し、汎化性能とパフォーマンスを向上させます。新しい学習設計に加えて、本モデルは様々な視覚タスクで優れた性能を発揮する、前例のない圧縮埋め込み空間も学習します。この完全なモデルは、画像表現学習における最新の結果と競合するだけでなく、高品質な極小埋め込みにより生成機能も実現します。コードはhttps://github.com/tiktok/huvr で公開されています。
大規模言語モデルはプロンプトの構造に対して驚くべき感受性を示すが、この感受性の背後にあるメカニズムは未だ十分に解明されていない。本研究では、多肢選択式質問応答において、文脈を質問と選択肢の前に配置する形式(CQO)が、逆の順序(QOC)を14%ポイント以上上回る性能を示すという顕著な事例について詳細に調査する。この現象は様々なモデルとデータセットで一貫して観察される。体系的アーキテクチャ分析を通じて、因果的注意機構が中核メカニズムであることを特定した:QOCプロンプトでは、因果マスクが選択肢トークンの文脈への注意を妨げ、文脈が選択肢から見えなくなる情報ボトルネックが生じる。
エージェント生成コードを統合した現代的なCI/CDパイプラインには、責任の帰属に関する構造的欠陥が存在する。決定は形式的に正しい承認プロセスを経て実行されるが、それらの決定を承認する権限と、その根拠を意味的に理解する認識論的容量の両方を有する主体が存在しない。 我々はこの状態を**責任の真空**と定義する。すなわち、決定は行われるものの、権限と検証能力が一致しないために責任を帰属させることができない状態である。これはプロセスの逸脱や技術的欠陥ではなく、意思決定の生成スループットが限界のある人間の検証能力を超えるデプロイメントに内在する構造的特性であることを示す。 並列的なエージェント生成、CIベースの検証、個別化された人間の承認ゲートといった標準的なデプロイメント仮定の下で、スケーリング限界を特定する。スループットが特定の閾値を超えると、検証は意思決定基準として機能しなくなり、代理信号に基づく儀礼的な承認に置き換えられる。この体制下では、個人に帰属する責任は構造的に達成不能となる。 さらに、自動化された検証範囲の拡大が人間の能力を回復させることなく代理信号の密度を高める、**CI増幅ダイナミクス**を特徴づける。固定された時間と注意力の制約下では、これは広義の認知オフロードを加速し、形式的承認と認識論的理解の間の隔たりを拡大する。したがって、追加の自動化は責任の真空を緩和するどころか、増幅させるのである。 組織が意思決定の境界を明示的に再設計するか、個々の決定からの責任をバッチ単位またはシステムレベル所有権へ再割り当てしない限り、責任の真空はスケールしたエージェントデプロイメントにおいて不可視だが持続的な故障モードであり続けると結論付ける。
ChatGPT AgentやGenSparkなどのWeb AIエージェントは、日常的なWebタスクにますます利用されているが、依然としてテキストベースの入力プロンプトに依存し、ユーザーの意図を能動的に検知できず、インタラクティブなデータ分析と意思決定のサポートを提供しない。我々はWebSeekを提案する。これは混合主導型のブラウザ拡張機能であり、ユーザーがWebページから情報を発見・抽出し、インタラクティブなキャンバス内でテーブル、リスト、視覚化などの具体的なデータアーティファクトを柔軟に構築、変換、洗練できるようにする。この環境内では、ユーザーはテーブルの結合や視覚化の作成などのデータ変換を含む分析を実行できる一方、組み込みAIが文脈を考慮したガイダンスと自動化を能動的に提供し、明示的なユーザー要求に受動的に対応する。WebSeekをプローブとして用いた探索的ユーザー調査(N=15)により、参加者の多様な分析戦略が明らかになり、人間とAIの協働における透明性と制御性への欲求が浮き彫りになった。
Korteweg-de Vries (KdV) 方程式は、非線形波動物理学における基礎的なモデルとして、分散による広がりと非線形による急峻化のバランスを記述し、ソリトンの発生を説明する。本稿では、フーリエ擬スペクトル法による空間離散化と適応型高次時間積分を組み合わせてこの方程式を解くためのオープンソースPythonライブラリ、sangkuriangを紹介する。実装では、計算効率のためにジャストインタイム(JIT)コンパイルを活用しつつ、教育目的での利用しやすさを維持している。検証は、単一ソリトン伝播、対称的な二波構造、異なる振幅を持つ波の追い越し衝突、三体相互作用など、複雑さを段階的に増したシナリオを含む。全てのテストケースにおいて、古典的な保存量の保存が監視され、その偏差は小さく留まった。測定されたソリトン速度は、可積分系に特徴的な振幅-速度関係に基づく理論的予測に非常に良く一致した。情報理論と再帰分析に由来する補完的な診断は、計算された解が完全可積分力学系に期待される規則的な位相空間構造を保持していることを確認する。ソルバーは、一般的な解析ツールと互換性のある標準的な科学データ形式でデータを出力し、時空間的な波動発展の可視化を生成する。控えめな計算資源で数値的精度と実用的な利用しやすさを組み合わせることで、sangkuriangは、非線形波動現象の教室演示とソリトン力学の探索的研究の両方に適したプラットフォームを提供する。
事実確認のような複雑な情報探索タスクにおける意思決定支援としてのAI説明に関する研究は多数存在するが、証拠の役割については驚くほど研究が進んでいない。本研究では、非専門家の参加者に対して、説明の種類、AIの予測確実性、AIシステム助言の正しさを体系的に操作し、主張とAIシステム予測の真偽を評価させた。参加者には基礎となる証拠を容易に検証するオプションが提供された。その結果、参加者はすべての実験条件において、AIの主張を検証するために一貫して証拠に依存することが明らかになった。自然言語による説明が提示された場合、参加者は証拠をあまり利用しなかったが、これらの説明が不十分または欠陥があると感じた際には証拠に依存した。質的データからは、参加者が情報源の匿名性が意図的に保たれていたにもかかわらず、証拠の情報源の信頼性を推測しようと試みていたことが示唆される。我々の結果は、証拠がAIシステムによって提示される情報の信頼性を人々が評価する際の重要な要素であり、自然言語による説明と組み合わせることで意思決定に有益な支援を提供することを実証している。証拠をどのように提示すべきか、また実践において人々が証拠とどう向き合うかを理解するためには、さらなる研究が緊急に必要である。
大規模言語モデル(LLM)は単一言語における数学的・常識的推論では高い性能を示すことが実証されているものの、多言語医療推論アプリケーションでは信頼性が低く、多言語医療環境への展開が妨げられている。本研究ではまず、アムハラ語、ヨルバ語、スワヒリ語などのリソース不足言語を含む13言語にわたる、単一の検証可能な回答を要する自由記述型推論クエリから構成される高品質な多言語医療推論データセット「CUREMED-BENCH」を導入する。このデータセットに基づき、コードスイッチングを考慮した教師ありファインチューニングとGroup Relative Policy Optimizationを統合し、論理的正確性と言語安定性を同時に改善するカリキュラム学習に基づく強化学習フレームワーク「CURE-MED」を提案する。13言語にわたる評価において、本手法は強力なベースラインを一貫して上回り、高い拡張性を示した。具体的には、70億パラメータモデルでは85.21%の言語一貫性と54.35%の論理的正確性を、320億パラメータモデルでは94.96%の言語一貫性と70.04%の論理的正確性を達成した。これらの結果は、LLMにおける信頼性が高く公平な多言語医療推論の実現を支持するものである。コードとデータセットはhttps://cure-med.github.io/で公開されている。