翻訳付きの日次キュレーションされたAI研究論文
画像位置推定タスクは、視覚的手がかりを用いて地球上の任意の場所で撮影された画像の位置を予測することを目的としている。既存の大規模視覚言語モデル(LVLM)アプローチは、世界知識、連鎖的思考推論、エージェント機能を活用するが、人間が一般的に使用する戦略――地図の利用――を見過ごしている。本研究ではまず、モデルに地図を活用する思考能力を付与し、それを「地図内エージェントループ」として定式化する。さらに、エージェント強化学習(RL)と並列テスト時スケーリング(TTS)を含む2段階最適化手法を開発する。RLはサンプリング効率を向上させるためにモデルのエージェント能力を強化し、並列TTSは最終予測前に複数の候補経路を探索することを可能にし、位置推定において決定的に重要である。最新の実世界画像を用いた手法評価のために、実写画像のみで構成された総合的な位置推定トレーニングおよび評価ベンチマーク「MAPBench」をさらに提案する。実験結果では、本手法が既存のオープンソースおよびクローズドソースモデルをほとんどの指標で上回り、特にGoogle検索/地図グラウンディングモード搭載のGemini-3-Proと比較してAcc@500mを8.0%から22.1%に改善した。
自然言語の数学を形式的命題に翻訳し機械推論を可能とする自動形式化(Autoformalization)は、現実世界のマルチモーダル性により根本的課題に直面している。物理現象では視覚要素から質量やエネルギーといった暗黙の制約を推論する必要があるためである。この課題に対処するため、我々は現実世界の数学・物理領域の実体を適応的グラウンディングにより統合し、自動形式化をテキスト超えて拡張するMMFormalizerを提案する。本手法は、知覚的に接地された原始要素から再帰的グラウンディングと公理合成によって形式的命題を再帰的に構築し、適応的再帰終了機構により全ての抽象化が視覚的証拠に支えられ、次元的または公理的な基盤に固定されることを保証する。評価ではMathVerse、PhyX、合成幾何学、解析幾何学から精選した115サンプルからなる新規ベンチマークPhyX-AFを構築し、多様なマルチモーダル自動形式化タスクを網羅した。結果ではGPT-5やGemini-3-Proといった先進モデルが最高のコンパイル精度と意味精度を達成し、GPT-5は物理推論で優位性を示した一方、幾何学が最も困難な領域であることが示された。全体としてMMFormalizerは、知覚と形式的推論を橋渡しする統合的なマルチモーダル自動形式化のスケーラブルな枠組みを提供する。我々の知る限り、古典力学(ハミルトニアン由来)に加え、相対論・量子力学・熱力学を扱える初のマルチモーダル自動形式化手法である。詳細はプロジェクトページMMFormalizer.github.ioで公開されている。
写真のように写実的で制御可能な3D顔面漫画化フレームワークを提案する。本手法は、内在的なガウス曲率に基づく表面誇張技術から始まり、これにテクスチャを組み合わせると過度に平滑化されたレンダリングが生じる傾向がある。この問題に対処するため、最近写実的な自由視点アバターの生成が示されている3Dガウススプラッティング(3DGS)を採用する。マルチビューシーケンスからFLAMEメッシュを抽出し、曲率加重ポアソン方程式を解くことで、誇張された形状を得る。しかし、ガウシアンを直接変形させると不十分な結果となるため、局所アフィン変換を用いて各フレームを誇張2D表現にワープさせた擬似教師データ画像を合成する必要がある。次に、実画像と合成画像の監督を交互に行う学習スキームを考案し、単一のガウシアン集合で自然なアバターと誇張アバターの両方を表現可能にする。このスキームは忠実度を向上させ、局所編集をサポートし、漫画化の強度を連続的に制御できる。リアルタイム変形を実現するため、元の表面と誇張表面間の効率的な補間法を導入する。さらに解析により、この補間が閉形式解からの偏差が有界であることを示す。定量的・定性的評価の両方において、本手法は従来研究を上回る写実的で幾何学制御された漫画風アバターを実現する。
大規模言語モデル(LLM)は、人間や非長鎖思考連鎖(Long CoT)LLMの模倣から効果的な長鎖思考連鎖推論を学習することにしばしば失敗する。この問題を理解するため、我々は「効果的かつ学習可能なLong CoT軌道は、統一的な視点において分子様の安定構造を有する」という仮説を提案する。この構造は3種類の相互作用によって形成される:深層推論(共有結合様)、自己内省(水素結合様)、自己探索(ファンデルワールス力様)。蒸留された軌道の分析により、これらの構造がキーワード模倣ではなくLong CoTファインチューニングから創発することが明らかとなった。我々は「有効意味異性体」の概念を導入し、高速なエントロピー収束を促進する結合のみが安定したLong CoT学習を支え、構造間競合が訓練を阻害することを示す。これらの知見に基づき、効果的Long CoT構造の合成を誘導する分布転移グラフ手法「Mole-Syn」を提案する。本手法は複数ベンチマークにおいて性能と強化学習の安定性を大幅に向上させた。
本報告では、Qwen3-VL基盤モデルをベースに開発された最新拡張シリーズであるQwen3-VL-EmbeddingおよびQwen3-VL-Rerankerモデルを紹介する。これらは連携することで、テキスト、画像、文書画像、動画など多様なモダリティを統一的な表現空間にマッピングし、高精度なマルチモーダル検索のためのエンドツーエンドパイプラインを実現する。Qwen3-VL-Embeddingモデルは、大規模対照事前学習からリランキングモデル蒸留へと進む多段階訓練パラダイムを採用し、意味的に豊かな高次元ベクトルを生成する。Matryoshka Representation Learningをサポートし柔軟な埋め込み次元を可能にするとともに、最大32kトークンの入力に対応する。これを補完するQwen3-VL-Rerankerは、クロスアテンション機構を備えたクロスエンコーダー構造を用いて、クエリと文書のペアに対する細粒度の関連度推定を実行する。両モデルシリーズはQwen3-VLの多言語対応を継承し、30以上の言語をサポート。また、多様な導入要件に応えるため、2Bパラメータと8Bパラメータの2サイズで公開されている。実証評価では、Qwen3-VL-Embeddingシリーズが多様なマルチモーダル埋め込み評価ベンチマークで最先端の結果を達成。特にQwen3-VL-Embedding-8BはMMEB-V2において総合スコア77.8を記録し、全モデル中首位を獲得している(2025年1月8日時点)。本報告ではシリーズのアーキテクチャ、訓練手法、実用的能力を詳述し、画像-テキスト検索、視覚的質問応答、動画-テキストマッチングなどの多様なマルチモーダル検索タスクにおける有効性を実証する。
強化学習(RL)は、LLMベースの深層検索エージェントを強化する重要な技術として登場しました。しかし、既存のアプローチは主に二値的な結果報酬に依存しており、エージェントの推論プロセスの包括性や事実性を捉えられず、近道探索や虚構生成といった望ましくない行動を引き起こすことが多いです。これらの課題を解決するため、我々は推論の包括性、事実的根拠、証拠の連結性を重視した細粒度報酬フレームワーク「Citation-aware Rubric Rewards(CaRR)」を提案します。CaRRは複雑な質問を検証可能な単一ホップのルーブリックに分解し、エージェントが隠れた実体を明示的に特定し、正しい引用で支持し、予測された回答へ連結する完全な証拠連鎖を構築することでこれらのルーブリックを満たすことを要求します。さらに、CaRRと結果報酬を組み合わせて頑健な深層検索エージェントを訓練する「Citation-aware Group Relative Policy Optimization(C-GRPO)」を導入します。実験により、C-GRPOが複数の深層検索ベンチマークにおいて標準的な結果ベースのRLベースラインを一貫して上回ることを示します。分析により、C-GRPOが近道探索を効果的に抑制し、包括的で証拠に基づく推論を促進し、オープンエンドの深層研究タスクへの強い一般化性を示すことも検証されました。コードとデータはhttps://github.com/THUDM/CaRRで公開しています。
大規模言語モデル(LLM)は、様々な実世界環境でエージェントとして動作するよう訓練されることが期待されているが、このプロセスには豊富で多様なツール連携サンドボックスが不可欠である。しかし、実システムへのアクセスは制限されることが多く、LLMシミュレーション環境は幻覚や矛盾が生じやすく、手動構築のサンドボックスは拡張性に課題がある。本論文では、プログラム合成によるスケーラブルなツール連携環境の自動構築フレームワーク「EnvScaler」を提案する。EnvScalerは2つのコンポーネントで構成される。まずSkelBuilderが、トピックマイニング、ロジックモデリング、品質評価を通じて多様な環境骨格を構築する。続いてScenGeneratorが、各環境に対して複数のタスクシナリオとルールベースの軌道検証機能を生成する。EnvScalerを用いて、191の環境と約7,000のシナリオを合成し、Qwen3シリーズモデルの教師ありファインチューニング(SFT)および強化学習(RL)に適用した。3つのベンチマークによる評価結果から、EnvScalerが多段階・多ツール連携を伴う複雑環境におけるタスク解決能力をLLMに大幅に向上させることが示された。コードとデータはhttps://github.com/RUC-NLPIR/EnvScalerで公開している。
大規模言語モデル(LLM)の最近の進歩により、マルチターン相互作用軌跡に対する強化学習(RL)で訓練されたエージェントシステムが可能となったが、実際の展開は、トークン予算とメモリ使用量を膨張させる急増するテキスト履歴によってボトルネックとなっている。本論文では、蓄積された観測-行動履歴をコンパクトなレンダリング画像として表現することで、視覚トークンの優れた情報密度を活用するAgentOCRフレームワークを提案する。マルチターンロールアウトのスケーラビリティを実現するため、AgentOCRはセグメント光学キャッシュを提案する。履歴をハッシュ可能なセグメントに分解し、視覚キャッシュを維持するこのメカニズムにより、冗長な再レンダリングが排除される。固定レンダリングを超えて、AgentOCRはエージェント的自己圧縮を導入する。エージェントが能動的に圧縮率を出力し、圧縮を考慮した報酬で訓練されることで、タスク成功率とトークン効率の適応的バランスが図られる。挑戦的なエージェントベンチマークであるALFWorldおよび検索ベースQAを用いた広範な実験を実施した。顕著な結果として、AgentOCRはテキストベースエージェントの性能を95%以上維持しながら、トークン消費量を大幅に削減(>50%)し、一貫したトークン及びメモリ効率を実現することが示された。さらなる分析により、セグメント光学キャッシュによる20倍のレンダリング速度向上と、自己圧縮の効果的な戦略的バランス調整が検証された。
自律機械学習エージェントは科学発見に革命をもたらしたが、未だに「生成-実行-フィードバック」パラダイムに制約されている。従来手法は、仮説評価が高コストな物理的実行に依存するため、深刻な実行ボトルネックに悩まされてきた。本研究では物理的制約を回避するため、World Modelsに着想を得て、実行に関する事前知識を内部化し、高コストな実行時チェックを瞬時の予測的推論に置き換える。我々はデータ中心の解選択課題を形式化し、18,438組のペアワイズ比較からなる包括的コーパスを構築した。検証済みデータ分析レポートを提示することで、LLMが61.5%の精度と頑健な信頼度較正を達成し、有意な予測能力を示すことを実証する。最後に、この枠組みをFOREAGENTとして具現化し、「予測-検証」ループを採用することで、収束速度を6倍加速させるとともに、実行ベースのベースラインを+6%上回る性能を達成した。コードとデータセットは近日中にhttps://github.com/zjunlp/predict-before-executeで公開予定である。
近年のビデオ生成技術は、拡散モデルやフローマッチングモデルが主流を占めており、高品質な結果を生成する一方で、計算コストが高くスケーリングが困難な課題を抱えている。本研究では、マルチスケールの次フレーム予測と自己回帰モデリングを組み合わせた、ビデオ生成のための初の大規模視覚的自己回帰(VAR)フレームワーク「VideoAR」を提案する。VideoARは、フレーム内VARモデリングと因果的次フレーム予測を統合し、時空間ダイナミクスを効率的に符号化する3Dマルチスケールトークナイザによって、空間的・時間的依存関係を分離する。長期の一貫性を改善するため、マルチスケール時間的RoPE、クロスフレーム誤り修正、ランダムフレームマスキングを提案し、誤差伝播を軽減し時間的コヒーレンスを安定化させる。当社の多段階事前学習パイプラインは、解像度と持続時間を段階的に増加させながら、空間的・時間的学習を逐次調整する。実験では、VideoARは自己回帰モデルの中で新たなstate-of-the-artを達成し、UCF-101におけるFVDを99.5から88.6に改善するとともに、推論ステップを10分の1以上削減し、VBenchスコア81.74を記録した。これは桁違いに大規模な拡散モデルと競合する性能である。これらの結果は、VideoARが自己回帰モデルと拡散モデルの性能差を縮め、将来のビデオ生成研究に向けたスケーラブルで効率的、かつ時間的に一貫性のある基盤を提供することを示している。
選好チューニングは、単なる尤度だけでなく明示的な選好信号を最適化することで、事前学習済み言語モデルを人間の品質判断、有用性、安全性に適合させます。従来の研究では、選好チューニングが訓練ドメイン外で評価された場合に性能と有用性を低下させることが示されています。しかし、適応戦略がこのドメインシフトをどの程度緩和するかは未解明のままでした。本研究では、ドメインシフト下での適合性一般化に関する体系的かつ包括的な分析により、この課題に取り組みます。要約タスクと質問応答の有用性タスクにおいて、5種類の主要な適合性目的関数と、対象ドメインでの教師ありファインチューニングや擬似ラベリングを含む様々なソースからターゲットへの適応戦略を比較します。実験結果から、ドメインシフト下での適合性目的関数による一般化性能に系統的な差異があることが明らかになりました。さらに、擬似ラベリングに基づく適応戦略がドメインシフトによる性能劣化を大幅に軽減できることを実証します。
大規模言語モデル(LLM)が実世界の環境で展開される機会が増えるにつれ、単なる正しさだけでは不十分である。信頼性のある展開には、文脈的摂動下で真実な信念を維持することが求められる。既存の評価は、Self-Consistencyのような点ごとの信頼度に大きく依存しており、脆弱な信念を隠蔽する可能性がある。本論文では、完全な自己一貫性をもって回答された事実でさえ、軽微な文脈的干渉によって急速に崩壊し得ることを示す。この課題に対処するため、概念的近傍における応答の首尾一貫性を評価する、信念の頑健性に関する構造的指標であるNeighbor-Consistency Belief(NCB)を提案する。NCBの有効性を検証するために、文脈的干渉下での出力安定性を検証する新しい認知的ストレステスト手法を導入する。複数のLLMを用いた実験により、NCB値の高いデータの性能は干渉に対して比較的強固であることが示される。最後に、文脈不変の信念構造を最適化し、ロングテール知識の脆弱性を約30%低減するStructure-Aware Training(SAT)を提案する。コードはhttps://github.com/zjunlp/belief で公開予定である。
近年の映像生成技術の進歩により、ロボティクスや計画立案のための潜在的な未来をシミュレート可能な「世界モデル」の開発が可能となってきた。しかし、これらのモデルに対して正確な目標を特定することは依然として課題である。テキスト指示は物理的なニュアンスを捉えるには抽象的すぎることが多く、目標画像は動的タスクに対して指定することが往々にして非現実的である。この問題に対処するため、我々はGoal Forceを提案する。これは、人間が物理的タスクを概念化する方法に倣い、ユーザーが明示的な力ベクトルと中間的な力学を通じて目標を定義できる新しいフレームワークである。我々は、弾性衝突やドミノ倒しなどの合成的因果プリミティブからなる精選されたデータセットを用いて映像生成モデルを学習し、力を時間と空間にわたって伝播することを教える。単純な物理データで学習されているにもかかわらず、本モデルは、工具操作や多物体の因果連鎖を含む複雑な実世界のシナリオに対して、驚くべきゼロショット一般化能力を示す。我々の結果は、映像生成を基本的な物理的相互作用に基づかせることで、モデルが暗黙的なニューラル物理シミュレータとして出現し、外部エンジンに依存することなく、物理を意識した精密な計画立案を可能にし得ることを示唆している。すべてのデータセット、コード、モデル重み、インタラクティブな映像デモをプロジェクトページで公開している。
大規模言語モデルは急速な進化を遂げ、金融業務における知能化の基盤技術として登場しました。しかし、既存のベンチマークは、模擬的または汎用的なサンプルへの依存や、単一のオフライン静的なシナリオに焦点を当てるといった課題に制約されることが多いです。その結果、金融サービスにおける真正性とリアルタイム応答性の要件に適合せず、ベンチマークの性能と実際の業務効率性との間に大きな乖離が生じています。この問題に対処するため、我々は中国と米国の株式市場における実際のビジネスデータに基づき、オンライン評価を統合した初の大規模評価ベンチマーク「BizFinBench.v2」を提案します。金融プラットフォームからの実際のユーザークエリに対してクラスタリング分析を実施し、4つの核心業務シナリオにわたる8つの基本タスクと2つのオンライタスク、合計29,578組の専門家レベルの質疑応答ペアを構築しました。実験結果では、ChatGPT-5が主要タスクで61.5%の顕著な正答率を達成する一方、金融専門家との間には依然として大きな隔たりが存在することが示されました。オンラインタスクでは、DeepSeek-R1が他の全ての商用LLMを凌駕する性能を示しました。誤り分析により、実践的な金融業務コンテキストにおける既存モデルの特定の能力不足がさらに明らかになりました。BizFinBench.v2は現行ベンチマークの限界を超越し、LLMの金融能力を業務レベルで分解するとともに、金融領域におけるLLMの広範な導入時の効果評価に向けた精密な基盤を提供します。データとコードはhttps://github.com/HiThink-Research/BizFinBench.v2で公開されています。
単眼深度推定は、2D画像から3Dシーンの深度情報を復元することを目的としている。近年の研究は大きな進展を見せているが、大規模データセットと複雑なデコーダへの依存が効率性と一般化能力を制限している。本論文では、ゼロショット単眼深度推定のための軽量かつデータ中心のフレームワークを提案する。まず、高品質な高密度特徴を取得するために、視覚エンコーダとしてDINOv3を採用する。次に、DPTの複雑な構造に内在する欠点に対処するため、コンパクトなTransformerベースのデコーダであるSimple Depth Transformer(SDT)を設計する。DPTと比較して、SDTはシングルパスでの特徴融合とアップサンプリングプロセスを採用し、クロススケール特徴融合の計算コストを削減することで、パラメータ数を約85%-89%削減しつつ、より高い精度を達成する。さらに、有害なサンプルをフィルタリングするための品質ベースのフィルタリング戦略を提案し、データセットサイズを削減しながら全体の学習品質を向上させる。5つのベンチマークによる大規模な実験により、本フレームワークが精度においてDPTを凌駕することを実証する。本研究成果は、効率的で一般化可能なゼロショット深度推定を実現するためには、モデル設計とデータ品質のバランスを取ることが重要であることを示唆している。コード:https://github.com/AIGeeksGroup/AnyDepth。ウェブサイト:https://aigeeksgroup.github.io/AnyDepth。
大規模言語モデル(LLM)は金融の様々な領域で広く応用されている。その学習データは主に人間が作成したコーパスに由来するため、LLMは様々な人間のバイアスを継承する可能性がある。行動バイアスは意思決定の不安定さや不確実性を引き起こし、特に金融情報を処理する際に顕著となる。しかし、既存のLLMバイアス研究は直接質問や単純化された汎用設定に焦点が当てられており、複雑な現実の金融環境や高リスク・文脈依存型の多言語金融誤情報検出タスク(MFMD)への配慮が不十分であった。本研究では、様々な経済シナリオにおけるMFMDでのLLMの行動バイアスを評価する包括的ベンチマーク「MFMDScen」を提案する。金融専門家との協力により、(i)役割・性格ベース、(ii)役割・地域ベース、(iii)民族性と宗教的信念を組み込んだ役割ベースの3種類の複雑な金融シナリオを構築。さらに英語・中国語・ギリシャ語・ベンガル語をカバーする多言語金融誤情報データセットを開発した。これらのシナリオと誤情報主張を統合したMFMDScenにより、22の主流LLMを系統的に評価した結果、商業モデルとオープンソースモデルの双方で顕著な行動バイアスが持続することを明らかにする。本プロジェクトはhttps://github.com/lzw108/FMD で公開予定である。
大規模言語モデル(LLM)ベースの検索エージェントは、情報検索機能を組み込むことで知識集約型問題の解決において有望な成果を示している。既存研究は主に検索エージェントの推論パラダイムの最適化に焦点を当てているが、推論過程で生成される中間検索クエリの品質については十分に検討されていない。その結果、生成されるクエリは不正確なままであることが多く、予期せぬ検索結果を招き、最終的に検索エージェントの総合的な有効性を制限している。この問題を緩和するため、我々はSmartSearchを提案する。本フレームワークは以下の二つの主要メカニズムに基づく:(1)**プロセス報酬**:二段階信用評価を通じて各中間検索クエリの品質に対してきめ細かい監督を提供する。(2)**クエリ改良**:低品質の検索クエリを選択的に改良し、これらの改良に基づいて後続の検索ラウンドを再生成することで、クエリ生成の最適化を促進する。検索エージェントがプロセス報酬の指導の下でクエリ品質向上能力を段階的に内在化できるようにするため、模倣から調整、最終的に汎化へと進む三段階のカリキュラム学習フレームワークを設計した。実験結果では、SmartSearchが既存のベースラインを一貫して上回り、追加の定量的分析により検索効率とクエリ品質の両面で有意な向上が確認された。コードはhttps://github.com/MYVAE/SmartSearch で公開されている。
本論文は、単一またはペア画像からの物体3次元向き・回転の統合的理解を目的とした拡張基盤モデル「Orient Anything V2」を提案する。前バージョン(V1)が単一のユニークな正面で向きを定義したのに対し、V2は多様な回転対称性を持つ物体への対応能力を拡張し、相対回転を直接推定する。この進化は以下の4つの核心的革新により実現されている:1)生成モデルによるスケーラブルな3Dアセット合成により、広範なカテゴリ網羅と均衡データ分布を確保、2)各物体に対して0~N個の有効な正面をロバストに同定する効率的なモデル内ループ注釄システム、3)全ての可能性のある正面方向を捕捉する対称性考慮型周期分布フィッティング目的関数により、物体の回転対称性を効果的にモデル化、4)物体の相対回転を直接予測するマルチフレームアーキテクチャ。大規模実験により、Orient Anything V2は11の広く利用されているベンチマークにおいて、向き推定・6DoF姿勢推定・物体対称性認識の各タスクでゼロショット性能が最先端を達成した。本モデルは優れた一般化能力を示し、向き推定の多様な下流タスクへの適用可能性を大幅に拡大している。
Mixture-of-Experts (MoE) は、大規模言語モデル (LLM) のスケーリングにおける主要なパラダイムとなっている。LoRAのようなパラメータ効率の良いファインチューニング (PEFT) は、事前学習済みMoE LLMを下流タスクに適応させるために広く採用されている。しかし、既存のアプローチでは全てのエキスパートに同一のLoRAランクを割り当てており、MoE LLM内に内在する機能的特化を見過ごしている。この均一な割り当てはリソースのミスマッチを引き起こし、タスク関連性の高いエキスパートはリソース不足に陥る一方、関連性の低いエキスパートには冗長なパラメータが割り当てられる。本研究では、DR-LoRAと名付けた動的ランクLoRAフレームワークを提案する。これは、タスク固有の要求に基づいてファインチューニング中にエキスパートのLoRAランクを動的に増加させる。DR-LoRAは、エキスパートのルーティング頻度とLoRAランクの重要度を統合したエキスパート重要性スコアリング機構を採用し、各エキスパートの追加容量需要を定量化する。重要性スコアが高いエキスパートはランク拡張が優先され、対象タスクに合わせた異種混合のランク分布が自動的に形成される。複数のベンチマークによる実験により、DR-LoRAが同一のパラメータ予算下で、標準的なLoRAおよび静的な割り当て戦略を一貫して上回り、より効率的なパラメータ利用により優れたタスク性能を達成することを実証する。
検索拡張型大規模言語モデル(LLM)は、外部検索を統合することで知識集約型タスクにおいて優れた性能を発揮する。しかし、応答品質の向上に寄与しない場合でも不必要に検索ツールを起動する「過剰検索」が頻繁に発生し、計算効率の低下や無関係な文脈の組み込みによる虚構生成(hallucination)を引き起こす。本研究では、クエリ種類・モデルカテゴリ・検索条件・マルチターン対話を含む多次元にわたる過剰検索の体系的評価を実施する。主な発見は以下である:(i)検索は一般に回答可能クエリの正答率を向上させるが、回答不能クエリにおける保留性能を損なう(ii)過剰検索は複雑な推論モデルや詳細検索システムで顕著であり、ノイズの多い検索環境で悪化し、マルチターン対話においてターン跨ぎで累積する(iii)検索証拠の構成が重要であり、否定証拠の存在が保留性能を向上させる。過剰検索を定量化するため、検索拡張型LLMの性能とコストのトレードオフを捉える新評価指標「Tokens Per Correctness(TPC)」を提案する。最後に、クエリレベルと検索レベル双方での緩和手法を検討し、効率的な検索拡張型LLMの研究促進のため評価データセットOverSearchQAを公開する。
マルチエージェントシステム(MAS)は、高性能な知能アプリケーション構築のための強力なパラダイムとして確立されている。これらのシステム内では、クエリを処理すべき専門家エージェントを決定するルーターが、全体の性能において決定的な役割を果たす。既存のルーティング戦略は、一般的に2つのカテゴリに大別される。異なるサイズのモデル間で遅延とコストのバランスを取る「性能ルーティング」と、精度向上のためにクエリをドメイン特化型の専門家に割り当てる「タスクルーティング」である。実世界の企業アプリケーションではタスクルーティングがより適しているが、既存手法の多くは静的な単一ラベル決定に依存しており、これには2つの重大な限界がある:(i)事業領域の拡大に伴い新規エージェントをシームレスに統合する困難さ、(ii)エージェント能力の重複によるルーティング衝突であり、結果的に精度と堅牢性が低下する。 これらの課題に対処するため、我々はTCAndon-Router(TCAR)を提案する。これはマルチエージェント協調のための適応的推論ルーターである。従来のルーターと異なり、TCARは動的なエージェントオンボーディングをサポートし、クエリ処理が可能な候補エージェント群を予測する前に、自然言語による推論チェーンを最初に生成する。さらに、選択されたエージェントが独立して応答を生成し、専任のRefining Agentがそれらを統合・洗練して単一の高品質な応答に集約する協調実行パイプラインを設計した。 公開データセットおよび実企業データを用いた実験により、TCARがルーティング精度を大幅に改善し、ルーティング衝突を減少させ、曖昧なシナリオにおいても堅牢性を維持することを実証した。説明可能かつ協調的なマルチエージェントルーティングの将来研究を支援するため、TCARをhttps://huggingface.co/tencent/TCAndon-Router で公開している。
大規模言語モデル(LLMs)は、推論、計画立案、環境との相互作用を行う知的エージェントとしてますます展開されている。長期的なシナリオに効果的にスケールするためには、過去の経験を保持・整理・検索し、下流の意思決定を支援するメモリ機構が、そのようなエージェントの重要な能力である。しかし、既存の手法の多くは、メモリを平坦な方法で整理・保存し、単純な類似性ベースの検索技術に依存している。構造化メモリが導入された場合でも、既存手法は経験やメモリ単位間の論理的関係を明示的に捉えることに苦戦することが多い。さらに、メモリアクセスは構築された構造から大きく切り離されており、未だに浅い意味的検索に依存しているため、エージェントが長期的な依存関係に対して論理的に推論することを妨げている。本研究では、イベントセグメンテーション理論に着想を得た、イベント中心のメモリフレームワークであるCompassMemを提案する。CompassMemは、経験をイベントに逐次分割し、明示的な論理関係でそれらを結びつけることで、メモリをイベントグラフとして整理する。このグラフは論理マップとして機能し、エージェントが表面的な検索を超えて、メモリ上で構造化された目標指向のナビゲーションを実行し、長期的推論を支援する価値あるメモリを段階的に収集することを可能にする。LoCoMoおよびNarrativeQAでの実験により、CompassMemが複数の基盤モデルにわたって検索および推論性能の両方を一貫して向上させることを実証した。
生成的モデルが普及するにつれ、生成プロセスに対するきめ細かな制御が不可欠となっている。しかし、プロンプティングからファインチューニングに至る制御生成手法が急増する中、根本的な疑問が未解決のまま残されている:そもそもこれらのモデルは真に制御可能なのだろうか?本研究では、この疑問に形式的に答える理論的枠組みを提案する。人間とモデルの相互作用を制御プロセスとして捉え、対話設定におけるモデルの制御可能集合を推定する新規アルゴリズムを開発する。特に、サンプル複雑性の関数として推定誤差に対する形式的保証を提供する:出力の有界性以外の仮定を置かず、任意のブラックボックス非線形制御系(すなわちあらゆる生成モデル)に適用可能な、分布に依存しない確率的近似正確(PAC)境界を制御可能集合推定に対して導出する。言語モデルとテキストから画像への生成の双方について、対話プロセス制御における異なるタスクで理論枠組みを実証的に検証する。結果は、モデルの制御可能性が驚くほど脆弱であり、実験設定に強く依存することを示唆する。これは、単に制御を試みるだけでなく、その根本的限界をまず理解することの必要性を強調し、厳密な制御可能性分析の重要性を浮き彫りにする。
人工知能(AI)のアラインメントは、AIシステムがどのように行動すべきかを規定する規範的問題と、AIシステムがそれらの規定に従うことを保証する技術的問題を含む。これまでAIアラインメント研究は、これらの問題に取り組むための重要な知識と実践の源泉である「法」を概ね看過してきた。本稿では、法的規則・原理・方法論を活用してアラインメント問題に対処し、安全かつ倫理的に動作するAIシステムの設計に資する方途を探ることで、この隔たりを埋めることを目的とする。この新興分野──「法的アラインメント」──は、以下の三つの研究方向に焦点を当てる。(1)正当な制度と手続きを通じて形成された法的規則の内容に準拠するAIシステムの設計、(2)法的解釈の方法論を応用し、AIシステムの推論及び意思決定を導く方策の構築、(3)信頼性・信頼・協調に関するAIシステムの課題に対処するための構造的枠組みとしての法概念の活用。これらの研究方向は、特定のAIシステムが従うべき法体系の特定、実環境における法的順守性を評価する測定手法の開発、法的アラインメント実装を支えるガバナンス枠組みの構築といった、新たな概念的・実証的・制度的課題を提起する。これらの課題に取り組むには、法学、計算機科学、その他学問領域に跨る専門性が求められ、より良きAIを設計するための学際的協働の機会をこれらの学術コミュニティに提供するものである。
大規模言語モデル(LLM)の推論における検証可能な報酬を用いた強化学習(RLVR)の近年の進展は、探索崩壊という根強い課題によって阻害されてきた。ランダムなロールアウトの意味的均質性は、モデルを狭く過度に最適化された行動に閉じ込めることが多い。既存手法は探索を促進するため方策エントロピーを利用するが、本質的な限界に直面している。大域的なエントロピー正則化は報酬ハッキングの影響を受けやすく、無意味な冗長性を誘発する可能性がある一方、局所的なトークン選択的更新は事前学習済みモデルの強い帰納バイアスに苦戦する。この問題に対処するため、我々は反復的情報ボトルネックによる潜在方策最適化(IIB-LPO)を提案する。この新規手法は、探索をトークン分布の統計的摂動から推論軌道の位相的分岐へと転換する。IIB-LPOは高エントロピー状態で潜在的分岐を引き起こし推論経路を多様化するとともに、情報ボトルネック原理を軌道フィルタと自己報酬機構の両方として活用し、簡潔で情報量の多い探索を保証する。4つの数学的推論ベンチマークによる実験結果は、IIB-LPOが最高精度を達成し、従来手法を精度で最大5.3%、多様性指標で最大7.4%上回ることを実証している。
大規模言語モデル(LLM)における近年の飛躍的進展により、エージェントとしての新たなパラダイムが期待されるようになってきた。特に、多様なシナリオやタスクに適応するための中核的な汎用能力として、長期計画立案と意思決定の重要性が高まっている。リアルタイムストラテジー(RTS)ゲームは、そのゲーム性がマクロレベルの戦略的計画とミクロレベルの戦術的適応・行動実行の両方を必要とするため、これら2つの能力を評価する理想的なテストベッドとなる。既存のRTSゲームベースの環境は、計算コストが比較的高いか、テキスト観測をサポートしていないため、LLM評価へのRTSゲームの活用が制限されてきた。この課題を踏まえ、我々はRTSゲームのサブジャンルであるタワーディフェンス(TD)に基づく新環境「TowerMind」を提案する。TowerMindは、LLM評価におけるRTSゲームの重要な強みを維持しつつ、低い計算負荷と、ピクセルベース・テキスト・構造化ゲーム状態表現を含むマルチモーダルな観測空間を特徴とする。さらに、モデルの幻覚(hallucination)評価をサポートし、高いカスタマイズ性を備えている。我々は5つのベンチマークレベルを設計し、様々なマルチモーダル入力設定下で広く利用されているLLMを評価した。その結果、能力と幻覚の両次元において、LLMと人間の専門家の間に明確な性能差が存在することが明らかになった。実験により、計画検証の不備、意思決定における多終局性の欠如、行動の非効率な使用など、LLMの行動における重要な限界も浮き彫りになった。また、Ape-X DQNとPPOという2つの古典的強化学習アルゴリズムも評価した。軽量かつマルチモーダルな設計により、TowerMindは既存のRTSゲームベース環境を補完し、AIエージェント分野に新たなベンチマークを提供する。ソースコードはGitHub (https://github.com/tb6147877/TowerMind) で公開されている。
顔画像品質評価(FIQA)は信頼性の高い顔認識システムにとって不可欠である。現在の手法は主に最終層の表現のみを利用しており、トレーニング不要な手法では複数の順伝搬や誤差逆伝搬を必要とする。我々は、中間Vision Transformer(ViT)ブロック間におけるパッチ埋め込みの進化の安定性を測定する、トレーニング不要な手法ViTNT-FIQAを提案する。高品質な顔画像はブロック間で安定した特徴洗練の軌跡を示す一方、劣化画像では不規則な変換が見られることを実証する。本手法は、連続するトランスフォーマーブロックから得られるL2正規化されたパッチ埋め込み間のユークリッド距離を計算し、それらを画像レベルの品質スコアに集約する。この相関関係を、制御された劣化レベルを持つ品質ラベル付き合成データセットを用いて実証的に検証する。既存のトレーニング不要な手法とは異なり、ViTNT-FIQAは誤差逆伝搬やアーキテクチャ変更を必要とせず、単一の順伝搬のみで動作する。8つのベンチマーク(LFW、AgeDB-30、CFP-FP、CALFW、Adience、CPLFW、XQLFW、IJB-C)における広範な評価を通じて、ViTNT-FIQAが計算効率を維持し、任意の事前学習済みViTベースの顔認識モデルに即時適用可能であると同時に、最新手法と競合する性能を達成することを示す。
我々は、推論時の推論コストを償却するフレームワークを提案する。これは、ファイルベースのメモリシステムとエージェント制御のツール呼び出しを通じて、一時的な批評を検索可能なガイドラインに変換するものである。本手法を、ルーブリックに基づく学習のための新規データセットであるRubric Feedback Benchで評価した。実験により、拡張したLLMが、推論コストを大幅に削減しつつ、テスト時改良パイプラインの性能に迅速に到達することを実証した。
リアルタイムマルチモーダル自動補完は、ユーザー入力が共有された視覚的文脈に依存する、デジタルアシスタント、チャットボット、デザインツール、医療相談において不可欠である。本稿では、入力途中のテキストと視覚的手がかりを用いてライブチャットにおける続く文字列を予測するタスク、Multimodal Auto-Completion(MAC)を提案する。従来のテキストのみの自動補完(TAC)とは異なり、MACは予測をマルチモーダル文脈に基づかせることで、ユーザーの意図をより良く捉える。このタスクを可能にするため、MMDialogとImageChatを改変し、ベンチマークデータセットを構築した。主要な視覚言語モデル(VLM)を強力なテキストベースラインと比較評価し、精度と効率性のトレードオフを明らかにする。さらに、対話文脈に基づいてテキストモデルとVLMを動的に選択するルーターフレームワーク「Router-Suggest」と、リソース制約のある環境向けの軽量版を提案する。Router-Suggestは、最高性能のVLMと比べて2.3倍から10倍の高速化を達成した。ユーザスタディにより、VLMはユーザ満足度においてテキストモデルを大きく凌駕し、特にユーザーの入力労力を削減し、マルチターン会話における補完の質を向上させることが示された。これらの知見は、自動補完におけるマルチモーダル文脈の必要性を強調し、よりスマートでユーザーを意識したアシスタントの実現につながるものである。
アフリカは世界の言語の3分の1以上を擁するにもかかわらず、AI研究における代表性が不十分である。本論文では、12か国15のアフリカ言語にわたり7.5kの質問応答ペアをカバーする、初の多言語文化質問応答ベンチマーク「Afri-MCQA」を提案する。このベンチマークは、テキストと音声の両モダリティにわたる英語とアフリカ諸言語の並列質問応答ペアを提供し、全てネイティブスピーカーによって作成された。大規模言語モデルをAfri-MCQAで評価した結果、公開ウェイトモデルは評価対象の文化圏全体で性能が低く、現地語または音声で質問された場合の自由回答型VQAの正答率はほぼゼロであった。言語能力を評価するため、文化的知識とは切り離してこの特定の側面を評価するための対照実験を含めたところ、テキストと音声の両方において、現地語と英語の間に顕著な性能差が観察された。これらの知見は、音声優先アプローチ、文化に根差した事前学習、そして言語間を超えた文化伝達の必要性を強調するものである。アフリカ言語における包括的なマルチモーダルAI開発を支援するため、Afri-MCQAを学術ライセンスまたはCC BY-NC 4.0のもと、HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA) で公開する。
人物像条件付けは、大規模言語モデル(LLM)に対する行動的な事前分布と見なすことができ、専門性を付与し安全性を単調に向上させるとしばしば想定されている。しかし、その高リスクな臨床意思決定への影響は十分に解明されていない。我々は、臨床LLMにおける人物像ベースの制御を体系的に評価し、専門職役割(救急部門医師、看護師など)と相互作用スタイル(大胆 vs. 慎重)が、モデルや医療タスク間で行動にどのように影響するかを検証した。臨床トリアージと患者安全タスクにおける性能を、タスクの正確性、較正、安全性に関連するリスク行動を捕捉する多次元評価を用いて評価した。その結果、体系的で文脈依存的、かつ非単調な効果を明らかにした:医療人物像は集中治療タスクでは性能を向上させ(正確性と較正で最大+20%近い向上)、しかしプライマリケア設定では同程度の差で性能を低下させた。相互作用スタイルはリスク選好性と感度を調整するが、それはモデルに強く依存していた。集約されたLLM-judgeの評価ランキングは安全が重大なケースでは非医療人物像よりも医療人物像を好むが、ヒトの臨床医は安全性遵守に関して中程度の一致(平均コーエンκ=0.43)を示す一方、推論の質に関する回答の95.9%において自信が低いことを示した。我々の研究は、人物像が安全性や専門性の保証ではなく、文脈依存的なトレードオフを導入する行動事前分布として機能することを示している。コードはhttps://github.com/rsinghlab/Persona_Paradoxで利用可能である。