翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は、架空のキャラクターのシミュレーションを含む創造的生成タスクにますます活用されている。しかし、非親社会的で敵対的な人物像を描写する能力については、ほとんど検証がなされていない。現代のLLMに施された安全性アライメントが、道徳的に曖昧なキャラクターや悪役を真に迫る形で演じるタスクと根本的な矛盾を生じると我々は仮説を立てる。これを検証するため、4段階の道徳的アライメント尺度と厳密な評価のための均衡の取れたテストセットを備えた新しいデータセット「Moral RolePlay」ベンチマークを提案する。最先端のLLMに、道徳的模範から純粋な悪役までのキャラクター演技を課した大規模評価により、キャラクターの道徳性が低下するにつれて役割演技の忠実度が一貫して単調減少することを明らかにした。特に「欺瞞的」「操作的」など安全性原則と真っ向から対立する特性でモデルが最も苦戦し、しばしば微妙な悪意を表層的な攻撃性で置き換えることを確認した。さらに、一般的なチャットボットとしての能力は悪役演技の適性をほとんど予測せず、強く安全性アライメントされたモデルほど特に低性能であることを実証する。本研究は、モデルの安全性と創造的忠実性の間の重大な緊張関係を浮き彫りにし、この重要な制約に関する初の体系的証拠を提供する。提案するベンチマークと知見は、より繊細で文脈を意識したアライメント手法の開発への道を開くものである。
視覚入力から空間的関係性を捕捉することは、人間のような汎用知能の基盤をなす。これまでいくつかの研究が、専門的なエンコーダを追加することでVision-Languageモデル(VLM)の空間認識能力を強化しようと試みてきたが、これは追加のオーバーヘッドをもたらし、しばしば汎用性能を損なう。一般的なアーキテクチャにおいて空間能力を強化するため、本論文ではVisual Spatial Tuning(VST)を提案する。これは空間知覚から推論まで、人間のような視覚空間能力をVLMに育成する包括的フレームワークである。まず、単一視点・複数画像・動画にわたる19の技能を網羅する410万サンプルから成る大規模データセットVST-Pを構築し、VLMの空間知覚強化を試みる。次に、モデルに空間推論を指示する13万5千サンプルの精選データセットVST-Rを提示する。特に、教師ありファインチューニングによる基礎的空間知識の構築と、強化学習による空間推論能力のさらなる向上という段階的訓練パイプラインを採用する。提案手法VSTは、汎用性能への悪影響なく、複数の空間ベンチマーク(MMSI-Benchで34.8%、VSIBenchで61.2%)において一貫して最高精度を達成する。この結果は、Vision-Language-Actionモデルが提案する空間チューニングパラダイムによって大幅に強化可能であり、より物理的に接地されたAIへの道を開くものである。
エージェント型マルチモーダルモデルは、単にテキストや画像を理解するだけでなく、コード実行環境やWeb検索などの外部ツールを積極的に呼び出し、これらの操作を推論に統合する必要があります。本研究ではDeepEyesV2を紹介し、データ構築、訓練方法、モデル評価の観点から、どのようにエージェント型マルチモーダルモデルを構築するかを探求します。我々は、強化学習のみでは堅牢なツール利用行動を誘導できないことを確認しました。この現象が、ツール利用パターンを確立するコールドスタート段階と、ツール呼び出しをさらに洗練させる強化学習段階からなる二段階訓練パイプラインの動機付けとなりました。我々は多様で中程度に困難な訓練データセットを精選し、特にツール利用が有益となる事例を意図的に含めました。さらに、現実世界のマルチモーダル推論を評価するために設計された包括的ベンチマークRealX-Benchを導入します。これは本質的に、知覚、検索、推論を含む複数の能力の統合を必要とするものです。DeepEyesV2をRealX-Benchおよび他の代表的なベンチマークで評価し、現実世界の理解、数学的推論、検索集約型タスクにおけるその有効性を実証します。さらに、DeepEyesV2はタスク適応型のツール呼び出しを示し、知覚タスクでは画像操作を、推論タスクでは数値計算を利用する傾向があります。強化学習はさらに複雑なツールの組み合わせを可能にし、モデルが文脈に基づいて選択的にツールを呼び出すことを可能にします。我々の研究が、コミュニティにおけるエージェント型マルチモーダルモデルの開発に指針を提供できることを期待します。
大規模言語モデル(LLM)は思考の連鎖(Chain-of-Thought: CoT)による多段階推論が可能ですが、自らの論理を確実に検証することはできません。正しい答えに到達した場合でも、根底にある推論に欠陥がある可能性があり、高リスクのシナリオにおける信頼性を損なう要因となります。この問題を緩和するため、我々はCoT推論から形式的論理構造を抽出して検証する神経シンボル型手法「VeriCoT」を提案します。VeriCoTは各CoT推論ステップを一階述語論理で形式化し、ソース文脈・常識的知識・先行推論ステップに基盤を置く前提を特定します。シンボリック表現により自動ソルバーによる論理的正しさの検証が可能となり、自然言語の前提により人間やシステムが根拠不足または誤った推論ステップを特定できます。ProofWriter・LegalBench・BioASQデータセットでの実験により、VeriCoTが欠陥ある推論を効果的に検出し、最終回答の正しさを強力に予測できることが示されました。さらにVeriCoTの検証信号を以下に活用します:(1) 推論時自己評価、(2) VeriCoTで蒸留したデータセットによる教師ありファインチューニング(SFT)、(3) 検証ベースのペアワイズ報酬を用いた直接選好最適化(DPO)による選好ファインチューニング(PFT)。これにより推論の正当性と精度がさらに向上します。
現実世界におけるエージェントは、論理的であるだけでなく、適時性のある判断を下さなければなりません。これには、動的に変化する環境への持続的な認識が求められます。危険が発生し、機会が訪れ、他のエージェントが行動する中で、当該エージェントの推論はまだ進行中なのです。言語モデルの推論技術が進歩しているにもかかわらず、既存のアプローチはこの動的な性質を考慮できていません。本研究では、変化する環境におけるエージェントの新たな問題設定として「リアルタイム推論」を提唱し、これを実証するためのReal-Time Reasoning Gymを構築しました。我々は、エージェントへの言語モデル導入における二つのパラダイムを検討します。(1) 反応型エージェント:迅速な応答のために計算量が限定された言語モデルを用いるもの、(2) 計画型エージェント:複雑な問題に対して計算量を多く割いた推論を許容するもの。実験の結果、最先端のモデルであっても、いずれのパラダイムにおいても論理的かつ適時性のある判断を下すことに苦戦することが明らかになりました。この課題を解決するため、我々は両方の推論パラダイムを同時に駆動するAgileThinkerを提案します。AgileThinkerは、課題の難易度と時間的制約が高まるにつれて、単一の推論パラダイムのみを用いるエージェントを一貫して上回り、推論の深さと応答遅延のバランスを効果的に取ります。本研究は、実用的なエージェント開発における重要なテストベッドとしてリアルタイム推論を確立し、時間制約のあるAIシステムの研究基盤を提供することで、リアルタイム対応エージェントへの道筋を示すものです。
3次元人体モーションと言語の統合における最近の進歩は、テキストからモーションへの生成に主眼が置かれており、モーション理解の課題は比較的未開拓のままである。本論文では、3次元人体モーションシーケンス内の動作を時間的に位置特定し説明することを目的とする新規タスク「高密度モーションキャプション生成(Dense Motion Captioning)」を提案する。現在利用可能なデータセットは、詳細な時間的アノテーションを提供しておらず、また少数の動作からなる短いシーケンスが主流である。これらの限界を克服するため、精密な時間的境界を有する、詳細に注釈付けされた複雑なモーションシーケンスを特徴とする初の大規模データセット「Complex Motion Dataset (CompMo)」を提示する。注意深く設計されたデータ生成パイプラインを通じて構築されたCompMoは、60,000のモーションシーケンスを含み、各シーケンスは少なくとも2つから10個までの複数の動作で構成され、それぞれの時間的範囲が正確に注釈付けされている。さらに、大規模言語モデルとシンプルなモーションアダプターを統合し、時間的に接地された高密度のキャプションを生成するように訓練されたモデル「DEMO」を提示する。実験結果により、DEMOがCompMoおよび適応されたベンチマークにおいて既存手法を大幅に上回り、3次元モーション理解とキャプション生成の将来の研究に対する堅牢なベースラインを確立することが示された。
本研究では、既存の大規模視覚言語モデル(LVLM)のアーキテクチャに内在する、言語モダリティへのバイアスを明らかにする。このバイアスは、視覚埋め込みを単純に入力テキスト系列に付加するという一般的な手法に起因する。この問題に対処するため、平均プーリングされた視覚特徴を統合することでテキスト埋め込みを精緻化する、簡潔かつ効果的な手法を提案する。本手法は、確立されたベンチマークにおいて視覚的接地を改善し、幻覚生成を大幅に低減することを実証する。平均プーリングは視覚情報を組み込むための直感的で頑健かつ効率的な手段であるが、より洗練された融合手法によって視覚的接地とクロスモーダル連携がさらに向上する可能性がある。本研究の主眼はモダリティ不均衡と幻覚生成への影響を明らかにし、視覚情報によるテキスト埋め込みの精緻化がこの問題を緩和することを示すことにあるため、高度な融合戦略の探求は将来の課題とする。
大規模言語モデル(LLM)における正確な信頼度較正は、高リスク領域での安全な利用において極めて重要であり、明確な言語化された信頼度はユーザーの信頼を高める。従来の参照用信頼度表現を模倣する手法は、正確な信頼度評価に必要な推論過程を捉えられないことが多い。本論文は自然言語批評を解決策として提案する。正確な正解信頼度ラベルの取得が困難で複数回の生成を要する場合が多いため、自然言語批評は信頼度較正に理想的に適合する。本研究では、自然言語批評が言語化信頼度を強化する方法を検討し、以下の課題に取り組む:(1)何を批評するか:不確実性(質問焦点型)か、信頼度(回答特化型)か?分析の結果、信頼度批評は多肢選択課題に、不確実性批評は自由回答形式課題に有効であることが示された。(2)如何に批評するか:自己批評か、批評較正訓練か?我々は、LLMが単なる正答率を超えて自身の信頼度を批評・最適化するSelf-Critiqueと、自然言語批評を活用して直接的な数値最適化を超える信頼度較正を実現する新規手法CritiCal(批評較正訓練)を提案する。実験により、CritiCalがSelf-Critiqueや他の競合ベースラインを有意に上回り、複雑な推論課題では教師モデルであるGPT-4oをも凌駕することを実証した。CritiCalは分布外設定でも頑健な一般化性能を示し、LLMの信頼性向上に寄与する。
長文脈対応言語モデル(LM)の最近の進展により、百万トークン規模の入力が可能となり、コンピュータ利用エージェントなどの複雑なタスクにおける能力が拡大している。しかし、こうした拡張された文脈が安全性に与える影響は未解明のままだ。この課題に対処するため、我々はNINJA(Needle-in-haystack jailbreak attackの略)を提案する。これは、有害なユーザー目標にモデル生成の良性コンテンツを付加することで、調整済みLMを脱獄する手法である。本手法の核心は、有害目標の配置位置が安全性に重大な影響を及ぼすという観察に基づく。安全性標準ベンチマークHarmBenchでの実験により、NINJAがLLaMA、Qwen、Mistral、Geminiなどの先端的オープン/プロプライエタリモデルにおいて攻撃成功率を大幅に向上させることが実証された。従来の脱獄手法と異なり、本アプローチは低リソースで転移性が高く、検出されにくい特徴を持つ。さらにNINJAは計算最適性を示す——固定計算バジェット下では、文脈長の増加がベストオブN脱獄における試行回数増加を凌駕する。これらの発見は、たとえ良性の長文脈であっても、目標配置を慎重に設計することで現代LMに根本的脆弱性が生じうることを明らかにする。
自動プログラム修正(APR)は近年、大規模言語モデルとエージェントベースシステムへと移行しつつあるが、ほとんどのシステムはリポジトリ履歴を軽視し、ローカルスナップショットの文脈に依存している。先行研究では、バグを含む行を最後に変更したコミットがバグ導入の原因であることが多いため、リポジトリ履歴が単一行バグの修正に有効であることが示されている。本論文では、リポジトリ履歴が複雑なマルチハンクバグを含む大規模なエージェント型APRシステムの改善にも寄与するかどうかを検証する。我々は、blame情報から導出されたリポジトリ発見的手法を修正ループに組み込む履歴認識型バグ修正エージェント「HAFixAgent」を提案する。Defects4Jの実世界バグ854件全体に対する予備調査により、バグ関連履歴が広く利用可能かつ高度に集中していることが明らかになり、本設計の妥当性が示唆された。HAFixAgentと2つの最先端ベースラインとの実証比較により以下が明らかになった:(1)有効性:HAFixAgentはエージェントベースベースライン(212.3%向上)およびマルチハンクベースライン(29.9%向上)を大幅に上回る。(2)効率性:履歴利用によるエージェントステップ数の大幅な増加はなく、トークンコストも同等を維持。複雑なマルチファイル・マルチハンクバグでは中央値コストが顕著に低い。(3)実用性:異なる履歴発見的手法の組み合わせにより修正可能なバグ数が増加し、明確な費用対効果のトレードオフを提供する。HAFixAgentは、バージョン管理履歴へのエージェントの接地、差分ベース履歴文脈の優先順位付け、必要に応じた相補的発見的手法の統合という、履歴認識型エージェントAPRの実用的な設計指針を提供する。