翻訳付きの日次キュレーションされたAI研究論文
検証可能な報酬を伴う強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、特に複雑な推論タスクにおいて、大規模言語モデル(Large Language Models, LLMs)のポストトレーニングにおける重要なパラダイムとして最近注目を集めている。しかし、従来のRLVRトレーニングは、Pass@1の性能を向上させる一方で、ポリシーのエントロピーを犠牲にし、生成の多様性を減少させ、LLMの推論能力の上限を表すPass@kの性能を制限することが示されている。本論文では、トレーニング問題の観点からポリシーの生成多様性を体系的に分析し、トレーニング問題の拡張と更新がトレーニング中のエントロピー崩壊を緩和することを明らかにする。これらの観察に基づき、RLVRトレーニングのためのオンライン自己対戦と変分問題合成(Self-play with Variational problem Synthesis, SvS)戦略を提案する。この戦略では、ポリシーの正しい解を用いて変分問題を合成し、その参照回答が元の問題と同一であることを保証する。この自己改善戦略は、トレーニング中のポリシーエントロピーを効果的に維持し、標準的なRLVRと比較してPass@kを大幅に向上させ、競争レベルのAIME24およびAIME25ベンチマークにおいてPass@32性能でそれぞれ18.3%および22.8%の絶対的な向上を達成し、持続的な改善を実現する。3Bから32Bまでのさまざまなモデルサイズにわたる12の推論ベンチマークでの実験は、SvSの一般化可能性と堅牢性を一貫して示している。
本論文では、基盤となる大規模言語モデル(LLM)のファインチューニングを必要としない、適応型LLMエージェントのための新しい学習パラダイムを提案する。既存のアプローチは、静的で手作業によるリフレクションワークフローに依存する硬直的なものか、LLMモデルパラメータの勾配更新を必要とする計算集約的なものが多い。これに対し、我々の手法は、メモリベースのオンライン強化学習を通じて低コストで継続的な適応を可能にする。これを、ニューラルケース選択ポリシーを備えたメモリ拡張マルコフ決定過程(M-MDP)として形式化する。過去の経験は、微分可能またはノンパラメトリックなエピソードメモリに保存される。ポリシーは、環境からのフィードバックに基づいてメモリ書き換えメカニズムを通じて継続的に更新され、効率的なメモリ読み取り(検索)を通じてポリシー改善が達成される。我々は、深層研究設定においてエージェントモデルを具体化し、AgentFlyとして実装した。これは、GAIA検証で87.88%のPass@3を達成し、テストセットでは79.40%を記録した。DeepResearcherデータセットでは66.6%のF1スコアと80.4%のPMを達成し、最先端のトレーニングベースの手法を上回り、ケースベースのメモリは分布外タスクで4.7%から9.6%の絶対ポイントを追加した。我々のアプローチは、勾配更新なしで継続的かつリアルタイムの学習が可能な汎用LLMエージェントを開発するためのスケーラブルで効率的な道筋を提供し、機械学習をオープンエンドのスキル獲得と深層研究シナリオに向けて前進させる。コードはhttps://github.com/Agent-on-the-Fly/AgentFlyで公開されている。
言語誘導型の長期的モバイルマニピュレーションは、具現化された意味推論、汎用的なマニピュレーション、適応的な移動において長らく大きな課題とされてきました。この進歩を妨げる3つの根本的な制約があります。第一に、大規模言語モデルが意味論的先行知識を通じて空間推論とタスク計画を改善したものの、既存の実装はテーブルトップシナリオに限定されており、モバイルプラットフォームの制約された知覚と限られた動作範囲に対応できていません。第二に、現在のマニピュレーション戦略は、オープンワールド環境で遭遇する多様なオブジェクト構成に対して十分な汎化性能を示していません。第三に、実用的な展開において重要であるにもかかわらず、非構造化環境下での高いプラットフォーム機動性と精密なエンドエフェクタ制御の両立という要件は十分に研究されていません。 本研究では、マニピュレータを装備した敏捷な四足歩行ロボットのための統合モバイルマニピュレーションフレームワーク「ODYSSEY」を提案します。このフレームワークは、高レベルのタスク計画と低レベルの全身制御をシームレスに統合します。言語条件付きタスクにおける自己中心的な知覚の課題に対処するため、視覚言語モデルを活用した階層型プランナーを導入し、長期的な指示分解と精密な動作実行を可能にします。制御レベルでは、新たな全身ポリシーが困難な地形での堅牢な協調を実現します。さらに、長期的モバイルマニピュレーションのための初のベンチマークを提示し、多様な屋内および屋外シナリオを評価します。シミュレーションから実世界への転移に成功し、非構造化環境における脚式マニピュレータの実用性を強調しながら、システムの汎化性能と堅牢性を実世界展開で実証します。本研究は、複雑で動的なタスクを実行可能な汎用ロボットアシスタントの実現可能性を前進させます。プロジェクトページ: https://kaijwang.github.io/odyssey.github.io/
エクソセントリックなビデオ合成が大きな進展を遂げている一方で、エゴセントリックなビデオ生成は未だに十分に探求されていない領域であり、これには装着者の身体動作に起因するカメラの動きパターンとともに、一人称視点のコンテンツをモデル化することが求められる。このギャップを埋めるため、我々はエゴセントリックなビデオと人間の動作を同時に生成する新たなタスクを提案し、その特徴として以下の2つの主要な課題を挙げる:1) 視点整合性:生成されたビデオにおけるカメラ軌跡は、人間の動作から導出される頭部軌跡と正確に整合する必要がある;2) 因果的相互作用:合成された人間の動作は、隣接するビデオフレーム間で観察される視覚的ダイナミクスと因果的に整合する必要がある。これらの課題に対処するため、我々は拡散トランスフォーマーアーキテクチャに基づいたEgoTwinというビデオ-動作同時生成フレームワークを提案する。具体的には、EgoTwinは人間の動作を頭部関節に固定するヘッドセントリックな動作表現を導入し、ビデオと動作の因果的相互作用を明示的に捉えるサイバネティクスに着想を得た相互作用メカニズムをアテンション操作に組み込む。包括的な評価のため、我々はテキスト-ビデオ-動作の同期された大規模な実世界データセットをキュレーションし、ビデオ-動作の一貫性を評価するための新たな指標を設計した。広範な実験を通じて、EgoTwinフレームワークの有効性が実証された。
大規模言語モデル(LLM)が実世界のアプリケーションでますます活用されるにつれ、モデルの有用性を維持しながら不要な知識を選択的に除去する必要性が極めて重要となっています。最近の研究では、単一意味的特徴に対して精密な介入を行うためにスパースオートエンコーダ(SAE)が探求されています。しかし、ほとんどのSAEベースの手法は推論時に動作するため、モデルのパラメータに永続的な変更を加えることはありません。このような介入は、パラメータにアクセスできる悪意のあるアクターによって回避または逆転される可能性があります。本論文では、SAEを用いた永続的な概念忘却のためのパラメータ効率的な手法であるCRISPを紹介します。CRISPは、複数の層にわたって重要なSAE特徴を自動的に特定し、それらの活性化を抑制します。2つのLLMを用いて実験を行い、WMDPベンチマークからの安全クリティカルな忘却タスクにおいて、我々の手法が従来のアプローチを上回り、有害な知識を成功裏に除去しながら一般的およびドメイン内の能力を維持することを示します。特徴レベルの分析により、CRISPがターゲットと良性の概念間で意味的に一貫した分離を達成し、ターゲット特徴の精密な抑制を可能にすることが明らかになりました。
物体とのインタラクションを促進するためには、特定の動作を可能にする部分を正確に識別する必要がある。弱教師付きアフォーダンスグラウンディング(WSAG)は、人間がピクセルレベルのアノテーションを必要とせずに、第三者視点のデモンストレーションから直感的に機能的部分を把握する学習を模倣することを目指している。これを実現するために、異なる視点からの画像間で共有される分類器と、部分発見プロセスを取り入れた蒸留戦略を用いてグラウンディングが学習される。しかし、アフォーダンスに関連する部分が常に容易に識別できるわけではないため、モデルは主に分類に依存し、しばしばアフォーダンスとは無関係なクラス固有のパターンに焦点を当ててしまう。この制限を克服するため、我々は孤立した部分レベルの学習を超えて、利用可能な情報の粒度に応じて部分レベルと物体レベルの両方でアフォーダンスに関連する手がかりを適応的に学習する選択的プロトタイプ的およびピクセルコントラスティブな目的関数を導入する。最初に、CLIPを活用して、エゴセントリック(物体中心)およびエクソセントリック(第三者視点)画像の両方で動作に関連する物体を見つける。次に、補完的な視点で発見された物体を相互参照することで、各視点における正確な部分レベルのアフォーダンス手がかりを掘り下げる。アフォーダンスに関連する領域と無関係な背景文脈を一貫して区別することを学習することで、我々のアプローチは無関係な領域から意味のあるアフォーダンス手がかりへと活性化を効果的にシフトさせる。実験結果は、我々の手法の有効性を示している。コードはgithub.com/hynnsk/SelectiveCLで公開されている。
競技プログラミングは、大規模言語モデル(LLM)の推論能力とコーディング能力を評価するための重要なベンチマークとして浮上しています。既存のベンチマークでは目覚ましい進展が見られるものの、現在の評価はモデルの熟練度を過大評価しており、LLMとエリート人間プログラマーの間には依然として大きなギャップが存在します。このギャップは、主に2つの重要な制約に起因しています。1つは、ベンチマーク問題の難易度と範囲が不十分であること、もう1つは、低品質なテストケースによる評価バイアスです。これらの欠点を解消するため、私たちはAetherCodeを提案します。AetherCodeは、IOIやICPCなどの一流プログラミングコンテストから問題を選び、より広範なカバレッジと高い難易度を提供します。さらに、自動生成と人間による精選を組み合わせた包括的で専門家による検証済みのテストスイートを組み込むことで、厳密かつ信頼性の高い評価を実現します。挑戦的な問題設計と堅牢な評価を組み合わせることで、AetherCodeはLLMの能力をより忠実に測定し、コード推論に関する将来の研究の新たな基準を設定します。
大規模言語モデル(LLMs)の急速な進展に後押しされ、エージェントは内在する知識と動的なツール使用を組み合わせることが可能になり、現実世界のタスクに対処する能力が大幅に向上しています。この進化に伴い、AgentScopeは新バージョン(1.0)において、エージェントアプリケーションを構築するための柔軟で効率的なツールベースのエージェント-環境相互作用を包括的にサポートするための主要な改善を導入しました。具体的には、エージェントアプリケーションに不可欠な基礎コンポーネントを抽象化し、統一されたインターフェースと拡張可能なモジュールを提供することで、開発者が最新の進歩(新しいモデルやMCPsなど)を容易に活用できるようにしました。さらに、エージェントの動作をReActパラダイムに基づいて設計し、体系的な非同期設計に基づく高度なエージェントレベルのインフラストラクチャを提供することで、人間-エージェントおよびエージェント-エージェント間の相互作用パターンを豊かにしつつ、実行効率を向上させました。この基盤を基に、特定の実践シナリオに合わせた複数の組み込みエージェントを統合しています。また、AgentScopeは開発者にとって使いやすい堅牢なエンジニアリングサポートも含んでいます。視覚的なスタジオインターフェースを備えたスケーラブルな評価モジュールを提供し、長軌道のエージェントアプリケーションの開発をより管理しやすく、トレースしやすいものにしています。さらに、AgentScopeは安全なエージェント実行を確保するためのランタイムサンドボックスを提供し、本番環境での迅速なデプロイを容易にします。これらの強化により、AgentScopeはスケーラブルで適応性があり効果的なエージェントアプリケーションを構築するための実用的な基盤を提供します。
医療用大規模言語モデル(LLM)を用いた正確な診断は、知識のギャップと幻覚(hallucination)によって妨げられている。検索とツール補強型の手法はこれを改善するが、外部知識の弱い活用やフィードバック・推論のトレーサビリティの低さにより、その効果は限定的である。これらの課題に対処するため、我々はDeep-DxSearchを提案する。これは、強化学習(RL)を用いてエンドツーエンドで訓練されたエージェント型RAG(Retrieval-Augmented Generation)システムであり、医療診断におけるトレーサブルな検索補強推論を可能にする。Deep-DxSearchでは、まず、患者記録と信頼性の高い医療知識源からなる大規模な医療検索コーパスを構築し、診断シナリオ全体での検索を意識した推論をサポートする。さらに重要な点として、LLMをコアエージェントとし、検索コーパスをその環境として位置づけ、フォーマット、検索、推論構造、診断精度に特化した報酬を設計することで、大規模データを通じてエージェント型RAGポリシーを進化させる。 実験結果は、我々のエンドツーエンドエージェント型RL訓練フレームワークが、複数のデータセンターにおいて、プロンプトエンジニアリングや訓練不要のRAGアプローチを一貫して上回ることを示している。訓練後、Deep-DxSearchは診断精度において大幅な向上を達成し、GPT-4oやDeepSeek-R1、その他の医療特化型フレームワークといった強力な診断ベースラインを、分布内および分布外設定における一般的および希少疾患の診断で凌駕した。さらに、報酬設計と検索コーパス構成要素に関するアブレーション研究は、それらの重要性を確認し、従来の実装と比較した我々のアプローチの独自性と有効性を強調している。最後に、ケーススタディと解釈可能性分析は、Deep-DxSearchの診断ポリシーの改善を明らかにし、その性能向上の深い洞察を提供するとともに、臨床医がより信頼性と精度の高い予備診断を提供することを支援する。詳細はhttps://github.com/MAGIC-AI4Med/Deep-DxSearchを参照。
最近のビデオ編集手法は、スタイル転送や外観変更において魅力的な結果を達成しています。しかし、ビデオ内の3Dシーンの構造的コンテンツを編集することは依然として困難であり、特に大きなカメラ回転やズームといった大幅な視点変化を扱う場合に顕著です。主な課題には、元のビデオと一貫性のある新規視点コンテンツの生成、未編集領域の維持、疎な2D入力をリアルな3Dビデオ出力に変換することが含まれます。これらの課題に対処するため、我々はSketch3DVEを提案します。これは、大幅な視点変化を伴うビデオの詳細な局所的な操作を可能にするスケッチベースの3D対応ビデオ編集手法です。疎な入力による課題を解決するため、最初のフレームに対して編集結果を生成する画像編集手法を採用し、それをビデオの残りのフレームに伝播させます。正確なジオメトリ制御のためのインタラクションツールとしてスケッチを利用し、他のマスクベースの画像編集手法もサポートします。視点変化を扱うために、ビデオ内の3D情報を詳細に分析し操作します。具体的には、密なステレオ手法を利用して入力ビデオの点群とカメラパラメータを推定します。次に、新たに編集されたコンポーネントの3Dジオメトリを表現するために深度マップを使用する点群編集アプローチを提案し、それらを元の3Dシーンと効果的に整合させます。新たに編集されたコンテンツを元のビデオとシームレスに統合しつつ未編集領域の特徴を維持するために、3D対応のマスク伝播戦略を導入し、リアルな編集ビデオを生成するためにビデオ拡散モデルを採用します。広範な実験により、Sketch3DVEのビデオ編集における優位性が実証されています。ホームページとコード: http://geometrylearning.com/Sketch3DVE/
近年、Vision-Language-Action(VLA)モデルは、さまざまなロボットタスクにおいて優れた性能を示しています。これらのモデルはマルチモーダルな入力を利用し、言語指示が重要な役割を果たしています。言語指示は、アクションを予測するだけでなく、要求が実行不可能な場合でもユーザーの意図を堅牢に解釈する上で重要な役割を担っています。本研究では、VLAモデルが偽前提指示(環境に存在しないオブジェクトや条件を参照する自然言語コマンド)を認識し、解釈し、応答する方法を調査します。私たちは、Instruct-Verify-and-Act(IVA)という統一フレームワークを提案します。このフレームワークは、(i) 偽前提のために指示が実行できない場合を検出し、(ii) 言語ベースの明確化や修正を行い、(iii) 知覚とアクションに基づいて妥当な代替案を提供します。この目的に向けて、構造化された言語プロンプトを用いた大規模な指示チューニングセットアップを構築し、正確な要求と誤った要求の両方を処理できるVLAモデルを訓練します。私たちのアプローチは、正しい指示と偽前提指示をペアにした文脈的に拡張された半合成データセットを活用し、堅牢な検出と自然言語による修正を可能にします。実験結果は、IVAが偽前提検出の精度をベースラインと比較して97.56%向上させ、偽前提シナリオでの成功応答率を50.78%増加させることを示しています。
DeepSeek-V2で導入されたMulti-Head Latent Attention(MLA)は、キー・バリューの状態を低ランクの潜在ベクトルに圧縮し、このベクトルのみをキャッシュすることでメモリを削減します。しかし、テンソル並列処理(TP)では、アテンションヘッドが複数のデバイスにまたがって計算され、各デバイスはフルキャッシュをロードする必要があるため、MLAのGrouped Query Attention(GQA)に対する利点が損なわれます。本論文では、Tensor-Parallel Latent Attention(TPLA)を提案します。TPLAは、潜在表現と各ヘッドの入力次元をデバイス間で分割し、シャードごとに独立してアテンションを実行し、その後all-reduceで結果を結合する方式です。TPLAは、圧縮されたKVキャッシュの利点を維持しながら、TPの効率性を引き出します。Grouped Latent Attention(GLA)とは異なり、TPLAの各ヘッドは依然として完全な潜在表現を活用し、より強力な表現能力を維持します。TPLAは、MLAを使用して事前学習されたモデルにそのまま適用可能であり、MLAスタイルのプリフィリングをサポートし、再学習なしで効率的なテンソル並列デコードを可能にします。TPスライシングの前に、アダマール変換やPCAなどの単純な直交変換を適用することで、シャード間の干渉をさらに軽減し、精度の低下を最小限に抑えます。DeepSeek-V3とKimi-K2において、32Kトークンのコンテキスト長で、それぞれ1.79倍と1.93倍の高速化を達成し、常識推論およびLongBenchベンチマークでの性能を維持します。TPLAはFlashAttention-3で実装可能であり、実用的なエンドツーエンドの高速化を実現します。
3Dガウシアンスプラッティング(3DGS)は、新規視点合成(NVS)において顕著な効果を示している。しかし、高忠実度レンダリングを達成するためには通常、多数の3Dガウシアンを必要とし、その結果、メモリ消費量とストレージ要件が大幅に増加するという重大な欠点がある。この課題に対処するため、我々は3DGSのための初めての知識蒸留フレームワークを提案する。このフレームワークは、標準的な3DGS、ノイズを付加したバリエーション、ドロップアウトを正則化したバージョンなど、さまざまな教師モデルを特徴としている。これらの教師モデルの出力を集約し、軽量な学生モデルの最適化を導く。隠れた幾何構造を蒸留するために、学生モデルと教師モデル間の空間的幾何分布の一貫性を高めるための構造的類似性損失を提案する。多様なデータセットにわたる包括的な定量的および定性的評価を通じて、提案されたDistilled-3DGSは、シンプルでありながら効果的なフレームワークであり、最先端の手法と比較して、レンダリング品質とストレージ効率の両方で有望な結果を達成する。プロジェクトページ:https://distilled3dgs.github.io。コード:https://github.com/lt-xiang/Distilled-3DGS。
輪郭や閉じた平面曲線は、多くの分野で一般的に見られます。例えば、コンピュータビジョンでは物体の境界として、気象学では等値線として、回転機械の軌道として現れます。輪郭データから学習する際、入力の平面回転は対応する出力の回転を引き起こすことが多く、そのため深層学習モデルが回転等変性を持つことが望ましいです。さらに、輪郭は通常、エッジ点の順序付きシーケンスとして表現され、開始点の選択は任意です。そのため、深層学習手法が巡回シフトに対して等変性を持つことも望ましいです。本論文では、複素数値の円形畳み込みを通じて回転と巡回シフトの等変性を実現する輪郭データ学習のための深層学習フレームワーク「RotaTouille」を提案します。さらに、等変性を持つ非線形層、粗化層、およびグローバルプーリング層を導入し、下流タスクのための不変表現を獲得します。最後に、形状分類、再構成、輪郭回帰の実験を通じてRotaTouilleの有効性を実証します。
LLM(大規模言語モデル)は、人間中心の推論タスクにおいて強力な性能を示してきた。これまでの評価では、LLMが意図を推測したり、欺瞞を検出したりできるかどうかが探求されてきたが、社会的文脈において人々が解釈し行動する際に影響を与える個別化された推論スタイルはしばしば見過ごされてきた。ソーシャルディダクションゲーム(SDG)は、個別化された推論スタイルを評価するための自然なテストベッドを提供する。ここでは、異なるプレイヤーが同一条件下で多様だが文脈的に妥当な推論戦略を採用する可能性がある。この問題に対処するため、我々はInMindを導入する。これは、LLMがSDGにおいて個別化された推論スタイルを捕捉し適用できるかどうかを評価するために設計された、認知論的基盤を持つ評価フレームワークである。InMindは、ObserverモードとParticipantモードの両方で収集されたラウンドレベルの戦略トレースとゲーム後の振り返りを構造化されたゲームプレイデータに強化する。これにより、静的整合性と動的適応性の両方を共同で評価する4つの認知論的動機付けタスクをサポートする。ケーススタディとして、InMindをゲーム「アヴァロン」に適用し、11の最先端LLMを評価した。汎用LLM、たとえGPT-4oでさえ、しばしば語彙的キューに依存し、時間的なゲームプレイに振り返りを固定したり、進化する戦略に適応したりするのに苦労する。一方、DeepSeek-R1のような推論強化型LLMは、スタイルに敏感な推論の初期兆候を示す。これらの発見は、現在のLLMが個別化された適応的推論能力において持つ主要な限界を明らかにし、InMindを認知論的に整合した人間-AIインタラクションに向けた一歩として位置づける。
3D人間の姿勢と形状推定において、SMPLifyは反復最適化を通じて逆運動学(IK)を解決する堅牢なベースラインとして残っています。しかし、その高い計算コストが実用性を制限しています。最近のさまざまな分野での進展により、反復最適化をデータ駆動型のニューラルネットワークに置き換えることで、精度を犠牲にすることなく大幅な実行時間の改善が達成できることが示されています。このトレンドに触発され、我々はLearnable SMPLifyを提案します。これは、SMPLifyの反復フィッティングプロセスを単一パスの回帰モデルに置き換えるニューラルフレームワークです。我々のフレームワークの設計は、ニューラルIKにおける2つの核心的な課題、すなわちデータ構築と汎化能力に焦点を当てています。効果的な学習を可能にするために、シーケンシャルフレームから初期化-ターゲットペアを構築する時間的サンプリング戦略を提案します。多様な動きや未見の姿勢に対する汎化能力を向上させるために、人間中心の正規化スキームと残差学習を提案し、解空間を狭めます。Learnable SMPLifyは、シーケンシャル推論と既存の画像ベースの推定器を洗練するためのプラグインポストプロセッシングの両方をサポートします。広範な実験により、我々の方法が実用的でシンプルなベースラインとして確立されることが示されています:SMPLifyと比較して約200倍の高速な実行時間を達成し、未見の3DPWとRICHに対して良好に汎化し、LucidActionでプラグインツールとして使用される際にモデル非依存の方法で動作します。コードはhttps://github.com/Charrrrrlie/Learnable-SMPLifyで公開されています。
大規模言語モデル(LLMs)の幅広い応用において、推論能力は極めて重要な役割を果たします。LLMsの推論性能を向上させるために、教師ありファインチューニング(SFT)のみで訓練されたLLMsの限定的な汎化能力に対処するため、多様な強化学習(RL)ベースのファインチューニング手法が提案されています。これらの手法は有効であるものの、LLMsの進歩を妨げる2つの主要な制約が存在します。第一に、従来のRLベースの手法は注釈付きChain-of-Thought(CoT)を無視し、不安定な推論パスのサンプリングを組み込むため、モデルの崩壊、不安定な訓練プロセス、そして最適でない性能を引き起こすことが一般的です。第二に、既存のSFT手法は注釈付きCoTを過度に重視する傾向があり、潜在的なCoTの活用が不十分であるため、性能の低下を招く可能性があります。本論文では、これらの制約に対処しつつLLMsの推論性能を向上させるため、注釈付きCoTベースの強化学習ファインチューニング手法であるContrastive learning with annotated CoT-based Reinforced Fine-Tuning(CARFT)を提案します。具体的には、各CoTの表現を学習し、この表現に基づいてファインチューニングプロセスを導く新しいコントラスティブ信号を設計します。提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、追加の教師なし学習信号を組み込むことでファインチューニング手順を安定化します。3つのベースライン手法、2つの基盤モデル、および2つのデータセットを用いた包括的な実験と詳細な分析を通じて、CARFTが堅牢性、性能(最大10.15%)、効率性(最大30.62%)の点で大きな優位性を持つことを示します。コードはhttps://github.com/WNQzhu/CARFTで公開されています。
ジェイルブレイク攻撃の評価は、プロンプトが明らかに有害でない場合や有害な出力を誘発しない場合に困難を伴う。残念ながら、既存のレッドチーミングデータセットの多くは、このような不適切なプロンプトを含んでいる。攻撃を正確に評価するためには、これらのデータセットを悪意のある内容について評価し、クリーニングする必要がある。しかし、既存の悪意のあるコンテンツ検出方法は、手作業によるアノテーションに依存するか、あるいは大規模言語モデル(LLM)に依存しており、後者は有害なタイプにおいて一貫した精度を欠いている。精度と効率のバランスを取るために、我々はLLMベースのアノテーションと最小限の人的監視を組み合わせたハイブリッド評価フレームワーク「MDH(Malicious content Detection based on LLMs with Human assistance)」を提案し、データセットのクリーニングとジェイルブレイクされた応答の検出に適用する。さらに、よく練られた開発者メッセージがジェイルブレイクの成功率を大幅に向上させることを発見し、これに基づいて2つの新しい戦略を提案する。一つはコンテキストシミュレーションを活用する「D-Attack」、もう一つはハイジャックされた思考の連鎖を取り入れた「DH-CoT」である。コード、データセット、判定結果、および検出結果は、GitHubリポジトリ(https://github.com/AlienZhang1996/DH-CoT)で公開される。