翻訳付きの日次キュレーションされたAI研究論文
LLM(Large Language Models)が安全性の高いアプリケーションに与える影響がますます大きくなる中、ガードレールを使用してその安全性を確保することは重要な課題です。本論文では、LLM向けの新しい保護手段であるGuardReasonerを提案します。これは、ガードモデルが推論を学習するように導くことで実現されます。具体的には、まず、127,000のサンプルと460,000の詳細な推論ステップからなるGuardReasonerTrainデータセットを作成します。次に、ガードモデルの推論能力を引き出すために推論SFTを導入します。さらに、推論能力をさらに強化するために、ハードサンプルDPOを提案します。この方法により、GuardReasonerはより優れた性能、説明可能性、および汎化性を実現します。3つのガードレールタスクの13のベンチマークでの包括的な実験と分析により、その優位性が示されます。特筆すべきは、GuardReasoner 8Bが平均でGPT-4o+CoTを5.74%、LLaMA Guard 3 8Bを20.84%のF1スコアで上回ることです。GuardReasonerのトレーニングデータ、コード、および異なるスケール(1B、3B、8B)のモデルは、以下のリンクから入手可能です:https://github.com/yueliu1999/GuardReasoner/。
OpenAIのo1などの大規模言語モデル(LLMs)は、テスト時の計算量をスケーリングし、人間らしい深い思考を示すことで、複雑な推論タスクで注目すべき能力を示しています。しかし、私たちは「アンダーシンキング」という現象を特定しました。これは、o1のようなLLMsが、有望な解決策に到達するための道を十分に探索せず、頻繁に異なる推論の思考を切り替えることを指します。この行動は、推論の深さが不十分であり、特に難しい数学問題においてパフォーマンスが低下することにつながります。この問題を体系的に分析するために、私たちは3つの難解なテストセットと2つの代表的なオープンソースのo1のようなモデルで実験を行い、思考の頻繁な切り替えが不正確な回答と相関していることを明らかにしました。私たちは、不正確な回答のトークン効率を測定することでアンダーシンキングを定量化する新しい指標を導入します。アンダーシンキングに対処するために、思考の切り替えペナルティTIPを備えたデコーディング戦略を提案し、思考の早すぎる切り替えを抑制し、各推論経路のより深い探索を促します。実験結果は、モデルの微調整を必要とせずに、難解なデータセット全体で精度が向上することを示しています。私たちの研究成果は、o1のようなLLMsにおける推論の非効率性を理解するのに貢献し、問題解決能力を向上させる実用的な解決策を提供しています。
大規模言語モデル(LLM)のトレーニングは通常、トレーニング時間を短縮するために多数のアクセラレータに分散されます。内部状態とパラメータ勾配は各勾配ステップで交換する必要があるため、すべてのデバイスは必要な高いビット交換量をサポートするために低遅延高帯域通信リンクを使用して同じ場所に配置する必要があります。最近のDiLoCoなどの分散アルゴリズムは、このような同じ場所にいる必要性を緩和しています。アクセラレータは「ワーカー」にグループ化され、ワーカー間の同期はまれにしか発生しません。これにより、ワーカーは学習品質に影響を与えることなく、より低帯域幅の通信リンクで接続されていても問題ありません。ただし、これらの方法では、ワーカー間の通信には引き続き以前と同じピーク帯域幅が必要であり、同期によりすべてのパラメータがすべてのワーカー間で交換される必要があります。本論文では、DiLoCoを3つの方法で改善します。まず、すべてを一度にではなく、パラメータのサブセットのみを順次同期させることで、ピーク帯域幅を大幅に削減します。第二に、同期中もワーカーがトレーニングを継続できるようにし、ウォールクロック時間を短縮します。第三に、ワーカー間で交換されるデータを量子化し、ワーカー間の帯域幅をさらに削減します。これらの変更を適切に組み合わせることで、実験的に、数十億規模のパラメータのトレーニングを分散させ、以前と同様の品質に到達しつつ、必要な帯域幅を2桁削減できることを示します。
DeepSeek-R1の出現は、AI産業全体および特にLLMにとって転換点となっています。その能力は、創造的思考、コード生成、数学、自動プログラム修復など、いくつかのタスクで優れたパフォーマンスを示し、実行コストが低いように見えます。ただし、LLMは重要な質的特性、つまり安全性と人間の価値との整合性を保持しなければなりません。DeepSeek-R1の明確な競合相手は、そのアメリカの対応物であるOpenAIのo3-miniモデルであり、パフォーマンス、安全性、コストの面で高い基準を設定すると予想されています。本論文では、DeepSeek-R1(70bバージョン)とOpenAIのo3-mini(ベータバージョン)の安全レベルを体系的に評価します。このために、ASTRALという最近リリースされた自動安全テストツールを使用します。このツールを活用して、両モデルに合計1260の安全でないテスト入力を自動的かつ体系的に生成および実行します。両LLMが提供する結果を半自動的に評価した結果、DeepSeek-R1はOpenAIのo3-miniに比べて非常に安全でないことが示されました。評価に基づくと、DeepSeek-R1は実行されたプロンプトのうち11.98%に安全でない回答をし、o3-miniはわずか1.19%にのみそうであることが示されました。
大規模言語モデルは多くの知的能力を示しています。多くのベンチマークが彼らの知能を評価していますが、探索能力にはあまり注意が払われていません。探索能力は新しい情報を発見し、自然および人工システムの新しい環境に適応するための重要な能力です。LLMが特にオープンエンドのタスクにおいて効果的に探索できる程度は明確ではありません。本研究は、Little Alchemy 2をパラダイムとして使用し、オープンエンドのタスク中においてLLMが探索において人間を超えることができるかどうかを調査しています。結果は、o1モデルを除いて、ほとんどのLLMが人間よりも性能が低いことを示しており、従来のLLMは主に不確実性駆動の戦略に依存している一方、人間は不確実性とエンパワーメントをバランスよく考慮しています。スパースオートエンコーダーを用いたモデルの表現分析によると、不確実性と選択肢はより早い段階のトランスフォーマーブロックで表現されており、一方でエンパワーメント値は後で処理されており、LLMは考えすぎて早まった決定を下すため、効果的な探索が妨げられています。これらの知見は、LLMの探索能力の制限を明らかにし、それらの適応性を向上させる方向性を示唆しています。
MedXpertQAは、専門家レベルの医学知識と高度な推論を評価するための非常に難しい包括的なベンチマークを紹介します。MedXpertQAには、17の専門分野と11の身体系を網羅する4,460の質問が含まれています。これには、テキスト評価用のTextと、マルチモーダル評価用のMMの2つのサブセットが含まれています。特筆すべきは、MMが多様な画像や患者記録、検査結果などの豊富な臨床情報を含む専門家レベルの試験問題を導入しており、画像キャプションから生成される単純なQAペアからなる従来の医療マルチモーダルベンチマークとは異なります。MedXpertQAは、MedQAのような既存のベンチマークの十分な難易度の不足を解消するために厳格なフィルタリングと拡張を適用し、臨床的な関連性と包括性を向上させるために専門委員会の質問を取り入れています。データ漏洩リスクを軽減するためにデータ合成を行い、正確性と信頼性を確保するために複数の専門家によるレビューを複数回実施します。MedXpertQAで16の主要モデルを評価します。さらに、医学は数学やコードを超えた推論能力の評価のための豊かで代表的な環境を提供する実世界の意思決定と深く関連しています。このため、o1のようなモデルの評価を容易にするために、推論志向のサブセットを開発しています。
言語モデル(LLM)の事後トレーニングは、DPOから蒸留に至るまで、振る舞いを洗練させ新しいスキルを開拓することができますが、これらの事後トレーニング技術を支持するオープンサイエンスはまだ初期段階にあります。これまでの制約要因の1つは、合成データ生成モデルとLLMジャッジの大規模な比較分析を行う難しさでした。このギャップを埋めるために、私たちはこれまでで最大のパブリックチャットデータセットであるWILDCHAT-50Mを紹介します。既存のWildChatデータセットを拡張し、GPTだけでなく、0.5Bから104Bのパラメータを持つ50以上の異なるオープンウェイトモデルからの応答を含めました。私たちは包括的な比較分析を実施し、このデータセットの可能性を示すために、Allen AIのTulu-3 SFT混合物を40%のサンプル数で上回る、私たち自身の公開SFTミックスであるRE-WILDを作成しました。当該データセット、サンプル、およびコードは、https://github.com/penfever/wildchat-50m で入手可能です。
この論文では、テキストから画像を生成するための効率的なスケーリングを実現する線形ディフュージョントランスフォーマーであるSANA-1.5を提案します。SANA-1.0を基盤として、3つの主要な革新を導入しています:(1)効率的なトレーニングのスケーリング:1.6Bから4.8Bのパラメータにスケーリングを可能にする深さ成長パラダイムを採用し、計算リソースを大幅に削減するとともに、メモリ効率の良い8ビットオプティマイザを組み合わせています。(2)モデルの深さ剪定:効率的なモデルの圧縮のためのブロック重要度分析技術を導入し、最小限の品質損失で任意のサイズにモデルを圧縮します。(3)推論時のスケーリング:計算をモデルの容量と交換する反復サンプリング戦略を採用し、推論時に小さなモデルでも大きなモデルと同等の品質を実現します。これらの戦略により、SANA-1.5はGenEvalで0.72のテキスト-画像の整合性スコアを達成し、推論スケーリングを通じて0.80に向上させることができ、GenEvalベンチマークで新たなSoTAを確立します。これらの革新により、異なる計算予算間で効率的なモデルのスケーリングが可能となり、高品質な画像生成がよりアクセスしやすくなります。
物理世界を理解することは、具体的なエージェントが複雑なタスクを実行し、現実世界で安全に操作するために不可欠な基本的な課題です。ビジョン・ランゲージ・モデル(VLMs)は、具体的なエージェントの推論やタスク計画において大きな可能性を示していますが、物理現象を理解する能力は非常に限られています。このギャップを埋めるために、VLMsの物理世界理解能力を評価するために設計された包括的なベンチマークであるPhysBenchを紹介します。PhysBenchには、4つの主要な領域に分類された、10,002のビデオ画像テキストデータが交互に含まれており、物理オブジェクトの特性、物理オブジェクトの関係、物理シーン理解、物理ベースのダイナミクスに分かれており、さらに19のサブクラスと8つの異なる能力次元に分割されています。75の代表的なVLMsで実施された幅広い実験により、これらのモデルが常識的な推論に優れている一方で、物理世界を理解するのに苦労していることが明らかになりました。これは、彼らの訓練データに物理的な知識が欠如していることや、埋め込まれた物理的な先行知識が不足していることが原因である可能性が高いです。この不足に対処するために、VLMsの一般化の強みとビジョンモデルの専門知識を組み合わせた新しいフレームワークであるPhysAgentを紹介します。これにより、GPT-4oで18.4%の改善を含むさまざまなタスクにおいて、VLMsの物理理解が大幅に向上します。さらに、我々の結果は、VLMsの物理世界理解能力を向上させることが、MOKAなどの具体的なエージェントに役立つことを示しています。PhysBenchとPhysAgentは、VLMsと物理世界理解との間のギャップを埋めるために貴重な示唆を提供し、貢献すると考えています。
ウェブエージェントに関する多くの研究は、ユーザーの代わりに自律的にタスクを実行する可能性を強調していますが、実際には、エージェントは現実世界の複雑なタスクやユーザーの選好モデリングにおいてしばしば不十分です。これは、人間がエージェントと協力し、エージェントの能力を効果的に活用する機会を提供しています。私たちは、CowPilotというフレームワークを提案します。このフレームワークは、自律的および人間とエージェントの協力によるウェブナビゲーションをサポートし、タスクの成功と効率性を評価します。CowPilotは、エージェントが次のステップを提案することで、人間が実行する必要があるステップ数を減らすことができます。ユーザーは、一時停止したり、拒否したり、代替のアクションを取ることができます。実行中、ユーザーは、提案を上書きしたり、必要に応じてエージェントの制御を再開したりすることで、自分のアクションをエージェントと交互に行うことができます。私たちは、5つの一般的なウェブサイトについてケーススタディを実施し、人間とエージェントの協力モードが最高の成功率95%を達成し、人間に総ステップ数の15.2%しか実行させないことがわかりました。タスク実行中に人間が介入しても、エージェントは半分の成功率を達成できます。CowPilotは、ウェブサイト全体でのデータ収集やエージェントの評価に役立つツールとして機能し、ユーザーとエージェントがどのように協力できるかに関する研究を可能にすると考えています。ビデオデモは、https://oaishi.github.io/cowpilot.html でご覧いただけます。