翻訳付きの日次キュレーションされたAI研究論文
テスト時のスケーリングは、性能向上のために追加のテスト時計算を使用する言語モデリングへの有望な新しいアプローチです。最近、OpenAIのo1モデルはこの能力を示しましたが、その方法論を公開しておらず、多くの複製の試みが行われました。私たちは、テスト時のスケーリングと強力な推論性能を達成するための最も簡単なアプローチを求めています。まず、難易度、多様性、品質に依存する推論トレースとペアになった1,000の質問からなる小さなデータセットs1Kを収集します。次に、予算強制を開発して、モデルの思考プロセスを強制的に終了させるか、モデルが終了しようとするときに「Wait」を複数回追加してその長さを延長することで、テスト時の計算を制御します。これにより、モデルは回答を再確認し、しばしば誤った推論ステップを修正します。Qwen2.5-32B-Instruct言語モデルをs1Kで監督されたファインチューニングし、予算強制を装備した後、当社のモデルs1は、競技数学の質問においてo1-previewを最大27%(MATHおよびAIME24)上回ります。さらに、予算強制を使用してs1をスケーリングすることで、テスト時の介入なしにその性能を超えることが可能となりました:AIME24で50%から57%へ。当社のモデル、データ、コードは、https://github.com/simplescaling/s1 でオープンソースで提供されています。
Reward-Guided Speculative Decoding(RSD)を導入します。これは、大規模言語モデル(LLMs)における推論の効率を向上させることを目的とした新しいフレームワークです。RSDは、より強力なターゲットモデルと軽量な下書きモデルを組み合わせ、高リワードの出力を優先する制御されたバイアスを取り入れることで、既存の推測デコーディング手法とは対照的に厳密な無バイアスを強制するものではありません。RSDは、プロセスリワードモデルを使用して中間のデコーディングステップを評価し、ターゲットモデルを呼び出すかどうかを動的に決定することで、計算コストと出力品質のトレードオフを最適化します。我々は、しきい値ベースの混合戦略がリソース利用とパフォーマンスの間で最適なバランスを達成することを理論的に示しています。オリンピアードレベルのタスクを含む厳しい推論ベンチマークでの包括的な評価により、RSDは、ターゲットモデルのみを使用したデコーディングと比較して、著しい効率の向上をもたらします(FLOP数が最大4.4倍少なくなる)、平均して並列デコーディング手法よりも著しく高い精度を達成します(最大+3.5)。これらの結果は、RSDがリソース集約的なシナリオでLLMsを展開するための堅牢で費用対効果の高いアプローチであることを示しています。
補助なしの人間のビデオマッティング手法は、入力フレームのみに依存するため、複雑または曖昧な背景に苦労することがよくあります。この課題に対処するために、我々はMatAnyoneを提案します。これは、ターゲット割り当てビデオマッティングに特化した堅牢なフレームワークです。具体的には、メモリベースのパラダイムに基づき、領域適応メモリ融合を介した一貫したメモリ伝播モジュールを導入し、前フレームからメモリを適応的に統合します。これにより、コア領域での意味的安定性を確保しつつ、オブジェクトの境界に沿った細かい詳細を保持します。堅牢なトレーニングのために、ビデオマッティング用の大規模で高品質かつ多様なデータセットを提供します。さらに、大規模なセグメンテーションデータを効率的に活用する革新的なトレーニング戦略を組み込み、マッティングの安定性を向上させます。この新しいネットワーク設計、データセット、トレーニング戦略により、MatAnyoneは多様な実世界シナリオで堅牢かつ正確なビデオマッティング結果を提供し、既存の手法を上回ります。
知識グラフ(KG)構造と自然言語の間に存在する自然なギャップのために、KGの全体的な構造情報を大規模言語モデル(LLM)と効果的に統合することが重要な課題となっています。このため、我々は、各エンティティに対して量子化されたコードを学習および適用するための2段階フレームワークを提案しています。まず、自己教師付き量子化表現(SSQR)手法を提案し、KGの構造的および意味的知識を離散的なコード(すなわち、トークン)に圧縮し、言語文の形式に整合させます。さらに、これらの学習されたコードを特徴として直接LLMに入力することで、KGとLLMのシームレスな統合を実現するためのKG指示従属データを設計します。実験結果は、SSQRが既存の教師なし量子化手法を上回り、区別可能なコードを生成することを示しています。さらに、ファインチューニングされたLLaMA2およびLLaMA3.1は、従来のプロンプティング手法の数千ではなく、エンティティごとにわずか16のトークンのみを使用して、KGリンク予測およびトリプル分類タスクで優れたパフォーマンスを発揮します。
Softmax 関数によって出力されるベクトルの最大要素は、入力ベクトルのサイズが増加するにつれてゼロに近づく。Transformer ベースの言語モデルは、Softmax を使用して注意スコアを計算し、コンテキストのサイズが大きくなると注意分布が平坦化する。これにより、モデルが重要な情報を効果的に優先する能力が低下し、長さの一般化が制限される可能性がある。この問題に対処するために、私たちは Scalable-Softmax (SSMax) を提案する。SSMax は、入力ベクトルのサイズが異なるシナリオで Softmax を置き換えるものであり、既存の Transformer ベースのアーキテクチャにシームレスに統合できる。言語モデリングにおける実験結果は、SSMax を使用するモデルが、事前学習中により速い損失削減を達成するだけでなく、長いコンテキストと重要な情報の取得においても性能が著しく向上することを示している。さらに、注意スコアの分析により、SSMax を使用することで、モデルが長いコンテキストでも重要な情報に焦点を当てることが可能になることが明らかになった。また、事前学習の初めから SSMax を使用するモデルが長さの一般化をより良く達成する一方、既に事前学習を開始したモデルでも、事前学習中または事前学習後に注意層の Softmax を SSMax に置き換えることで、この能力の一部を獲得することができる。
既存の基盤モデルは、通常、視覚的入力をピクセルとして処理し、テキスト入力をトークンとして処理する。このパラダイムは、人間の知覚とは異なり、両方のモダリティが統一された方法で処理される。具体的には、カメラのピクセルからの入力が主体となる具現化されたAIや行為的AIの台頭に伴い、統一された知覚フレームワークの必要性がますます明らかになってきている。本論文では、すべてのモダリティ(テキスト、表、コード、図、画像など)をピクセル入力として統一することを提案する。「すべてをピクセルとして知覚する」(PEAP)というアプローチを導入する。我々は、PixelWorldという新しい評価スイートを紹介し、すべてのモダリティをピクセル空間に統合して既存のモデルのパフォーマンスを評価する。我々の調査結果は次の通りである:(1)PEAPは、複数モーダルデータセットにおいて、トークンベースの入力に比べて優れた性能を発揮し、統一された入力による曖昧さの解消の向上を得る、(2)ピクセルベースの入力を処理する際、すべてのモデルで推論力やコーディング能力が著しく低下することが明らかになり、基盤モデルの知覚能力を向上させる必要性が強調される、(3)大きなモデルはPEAPにおいて非推論的なタスクで強力なパフォーマンスを維持できる一方、Phi-3.5-Vのような小さなモデルは著しい性能の低下を経験する、(4)PEAPの注意パターンはテキストトークン入力と非常に一致している、(5)空間的まばらさを活用することでPEAPの処理を大幅に高速化できる。我々は、現行の先端モデルがピクセル知覚において有能であると結論付けるが、まだ改善の余地があると考える。我々のコードとデータセットは受理後に公開される予定である。
制御アクションを与えられた場合に将来の結果を予測する能力は、物理的な推論において基本的です。しかしながら、このような予測モデル、一般的にはワールドモデルと呼ばれるものは、学習が難しく、通常はオンラインポリシー学習向けに特定のタスク用のソリューションとして開発されています。我々は、ワールドモデルの真の潜在能力は、受動的なデータのみを用いて多様な問題に対して推論や計画を行う能力にあると主張します。具体的には、ワールドモデルには以下の3つの特性を持たせることが求められます:1)オフラインで収集された軌跡で学習可能であること、2)テスト時の振る舞い最適化をサポートすること、3)タスクに依存しない推論を促進すること。このために、我々はDINOワールドモデル(DINO-WM)を提案します。これは、視覚のダイナミクスを再構築することなくモデル化する新しい手法です。DINO-WMは、DINOv2で事前にトレーニングされた空間パッチ特徴を活用し、オフラインの行動軌跡から未来のパッチ特徴を予測することで学習します。この設計により、DINO-WMは、行動シーケンスの最適化を通じて観察目標を達成し、目標とするパッチ特徴を予測ターゲットとして扱うことで、タスクに依存しない振る舞い計画を容易にします。我々は、迷路ナビゲーション、テーブルトップ押し、および粒子操作を含むさまざまなドメインでDINO-WMを評価します。実験結果は、DINO-WMが専門家のデモンストレーション、報酬モデリング、または事前に学習された逆モデルに依存せずに、テスト時にゼロショットの行動ソリューションを生成できることを示しています。特筆すべきは、DINO-WMが従来の最先端の研究に比べて強力な汎化能力を示し、任意に構成された迷路、さまざまなオブジェクト形状を持つ押し操作、および複数の粒子シナリオなど、多様なタスクファミリーに適応できることです。
大規模言語モデル(LLMs)は普遍的なジェイルブレイクに脆弱であり、モデルの保護を体系的にバイパスし、ユーザーが規模の大きな違法物質の製造など、多くのモデルの相互作用を必要とする有害なプロセスを実行できるようにする戦略に対処するために、我々は憲法分類器を導入します。これらは、合成データでトレーニングされた保護機能であり、自然言語ルール(すなわち、憲法)でLLMsをプロンプトして生成された許可されたおよび制限されたコンテンツを指定します。推定3,000時間以上のレッドチーム活動において、レッドチーマーは、初期の分類器で保護されたLLMから情報を抽出する普遍的なジェイルブレイクを見つけることができず、ほとんどのターゲットクエリにおいて、無防備なモデルと同様の詳細レベルでの情報抽出はできませんでした。自動評価では、強化された分類器は、保留中の特定ドメインのジェイルブレイクに対して堅牢な防御を示しました。これらの分類器は、展開の実行可能性を維持し、本番トラフィックの拒否率が絶対値0.38%増加し、推論オーバーヘッドが23.7%増加します。私たちの研究は、実用的な展開の実行可能性を維持しながら普遍的なジェイルブレイクに対抗することが可能であることを示しています。
拡散モデルは強力ですが、意図しない有害または望ましくないコンテンツを誤って生成する可能性があり、重大な倫理的および安全上の懸念を引き起こします。最近の機械のアンラーニング手法は潜在的な解決策を提供しますが、しばしば透明性に欠け、基本モデルに導入される変更を理解するのが難しいです。本研究では、SAE(疎なオートエンコーダ)によって学習された特徴を活用して、テキストから画像への拡散モデル内の不要な概念を除去する新しい手法であるSAeUronを紹介します。まず、拡散モデルの複数のノイズ除去タイムステップからの活性化に対して非監督学習でトレーニングされたSAEが、特定の概念に対応する疎で解釈可能な特徴を捉えることを示します。これに基づいて、モデルの活性化に対して精密な介入を可能にする特徴選択手法を提案します。オブジェクトおよびスタイルのアンラーニングに関する競争力のあるUnlearnCanvasベンチマークでの評価は、SAeUronの最先端のパフォーマンスを示しています。さらに、1つのSAEで複数の概念を同時に除去できること、および他の手法とは対照的に、SAeUronが望ましくないコンテンツの生成可能性を緩和し、さらに敵対的攻撃下でも対処できることを示します。コードとチェックポイントは以下で入手可能です:https://github.com/cywinski/SAeUron。
大規模モデルのトレーニングのための学習率スケジュールは、非滑らか凸最適化理論からの性能境界と驚くほど似ていることを示します。私たちは、定数スケジュールと線形冷却を持つ境界を提供します。特に、冷却の実用的利点は、対数項の欠如によって境界に反映されています。さらに、最適化理論と実践のこの驚くほどの近い一致を学習率チューニングに活用できることを示します。124Mおよび210MのLlamaタイプのモデルのトレーニングにおいて、(i) 最適な学習率での継続トレーニングのスケジュールを拡張し、(ii) 最適な学習率をスケジュール間で転送することで、顕著な改善を達成します。
現在の方法では、疎なポーズ画像からの3Dシーン再構築には、ニューラルフィールド、ボクセルグリッド、または3Dガウス分布などの中間の3D表現が用いられ、複数の視点でのシーンの外観とジオメトリを一貫させています。本論文では、MVGDという拡散ベースのアーキテクチャを紹介し、任意の入力ビューの数から、新しい視点からの画像と深度マップを直接ピクセルレベルで生成できる能力を持たせます。当手法では、レイマップ条件付けを使用して、視覚的特徴を異なる視点からの空間情報で拡張し、また新しい視点からの画像と深度マップの生成を誘導します。当アプローチの重要な側面は、画像と深度マップのマルチタスク生成であり、学習可能なタスク埋め込みを使用して、拡散プロセスを特定のモダリティに誘導します。私たちは、公開されているデータセットからの6,000万以上のマルチビューサンプルのコレクションでこのモデルを訓練し、このような多様な条件下での効率的かつ一貫した学習を可能にする技術を提案します。また、効果的な大規模モデルの訓練を可能にする新しい戦略を提案し、約束されるスケーリング動作を示します。幅広い実験を通じて、新しい視点合成のベンチマークやマルチビューステレオ、ビデオ深度推定において、最先端の結果を報告します。
推論モデル(具体的にはOpenAI o1-previewおよびo1-mini)の推論時計算量の増加が、敵対的攻撃に対する頑健性に与える影響について実験を行います。様々な攻撃に対して、推論時計算量の増加が頑健性の向上につながることを見出します。重要な例外を除いて、攻撃が成功するモデルサンプルの割合は、テスト時計算量が増加するにつれてゼロに近づく傾向があります。私たちは研究対象のタスクに対して敵対的トレーニングを行っておらず、推論時計算量を増やすことで、攻撃の形式に独立してモデルがより多くの計算を推論に費やすようにします。私たちの結果は、推論時計算量が大規模言語モデルの敵対的な頑健性を向上させる可能性があることを示唆しています。また、推論モデルに対する新しい攻撃や、推論時計算量が信頼性を向上させない状況についても探求し、これらの理由や対処方法についても推測します。
最近、複数の言語モデルが導入され、特に要約などの自然言語処理タスクの向上が求められている中、本研究では、20の最近の言語モデルについて包括的なベンチマークを提供し、ニュース要約タスク向けに特に小規模なモデルに焦点を当てています。本研究では、異なるスタイルで書かれ、3つの異なるデータセットで提示されるニュース記事テキストを要約する能力と効果を体系的にテストしています。具体的には、本研究ではゼロショットおよびフューショット学習設定に焦点を当て、自動評価メトリクス、人間の評価、LLMを判定基準とする包括的な評価方法を適用しています。興味深いことに、フューショット学習設定にデモンストレーション例を含めた場合、モデルの性能が向上せず、場合によっては生成された要約の品質が悪化することさえありました。この問題は、参照要約として使用されたゴールド要約の品質が低いため、モデルの性能に悪影響を及ぼしています。さらに、当研究の結果は、GPT-3.5-TurboおよびGPT-4の優れた性能を強調しています。ただし、評価された公開モデルの中で、Qwen1.5-7B、SOLAR-10.7B-Instruct-v1.0、Meta-Llama-3-8B、Zephyr-7B-Betaなどの特定のモデルは有望な結果を示しました。これらのモデルは、ニュース要約タスクにおいて大規模モデルへの競合力のある代替手段として位置付けられる潜在能力を示しています。
本論文は、動的コンテンツを含むビデオから3D構造を再構築するという長年の課題に取り組んでいます。この問題への現在のアプローチは、標準カメラで記録されたカジュアルなビデオで動作するように設計されておらず、最適化に長い時間がかかります。 以前のアプローチの効率を大幅に向上させることを目指して、私たちはTracksTo4Dを提案します。これは、単一の効率的なフィードフォワードパスを使用して、カジュアルなビデオからの動的コンテンツから3D構造とカメラ位置を推論する学習ベースのアプローチです。これを実現するために、入力として2Dポイントトラック上で直接操作し、2Dポイントトラックを処理するために設計されたアーキテクチャを提案します。提案されたアーキテクチャは、次の2つの主要な原則を考慮して設計されています:(1)入力ポイントトラックデータに存在する固有の対称性を考慮し、(2)移動パターンが低ランク近似を使用して効果的に表現できると仮定します。TracksTo4Dは、ビデオから抽出された2Dポイントトラックのみを使用してカジュアルなビデオのデータセットで教師なしでトレーニングされており、3Dの監督を必要としません。実験では、TracksTo4Dが、最新の手法と同等の精度で基礎ビデオの時間的なポイントクラウドとカメラ位置を再構築できること、さらにランタイムを最大95%削減できることが示されています。また、TracksTo4Dが推論時に未知の意味カテゴリの未知のビデオにもうまく汎化されることも示しています。
タスクに依存しないプロンプト可能な画像セグメンテーションは、単一のタスク記述の下でさまざまなサンプルのセグメンテーションを達成することを目指し、1 つのタスクに依存しないプロンプトのみを利用します。現在の手法は、ビジョン・ランゲージ・モデル(VLMs)の一般化能力を活用して、これらのタスクに依存しないプロンプトからインスタンス固有のプロンプトを推論し、セグメンテーションプロセスをガイドします。しかし、VLMs が一部の画像インスタンスに一般化するのに苦労すると、インスタンス固有のプロンプトの予測が悪化します。この問題を解決するために、タスクに依存しないプロンプト可能セグメンテーションのためのインスタンス固有のネガティブマイニング(INT)を導入します。INTの主要なアイデアは、不適切な(ネガティブ)事前知識の影響を適応的に減少させる一方で、ネガティブマイニングによって選択された最も妥当な事前知識を使用して、インスタンス固有のプロンプト生成を最適化することです。具体的には、INT は次の 2 つのコンポーネントで構成されています:(1)インスタンス固有のプロンプト生成、プロンプト生成において不正確な情報を段階的に取り除く;(2)セマンティックマスク生成、各画像インスタンスのセグメンテーションがインスタンス固有のプロンプトのセマンティクスと正しく一致することを確認します。INT は、迷彩オブジェクトや医療画像を含む 6 つのデータセットで検証され、その効果的で堅牢でスケーラブルな性能が示されています。
大規模言語モデル(LLM)における長いコンテキスト推論におけるメモリコストを削減するために、最近の多くの研究は、異なるトークンのキー・バリュー(KV)キャッシュを圧縮することに焦点を当てています。しかし、我々は、以前のKVキャッシュ圧縮手法がトークンの重要性を個別に測定し、現実世界の言語特性における異なるトークン間の依存関係を無視していることを特定しました。この点を考慮して、我々はChunkKVを導入し、チャンク内のトークンを基本的な圧縮単位としてグループ化し、より情報量の多い意味的なチャンクを保持しつつ、より重要でないものを破棄します。さらに、ChunkKVが異なるレイヤー間で保存されたインデックスにおいて高い類似性を示すことに着目し、計算オーバーヘッドをさらに削減するためにレイヤーごとのインデックス再利用を提案します。我々は、LongBenchやNeedle-In-A-HayStackを含む最先端の長いコンテキストベンチマーク、およびGSM8KやJailbreakVのインコンテキスト学習ベンチマークでChunkKVを評価しました。我々の実験では、指示チューニングと多段階推論(O1およびR1)LLMにおいて、既存の手法と比較して積極的な圧縮率で最大10\%の性能向上を達成しました。