翻訳付きの日次キュレーションされたAI研究論文
機械の忘却(MU)は、特に大規模な多モーダル言語モデル(MLLMs)において、特定の個人情報や危険情報を除去することで、深層学習モデルのプライバシーとセキュリティを向上させる上で重要です。MUは、テキストとビジュアルのモダリティで大きな進歩を遂げていますが、多モーダルの忘却(MMU)は、適切なオープンソースのベンチマークがないことから、未だに十分に探究されていません。この課題に対処するために、MMU手法を評価するために設計された新しいベンチマークであるCLEARを紹介します。CLEARには、200人の架空の個人とそれに関連する質問と回答のペアにリンクされた3,700枚の画像が含まれており、モダリティを横断した徹底的な評価が可能です。我々は、10種類のMU手法を評価し、MMUに適応させ、多モーダルの忘却に特有の新たな課題を強調します。また、LoRAの重みに対する単純なell_1正則化が、過度の忘却を軽減し、保持されたデータにおけるモデルのパフォーマンスを維持することを示します。データセットは、https://huggingface.co/datasets/therem/CLEAR で入手可能です。
表形式データを用いるデータサイエンスタスクは、洗練された問題解決アプローチを必要とする複雑な課題を提供します。私たちは、データサイエンティストが日々のデータパイプラインを共同作業するマルチエージェントシステムを通じて完了するのを支援する、強力でユーザーセントリックなフレームワークであるAutoKaggleを提案します。AutoKaggleは、コードの実行、デバッグ、包括的なユニットテストを組み合わせて、コードの正確性と論理の整合性を確保する反復的な開発プロセスを実装しています。このフレームワークは高度にカスタマイズ可能なワークフローを提供し、ユーザーが各段階で介入できるようにし、自動化された知能と人間の専門知識を統合します。データクリーニング、特徴量エンジニアリング、モデリングのための検証済みの機能を含む私たちの汎用データサイエンスツールキットは、共通のタスクを効率化することで生産性を向上させるこのソリューションの基盤を形成しています。私たちは、8つのKaggleコンペティションを選択し、実世界のアプリケーションシナリオでデータ処理ワークフローをシミュレートしました。評価結果は、AutoKaggleが典型的なデータサイエンスパイプラインにおいて0.85の検証提出率と0.82の包括的なスコアを達成し、複雑なデータサイエンスタスクを処理する際の効果と実用性を完全に証明しています。
社会関係推論は、画像から友人、配偶者、同僚などの関係カテゴリを特定することを目指しています。現在の手法は、ラベル付き画像データを使用して専用のネットワークをエンドツーエンドでトレーニングするというパラダイムを採用していますが、一般化能力と解釈可能性に制約があります。これらの問題に対処するために、まず、{\name}というシンプルでよく練られたフレームワークを提案します。このフレームワークは、Vision Foundation Models(VFMs)の知覚能力とLarge Language Models(LLMs)の推論能力を組み合わせたものであり、社会関係認識の強力なベースラインを提供します。具体的には、VFMsに画像コンテンツをテキストの社会的ストーリーに変換するよう指示し、その後、テキストベースの推論にはLLMsを利用します。{\name}は、VFMsとLLMsをそれぞれ適応させ、その間のギャップを埋めるための体系的な設計原則を導入しています。追加のモデルトレーニングなしで、LLMsが意思決定のための言語ベースの説明を生成できるため、2つのデータベースで競争力のあるゼロショット結果を達成し、解釈可能な回答を提供します。推論フェーズでのLLMsの手動プロンプト設計プロセスは手間がかかり、自動プロンプト最適化手法が望まれます。視覚分類タスクをLLMsの生成タスクに基本的に変換するため、自動プロンプト最適化は独自の長いプロンプト最適化の問題に直面します。この問題に対処するために、Greedy Segment Prompt Optimization(GSPO)を提案しています。これは、セグメントレベルで勾配情報を利用して貪欲探索を行います。実験結果は、GSPOが性能を大幅に向上させ、当社の手法が異なる画像スタイルにも一般化できることを示しています。コードはhttps://github.com/Mengzibin/SocialGPTで入手可能です。
数学的推論能力は、大規模言語モデル(LLMs)にとって重要な能力ですが、詳細で正確な推論トレースを生成することは依然として大きな課題です。本論文では、オンライン学習フローを使用して、LLMの微調整のための高品質な推論トレースを生成する革新的なアプローチを紹介します。当該手法は、成分LLMsがイテレーションを通じて協力して解決策を構築するインクリメンタルな出力生成フローを採用しています。我々は、オンラインダイレクトプリファレンス最適化(DPO)学習を使用してこのフローをトレーニングし、各トレーニング例に対してDPOペアを生成し、モデルをリアルタイムで更新しています。我々の手法によって生成された推論トレースの品質を直接モデル推論によって生成されたものと比較し、数学的推論タスクにおけるLLMのパフォーマンスを向上させる我々のアプローチの効果を実証しています。
大規模言語およびマルチモーダルモデルの急速な発展は、GPT-4oなどの独自のモデルを使用して、Webナビゲーションなどの実世界シナリオを処理できる自律エージェントを開発することに大きな関心を引き起こしました。最近のオープンソースの取り組みでは、エージェントに環境の探索能力と時間と共に向上する能力を備えさせようと試みられていますが、報酬信号が明確に定義された合成環境でのテキスト専用エージェントを構築しています。このようなエージェントは、マルチモーダルな知覚能力が必要であり、グラウンドトゥルース信号が欠如する現実的な設定に一般化するのに苦労しています。本論文では、自律的に実世界の探索を行い、自己改善することができるマルチモーダルWebエージェントの開発を容易にするオープンソースフレームワークを紹介します。まず、基本的な能力を獲得するために模倣学習でベースモデルをトレーニングします。その後、エージェントにオープンWebを探索させ、軌跡に関するフィードバックを収集します。その後、別の汎用モデルによって判断された性能の良い軌跡から学習することで、ポリシーをさらに改善します。この探索-フィードバック-最適化サイクルは、複数の反復で続けることができます。実験結果は、当社のWebエージェントが各反復後に自己改善し、複数のテストセット全体で強力なパフォーマンスを示すことを示しています。
大規模言語モデル(LLMs)は、HumanEvalとMBPPにおいてPythonコーディング問題を解決する際に90を超えるPass@1を示す驚異的な能力を示しています。このような高い精度は、LLMsが人間のプログラマーを置き換えることができるかという疑問を引き起こします。既存の手作業による簡単な単一行のコード生成ベンチマークでは、実際のソフトウェア開発との乖離があるため、この問いに答えることができません。この問いに答えるため、我々はREPOCODを提案します。これは、11の人気のある実世界プロジェクトから収集された980の問題を持つコード生成ベンチマークであり、そのうち58%以上がファイルレベルまたはリポジトリレベルのコンテキスト情報が必要とされています。さらに、REPOCODは、既存のベンチマークと比較して最も長い平均正準解の長さ(331.6トークン)と最も高い平均サイクロマティック複雑度(9.00)を持っています。10のLLMsによる評価では、どのモデルもREPOCODで30を超えるPass@1を達成することはできず、現実のソフトウェア開発において開発者を支援できるより強力なLLMsを構築する必要性が明らかになりました。
強化学習(RL)は、複雑なロボット操作スキルの自律獲得を可能にするという大きな約束を持っていますが、この潜在能力を実世界の環境で実現することは難しい課題でした。私たちは、人間と連携したビジョンベースのRLシステムを提案し、動的操作、精密組み立て、およびデュアルアームの協調を含む多様な繊細な操作タスクにおいて印象的なパフォーマンスを示しています。私たちのアプローチは、デモンストレーションと人間による修正、効率的なRLアルゴリズム、および他のシステムレベルの設計選択を統合し、わずか1〜2.5時間のトレーニングでほぼ完璧な成功率と高速なサイクルタイムを達成するポリシーを学習します。私たちの手法が模倣学習のベースラインと従来のRL手法を大幅に上回ることを示し、成功率で平均2倍の改善と1.8倍の高速な実行を達成します。幅広い実験と分析を通じて、私たちの手法の有効性についての洞察を提供し、リアクティブおよび予測制御戦略のために堅牢で適応可能なポリシーを学習する方法を示しています。私たちの結果は、RLが実際の訓練時間内に実世界で直接多様な複雑なビジョンベースの操作ポリシーを学習できることを示唆しています。この研究が新しい学習されたロボット操作技術の世代をインスパイアし、産業応用と研究の進歩の両方に利益をもたらすことを願っています。ビデオとコードは、弊社のプロジェクトウェブサイトhttps://hil-serl.github.io/で入手できます。
思考連鎖(CoT)プロンプティングは、大規模な言語およびマルチモーダルモデルの取り扱いに広く使用される戦略となっています。CoTは多くのタスクでパフォーマンスを向上させることが示されていますが、それが効果的である状況を特定することは依然として取り組まれています。特に、CoTがモデルのパフォーマンスを系統的に低下させる状況がいまだにオープンな問題です。本論文では、認知心理学からインスピレーションを得て、CoTがパフォーマンスを低下させるタスクの特性を特定しようとしています。具体的には、(i)言語的思考や熟考が人間のパフォーマンスに悪影響を及ぼすケース、および(ii)人間のパフォーマンスを制御する制約が言語モデルに一般化されるケースを考察します。暗黙の統計的学習、視覚認識、および例外を含むパターンで分類するという3つのケースにおいて、広範な実験を通じて、最新のモデル群が推論時の推論とゼロショット対応と比較して、有意なパフォーマンスの低下(例:OpenAI o1-previewにおいてGPT-4oと比較して最大36.3%の絶対精度低下)を示すことがわかりました。また、条件(i)を満たすが(ii)を満たさない3つのタスクを特定し、これらのタスクにおいて言語的思考が人間のパフォーマンスを低下させる一方で、CoTはモデルのパフォーマンスを維持または向上させることがわかりました。全体として、モデルの認知プロセスと人間のそれとの完全な対応は存在しないものの、思考が人間のパフォーマンスに否定的な影響を及ぼすケースを考えることで、モデルに否定的な影響を及ぼす状況を特定するのに役立ちます。人間の熟考に関する文献とCoTの評価を結びつけることで、プロンプト選択や推論時の推論の影響を理解するために使用できる新しいツールを提供しています。
私たちは、ビジョンと言語のモデル(VLMs)の内部表現と、それらがタスク表現をエンコードする方法を調査しています。テキストまたは画像の入力を使用して、例または指示によって指定されたタスクを検討します。驚くべきことに、概念的に類似したタスクは、どのように指定されているかに関係なく、類似したタスクベクトル表現にマッピングされることがわかりました。私たちの調査結果は、VLMs内のトークンが回答を出力するために、入力、タスク、回答の3つの異なるフェーズを経ることを示唆しており、このプロセスは異なるモダリティや仕様にわたって一貫しています。VLMs内で特定されたタスクベクトルは、1つのモダリティ(例:テキスト)で導出され、別のモダリティ(例:画像)に転送されるほど一般的です。さらに、例示と指示に基づくタスクベクトルをアンサンブル化すると、より良いタスク表現が生成されることがわかりました。これらの知見を総合すると、これらの洞察は、VLMsの基本的なメカニズムに光を当てており、特に異なるモダリティやタスクの仕様にわたってタスクを共有の方法で表現する能力について示唆しています。プロジェクトページ:https://task-vectors-are-cross-modal.github.io.
長いコンテキストを持つ大規模言語モデル(LLM)の広範な展開に伴い、高スループット推論の効率的なサポートへの需要が高まっています。ただし、シーケンス長に応じてキー値(KV)キャッシュが拡大すると、増加するメモリフットプリントと各トークン生成時のアクセスの必要性により、長いコンテキストLLMのサービス時に低いスループットが生じます。生成品質を維持しながら推論を高速化するためにさまざまな動的スパースアテンション手法が提案されていますが、GPUメモリ消費を十分に削減できないか、KVキャッシュをCPUにオフロードすることで著しいデコーディング遅延を導入してしまいます。本研究では、低ランクキーキャッシュを保存し、メモリフットプリントを削減するために値キャッシュをオフロードする高スループット長いコンテキストLLM推論システムであるShadowKVを提案します。デコーディング遅延を最小限に抑えるため、ShadowKVはオンザフライで最小限のスパースKVペアを再構築する正確なKV選択戦略を採用しています。RULER、LongBench、Needle In A Haystackなどの幅広いベンチマークやLlama-3.1-8B、Llama-3-8B-1M、GLM-4-9B-1M、Yi-9B-200K、Phi-3-Mini-128K、Qwen2-7B-128KなどのモデルでShadowKVを評価することで、無限のGPUメモリを前提とした無限のバッチサイズで達成可能なパフォーマンスを上回ることなく、A100 GPU上で最大6倍のバッチサイズをサポートし、スループットを最大3.04倍向上させることが示されました。コードはhttps://github.com/bytedance/ShadowKVで入手可能です。
視覚表現の事前トレーニングは、ロボットの学習効率を向上させました。大規模なドメイン内ロボティックデータセットの不足から、従来の研究では野生の人間のビデオを使用してロボットの視覚表現を事前トレーニングしてきました。有望な結果にもかかわらず、人間のビデオからの表現は、必然的に分布のシフトを受けやすく、タスク完了に重要なダイナミクス情報が欠如しています。まず、さまざまな事前トレーニングされた表現を、下流のロボティック操作タスク(つまり、操作中心性)との相関に基づいて評価します。興味深いことに、私たちは、「操作中心性」が下流のタスクに適用された際の成功率の強力な指標であることを発見しました。これらの知見に基づき、Manipulation Centric Representation(MCR)を提案します。これは、視覚特徴とアクション、操作認識などのダイナミクス情報を捉える基盤表現学習フレームワークであり、操作中心性を向上させるために設計されています。具体的には、DROIDロボティックデータセットで視覚エンコーダを事前トレーニングし、ロボットの操作認識状態やアクションなどの動きに関連するデータを活用します。視覚観察をロボットの操作認識状態-アクションダイナミクスに整列させる新しい対照的損失を導入し、事前トレーニング中にアクションを予測するための行動クローニング(BC)のようなアクター損失と、時間対照的損失を組み合わせます。20のタスクを持つ4つのシミュレーションドメイン全体での実証結果によると、MCRは最も強力なベースライン手法よりも14.8%性能を向上させています。さらに、MCRは、UR5eアームを使用した3つの実世界タスクにおけるデータ効率の高い学習の性能を76.9%向上させています。プロジェクトのウェブサイト:https://robots-pretrain-robots.github.io/。
効果的な密な検索システムを構築することは、関連性の監督が利用できない場合には困難です。最近の研究では、この課題に対処するために、大規模言語モデル(LLM)を使用して、仮想的な文書を生成し、最も近い実際の文書を見つけるために使用する方法が検討されてきました。ただし、このアプローチは、クエリに関連するドメイン固有の知識をLLMだけに依存しているため、実用的でないことがあります。さらに、仮想的な文書の生成は効率的ではなく、各クエリに対してLLMが多数のトークンを生成する必要があります。これらの課題に対処するために、私たちは関連フィードバックからの実際の文書埋め込み(ReDE-RF)を導入します。関連フィードバックに着想を得たReDE-RFは、仮想的な文書の生成を関連性の推定タスクとして再構築し、LLMを使用して最も近い隣接文書を選択することを提案しています。この再構築により、LLMはもはやドメイン固有の知識を必要とせず、単に何が関連しているかを判断するだけで済みます。さらに、関連性の推定にはLLMが単一のトークンを出力するだけで済むため、検索の待ち時間が改善されます。私たちの実験では、ReDE-RFが広範囲の低リソース検索データセットにおいて、最先端のゼロショット密な検索手法を一貫して上回り、クエリあたりの待ち時間も大幅に改善されていることが示されています。
オフラインのペア選好最適化アルゴリズムは、選好データの微調整において、従来の教師あり微調整を凌駕することで、さまざまなタスクで人気を博しています。しかしながら、従来の実装は、共有プロンプトが長いタスクにおいて特に冗長な計算を必要とすることがよくあります。我々は、選好調整のためのプレフィックス共有という新しい技術を導入します。これは、選択された応答と拒否された応答を共有プレフィックスを持つ1つのシーケンスとして処理するものです。クロス応答の混入を防ぐために、カスタムブロック疎な注意マスクを使用しています。当該手法は、人気のあるDPOデータセットにおいてトレーニングスループットが1.1〜1.5倍改善され、収束には影響を与えません。シーケンスパッキングと組み合わせると、一貫して1.3〜1.6倍の高速化が観測され、シーケンス長が短いデータセットでも恩恵を受けます。私たちは直接選好最適化(DPO)に焦点を当てていますが、当該手法は他のペア選好調整方法にも適用可能です。計算効率を向上させることで、我々の研究は、幅広いアプリケーションやモデルサイズにおいて選好ベースの微調整をより利用しやすくすることに貢献しています。当該コードは、https://github.com/frankxwang/dpo-prefix-sharing でオープンソースとして公開しています。
我々は、デコーダーのみを使用する言語モデル(LLM)で広く使用されているコンテキスト内の例が、検索タスクにおける埋め込みモデルのパフォーマンスを向上させるかどうかを調査します。LLMとは異なり、クエリ-ドキュメントのペアをターゲットクエリに単純に前置するだけでは、推論時にはうまく機能しません。私たちは、リトリーバーがコンテキスト内の例を使用できるようにするための簡単なアプローチ、RAReを紹介します。RAReは、ターゲットクエリと意味的に類似したクエリを持つコンテキスト内の例を使用して事前学習済みモデルをファインチューニングします。これは、様々なベースアーキテクチャ(つまり、デコーダーのみを使用する言語モデル、リトリーバーモデル)に適用でき、様々なオープンドメイン検索データセット(BeIR、RAR-b)において最大+2.72%のnDCGのパフォーマンス向上を一貫して達成します。特に、RAReは、コンテキスト内の例を使用しないモデルと比較して、ドメイン外での汎化能力が強いことがわかり、LLMにおけるコンテキスト内学習で見られるものと類似しています。さらに、コンテキスト内の例の拡張の設計選択に関する分析を提供し、この分野での将来の研究の基盤を築きます。
大規模言語モデル(LLMs)は、訓練データを記憶しやすく、機密情報の抽出の可能性による懸念が高まっています。現在のLLMsの記憶率を測定する方法は、主に発見可能抽出(Carlini et al.、2022)に依存しており、単一シーケンスの貪欲サンプリングに基づいています。これにより、記憶の真の程度が過小評価される可能性があります。本論文では、発見可能抽出の確率的緩和を導入し、生成されたサンプルのセット内でターゲットシーケンスを抽出する確率を定量化します。さまざまなサンプリング方式と複数の試行を考慮し、LLMsの確率的性質とユーザーの相互作用パターンを考慮しています。このアプローチは、発見可能抽出を通じて記憶率を報告する際の制限に対処し、LLMsの確率的性質とユーザーの相互作用パターンを考慮しています。実験では、この確率的測定が、発見可能抽出を通じて見つかる記憶率よりも高い記憶率のケースを明らかにできることを示しています。さらに、異なるサンプリング方式が抽出可能性に与える影響を調査し、LLMsの記憶および関連するリスクのより包括的かつ現実的な評価を提供しています。私たちの貢献には、新しい確率的記憶定義、その効果の実証、およびさまざまなモデル、サイズ、サンプリング方式、および訓練データの繰り返しにわたる徹底的な評価が含まれています。