翻訳付きの日次キュレーションされたAI研究論文
我々は、AI研究タスクにおけるLLMエージェントの評価と開発のための新しいフレームワークおよびベンチマークであるMeta MLGymとMLGym-Benchを紹介する。これは機械学習(ML)タスクのための初めてのGym環境であり、そのようなエージェントを訓練するための強化学習(RL)アルゴリズムの研究を可能にする。MLGym-Benchは、コンピュータビジョン、自然言語処理、強化学習、ゲーム理論など多様な領域からなる13の多様でオープンエンドなAI研究タスクで構成されている。これらのタスクを解決するには、新しいアイデアや仮説の生成、データの作成と処理、ML手法の実装、モデルの訓練、実験の実行、結果の分析、そして与えられたタスクを改善するためにこのプロセスを繰り返すといった、現実世界のAI研究スキルが必要である。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proといった最先端の大規模言語モデル(LLM)をベンチマークで評価した。MLGymフレームワークは、新しいタスクの追加、モデルやエージェントの統合と評価、大規模な合成データの生成、およびAI研究タスクにおけるエージェントの訓練のための新しい学習アルゴリズムの開発を容易にする。我々は、現在の最先端モデルが与えられたベースラインを改善できるが、通常はより良いハイパーパラメータを見つけることであり、新しい仮説、アルゴリズム、アーキテクチャ、または大幅な改善を生み出すことはないことを発見した。我々は、LLMエージェントのAI研究能力を進歩させるための将来の研究を促進するために、フレームワークとベンチマークをオープンソースとして公開する。
私たちは、オリジナルのSigLIPの成功を基盤とした新しい多言語視覚言語エンコーダのファミリーであるSigLIP 2を紹介します。この第2世代では、キャプションベースの事前学習、自己教師あり損失(自己蒸留、マスク予測)、オンラインデータキュレーションなど、複数の独立して開発された技術を統合したレシピに基づいて、元の画像-テキスト学習目標を拡張しました。これらの変更により、SigLIP 2モデルは、ゼロショット分類、画像-テキスト検索、視覚言語モデル(VLM)の視覚表現抽出時の転移性能など、すべてのモデル規模において、SigLIPの対応モデルを凌駕しています。さらに、新しい学習レシピは、ローカライゼーションや密な予測タスクにおいても大幅な改善をもたらします。また、複数の解像度をサポートし、入力の元のアスペクト比を保持するバリアントも学習します。最後に、バイアス除去技術を含むより多様なデータミックスで学習を行うことで、多言語理解が大幅に向上し、公平性も改善されています。ユーザーが推論コストとパフォーマンスをトレードオフできるように、4つのサイズのモデルチェックポイントをリリースしました:ViT-B(86M)、L(303M)、So400m(400M)、g(1B)。
大規模言語モデル(LLM)は、数学、物理学、コンピュータサイエンスなどの主要な学術分野において顕著な能力を発揮してきた。しかし、人間の知識は200以上の専門分野に及び、既存のベンチマークの範囲をはるかに超えている。これらの専門分野、特に軽工業、農業、サービス指向の分野におけるLLMの能力は、十分に評価されていない。このギャップを埋めるため、我々は285の分野にわたる大学院レベルの知識と推論能力を評価する包括的なベンチマーク「SuperGPQA」を提案する。本ベンチマークでは、LLMの応答と専門家のフィードバックに基づく反復的な精緻化を通じて、些末または曖昧な質問を排除する新たなHuman-LLM協調フィルタリングメカニズムを採用している。実験結果から、現在の最先端LLMの多様な知識領域における性能には大きな改善の余地があることが明らかになった(例えば、推論に焦点を当てたモデルDeepSeek-R1はSuperGPQAで最高の61.82%の精度を達成)。これは、現在のモデルの能力と人工汎用知能(AGI)との間に大きな隔たりがあることを示している。さらに、80人以上の専門家アノテーターとHuman-LLM協調システムを活用した大規模なアノテーションプロセスの管理から得られた包括的な知見を提示し、今後の同様のスコープを持つ研究イニシアチブに対する貴重な方法論的指針を提供する。
大規模言語モデル(LLM)の多くのタスクにおける性能は、事前学習中に獲得されモデルのパラメータに保存された知識によって大きく制限されています。低ランク適応(LoRA)は、LLMの更新やドメイン固有の適応を行うための人気で効率的なトレーニング技術です。本研究では、LoRAを用いてLLMに新たな事実を組み込む方法を、既に学習した知識を損なうことなく調査しました。私たちは、Llama-3.1-8B-instructをLoRAで微調整し、さまざまな量の新知識を組み込みました。実験の結果、既知の事実と新たな事実が混在するトレーニングデータを使用した場合に最良の結果が得られることが示されました。しかし、このアプローチは依然として潜在的に有害である可能性があります。なぜなら、そのような微調整の後、外部の質問応答ベンチマークにおけるモデルの性能が低下するからです。トレーニングデータが特定のエンティティに偏っている場合、モデルは少数の過剰に表現された回答に回帰する傾向があります。さらに、モデルがより自信を持ち、回答を拒否するケースがほとんどないことも明らかになりました。これらの発見は、LoRAベースのLLM更新における潜在的な落とし穴を浮き彫りにし、新たな知識の統合と一般的なモデル能力のバランスを取るためのトレーニングデータの構成とチューニングパラメータの重要性を強調しています。
大規模言語モデル(LLM)のテスト時計算量の増加は、さまざまな領域で有望な成果を示していますが、数学分野での広範な研究にもかかわらず、コード生成においてはまだ十分に探求されていません。本論文では、生成コードのカバレッジと選択精度を大幅に向上させる初のハイブリッドテスト時スケーリングフレームワークであるS*を提案します。S*は、既存の並列スケーリングパラダイムを逐次スケーリングで拡張し、性能の限界を押し広げます。さらに、ペアワイズ比較のための識別入力を適応的に生成する新たな選択メカニズムと、実行に基づく情報を組み合わせることで、正しいソリューションを堅牢に特定します。12の大規模言語モデルと大規模推論モデルを対象に評価を行い、以下の結果を示します:(1)S*はモデルファミリーやサイズを問わず一貫して性能を向上させ、3BモデルがGPT-4o-miniを上回ることを可能にします;(2)S*は非推論モデルが推論モデルを凌駕することを可能にし、S*を適用したGPT-4o-miniはLiveCodeBenchにおいてo1-previewを3.7%上回ります;(3)S*は最先端の推論モデルをさらに強化し、S*を適用したDeepSeek-R1-Distill-Qwen-32BはLiveCodeBenchで85.7%を達成し、o1(高)の88.5%に迫ります。コードはhttps://github.com/NovaSky-AI/SkyThoughtで公開されます。
DeepSeek-R1の成功に触発され、我々は大規模推論モデルにおけるルールベース強化学習(RL)の可能性を探求した。推論ダイナミクスを分析するため、制御可能な複雑さと明確な解答検証が可能な合成論理パズルを訓練データとして使用した。効果的かつ安定したRL訓練を実現するため、いくつかの重要な技術的貢献を行った:思考と解答プロセスを重視するシステムプロンプト、近道を取る出力にペナルティを与える厳格なフォーマット報酬関数、安定した収束を達成する簡潔な訓練レシピである。我々の7Bモデルは、論理コーパスには存在しない、反省、検証、要約といった高度な推論スキルを発展させた。注目すべきは、わずか5,000の論理問題を訓練した後、AIMEやAMCといった難易度の高い数学ベンチマークに対して一般化能力を示したことである。
スケーラブルなフォールトトレラント量子コンピューティングの実現は、量子誤り訂正符号に依存すると期待されています。より効率的な量子フォールトトレランスを追求する中で、誤りに関する情報を抽出し誤り訂正を可能にする測定の重みは、重要な符号パラメータです。測定の重みが高くなるほど実装コストが増大し、より多くの誤りが導入されるため、符号設計において測定の重みを最適化することが重要です。これが、量子低密度パリティチェック(qLDPC)符号に対する関心の高まりの背景にあります。qLDPC符号の研究は主に漸近的(大符号限界)な特性に焦点を当ててきました。本研究では、強化学習(RL)に基づく安定化符号の重み削減のための汎用的で計算効率の高いアプローチを提案します。このアプローチは、実用的に関連するパラメータ領域において、従来の最先端を大幅に上回る新しい低重み符号を生成し、これまでアクセス可能だった小さな距離を大幅に拡張します。例えば、重み6の符号において、既存の結果と比較して物理量子ビットのオーバーヘッドを1~2桁削減し、近未来の実験で実現可能な範囲にオーバーヘッドを持ち込みます。また、RLフレームワークを使用して符号パラメータ間の相互作用を調査し、実用的に実行可能な符号化戦略の潜在的な効率性とパワーに関する新しい洞察を提供します。全体として、我々の結果は、RLが量子符号発見という重要でありながら困難な問題を効果的に進展させ、フォールトトレラント量子技術の実用的な実装への道を加速できることを示しています。
最近の研究では、LLM(大規模言語モデル)のテスト時スケーリングの有効性が実証されています。しかし、LLMの深い思考能力を促進する既存のアプローチは、大規模なデータや多大なトレーニング努力を一般的に必要とします。一方で、性能の低いベースモデルの思考能力を向上させる方法については、まだ明確ではありません。本研究では、推論中にモデルが自己検証と自己修正を行うことを教えることで、LLMの推論能力を向上させる効率的なフレームワークであるS^2Rを提案します。具体的には、まず慎重に選ばれたデータを用いた教師ありファインチューニングを通じて、LLMに反復的な自己検証と自己修正の動作を初期化します。その後、結果レベルとプロセスレベルの強化学習によって、自己検証と自己修正のスキルをさらに強化し、最小限のリソース要件で推論中にモデルが適応的に推論プロセスを洗練できるようにします。私たちの結果は、わずか3.1kの自己検証と自己修正の動作初期化サンプルを用いることで、Qwen2.5-math-7Bの精度が51.0\%から81.6\%に向上し、同等量の長いCoT(Chain-of-Thought)蒸留データでトレーニングされたモデルを上回ることを示しています。3つのベースモデルを用いたドメイン内およびドメイン外のベンチマークに基づく広範な実験と分析により、S^2Rの有効性が検証されました。私たちのコードとデータはhttps://github.com/NineAbyss/S2Rで公開されています。
言語モデルが事実を引き出す能力については広く研究されてきたが、時間的に変化する事実をどのように扱うかについては未解明の部分が多い。本研究では、回路解析を通じて、時間的知識を主に処理する特定のアテンションヘッドである「Temporal Heads」を発見した。これらのヘッドは複数のモデルに存在するが、その具体的な位置はモデルによって異なり、知識の種類や対応する年代によって応答が変化することが確認された。これらのヘッドを無効化すると、モデルの時間固有の知識を想起する能力が低下する一方で、時間不変な知識や質問応答の性能は維持されることがわかった。さらに、これらのヘッドは数値的な条件(「2004年」)だけでなく、テキスト的な別名(「...の年」)にも活性化されることから、単純な数値表現を超えた時間的次元を符号化していることが示唆される。また、これらのヘッドの値を調整することで時間的知識を編集できる可能性を実証し、本研究の成果の可能性をさらに広げた。
既存の大規模視覚言語モデル(LVLM)は、最大128kの視覚およびテキストトークンまでの入力コンテキストを処理できるが、1,000語を超える一貫性のある出力を生成するのに苦労している。この主な制限要因は、教師ありファインチューニング(SFT)における長い出力例の欠如であることがわかった。この問題に対処するため、22,158の例を含むSFTデータセットであるLongWriter-V-22kを導入した。各例は複数の入力画像、指示、および0から10,000語までの対応する出力で構成されている。さらに、入力画像に対する高忠実度を維持した長い出力を実現するため、SFTモデルにDirect Preference Optimization(DPO)を適用した。長い出力(例:3,000語)に対する人間のフィードバックを収集するコストが高いことを考慮し、長い出力をセグメントに分割し、反復的な修正を行って元の出力と好みのペアを形成するIterDPOを提案した。また、VLMの長文生成能力を評価するための6つのタスクを特徴とするベンチマークMMLongBench-Writeを開発した。LongWriter-V-22kとIterDPOでトレーニングされた7Bパラメータモデルは、このベンチマークで印象的な性能を発揮し、GPT-4oのような大規模なプロプライエタリモデルを上回った。コードとデータ:https://github.com/THU-KEG/LongWriter-V
MLLMベースのGUIエージェントの分野において、スマートフォンと比較して、PCシナリオはより複雑なインタラクティブ環境を特徴とするだけでなく、より複雑なアプリ内およびアプリ間のワークフローを伴います。これらの課題に対処するため、我々はPC-Agentという階層型エージェントフレームワークを提案します。具体的には、知覚の観点から、現在のMLLMがスクリーンショットの内容を認識する能力が不十分であるという問題を克服するために、Active Perception Module (APM)を考案しました。意思決定の観点からは、複雑なユーザー指示と相互依存するサブタスクをより効果的に処理するために、意思決定プロセスをInstruction-Subtask-Actionのレベルに分解する階層型マルチエージェント協調アーキテクチャを提案します。このアーキテクチャ内では、指示の分解、進捗の追跡、段階的な意思決定をそれぞれ担当する3つのエージェント(Manager、Progress、Decision)を設定しました。さらに、Reflectionエージェントを採用し、タイムリーなボトムアップのエラーフィードバックと調整を可能にしました。また、25の実世界の複雑な指示を含む新しいベンチマークPC-Evalを導入しました。PC-Evalでの実験結果は、我々のPC-Agentが従来の最先端手法と比較してタスク成功率で32%の絶対的な改善を達成したことを示しています。コードは公開予定です。
大規模言語モデル(LLM)の進化の速度は、厳密かつ包括的な評価のための新しいアプローチを必要としています。従来の人間によるアノテーションは、高品質で難易度の高い問題を生成する際の複雑さとコストのため、ますます実用的ではなくなっています。本研究では、人間の介入なしにLLMを使用して難易度の高い問題を合成的に生成する統一フレームワークであるCHASEを紹介します。与えられたタスクに対して、我々のアプローチは、より単純なコンポーネントからボトムアップ方式で難しい問題を構築します。さらに、我々のフレームワークは生成プロセスを独立して検証可能なサブタスクに分解し、高い品質と正確性を確保します。CHASEを実装し、以下の3つの多様なドメインにわたる評価ベンチマークを作成しました:(1)ドキュメントベースの質問応答、(2)リポジトリレベルのコード補完、(3)数学的推論。これらの合成的ベンチマークにおける最先端のLLMの性能は40-60%の精度範囲にあり、我々のフレームワークが難易度の高い問題を生成する効果を実証しています。我々はベンチマークとコードを公開します。
生成的なテキストから画像へのモデルのパーソナライゼーションは目覚ましい進展を遂げてきましたが、これをテキストから動画へのモデルに拡張するには独特の課題があります。静的な概念とは異なり、テキストから動画へのモデルのパーソナライゼーションは、動的な概念、つまり外見だけでなく動きによっても定義されるエンティティを捉える可能性を秘めています。本論文では、動的な概念をDiffusion Transformers (DiTs)ベースの生成動画モデルにパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介します。私たちのアプローチは、空間的特徴と時間的特徴を明示的に分離しないアーキテクチャ内に時空間的な重み空間を課します。これは2つの主要な段階で実現されます。まず、ビデオから順序付けられていないフレームのセットを使用してLow-Rank Adaptation (LoRA)層を微調整し、時間的な干渉から解放された外見を表すidentity LoRA基底を学習します。第2段階では、identity LoRAを凍結した状態で、その係数をMotion Residualsで拡張し、完全なビデオシーケンス上で微調整することで、動きのダイナミクスを捉えます。私たちのSet-and-Sequenceフレームワークは、動的な概念を動画モデルの出力領域に効果的に埋め込む時空間的な重み空間を実現し、前例のない編集性と構成可能性を可能にするとともに、動的な概念のパーソナライゼーションにおいて新たなベンチマークを確立します。
大規模言語モデル(LLMs)は言語処理において印象的な能力を発揮しているが、真の視覚的空間推論を必要とするタスクではしばしば苦戦する。本論文では、迷路ナビゲーションのための視覚的推論能力を標準的なLLMsに付与するために設計された新しい二段階のトレーニングフレームワークを紹介する。まず、トークン化された迷路表現の精選されたデータセットに対して教師あり微調整(SFT)を活用し、モデルにステップバイステップの移動コマンドを予測することを教える。次に、DeepSeekR1で使用されるGroup Relative Policy Optimization(GRPO)を慎重に設計された報酬関数と共に適用し、モデルの逐次的意思決定を洗練させ、連鎖的思考行動の出現を促す。合成生成された迷路での実験結果は、ベースラインモデルが迷路をナビゲートできないのに対し、SFTでトレーニングされたモデルは86%の精度を達成し、さらにGRPOによる微調整で精度が93%に向上することを示している。定性的分析により、GRPOがより堅牢で自己修正的な推論を促進することが明らかになり、言語モデルと視覚的空間タスクの間のギャップを埋める本アプローチの可能性が強調される。これらの発見は、ロボティクス、自律ナビゲーション、および視覚的かつ逐次的な推論を必要とする他の分野での応用において有望な示唆を提供する。
大規模言語モデル(LLM)は、長いシーケンスの処理において顕著な可能性を示していますが、長文脈モデルの効率的な提供は、プリフィリング段階におけるアテンションの二次計算複雑性と、デコード段階におけるKVキャッシュの大規模なメモリフットプリントにより、依然として課題となっています。これらの問題に対処するため、我々はハイブリッド疎アテンションを介して長文脈LLM提供を加速する効率的なシステム、LServeを導入します。この手法は、プリフィリングとデコードアテンションの両方に対して、ハードウェアに優しい構造化された疎パターンを単一のフレームワークに統合し、重要度の低いトークンに対する計算をブロック単位でスキップします。LServeは、長文脈LLMアテンションにおける静的および動的疎性の互換性を実証します。この設計により、これらの最適化を組み合わせることで乗算的な高速化が可能となります。具体的には、プリフィリングとデコードの両段階において、アテンションヘッドの半分をほぼ無料のストリーミングヘッドに変換します。さらに、文脈長に関係なく、長文脈能力を維持するためには一定数のKVページのみが必要であることを発見しました。その後、クエリ中心の類似性に基づいてKVページを動的にプルーニングする階層型KVページ選択ポリシーを設計します。平均して、LServeはvLLMに対してプリフィリングを最大2.9倍、デコードを1.3-2.1倍加速し、長文脈の精度を維持します。コードはhttps://github.com/mit-han-lab/omniserveで公開されています。
チャートや文書などのリッチテキストを含む画像の推論は、視覚言語モデル(VLM)の重要な応用分野です。しかし、VLMはこれらの領域でしばしば苦戦します。その主な理由は、多様なテキストリッチな視覚言語データの不足にあります。この課題に対処するため、我々はCoSynを提案します。CoSynは、テキストのみの大規模言語モデル(LLM)のコーディング能力を活用し、合成テキストリッチなマルチモーダルデータを自動生成するフレームワークです。特定のドメイン(例:「栄養成分表示ラベル」)を記述した入力テキストを与えると、CoSynはLLMにPython、HTML、LaTeXなどのコードを生成させ、合成画像をレンダリングします。合成画像の基盤となるコードをテキスト表現として利用することで、CoSynはテキストのみのLLMに再度依存して、高品質な指示チューニングデータを生成できます。CoSynを使用して、我々は40万枚の画像と270万行の視覚言語指示チューニングデータを含むデータセットを構築しました。7つのベンチマークでの包括的な実験により、我々の合成データで訓練されたモデルが、Llama 3.2を含む競合するオープンソースモデルの中で最先端の性能を達成し、GPT-4VやGemini 1.5 Flashなどのプロプライエタリモデルを上回ることが示されました。さらに、CoSynは合成ポインティングデータを生成することができ、VLMが入力画像内の情報をグラウンディングすることを可能にし、現実世界の環境で行動可能なマルチモーダルエージェントの開発における潜在能力を示しています。
継続的に知識を獲得し、整理し、活用する能力は、人間の知性の重要な特徴であり、AIシステムがその真の可能性を引き出すためにはこれを近似する必要がある。大規模言語モデル(LLM)を用いた継続学習の課題を踏まえ、検索拡張生成(RAG)は新たな情報を導入する主要な方法となっている。しかし、ベクトル検査に依存するRAGは、人間の長期記憶の動的かつ相互接続された性質を模倣する能力を妨げている。最近のRAGアプローチでは、ベクトル埋め込みを知識グラフなどの様々な構造で拡張し、特に意味理解と連想性のギャップを埋めようとしている。しかし、これらのアプローチは、より基本的な事実記憶タスクにおいて標準的なRAGを大きく下回る性能を示す。我々はこの意図しない性能低下に対処し、事実記憶、意味理解、連想記憶タスクにおいて標準的なRAGを包括的に上回るHippoRAG 2を提案する。HippoRAG 2は、HippoRAGで使用されたPersonalized PageRankアルゴリズムを基盤とし、より深い文章統合とLLMのより効果的なオンライン利用を組み合わせることで、このRAGシステムを人間の長期記憶の有効性に近づけ、最先端の埋め込みモデルに対して連想記憶タスクで7%の改善を達成するとともに、優れた事実知識と意味理解記憶能力を示す。この研究は、LLMのための非パラメトリックな継続学習の道を開くものである。我々のコードとデータはhttps://github.com/OSU-NLP-Group/HippoRAGで公開される予定である。
拡散トランスフォーマー(Diffusion Transformer)は、主にその本質的なスケーラビリティにより、テキストから画像およびテキストから動画生成の進展において重要な役割を果たしています。しかし、既存の制御付き拡散トランスフォーマー手法は、パラメータと計算コストが大きく、異なるトランスフォーマーレイヤー間での制御情報の関連性を考慮しないため、リソース割り当てが非効率的です。この問題を解決するため、我々は「関連性ガイド型効率的制御生成フレームワーク(Relevance-Guided Efficient Controllable Generation framework, RelaCtrl)」を提案し、制御信号を拡散トランスフォーマーに効率的かつリソース最適化された形で統合します。まず、拡散トランスフォーマーの各レイヤーが制御情報に対して持つ関連性を、「ControlNet関連性スコア」—すなわち、各制御レイヤーをスキップした場合の生成品質と制御効果への影響—を評価することで測定します。関連性の強度に基づいて、制御レイヤーの配置、パラメータ規模、およびモデリング能力を調整し、不要なパラメータと冗長な計算を削減します。さらに、効率を向上させるため、一般的に使用されるコピーブロック内の自己注意機構(self-attention)とフィードフォワードネットワーク(FFN)を、慎重に設計された二次元シャッフルミキサー(Two-Dimensional Shuffle Mixer, TDSM)に置き換え、トークンミキサーとチャネルミキサーの両方を効率的に実装します。定性的および定量的な実験結果は、我々のアプローチがPixArt-deltaと比較してわずか15%のパラメータと計算複雑性で優れた性能を達成することを示しています。詳細な例はhttps://relactrl.github.io/RelaCtrl/でご覧いただけます。
画像ジオローカライゼーションは、画像の特定の位置を予測するタスクであり、視覚的、地理的、文化的な文脈にわたる複雑な推論を必要とします。従来のVision Language Models(VLMs)はこのタスクにおいて最高の精度を誇りますが、分析的推論のための高品質なデータセットとモデルが不足しています。私たちはまず、人気の地理ゲームであるGeoGuessrから派生した高品質なデータセット「NaviClues」を作成し、言語からの専門家の推論例を提供します。このデータセットを使用して、グローバルな情報と細粒度な画像情報を統合した包括的な画像ジオローカライゼーションフレームワーク「Navig」を提案します。言語を用いた推論により、Navigは従来の最先端モデルと比較して平均距離誤差を14%削減し、1000未満のトレーニングサンプルしか必要としません。私たちのデータセットとコードはhttps://github.com/SparrowZheyuan18/Navig/で公開されています。
LLM開発者は合成データにますます依存するようになっているが、複雑な長文脈推論タスクのための高品質なデータ生成は依然として課題である。我々は、物語の主張検証(書籍全体を推論して与えられた主張を検証するタスク)に特化した合成データ生成のための圧縮ベースのアプローチであるCLIPPERを提案する。書籍の生テキストから直接主張を生成する方法では、不自然な主張が生じるが、CLIPPERはまず書籍を章の概要と書籍の要約に圧縮し、これらの中間表現を使用して複雑な主張とそれに対応する連鎖的思考を生成する。単純なアプローチと比較して、CLIPPERはより有効で、根拠があり、複雑な主張を生成する。CLIPPERを使用して、19Kの合成書籍主張とそのソーステキスト、連鎖的思考推論をペアにしたデータセットを構築し、それを用いて3つのオープンウェイトモデルをファインチューニングした。我々の最良のモデルは、物語の主張検証において画期的な結果(テストセットでの精度が28%から76%に向上)を達成し、NoChaリーダーボードにおいて10B未満のモデルで新たな最先端を樹立した。さらなる分析により、我々のモデルはより詳細で根拠のある連鎖的思考推論を生成しつつ、他の物語理解タスク(例:NarrativeQA)のパフォーマンスも向上させることが示された。
大規模マルチモーダルモデル(LMMs)は、幅広い視覚タスクにおいて印象的な能力を示しています。しかし、細粒度の視覚推論においてはしばしば苦戦し、ドメイン固有の目的を特定したり、予測に対する正当化可能な説明を提供したりすることができません。この問題に対処するため、我々は自己合成データを用いてLMMsの認知能力と説明可能性を向上させる新しい視覚的リジェクトサンプリングフレームワークを提案します。具体的には、視覚的ファインチューニングには画像、クエリ、およびターゲット回答が必要です。我々のアプローチでは、まず人間が検証可能な視覚的特徴を含む解釈可能な回答を合成します。これらの特徴は、画像内容との整合性に基づいて慎重に選択された専門家定義の概念に基づいています。各ラウンドのファインチューニング後、報酬モデルフリーのフィルタリングメカニズムを適用して、次回のチューニングに使用する最高品質の解釈可能な回答を選択します。このデータ合成とファインチューニングの反復プロセスにより、モデルが正確かつ合理的な説明を生成する能力が段階的に向上します。実験結果は、専門的な視覚分類タスクにおける精度と説明可能性の両方を向上させる我々の手法の有効性を示しています。
報酬モデルは、視覚言語モデル(VLM)の訓練において、出力品質を評価し人間の好みに合わせるために重要な役割を果たします。その重要性にもかかわらず、研究コミュニティには、VLMにおけるマルチモーダル報酬モデルを評価するための包括的なオープンベンチマークが不足しています。このギャップを埋めるため、我々はMultimodal RewardBenchを導入しました。これは、一般正解性、選好、知識、推論、安全性、視覚的質問応答の6つの領域をカバーする専門家による注釈付きベンチマークです。我々のデータセットは、様々なVLMから収集された5,211の注釈付き(プロンプト、選択された応答、拒否された応答)トリプレットで構成されています。様々なVLMジャッジを評価した結果、最高性能のモデルであるGemini 1.5 ProとClaude 3.5 Sonnetでさえ、全体の精度は72%に留まることがわかりました。特に、ほとんどのモデルは推論と安全性の領域で苦戦しています。これらの発見は、Multimodal RewardBenchが、複数の領域にわたる報酬モデルの開発を進めるための挑戦的なテストベッドを提供することを示唆しています。我々はこのベンチマークをhttps://github.com/facebookresearch/multimodal_rewardbenchで公開しています。
多様なデータ駆動型AIおよび機械学習モデルに必要とされる高品質なデータセットの準備は、データ駆動型分析における基盤的なタスクとなっています。従来のデータ発見手法は、通常、単一の事前定義された品質指標に向けてデータセットを統合するため、下流タスクにバイアスをもたらす可能性があります。本論文では、複数のユーザー定義のモデル性能指標を最適化することでデータセットを発見するフレームワーク、MODisを紹介します。与えられたデータソースのセットとモデルに対して、MODisはデータソースを選択し、スカイラインデータセットに統合します。このデータセット上で、モデルはすべての性能指標において所望の性能を発揮することが期待されます。MODisをマルチゴール有限状態トランスデューサとして定式化し、スカイラインデータセットを生成するための3つの実現可能なアルゴリズムを導出します。最初のアルゴリズムは「ユニバーサルスキーマからの削減」戦略を採用し、ユニバーサルスキーマから始めて、有望でないデータを反復的に刈り込みます。2番目のアルゴリズムは、データ拡張と削減を交互に行う双方向戦略により、コストをさらに削減します。また、スカイラインデータセットのバイアスを軽減するための多様化アルゴリズムも導入します。私たちは、スカイラインデータ発見アルゴリズムの効率性と有効性を実験的に検証し、データサイエンスパイプラインの最適化におけるその応用例を紹介します。
大規模言語モデル(LLM)の急速な進展は、従来のトレーニングを必要としないゼロショット推薦を可能にすることで、推薦システムに新たな可能性を開きました。その潜在能力にもかかわらず、既存の研究の多くはユーザーの購入履歴にのみ依存しており、レビューや商品説明などのユーザー生成テキストデータを組み込むことで改善の余地が大きく残されています。このギャップを埋めるため、我々はPUREを提案します。これは、ユーザーレビューから重要な情報を体系的に抽出・要約することで、進化するユーザープロファイルを構築・維持する新しいLLMベースの推薦フレームワークです。PUREは3つのコアコンポーネントで構成されています:ユーザーの好みや商品の主要な特徴を特定するレビュー抽出器、ユーザープロファイルを洗練・更新するプロファイル更新器、最新のプロファイルを使用してパーソナライズされた推薦を生成する推薦器です。PUREを評価するため、時間の経過とともにレビューを追加し、予測を段階的に更新する現実世界のシナリオを反映した連続的逐次推薦タスクを導入しました。Amazonデータセットを用いた実験結果は、PUREが既存のLLMベースの手法を上回り、トークン制約を管理しながら長期的なユーザー情報を効果的に活用することを示しています。
分布外の特性を持つ新規分子の生成は、分子発見における主要な課題です。教師あり学習手法はデータセット内の分子に類似した高品質な分子を生成しますが、分布外の特性への一般化には苦戦します。強化学習は新しい化学空間を探索できますが、しばしば「報酬ハッキング」を行い、合成不可能な分子を生成してしまいます。本研究では、最先端の教師あり学習手法であるSTGG+を能動学習ループに統合することでこの問題に取り組みます。我々のアプローチは、STGG+を反復的に生成、評価、微調整し、その知識を継続的に拡張します。このアプローチをSTGG+ALと称します。STGG+ALを有機π機能性材料の設計に適用し、特に以下の2つの挑戦的なタスクに焦点を当てます:1)高振動子強度を特徴とする高吸収性分子の生成、2)近赤外線(NIR)領域で適切な振動子強度を持つ吸収性分子の設計。生成された分子は、時間依存密度汎関数理論を用いてin-silicoで検証および合理化されます。我々の結果は、強化学習(RL)手法などの既存の手法とは対照的に、本手法が高振動子強度を持つ新規分子の生成に極めて有効であることを示しています。我々は、能動学習コードと、290万のπ共役分子を含むConjugated-xTBデータセット、および振動子強度と吸収波長を近似する関数(sTDA-xTBに基づく)をオープンソースとして公開します。
最近の研究によると、大規模視覚言語モデル(VLM)は画像の内容を軽視し、言語モデルの事前知識に過度に依存する傾向があり、視覚に基づくタスクでの誤りや幻覚(hallucination)を引き起こすことが明らかになっています。この問題は、既存のVLMが細かな画像の詳細に正確に基づいたテキストを生成するように明示的に訓練されていないためであると私たちは仮説を立てました。VLMの訓練中に視覚的フィードバックを強化するため、私たちはS-VCO(Symmetrical Visual Contrastive Optimization)を提案します。これは、モデルが重要な視覚的詳細を捉え、それらを対応するテキストトークンと整合させるように導く新しいファインチューニング目標です。さらに、この詳細な整合を促進するために、MVCというペア画像-テキストデータセットを導入しました。これは、視覚的な反事実データを自動的にフィルタリングし、拡張して構築され、最小限の視覚的コントラスト(Minimal Visual Contrasts)を含む難しい対照的なケースでモデルに挑戦するものです。実験結果は、私たちの手法が、さまざまな能力とドメインをカバーする多様なベンチマークでVLMの性能を一貫して向上させ、幻覚を最大22%削減し、視覚中心および一般的なタスクで大幅な改善を達成することを示しています。特に、これらの改善は、視覚的依存度が高いベンチマークでより顕著になります。要約すると、S-VCOは、VLMの視覚依存タスクの性能を大幅に向上させながら、モデルの一般的な能力を維持または向上させます。私たちはコードをhttps://s-vco.github.io/で公開しています。
ジオロケーション(位置特定)は、画像の位置を特定するタスクであり、複雑な推論を必要とし、ナビゲーション、監視、文化保存において極めて重要です。しかし、現在の手法はしばしば大まかで不正確、かつ解釈が困難な位置特定を生み出しています。主な課題は、既存のジオロケーションデータセットの品質と規模にあります。これらのデータセットは通常、小規模で自動的に構築されており、ノイズの多いデータやタスクの難易度の不整合を引き起こし、答えが簡単にわかる画像や、信頼性のある推論に十分な手がかりがない画像が含まれています。これらの課題に対処するため、我々は3つの主要なコンポーネントからなる包括的なジオロケーションフレームワークを提案します。それは、大規模データセットであるGeoComp、新しい推論手法であるGeoCoT、そして評価指標であるGeoEvalであり、これらはジオロケーション研究の重要な課題に対処し、進展を促すために設計されています。このフレームワークの中核となるのは、GeoComp(ジオロケーション競技データセット)です。これは、2年間にわたり74万人のユーザーが参加したジオロケーションゲームプラットフォームから収集された大規模データセットで、2500万件のメタデータと300万件の地理タグ付き位置情報を含み、地球の大部分をカバーしています。各位置は人間のユーザーによって数千から数万回注釈が付けられており、詳細な分析のための多様な難易度を提供し、現在のモデルの重要なギャップを浮き彫りにします。このデータセットを基に、我々はGeographical Chain-of-Thought(GeoCoT)を提案します。これは、大規模視覚モデル(LVM)のジオロケーションタスクにおける推論能力を強化するために設計された、新しい多段階推論フレームワークです。GeoCoTは、人間のジオロケーション推論を模倣する多段階プロセスを通じて、文脈的および空間的手がかりを統合し、性能を向上させます。最後に、GeoEval指標を使用して、GeoCoTがジオロケーションの精度を最大25%向上させるとともに、解釈可能性も高めることを実証します。
大規模言語モデル(LLMs)は、ユーザークエリに基づいて非常に長い文脈から一貫性のある要約を生成することが可能です。証拠スパンを抽出し適切に引用することは、これらの要約の透明性と信頼性を向上させるのに役立つでしょう。同時に、LLMsはどの情報を理解し注目するかについて位置バイアスに悩まされており、これは証拠引用に影響を与える可能性があります。これまでの研究では、事前に定義された粒度レベル(例:文、段落、ドキュメントなど)での証拠引用に焦点が当てられてきましたが、我々は非構造化証拠引用を伴う長文脈クエリ指向要約タスクを提案します。既存のシステムが文脈から非構造化証拠を生成し適切に引用することに苦労し、証拠が「中間で失われる」傾向があることを示します。これを緩和するため、我々はSummaries with Unstructured Evidence Textデータセット(SUnsET)を作成しました。これは、新しいドメイン非依存のパイプラインを使用して生成された合成データセットであり、LLMsをこのタスクに適応させるための教師データとして使用できます。異なるサイズの5つのLLMsと、様々なドキュメントタイプと長さを持つ4つのデータセットにわたって、SUnsETデータで適応させたLLMsが、ベースモデルよりも関連性が高く事実に一貫した証拠を生成し、文脈内のより多様な位置から証拠を抽出し、より関連性が高く一貫性のある要約を生成できることを実証しました。
誤情報が蔓延する時代において、大規模言語モデル(LLM)が非事実的または不正確な応答を生成する傾向である「幻覚(hallucination)」は、その世界的な有用性に対する主要なリスクとなっています。LLMが多言語化する一方で、LLMの幻覚を検出・定量化する研究の大部分は、(a) 英語中心であり、(b) 機械翻訳(MT)や要約といった、オープンな情報探索よりも「実世界」ではあまり一般的でないタスクに焦点を当てています。これに対し、我々は、知識集約型の長文質問応答において、言語間でのLLM幻覚の程度を定量化することを目指しています。そのために、多言語幻覚検出モデルを訓練し、30言語と6つのオープンソースLLMファミリーにわたる大規模な研究を実施しました。まず、英語の幻覚検出データセットを出発点とし、機械翻訳を利用して他の言語での(ノイズの多い)訓練データを生成します。また、5つの高リソース言語に対して手動でゴールドデータを注釈付けし、これらの言語において、幻覚率の推定値がシルバー(LLM生成)テストセットとゴールドテストセットの間で類似していることを示し、他の言語の幻覚率推定にシルバーデータを使用する妥当性を検証します。最終的な幻覚率の推定のために、LLM生成のプロンプトとWikipedia記事を参照として、30言語の知識集約型QAデータセットを構築します。その結果、LLMは高リソース言語に対してより長い応答を生成し、幻覚トークンも多くなるものの、長さ正規化された幻覚率と言語のデジタル表現との間には相関がないことがわかりました。さらに、小規模なLLMは大規模モデルよりも幻覚率が高いことが明らかになりました。