翻訳付きの日次キュレーションされたAI研究論文
強化学習(RL)は、マルコフ決定過程(MDP)を用いて意思決定を数学的に定式化します。MDPを用いることで、研究者たちはゲーム、ロボティクス、言語モデルなど様々な分野で顕著な進展を遂げてきました。本論文では、従来のMDPを自然言語ベースの表現空間に拡張することで、新たな可能性である自然言語強化学習(NLRL)を探求します。具体的には、NLRLは、タスク目標、ポリシー、価値関数、ベルマン方程式、ポリシー反復など、RLの原則を言語に置き換える革新的な手法です。大規模言語モデル(LLM)の最近の進歩により、NLRLは、純粋なプロンプティングまたは勾配ベースのトレーニングによってRLに似たポリシーと価値の向上を実現するために実用的に実装できます。迷路、ブレイクスルー、三目並べのゲームを対象とした実験は、NLRLフレームワークの効果的で効率的であり、多様なユースケースにおいて解釈可能であることを示しています。当該コードは、https://github.com/waterhorse1/Natural-language-RL で公開されます。
既存のオープンソースのマルチモーダル大規模言語モデル(MLLMs)は、一般的に、事前トレーニングと教師ありファインチューニングを含むトレーニングプロセスに従います。しかしながら、これらのモデルは分布シフトに苦しんでおり、特にChain-of-Thought(CoT)のパフォーマンスにおいて、そのマルチモーダル推論能力が制限されています。これを解決するために、私たちはマルチモーダル推論能力を向上させるための好み最適化(PO)プロセスを導入します。具体的には、(1)データ側では、高品質で大規模なマルチモーダル推論好みデータセットであるMMPRを作成するための自動化された好みデータ構築パイプラインを設計し、(2)モデル側では、POをMLLMsと統合することを探求し、Mixed Preference Optimization(MPO)と呼ばれるシンプルかつ効果的な手法を開発し、マルチモーダルCoTパフォーマンスを向上させます。私たちのアプローチは、特にマルチモーダル推論タスクにおいて、複数のベンチマークで改善されたパフォーマンスを示しています。特に、当社のモデルであるInternVL2-8B-MPOは、MathVistaにおいて67.0の精度を達成し、InternVL2-8Bを8.7ポイント上回り、10倍大きなInternVL2-76Bと同等のパフォーマンスを達成しています。この研究がMLLMsにおけるさらなる進歩を促すことを願っています。コード、データ、モデルは公開されます。
現在、OpenAIのo1は大規模推論モデル(LRM)の研究に大きな関心を呼び起こしています。この勢いを活かし、Marco-o1は数学、物理学、およびコーディングなどの標準的な答えが存在する学問に焦点を当てるだけでなく、強化学習(RL)に適している分野にも注力しています。さらに、オープンエンドの解決策にも重点を置いています。私たちの目標は、「o1モデルが明確な基準がなく報酬を定量化するのが難しいような広範な領域に効果的に汎化できるか」という問いに取り組むことです。Marco-o1はChain-of-Thought(CoT)のファインチューニング、モンテカルロ木探索(MCTS)、反射メカニズム、革新的な推論戦略によって駆動されており、複雑な現実世界の問題解決タスクに最適化されています。
大規模ビジョンエンコーダの事前学習のための新しい手法を紹介します。 ビジョンモデルの自己回帰的事前学習の最近の進歩に基づき、このフレームワークを画像とテキストのような多様なモーダル設定に拡張します。本論文では、AIMV2という、直感的な事前学習プロセス、スケーラビリティ、および様々な下流タスクで優れたパフォーマンスを持つ汎用ビジョンエンコーダのファミリーを提案します。これは、ビジョンエンコーダを自己回帰的に生の画像パッチとテキストトークンを生成するマルチモーダルデコーダとペアにすることで達成されます。当社のエンコーダは、マルチモーダル評価だけでなく、位置特定、グラウンディング、および分類などのビジョンベンチマークでも優れた成績を収めています。特に、当社のAIMV2-3Bエンコーダは、凍結トランクを用いてImageNet-1kで89.5%の精度を達成しています。さらに、AIMV2は、さまざまな設定において、最先端のコントラスティブモデル(例:CLIP、SigLIP)を常に上回り、マルチモーダル画像理解において優れた性能を発揮しています。
私たちは、効率を向上させるためにトランスフォーマーの注意機構を状態空間モデル(SSM)と統合したハイブリッドヘッド並列アーキテクチャを特徴とする一連の小規模言語モデルであるHymbaを提案します。注意ヘッドは高解像度のリコールを提供し、一方でSSMヘッドは効率的なコンテキストの要約を可能にします。さらに、プロンプトに先行して重要な情報を格納し、注意機構に関連する「強制的な注意」の負担を軽減する学習可能なメタトークンを導入します。このモデルは、クロスレイヤーのキー・バリュー(KV)共有と部分的なスライディングウィンドウアテンションを組み込むことでさらに最適化され、コンパクトなキャッシュサイズを実現します。開発中に、異なるアーキテクチャを同一の設定で比較する制御された研究を実施し、提案されたアーキテクチャの著しい利点を観察しました。特に、Hymbaは小規模言語モデルにおいて最先端の結果を達成しています。Hymba-1.5B-Baseモデルは、すべての2B未満のパブリックモデルを凌駕し、Llama-3.2-3Bよりも平均精度が1.32%高く、キャッシュサイズが11.67倍、スループットが3.49倍向上しています。
科学の進歩は、研究者が増え続ける文献を統合する能力に依存しています。大規模言語モデル(LMs)は、科学者がこのタスクを支援することができるでしょうか?私たちは、OpenScholarという専門の検索拡張LMを紹介します。このモデルは、4500万のオープンアクセス論文から関連する箇所を特定し、引用に基づいた回答を合成することで科学的なクエリに回答します。OpenScholarを評価するために、文献検索のための初の大規模マルチドメインベンチマークであるScholarQABenchを開発しました。このベンチマークには、コンピュータサイエンス、物理学、神経科学、および生物医学の分野にわたる2967の専門家によるクエリと208の長文回答が含まれています。ScholarQABenchにおいて、OpenScholar-8Bは、GPT-4oよりも5%、PaperQA2よりも7%の正確さで優れています。GPT-4oは78〜90%の割合で引用を幻視しますが、OpenScholarは人間の専門家と同等の引用の正確さを達成しています。OpenScholarのデータストア、リトリーバー、および自己フィードバック推論ループは、オフザシェルフのLMを改善します。例えば、OpenScholar-GPT4oはGPT-4oの正確さを12%向上させます。人間の評価では、専門家はOpenScholar-8BおよびOpenScholar-GPT4oの回答を、GPT4oの32%に比べてそれぞれ51%および70%の割合で専門家による回答よりも好みました。私たちは、すべてのコード、モデル、データストア、データ、およびパブリックデモをオープンソース化しています。
大規模言語モデル(LLM)は、Chain-of-ThoughtプロンプティングからOpenAI o1のような製品レベルのソリューションに進化することで、推論をより多く行い、信頼性を高める能力を示しています。LLMの推論能力を向上させるためのさまざまな取り組みがあるものの、高品質な長い連鎖推論データや最適化されたトレーニングパイプラインは、ビジョン言語タスクにおいて依然として不十分に探究されています。本論文では、複雑なマルチモーダルタスク向けに長くて頑健な推論データを効率的に生成し、マルチモーダル大規模言語モデル(MLLM)の推論能力を向上させるための効果的なトレーニングパイプラインを提示するInsight-Vを紹介します。具体的には、人手を介さずに長く構造化された推論データを生成するための二段階パイプラインを設計し、十分に長く多様な推論パスを生成するためのプログレッシブ戦略と、データ品質を確保するための多粒度評価方法を組み込んでいます。このような長く複雑な推論データでMLLMを直接監督すると、理想的な推論能力が得られないことがわかりました。この問題に対処するため、長い連鎖推論を行う推論エージェントと、推論結果を判断および要約するために訓練された要約エージェントからなるマルチエージェントシステムを設計しました。さらに、推論エージェントの生成安定性と品質を向上させるために反復的DPOアルゴリズムを組み込んでいます。人気のLLaVA-NeXTモデルとより強力な基本MLLMに基づいて、視覚推論を必要とする厳しいマルチモーダルベンチマークで著しいパフォーマンス向上を実証しています。マルチエージェントシステムの恩恵を受けて、Insight-Vは知覚に焦点を当てたマルチモーダルタスクにおいても簡単にパフォーマンスを維持または向上させることができます。
Transformerモデルの性能は、そのパラメータ数と計算複雑さとの間に指数関係があることが広く認識されています。Mixture of Experts(MoE)のような手法は、パラメータ数と計算複雑さを分離するものの、高いメモリアクセスコストによる推論の課題に直面しています。本研究では、これらの制限に対処するために、大規模で超疎なメモリレイヤーを組み込んだUltraMemを導入しています。当社の手法は、モデルの性能を維持しつつ、推論のレイテンシーを大幅に低減します。また、この新しいアーキテクチャのスケーリング則を調査し、従来のモデルを凌駕するだけでなく、有利なスケーリング特性を示すことを実証しています。実験では、最大2000万のメモリスロットを持つネットワークを訓練しています。その結果、当社の手法が所与の計算予算内で最先端の推論速度とモデル性能を達成していることが示されています。
拡散モデルはコンテンツ合成と編集の分野を革新しました。最近のモデルでは、伝統的なUNetアーキテクチャをDiffusion Transformer(DiT)で置き換え、トレーニングとサンプリングの改善のためにフローマッチングを採用しています。しかし、これらのモデルは生成の多様性に制限があります。本研究では、この制限を活用して、注目特徴の選択的注入を通じて一貫した画像編集を行います。主な課題は、UNetベースのモデルとは異なり、DiTには粗から細の合成構造がないため、どのレイヤーで注入を行うかが不明確です。そのため、DiT内の画像形成に重要な「重要なレイヤー」を特定する自動方法を提案し、これらのレイヤーが非剛体変更からオブジェクト追加までの一連の制御された安定した編集を可能にする方法を示します。次に、実画像編集を可能にするために、フローモデル向けの改良された画像反転方法を導入します。最後に、質的および量的比較、ユーザースタディを通じてアプローチを評価し、複数のアプリケーションでの効果を示します。プロジェクトページはhttps://omriavrahami.com/stable-flowで入手可能です。
本論文では、IDEA Researchが開発した最高のオープンワールド物体検出性能を持つ統合されたオブジェクト中心のビジョンモデルであるDINO-Xを紹介します。DINO-Xは、Grounding DINO 1.5と同じTransformerベースのエンコーダーデコーダーアーキテクチャを採用し、オープンワールド物体理解のためのオブジェクトレベル表現を追求しています。長尾の物体検出を容易にするために、DINO-Xはテキストプロンプト、ビジュアルプロンプト、およびカスタマイズされたプロンプトをサポートする入力オプションを拡張しています。このような柔軟なプロンプトオプションを使用して、プロンプトなしのオープンワールド検出をサポートするための普遍的なオブジェクトプロンプトを開発し、ユーザーにプロンプトを提供することなく画像内の任意の物体を検出できるようにしています。モデルのコアグラウンディング能力を向上させるために、Grounding-100Mとして言及される1億以上の高品質なグラウンディングサンプルを持つ大規模データセットを構築し、モデルのオープンボキャブラリー検出性能を向上させています。このような大規模グラウンディングデータセットでの事前トレーニングにより、DINO-Xは複数の知覚ヘッドを統合して複数の物体知覚および理解タスク(検出、セグメンテーション、姿勢推定、オブジェクトキャプショニング、オブジェクトベースのQAなど)を同時にサポートする基本的なオブジェクトレベル表現を実現します。実験結果は、DINO-Xの優れた性能を示しています。具体的には、DINO-X Proモデルは、COCO、LVIS-minival、およびLVIS-valのゼロショット物体検出ベンチマークでそれぞれ56.0 AP、59.8 AP、52.4 APを達成しています。特に、LVIS-minivalおよびLVIS-valベンチマークのレアクラスで63.3 APおよび56.5 APを獲得し、いずれも以前のSOTA性能を5.8 AP向上させています。この結果は、長尾物体を認識する能力が大幅に向上していることを強調しています。
大規模言語モデルにおける幻覚は広範囲にわたる問題ですが、モデルが幻覚を起こすかどうかのメカニズムは十分に理解されておらず、この問題を解決する能力が制限されています。解釈性ツールとして疎なオートエンコーダを使用することで、これらのメカニズムの重要な部分がエンティティ認識であることを発見しました。モデルは、エンティティが自分が事実を思い出せるものであるかどうかを検出します。疎なオートエンコーダは表現空間で意味のある方向を明らかにし、これらはモデルがエンティティを認識しているかどうかを検出します。例えば、モデルが選手や映画について知識がないことを検出します。これは、モデルが自己認識を持つ可能性があることを示唆しています。これらの方向は因果関係があり、既知のエンティティに関する質問に回答を拒否したり、それ以外は拒否することなく未知のエンティティの属性を幻覚するようにモデルを誘導する能力があります。疎なオートエンコーダがベースモデルで訓練されているにもかかわらず、これらの方向がチャットモデルの回答拒否行動に因果関係を持っていることを実証し、チャットの微調整がこの既存のメカニズムを再利用していることを示唆しています。さらに、これらの方向がモデル内のメカニズム的役割に初めて探求し、通常エンティティ属性を最終トークンに移動させるダウンストリームヘッドの注意を乱すことがわかりました。
拡散モデルの急速な進化により、特に制御可能なビデオ生成においてビデオ合成の性能が大幅に向上し、自動運転などのアプリケーションにとって重要となっています。しかし、既存の手法はスケーラビリティや制御条件の統合方法に制約があり、自動運転アプリケーション向けの高解像度で長時間のビデオ生成ニーズを満たすことができません。本論文では、DiTアーキテクチャに基づく革新的な手法であるMagicDriveDiTを紹介し、これらの課題に取り組みます。当手法は、フローマッチングを通じてスケーラビリティを向上させ、複雑なシナリオを管理するために段階的なトレーニング戦略を採用しています。空間的・時間的条件付きエンコーディングを組み込むことで、MagicDriveDiTは空間的・時間的な潜在変数に対する正確な制御を実現しています。包括的な実験により、MagicDriveDiTは、より高解像度でより多くのフレームを持つリアルな街中のビデオを生成する性能が優れていることが示されています。MagicDriveDiTは、ビデオ生成の品質と空間的・時間的な制御を大幅に向上させ、自動運転におけるさまざまなタスクにおける潜在的な応用範囲を拡大しています。
既存のフィードフォワード画像から3Dへの手法は、主に3Dの一貫性を保証できない2Dマルチビュー拡散モデルに依存しています。これらの手法は、プロンプトビューの方向を変更すると簡単に崩壊し、主にオブジェクト中心のプロンプト画像を処理します。本論文では、単一ステージの新しい3D拡散モデルであるDiffusionGSを提案し、単一ビューからのオブジェクトとシーン生成を行います。DiffusionGSは、各タイムステップで3Dガウス点群を直接出力し、ビューの一貫性を強化し、オブジェクト中心の入力を超えて、任意の方向のプロンプトビューを与えられた場合にロバストに生成することができます。さらに、DiffusionGSの能力と汎化能力を向上させるために、シーン-オブジェクト混合トレーニング戦略を開発して3Dトレーニングデータを拡大します。実験結果は、当社の手法がより優れた生成品質(PSNRで2.20 dB高、FIDで23.25低)を提供し、SOTA手法よりも5倍以上高速(A100 GPU上で約6秒)であることを示しています。ユーザースタディとテキストから3Dへの応用も、当社の手法の実用的な価値を明らかにしています。プロジェクトページhttps://caiyuanhao1998.github.io/project/DiffusionGS/には、ビデオとインタラクティブな生成結果が表示されています。
低リソース言語において、大規模言語モデル(LLMs)は訓練データの制約から性能が低下します。私たちは、Common Crawlコーパス全体から低リソース言語のテキストデータを効率的に収集する方法を提案します。UnifiedCrawlというアプローチは、最小限の計算リソースを使用してCommon Crawlをフィルタリングし抽出し、これまでの利用可能なソースよりもはるかに大きな単言語データセットを生成します。私たちは、このデータを活用して、効率的なアダプター手法(QLoRA)を用いて多言語LLMsを微調整することで、低リソース言語における性能を大幅に向上させ、VRAMの使用量を最小限に抑えることを示します。実験では、言語モデリングの困難さ(perplexity)における大幅な改善と、フューショット・プロンプトスコアの増加が示されました。私たちの研究と公開されたソースコードは、消費者向けハードウェアを使用して低リソース言語のLLMsを改善する手頃な方法を提供します。私たちのソースコードはこちらで入手可能です:https://github.com/bethelmelesse/unifiedcrawl.
最近の大規模言語モデルの分野における進展は、特にChain of Thought(CoT)アプローチを通じて、複雑な問題の解決において著しい改善が示されています。しかしながら、既存のモデルは、ユーザーの好みによる簡潔さのために詳細な推論を犠牲にする傾向があるか、複雑な推論能力を学習するために広範囲かつ高額なトレーニングデータが必要とされるため、複雑なタスクの解決においてその潜在能力が制限されています。このギャップを埋めるために、テスト時のスケーリング概念に従い、新しい知識やスキルを導入する必要なく、モデルがより忍耐強い推論スタイルを採用するよう促す簡単な方法を提案します。好みの最適化アプローチを採用するために、詳細な推論プロセスを正例とし、簡単な回答を負例として生成し、モデルが回答において徹底性を重視するようトレーニングします。当社の結果は、軽量なデータセットでのトレーニングにより、GSM8kにおいて最大6.7%の性能向上を示しています。