翻訳付きの日次キュレーションされたAI研究論文
私たちは、汎用的なマルチモーダル理解と推論を進化させるために設計されたビジョン言語基盤モデル「Seed1.5-VL」を紹介します。Seed1.5-VLは、5億3200万パラメータのビジョンエンコーダと、200億のアクティブパラメータを持つMixture-of-Experts(MoE)LLMで構成されています。比較的コンパクトなアーキテクチャにもかかわらず、公開されているVLMベンチマークや内部評価スイートの広範な範囲で強力な性能を発揮し、60の公開ベンチマークのうち38で最先端の性能を達成しています。さらに、GUI制御やゲームプレイなどのエージェント中心のタスクでは、OpenAI CUAやClaude 3.7を含む主要なマルチモーダルシステムを凌駕しています。視覚やビデオの理解を超えて、視覚パズルなどのマルチモーダル推論課題においても強力な推論能力を示し、多様なタスクにわたる広範なアプリケーションを可能にすると考えています。本レポートでは、主にモデル設計、データ構築、各段階でのトレーニングを通じてSeed1.5-VLを構築した経験を包括的にレビューし、今後の研究にインスピレーションを与えることを期待しています。Seed1.5-VLは現在、https://www.volcengine.com/(Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428)でアクセス可能です。
私たちは、推論タスクのために設計された大規模言語モデルMiMo-7Bを紹介します。このモデルは、事前学習と事後学習の両段階で最適化されています。事前学習段階では、データ前処理パイプラインを強化し、3段階のデータ混合戦略を採用することで、ベースモデルの推論能力を高めています。MiMo-7B-Baseは25兆トークンで事前学習され、追加のマルチトークン予測目標を用いて性能を向上させ、推論速度を加速させています。事後学習段階では、13万件の検証可能な数学およびプログラミング問題のデータセットをキュレーションし、テスト難易度に基づくコード報酬スキームを統合してスパース報酬問題を緩和し、戦略的なデータリサンプリングを用いて学習を安定化させています。広範な評価により、MiMo-7B-Baseは卓越した推論能力を持ち、32Bモデルを凌ぐ性能を示すことが確認されました。最終的なRLチューニングモデルであるMiMo-7B-RLは、数学、コード、および一般的な推論タスクにおいて優れた性能を発揮し、OpenAI o1-miniを上回る結果を達成しました。モデルのチェックポイントはhttps://github.com/xiaomimimo/MiMoで公開されています。
生成人工知能はテキスト、画像、音声、ビデオの領域で大きな進歩を遂げてきたが、3D生成はデータの不足、アルゴリズムの制限、エコシステムの分断といった根本的な課題により、比較的未発展な状態にある。これに対処するため、我々はStep1X-3Dを提案する。これは以下の要素を通じてこれらの課題に取り組むオープンフレームワークである:(1) 500万以上のアセットを処理し、標準化された幾何学的およびテクスチャ特性を持つ200万の高品質データセットを作成する厳密なデータキュレーションパイプライン、(2) ハイブリッドVAE-DiTジオメトリ生成器と拡散ベースのテクスチャ合成モジュールを組み合わせた2段階の3Dネイティブアーキテクチャ、(3) モデル、トレーニングコード、および適応モジュールの完全なオープンソースリリース。ジオメトリ生成において、ハイブリッドVAE-DiTコンポーネントは、詳細を保持するための鋭いエッジサンプリングを伴うパーシバーベースの潜在符号化を用いてTSDF表現を生成する。拡散ベースのテクスチャ合成モジュールは、幾何学的条件付けと潜在空間の同期を通じて、ビュー間の一貫性を確保する。ベンチマーク結果は、既存のオープンソース手法を上回る最先端の性能を示し、プロプライエタリなソリューションと競争力のある品質を達成している。特に、このフレームワークは、2D制御技術(例:LoRA)を3D合成に直接転送することをサポートすることで、2Dと3D生成のパラダイムを独自に橋渡しする。データ品質、アルゴリズムの忠実度、再現性を同時に向上させることで、Step1X-3Dは制御可能な3Dアセット生成におけるオープンリサーチの新たな基準を確立することを目指している。
大規模推論モデル(LRM)は、推論経路でミスを犯した場合でも自己修正する能力を持っています。しかし、本研究では、推論プロセスが短いが質の低い始まり方をした場合、モデルが回復することが困難になることを明らかにしました。我々はこの現象を「プレフィックス支配の罠」と呼びます。心理学的研究から、ピアとの相互作用が既に正確な個人に悪影響を与えることなく自己修正を促進できるという知見に着想を得て、この現象に対処するために**ピアからの学習**(LeaP)を提案します。具体的には、各トークンごとに、各推論経路が中間推論を要約し、ルーティングメカニズムを通じて他の経路と共有することで、推論中にピアの洞察を取り入れることを可能にします。しかし、小規模なモデルでは、要約と反省の指示を効果的に実行できない場合があることが観察されました。これを解決するため、我々はそれらを**LeaP-T**モデルシリーズにファインチューニングしました。AIME 2024、AIME 2025、AIMO 2025、およびGPQA Diamondでの実験により、LeaPが大幅な改善をもたらすことが示されました。例えば、LeaPを適用したQwQ-32Bは、ベースラインよりも平均で約5ポイント高く、3つの数学ベンチマークでDeepSeek-R1-671Bを平均3.3ポイント上回りました。特に、ファインチューニングしたLeaP-T-7Bは、AIME 2024においてDeepSeek-R1-Distill-Qwen-14Bの性能に匹敵しました。詳細な分析により、LeaPがタイムリーなピアの洞察による堅牢なエラー修正を示し、強いエラー耐性と多様なタスク難易度の処理能力を持つことが明らかになりました。LeaPは、LRMが推論中に協力することを可能にするマイルストーンを記録しました。我々のコード、データセット、およびモデルはhttps://learning-from-peers.github.io/で公開されています。
連続生成モデルにおける最近の進展、特に拡散モデルやフローマッチングといった多段階アプローチ(通常8-1000サンプリングステップを要する)や、一貫性モデルなどの少段階手法(通常1-8ステップ)は、印象的な生成性能を示しています。しかし、既存の研究ではこれらのアプローチを異なるパラダイムとして扱い、別々の学習とサンプリング手法を採用する傾向があります。本研究では、これらのモデルを統一的に学習、サンプリング、分析するためのフレームワークを提案します。私たちの実装であるUnified Continuous Generative Models Trainer and Sampler(UCGM-{T,S})は、最先端(SOTA)の性能を達成しています。例えば、ImageNet 256x256において675Mパラメータの拡散トランスフォーマーを使用した場合、UCGM-Tは多段階モデルを20ステップで1.30 FID、少段階モデルをわずか2ステップで1.42 FIDに到達させます。さらに、UCGM-Sを事前学習済みモデル(従来250ステップで1.26 FID)に適用すると、わずか40ステップで1.06 FIDに性能が向上します。コードは以下で公開されています: https://github.com/LINs-lab/UCGM。
命令ベースの大規模言語モデル(LLM)は、数ショットまたはゼロショットの自然言語処理(NLP)タスクにおいて効果的であることが証明されています。しかし、人間による注釈付き命令データの作成は時間がかかり、費用がかさむ上に、量とタスクの多様性が限られることが多いです。これまでの研究では、モデル自体から半自動的かつタスクに依存しない方法で命令を生成するフレームワークを提案することで、この課題に対処しようとしてきました。これらの取り組みの多くは、GPT-3.5(175B)のような大規模なAPI専用パラメータベースのモデルに依存しており、これらは高価で、クエリ数に制限があります。本論文では、LLaMA 2-7B、LLaMA 2-13B、Mistral 7Bといった3つのオープンソースの小型LLMの性能を、半自動フレームワークを使用して検証し、LLMのファインチューニング用の命令データセットを生成するために必要な人間の介入、労力、コストを削減します。さらに、このLLMベースのフレームワークに強化学習(RL)ベースのトレーニングアルゴリズムを組み込むことで、さらなる改善がもたらされることを示します。データセットの評価結果から、これらのRLベースのフレームワークは、従来のアプローチと比較して63~66%のタスクで大幅な改善を達成することが明らかになりました。
近年の生成モデル、特に拡散モデルと整流フローにおける画期的な進展は、視覚コンテンツの作成に革命をもたらしましたが、モデルの出力を人間の好みに合わせることは依然として重要な課題です。既存の強化学習(RL)ベースの視覚生成手法は、現代の常微分方程式(ODE)ベースのサンプリングパラダイムとの非互換性、大規模トレーニングにおける不安定性、ビデオ生成の検証の欠如といった重大な制限に直面しています。本論文では、DanceGRPOを紹介します。これは、Group Relative Policy Optimization(GRPO)を視覚生成パラダイムに適応させる初の統一フレームワークであり、2つの生成パラダイム(拡散モデルと整流フロー)、3つのタスク(テキストから画像、テキストからビデオ、画像からビデオ)、4つの基盤モデル(Stable Diffusion、HunyuanVideo、FLUX、SkyReel-I2V)、および5つの報酬モデル(画像/ビデオの美学、テキストと画像の整合性、ビデオの動きの品質、二値報酬)にわたって一つの統一されたRLアルゴリズムを解放します。私たちの知る限り、DanceGRPOは、多様な生成パラダイム、タスク、基盤モデル、報酬モデルにわたってシームレスに適応可能な初のRLベースの統一フレームワークです。DanceGRPOは、HPS-v2.1、CLIP Score、VideoAlign、GenEvalなどのベンチマークにおいて、ベースラインを最大181%上回る一貫した大幅な改善を示しています。特に、DanceGRPOは、複雑なビデオ生成のためのポリシー最適化を安定化させるだけでなく、生成ポリシーがノイズ除去軌跡をより良く捉えてBest-of-N推論スケーリングを行い、疎な二値フィードバックから学習することを可能にします。私たちの結果は、DanceGRPOが視覚生成における人間のフィードバックからの強化学習(RLHF)タスクをスケーリングするための堅牢で汎用的なソリューションであることを確立し、強化学習と視覚合成の調和に関する新たな洞察を提供します。コードは公開される予定です。
我々は、マルチモーダル理解と推論タスクの両方に対して報酬信号を提供するマルチモーダル報酬モデル「Skywork-VL Reward」を提案する。技術的アプローチは2つの主要なコンポーネントから構成される。第一に、幅広いタスクとシナリオをカバーする大規模なマルチモーダル選好データセットを構築し、標準的な視覚言語モデル(VLM)と高度なVLM推論モデルからの応答を収集した。第二に、Qwen2.5-VL-7B-Instructを基盤とした報酬モデルアーキテクチャを設計し、報酬ヘッドを統合し、ペアワイズ選好データに対してペアワイズランキング損失を用いた多段階のファインチューニングを適用した。実験的評価により、Skywork-VL RewardはマルチモーダルVL-RewardBenchにおいて最先端の結果を達成し、テキストのみのRewardBenchベンチマークでも競争力のある性能を示すことが確認された。さらに、Skywork-VL Rewardに基づいて構築された選好データは、Mixed Preference Optimization(MPO)のトレーニングに極めて有効であり、マルチモーダル推論能力の大幅な向上をもたらすことが示された。我々の結果は、Skywork-VL Rewardがマルチモーダルアラインメントのための汎用的で信頼性の高い報酬モデルに向けた重要な進展であることを強調する。透明性と再現性を促進するため、本モデルは公開されている。
近年、大規模言語モデル(LLM)の複雑な推論能力を向上させるため、推論集約的な事前学習データを収集することへの関心が高まっています。従来のアプローチでは、そのようなデータを識別するために教師あり分類器を利用することが一般的でしたが、これには人間やLLMによるラベリングが必要であり、しばしばドメイン固有のバイアスが導入される問題がありました。コンテキスト内推論においてアテンションヘッドが重要であることに着目し、我々はAttentionInfluenceという、シンプルでありながら効果的で、教師信号を必要としない手法を提案します。このアプローチでは、小さな事前学習済み言語モデルが、単純なアテンションヘッドのマスキング操作を通じて強力なデータセレクターとして機能します。具体的には、検索ヘッドを特定し、これらのヘッドをマスキングした際の損失差を計算します。AttentionInfluenceを1.3Bパラメータの密なモデルに適用し、241BトークンからなるSmolLMコーパスに対してデータ選択を行い、SmolLMコーパスと73Bトークンからなる選択されたサブセットを混合して、1Tの学習トークンとWSD学習率スケジューリングを使用して7Bパラメータの密なモデルを事前学習しました。実験結果は、いくつかの知識集約型および推論重視のベンチマーク(MMLU、MMLU-Pro、AGIEval-en、GSM8K、HumanEval)において、1.4ppから3.5ppの大幅な改善を示しています。これは、小さなモデルが大きなモデルの最終的な性能を向上させるという、弱いモデルから強いモデルへの効果的なスケーリング特性を示しており、推論中心のデータ選択に向けた有望でスケーラブルな道筋を提供しています。
継続的事前学習(Continual Pre-Training, CPT)は、強力な基盤モデルを特定の下流タスクに適用するための人気かつ効果的な手法となっています。本研究では、大規模言語モデルにおけるCPTプロセス全体を通じた学習ダイナミクスを探求します。具体的には、各訓練ステップにおいて一般的な性能と下流ドメインの性能がどのように進化するかに焦点を当て、ドメイン性能は検証損失を通じて測定します。我々は、CPTの損失曲線が本質的に一つの曲線から別の隠れた曲線への遷移を特徴づけ、分布シフトと学習率アニーリングの効果を分離することで記述可能であることを観察しました。我々は、これら2つの要因を組み合わせたCPTスケーリング則を導出し、任意の(継続的な)訓練ステップおよびCPTにおける学習率スケジュール(LRS)全体での損失を予測可能にします。本定式化は、損失ポテンシャル、ピーク学習率、訓練ステップ、リプレイ比率など、CPTにおけるいくつかの重要な要因を包括的に理解することを提示します。さらに、本アプローチは、一般的な性能とドメイン固有の性能のバランスを取るなど、異なるCPT目標に応じて訓練ハイパーパラメータをカスタマイズするために適応可能です。大規模な実験により、本スケーリング則が様々なCPTデータセットおよび訓練ハイパーパラメータにわたって成立することが実証されています。
LLMベースのエージェントは、複雑なコードベース内でのコード生成と管理において大きな可能性を示しています。本論文では、LLMベースのエージェントがゼロからマルチファイルのウェブサイトコードベースを作成する能力を測定するための新しいベンチマーク、WebGen-Benchを紹介します。このベンチマークは、人間のアノテーターとGPT-4oの共同作業によって作成された、ウェブサイト生成のための多様な指示を含んでいます。これらの指示は、3つの主要カテゴリと13のサブカテゴリにまたがり、ほぼすべての重要なタイプのウェブアプリケーションを網羅しています。生成されたウェブサイトの品質を評価するために、GPT-4oを使用して指示に記載された各機能を対象としたテストケースを生成し、その後、正確性を確保するために手動でフィルタリング、調整、整理を行い、647のテストケースを作成しました。各テストケースは、ウェブサイト上で実行される操作と、その操作後の期待される結果を指定しています。テストの自動化と再現性の向上のために、強力なウェブナビゲーションエージェントを使用して生成されたウェブサイト上でテストを実行し、観察された応答が期待される結果と一致するかどうかを判断します。私たちは、Bolt.diy、OpenHands、Aiderという3つの高性能コードエージェントフレームワークを、複数のプロプライエタリおよびオープンソースのLLMをエンジンとして使用して評価しました。最高のパフォーマンスを示した組み合わせである、DeepSeek-R1を搭載したBolt.diyは、テストケースにおいてわずか27.8%の精度しか達成できず、私たちのベンチマークの難易度の高さを浮き彫りにしました。さらに、6,667のウェブサイト生成指示からなるトレーニングセット、WebGen-Instructを構築しました。このトレーニングセットの一部から生成されたBolt.diyの軌跡を使用してQwen2.5-Coder-32B-Instructをトレーニングした結果、38.2%の精度を達成し、最高のプロプライエタリモデルの性能を上回りました。
従来の知見では、自己回帰モデルは離散データを処理するために使用されると考えられてきました。視覚データのような連続的なモダリティに適用する場合、Visual AutoRegressive modeling (VAR) は通常、データを離散空間に変換するために量子化ベースのアプローチを採用しますが、これにより重大な情報損失が生じる可能性があります。この問題に対処するため、我々はベクトル量子化を必要とせずに直接的な視覚的自己回帰生成を可能にするContinuous VARフレームワークを提案します。その理論的基盤は、厳密に適切なスコアリングルールであり、生成モデルが真の分布をどれだけよく近似しているかを評価するための強力な統計ツールを提供します。このフレームワーク内では、厳密に適切なスコアを選択し、それを最適化するための訓練目標として設定するだけで十分です。我々は主に、エネルギースコアに基づく一連の訓練目標を探求します。これは尤度を必要としないため、連続空間での確率的予測の難しさを克服します。GIVTや拡散損失のような、連続的自己回帰生成に関する以前の取り組みも、他の厳密に適切なスコアを使用して我々のフレームワークから導出することができます。ソースコード: https://github.com/shaochenze/EAR。
私たちは、320億パラメータの言語モデルにおける初のグローバル分散型強化学習(RL)トレーニングであるINTELLECT-2を紹介します。従来の集中型トレーニングとは異なり、INTELLECT-2は、動的で異種混合のパーミッションレスな計算リソース提供者の群衆を活用し、完全に非同期なRLを用いて推論モデルをトレーニングします。 このユニークなインフラストラクチャでのトレーニングを可能にするため、私たちはさまざまなコンポーネントを一から構築しました。分散非同期強化学習のために特別に設計されたトレーニングフレームワークであるPRIME-RLを導入し、信頼できない推論ワーカーからのロールアウトを検証するTOPLOCや、トレーニングノードから推論ワーカーへ効率的にポリシーの重みをブロードキャストするSHARDCASTといった新規コンポーネントを基盤としています。 インフラストラクチャコンポーネントに加えて、標準的なGRPOトレーニングレシピとデータフィルタリング技術に修正を加え、トレーニングの安定性を確保し、モデルがトレーニング目標を成功裏に学習することを可能にしました。これにより、320億パラメータ範囲における最先端の推論モデルであるQwQ-32Bを改善しました。 私たちは、INTELLECT-2とすべてのコードおよびデータをオープンソースとして公開し、分散型トレーニングの分野におけるさらなるオープンな研究を促進し、可能にすることを期待しています。
レタッチは、生写真の後処理における重要な作業です。テキストやストロークに基づく生成的編集は、ユーザーにとってアクセスしやすい新しいツールを提供しますが、元のオブジェクトのアイデンティティを許容できない予測不可能な方法で容易に変更してしまう可能性があります。一方で、フォト編集ツール(例:Gimp、Lightroom)で一般的にサポートされている従来の手続き的編集は保守的ですが、プロフェッショナルによって依然として好まれています。残念ながら、プロフェッショナル品質のレタッチには、多くの個別の手続き的編集操作が含まれており、ほとんどの初心者にとって計画することが困難です。本論文では、マルチモーダル大規模言語モデル(MLLM)が生写真を批評し、適切な修正を提案し、最終的に事前に作成された一連の手続き的画像操作を実現するように教えることができるかどうかを問います。MLLMがまず、特別に設計された視覚パズルを解くように訓練することで、基礎となる画像処理操作を認識できることを示します。その後、そのような操作を認識したMLLMは、編集シーケンスを計画し提案することができます。訓練を容易にするために、専門家によって編集された写真のセットが与えられた場合、専門家の編集を手続き的に操作し、事前訓練されたLLMを視覚的調整に基づいて根拠付けし、微調整のための推論を合成します。提案されたレタッチ操作は、構成的にユーザーが理解可能であり、オブジェクトの詳細と解像度を保持し、オプションで上書きすることができます。我々は、さまざまなテスト例でセットアップを評価し、説明可能性とアイデンティティの保持の点で、既存の生成的および他の手続き的代替手段に対する利点を示します。コード、データ、モデル、および補足結果は、プロジェクトウェブサイトhttps://monetgpt.github.ioで見つけることができます。
検索拡張生成(RAG)は、大規模言語モデル(LLM)における幻覚を減らすための一般的な戦略です。強化学習(RL)を用いることで、LLMに検索機能を活性化させ、検索エージェントとして動作させることが可能ですが、既存の手法では内部知識を十分に活用していないことが多いです。これにより、冗長な検索、潜在的な有害な知識の衝突、および推論遅延の増加が生じる可能性があります。これらの制限に対処するため、最適な検索タイミングを見極め、パラメトリック(内部)知識と検索された(外部)知識を相乗的に統合できる効率的で適応的な検索エージェントが緊急に必要とされています。本論文では、内部-外部知識相乗推論エージェント(IKEA)を紹介します。IKEAは自身の知識境界を識別し、内部知識の利用を優先し、内部知識が不十分と判断された場合にのみ外部検索に頼ることができます。これは、新しい知識境界を意識した報酬関数と、知識境界を意識したトレーニングデータセットを使用して実現されます。これらは、内部-外部知識の相乗を指向したRLのために設計されており、モデルに正確な回答を提供させ、不要な検索を最小限に抑え、自身の知識が不足している場合に適切な外部検索を促します。複数の知識推論タスクにわたる評価により、IKEAがベースライン手法を大幅に上回り、検索頻度を大幅に削減し、堅牢な汎化能力を示すことが実証されています。
本ポジションペーパーでは、生成AIにおける実証評価が危機的状況にあることを指摘します。従来の機械学習の評価とベンチマーク戦略は、現代の生成AIモデルやシステムを評価するニーズを満たすには不十分です。その理由は多岐にわたりますが、これらのモデルは通常、ほぼ無制限の入力空間と出力空間を持ち、明確に定義された正解ターゲットが存在せず、また、以前のモデル出力の文脈に基づいて強いフィードバックループと予測依存性を示すことが挙げられます。これらの重要な問題に加えて、我々は、生成AI評価において最も重要かつ困難な課題は、{\em リーク}と{\em 汚染}の問題であると主張します。興味深いことに、AIコンペティションの分野では、競技設定内での悪意ある行為による不正を防ぐために、リークに対抗する効果的な対策と実践が開発されています。これにより、AIコンペティションは特に貴重な(しかし未活用の)リソースとなっています。今こそ、生成AI評価における実証的厳密性のゴールドスタンダードとしてAIコンペティションを位置づけ、その結果を適切な価値を持って活用し、収穫する時です。
スパースなMixture of Experts(MoE)アーキテクチャは、Transformerモデルのスケーリングにおいて有望なアプローチとして登場した。初期の研究では主にフィードフォワードネットワーク(FFN)層にMoEを組み込んでいたが、最近の研究ではモデルの性能向上を目指し、MoEパラダイムをアテンション層に拡張することが検討されている。しかし、既存のアテンションベースのMoE層は専用の実装を必要とし、FFNベースのMoE層と比較して最適な性能を発揮していない。本論文では、アテンションメカニズムの新たな再定式化を導入し、アテンションモジュール内に潜在するFFNに類似した構造を明らかにすることで、アテンション層とFFN層におけるMoE設計を統一することを目指す。提案するアーキテクチャであるUMoEは、アテンションベースのMoE層を通じて優れた性能を達成しつつ、FFNとアテンションコンポーネント間の効率的なパラメータ共有を可能にする。
検索拡張生成(RAG)システムは、大規模言語モデル(LLM)と外部知識検索を組み合わせることで、知識集約型タスクにおいて非常に効果的です。これらのシステムにおいて重要なものの、しばしば十分に検討されていないコンポーネントがリランカーであり、これは検索された文書を洗練させて生成品質と説明可能性を向上させます。最適な文書数(k)を選択するという課題は未解決のままです:少なすぎると重要な情報が欠落し、多すぎるとノイズや非効率性が生じます。最近の研究ではLLMベースのリランカーが探求されていますが、それらは主にモデルの内部知識を活用し、LLMが提供できる豊富な監督信号(例えば、応答品質をリランキング決定の最適化のためのフィードバックとして使用するなど)を見落としています。本論文では、リランカーがクエリに基づいて検索された文書の順序と数を動的に調整する新しいRAGフレームワークであるDynamicRAGを提案します。我々はリランカーを強化学習(RL)を通じて最適化されたエージェントとしてモデル化し、LLMの出力品質から得られる報酬を使用します。7つの知識集約型データセットにおいて、DynamicRAGは優れた性能を示し、最先端の結果を達成しています。モデル、データ、コードはhttps://github.com/GasolSun36/DynamicRAGで公開されています。
LlamaPIEを紹介する。これは、ヒアラブルデバイスを通じて控えめかつ簡潔なガイダンスを提供し、人間の会話を向上させる初のリアルタイムプロアクティブアシスタントである。従来の言語モデルとは異なり、明示的なユーザーの呼び出しを必要とせず、会話を中断することなくユーザーのニーズを予測してバックグラウンドで動作する。本アシスタントは、いつ応答するかを決定すること、会話を向上させる簡潔な応答を作成すること、ユーザーの知識を活用して文脈を考慮した支援を行うこと、そしてリアルタイムのオンデバイス処理といったいくつかの課題に対処する。これを実現するため、半合成の対話データセットを構築し、応答のタイミングを決定する小型モデルと、応答を生成する大型モデルからなる二段階のパイプラインを提案する。実世界のデータセットを用いて本手法を評価し、有用で邪魔にならない支援を提供する効果を実証する。Apple Silicon M2ハードウェア上に実装した本アシスタントを用いたユーザー調査では、支援なしのベースラインやリアクティブモデルと比較して、プロアクティブアシスタントに対する強い選好が示され、LlamaPIEがライブ会話を向上させる可能性が強調された。
視覚運動ポリシー学習は、ロボット操作において大きな進展を遂げており、最近のアプローチでは主に生成モデルを活用して行動分布をモデル化している。しかし、これらの手法はしばしば視覚知覚と行動予測の間の重要な結合を見落としている。本研究では、Triply-Hierarchical Diffusion Policy(H^{\mathbf{3}DP)を提案する。これは、視覚的特徴と行動生成の統合を強化するために階層構造を明示的に取り入れた新しい視覚運動学習フレームワークである。H^{3}DPは3つの階層レベルを含む:(1)深度情報に基づいてRGB-D観測を整理する深度認識入力層、(2)様々な粒度レベルで意味的特徴をエンコードするマルチスケール視覚表現、(3)粗から細かい行動の生成を対応する視覚的特徴と整合させる階層的条件付き拡散プロセス。広範な実験により、H^{3}DPは44のシミュレーションタスクにおいてベースラインに対して平均+27.5%の相対的改善をもたらし、4つの挑戦的な両手現実世界操作タスクで優れた性能を達成することが示された。プロジェクトページ:https://lyy-iiis.github.io/h3dp/。
最近のLLM(大規模言語モデル)のトレンドとして、長文脈処理の効率性を向上させる再帰的サブクアドラティックモデルの開発が進められている。本研究では、主要な大規模長文脈モデルを調査し、それらの固定サイズの再帰的メモリが性能にどのような影響を与えるかに焦点を当てた。実験の結果、これらのモデルが長文脈に対して訓練されていたとしても、長文脈の活用が十分に行われていないことが明らかとなった。具体的には、入力の最も関連性の高い部分のみを特定して処理するチャンクベースの推論手順が、再帰的メモリの失敗を軽減し、多くの長文脈タスクにおいて有効であることを示した。LongBenchにおいて、本手法はFalcon3-Mamba-Inst-7Bの全体性能を14%、Falcon-Mamba-Inst-7Bを28%、RecurrentGemma-IT-9Bを50%、RWKV6-Finch-7Bを51%向上させた。驚くべきことに、このシンプルなアプローチは、挑戦的なLongBench v2ベンチマークにおいても最先端の結果をもたらし、同等サイズのTransformerモデルと競合する性能を示した。さらに、本研究の結果は、再帰的モデルが真に長距離依存性を活用しているかどうかについて疑問を投げかけるものである。なぜなら、単一チャンク戦略が、文脈間の関係を必要とするとされるタスクにおいても、より強い性能を発揮したからである。
大規模言語モデル(LLMs)が文書ベースのタスク(文書要約、質問応答、情報抽出など)にますます適用される中、ユーザーの要件はモデルのパラメトリックな知識に依存するのではなく、提供された文書から情報を取得することに焦点が当てられています。そのため、これらのシステムの信頼性と解釈可能性を確保することが重要な課題となっています。この課題に対処するための中心的なアプローチは、生成された出力をそのソース文書に遡って追跡する「帰属(attribution)」です。しかし、LLMsが不正確または不正確な応答を生成する可能性があるため、これらの引用の信頼性を評価することが重要です。 この問題に対処するため、私たちの研究では2つの手法を提案します。(1) 帰属を単純なテキスト含意タスクとしてフレーム化するゼロショットアプローチです。flan-ul2を使用した私たちの手法は、AttributionBenchのIDセットとOODセットにおいて、それぞれ最良のベースラインを0.27%と2.4%上回りました。(2) また、帰属プロセスを強化するためのアテンションメカニズムの役割を探ります。より小さいLLMであるflan-t5-smallを使用すると、第4層および第8層から第11層を除くほぼすべての層でF1スコアがベースラインを上回りました。
深層学習モデルは気象予測において顕著な可能性を示しているものの、その多くは基礎となる気象進化の物理学または地球表面のトポロジーのいずれかを無視しています。これらの欠点を踏まえ、我々は気象予測のための新しい物理支援型かつトポロジー情報を組み込んだ深層学習モデルであるPASSATを開発しました。PASSATは気象進化を2つの主要な要因に帰着させます:(i)移流方程式とナビエ-ストークス方程式によって特徴付けられる移流プロセス、(ii)モデル化と計算が困難な地球-大気相互作用。PASSATはまた、地球表面を単なる平面として扱うのではなく、そのトポロジーを考慮に入れます。これらの考慮事項に基づき、PASSATは球面多様体上で移流方程式とナビエ-ストークス方程式を数値的に解き、球面グラフニューラルネットワークを用いて地球-大気相互作用を捉え、同じ球面グラフニューラルネットワークから移流方程式を解くために重要な初期速度場を生成します。5.625度解像度のERA5データセットにおいて、PASSATは最先端の深層学習ベースの気象予測モデルおよび運用中の数値気象予測モデルIFS T42を上回る性能を示しました。コードとチェックポイントはhttps://github.com/Yumenomae/PASSAT_5p625で公開されています。
複数の、しばしば相反する機能的・生物物理学的基準を満たす生物学的配列の設計は、生体分子工学における中心的な課題であり続けています。離散フローマッチングモデルは最近、高次元配列空間における効率的なサンプリングにおいて有望視されていますが、既存のアプローチは単一の目的にしか対応していないか、離散分布を歪める可能性のある連続的な埋め込みを必要とします。本論文では、Multi-Objective-Guided Discrete Flow Matching (MOG-DFM)を提案します。これは、任意の事前学習済み離散時間フローマッチング生成器を、複数のスカラー目的関数間のパレート効率的なトレードオフに向けて導くための一般的なフレームワークです。各サンプリングステップにおいて、MOG-DFMは候補遷移に対するハイブリッドランク・方向性スコアを計算し、適応型ハイパーコーンフィルタを適用して一貫した多目的進行を強制します。また、MOG-DFMの基盤生成モデルとして、多様なペプチド生成のためのPepDFMと、機能的なエンハンサーDNA生成のためのEnhancerDFMという2つの無条件離散フローマッチングモデルを学習しました。MOG-DFMの有効性を、5つの特性(溶血性、非汚染性、溶解性、半減期、結合親和性)を最適化したペプチドバインダーの生成、および特定のエンハンサークラスとDNA形状を持つDNA配列の設計において実証します。全体として、MOG-DFMは多特性ガイド型生体分子配列設計の強力なツールであることが証明されました。