翻訳付きの日次キュレーションされたAI研究論文
多エージェント強化学習(MARL)は、さまざまな環境で協力的および競争的な多エージェント問題を解決する上で著しい進歩を示しています。MARLにおける主要な課題の1つは、協力を実現するためにエージェントの振る舞いを明示的に予測する必要があることです。この問題を解決するために、私たちはShared Recurrent Memory Transformer(SRMT)を提案します。SRMTは、メモリトランスフォーマーを拡張し、個々の作業メモリをプールし、グローバルにブロードキャストすることで、エージェントが情報を暗黙的に交換し、行動を調整できるようにします。私たちは、SRMTを部分観測多エージェント経路探索問題のおもちゃのボトルネックナビゲーションタスクとPOGEMAベンチマークタスクセットで評価します。ボトルネックタスクでは、SRMTは一貫してさまざまな強化学習ベースラインを上回り、特に希少な報酬の下で効果的に汎化し、トレーニング中に見られる以上の長い回廊にも適用できます。迷路、ランダム、MovingAIなどのPOGEMAマップでは、SRMTは最近のMARL、ハイブリッド、および計画ベースのアルゴリズムと競争力を持っています。これらの結果から、共有リカレントメモリをトランスフォーマーベースのアーキテクチャに組み込むことが、分散型多エージェントシステムにおける調整を向上させることが示唆されます。トレーニングと評価のためのソースコードはGitHubで入手できます:https://github.com/Aloriosa/srmt。
ビデオ生成は、修正フロー技術を通じて重要な進展を遂げてきましたが、滑らかでない動きやビデオとプロンプトの整合性の問題が依然として残っています。本研究では、これらの問題を軽減し、ビデオ生成モデルを洗練させるために、人間のフィードバックを活用する体系的なパイプラインを開発します。具体的には、現代のビデオ生成モデルに焦点を当てた大規模な人間の選好データセットを構築し、複数の次元にわたるペアワイズな注釈を組み込みます。次に、マルチ次元ビデオ報酬モデルであるVideoRewardを導入し、注釈やさまざまな設計選択が報酬の効果にどのように影響するかを検討します。報酬を最大化する統一された強化学習の観点から、KL正則化を用いて、拡散モデルからこれを拡張したフローベースモデルのための3つの整列アルゴリズムを導入します。これには、2つのトレーニング時戦略が含まれます:フローの直接選好最適化(Flow-DPO)およびフローの報酬重み付き回帰(Flow-RWR)、および推論時の手法であるFlow-NRGがあり、これはノイズの多いビデオに報酬ガイダンスを直接適用します。実験結果は、VideoRewardが既存の報酬モデルを大幅に上回り、Flow-DPOがFlow-RWRおよび標準の教師あり微調整手法よりも優れたパフォーマンスを示すことを示しています。さらに、Flow-NRGは、ユーザーが推論中に複数の目的にカスタムウェイトを割り当てることを可能にし、個人のビデオ品質ニーズに対応します。プロジェクトページ:https://gongyeliu.github.io/videoalign.
Sigmaは、システム領域に特化した効率的な大規模言語モデルを紹介します。このモデルは、DiffQKVアテンションを含む革新的なアーキテクチャによって強化され、入念に収集されたシステム領域のデータで事前学習されています。DiffQKVアテンションは、アテンションメカニズム内のQuery(Q)、Key(K)、Value(V)の各要素を、モデルのパフォーマンスと効率指標への影響の違いに基づいて異なる方法で最適化することで、Sigmaの推論効率を大幅に向上させます。具体的には、(1) KとVの要素の圧縮に対するモデルの感度の違いを実証する実験を行い、異なる圧縮されたKVを開発し、(2) Qヘッドの次元を拡張する拡張Qを提案し、モデルの表現能力を向上させつつ推論速度への影響を最小限に抑えます。厳密な理論的および実証的分析により、DiffQKVアテンションが効率を大幅に向上させ、長いコンテキストのシナリオにおいて従来のグループ化されたクエリアテンション(GQA)に比べて推論速度を最大33.36%向上させることが示されます。Sigmaは、様々なソースからの6兆トークン、慎重に収集された195億のシステム領域データ、および1兆トークンの合成および書き換えられたデータで事前学習されています。一般領域では、Sigmaは他の最先端モデルと同等のパフォーマンスを達成します。システム領域では、Sigmaは全タスクで優れたパフォーマンスを発揮する初の包括的なベンチマークAIMiciusを導入し、GPT-4を最大52.5%向上させる絶対的な改善を達成します。
Chain-of-Thought (CoT) 推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されてきました。しかし、画像生成シナリオの検証や強化にこのような戦略が適用可能かどうかは未解決の問題です。本論文では、CoT 推論の潜在能力を活用して自己回帰型画像生成を向上させる可能性について初めて包括的な調査を提供します。我々は、検証のためのテスト時計算のスケーリング、モデルの嗜好を直接的な嗜好最適化(DPO)と整合させること、およびこれらの技術を補完的な効果のために統合することに焦点を当てます。我々の結果は、これらのアプローチが効果的に適応および組み合わせられ、画像生成の性能を著しく向上させることが示されています。さらに、報酬モデルの重要な役割を考慮し、自己回帰型画像生成向けに特化した Potential Assessment Reward Model(PARM)および PARM++ を提案します。PARM は、潜在評価アプローチを通じて各生成ステップを適応的に評価し、既存の報酬モデルの強みを統合します。そして、PARM++ は、生成された不十分な画像を自己修正する反射メカニズムをさらに導入します。調査された推論戦略を用いて、基準モデルである Show-o を強化し、GenEval ベンチマークで+24%の著しい改善を達成し、Stable Diffusion 3 を+15%上回りました。我々の研究が独自の洞察を提供し、CoT 推論を自己回帰型画像生成と統合する新たな道筋を築く手助けとなることを願っています。コードとモデルは https://github.com/ZiyuGuo99/Image-Generation-CoT で公開されています。
人間は、情報を認識し、知識を理解し、そして新しい問題を解決するために知識を適応させるという3つの認知段階を通じて知識を獲得します。ビデオは、この学習プロセスにおいて効果的な媒体として機能し、これらの認知段階を進むのを支援します。しかしながら、既存のビデオベンチマークは、大規模多モーダルモデル(LMMs)における知識獲得能力を系統的に評価することに失敗しています。このギャップに対処するために、我々はVideo-MMMUを導入します。これは、ビデオから知識を獲得し活用するLMMsの能力を評価するために設計された多モーダル、多分野のベンチマークです。Video-MMMUには、6つの分野にまたがる300本の専門レベルのビデオと900個の人間によるアノテーション付きの質問が収録されており、知識獲得を認識、理解、適応の段階に沿った質問と回答のペアを通じて評価します。提案された知識獲得メトリクスであるΔknowledgeは、ビデオ視聴後のパフォーマンス向上を数量化します。LMMsの評価は、認知要求が増加するにつれてパフォーマンスが急激に低下し、人間とモデルの知識獲得の間に著しいギャップがあることを浮き彫りにし、LMMsがビデオから学習し適応する能力を向上させる方法の必要性を強調しています。
ビデオ大規模多モーダルモデル(video-LMMs)における重要な進展にもかかわらず、長尺ビデオにおける効果的な時間的グラウンディングの実現は既存のモデルにとって課題となっています。この制約に対処するため、我々はTemporal Preference Optimization(TPO)を提案します。これは、ビデオ-LMMsの時間的グラウンディング能力を向上させるために設計された新しい事後トレーニングフレームワークであり、選好学習を通じてこれを実現します。TPOは、モデルが選好データセットを利用して、適切にグラウンディングされた時間的応答とより正確でない時間的応答を区別できるようにするセルフトレーニングアプローチを採用しています。この選好データセットは、特定のビデオセグメントに焦点を当てる局所的時間的グラウンディングと、ビデオ全体の拡張された時間的依存関係を捉える包括的時間的グラウンディングの2つの粒度で構築されています。これらの選好データセットに最適化することで、TPOは時間的理解を著しく向上させると同時に、手動で注釈付けされたデータへの依存を減らします。LongVideoBench、MLVU、Video-MMEの3つの長尺ビデオ理解ベンチマークでの包括的な実験により、TPOの効果が示されました。特に、LLaVA-Video-TPOは、Video-MMEベンチマークにおいてリーディングな7Bモデルとして位置づけられ、長尺ビデオ理解における時間的推論を進めるためのスケーラブルかつ効率的なソリューションとしてのTPOの潜在能力が強調されました。プロジェクトページ:https://ruili33.github.io/tpo_website.
拡散モデルの急速な発展により、テキストから画像へのモデル(T2I)は著しい進歩を遂げ、素早い応答や画像生成において印象的な能力を示しています。最近登場したFLUX.1やIdeogram2.0などのモデルは、Dall-E3やStable Diffusion 3など他のモデルと共に、様々な複雑なタスクで優れた性能を発揮し、T2Iモデルが汎用性を持つ方向に向かっているかどうかという疑問を呼び起こしています。従来の画像生成にとどまらず、これらのモデルは制御可能な生成、画像編集、ビデオ、音声、3D、動画生成、セマンティックセグメンテーション、深度推定などのコンピュータビジョンタスクを含む様々な分野で能力を示しています。しかし、現在の評価フレームワークは、これらのモデルの性能を拡大する領域全体で包括的に評価するには不十分です。これらのモデルを徹底的に評価するために、私たちはIMAGINE-Eを開発し、FLUX.1、Ideogram2.0、Midjourney、Dall-E3、Stable Diffusion 3、Jimengの6つの有力なモデルをテストしました。私たちの評価は、構造化された出力生成、リアリズムと物理的一貫性、特定のドメイン生成、困難なシナリオ生成、およびマルチスタイル作成タスクの5つの主要な領域に分かれています。この包括的な評価は、各モデルの強みと限界を明らかにし、特にFLUX.1とIdeogram2.0が構造化および特定のドメインタスクで優れたパフォーマンスを発揮しており、T2Iモデルの応用範囲と潜在能力を強調しています。この研究は、T2Iモデルが汎用性を持つ方向に進化する中での現在の状況と将来の軌跡について貴重な示唆を提供します。評価スクリプトはhttps://github.com/jylei16/Imagine-eで公開されます。
大規模言語モデル(LLMs)は最近、数学的推論において顕著な成功を示しています。連鎖思考プロンプトや自己整合サンプリングなどの手法の進展にもかかわらず、これらの進歩はしばしば最終的な正確さに焦点を当てており、根底にある推論プロセスが一貫性があり信頼性があることを確認していません。本論文では、Step-KTOというトレーニングフレームワークを紹介し、プロセスレベルとアウトカムレベルのバイナリフィードバックを組み合わせて、LLMsをより信頼性の高い推論軌道に導く方法を提案します。中間の推論ステップと最終的な回答の両方に対してバイナリ評価を提供することで、Step-KTOはモデルが論理的な進行に従うことを奨励し、表面的なショートカットに頼ることを防ぎます。難解な数学のベンチマークでの実験では、Step-KTOが最終的な回答の正確さと中間の推論ステップの質の両方を大幅に改善することが示されました。例えば、MATH-500データセットでは、Step-KTOが強力なベースラインに比べてPass@1の正解率を著しく向上させています。これらの結果は、段階的なプロセスフィードバックをLLMのトレーニングに統合することの可能性を示し、より解釈可能で信頼性のある推論能力への道を開いています。
最近のビデオインペインティングアルゴリズムは、光学フローを活用して隣接フレームからの情報を使用して、テクスチャやオブジェクトを復元するために、フローベースのピクセル伝播とトランスフォーマーベースの生成を統合しています。同時に、視覚トランスフォーマーを使用してマスクされた領域を補完します。しかし、これらの手法は、大きなマスクを扱う際にしばしばぼやけや時間的な不整合に直面するため、より高度な生成能力を持つモデルが必要とされています。最近、拡散モデルが画像やビデオ生成において印象的なパフォーマンスを発揮することから、注目されています。本論文では、安定した拡散に基づくビデオインペインティングモデルであるDiffuEraserを紹介し、マスクされた領域により詳細でより一貫した構造を補完するよう設計されています。ノイズのアーティファクトを軽減し、幻覚を抑制するために、初期化と弱い条件付けに先行情報を組み込んでいます。さらに、長いシーケンス推論中の時間的一貫性を向上させるために、先行モデルとDiffuEraserの両方の時間的受容野を拡張し、ビデオ拡散モデルの時間的平滑化特性を活用して一貫性をさらに向上させています。実験結果は、提案手法がコンテンツの完全性と時間的一貫性の両方で最先端の技術を上回り、受け入れ可能な効率性を維持していることを示しています。
研究者によって、大規模言語モデル(LLMs)における幻覚に関する懸念が提起されていますが、創造性が重要な領域、例えば薬物発見において、その潜在能力は探求されるべきです。本論文では、幻覚が薬物発見においてLLMsの性能を向上させる可能性があるという仮説を立てます。この仮説を検証するために、LLMsを使用して分子のSMILES文字列を自然言語で記述し、これらの記述をプロンプトの一部として取り入れて薬物発見の特定のタスクに取り組みます。7つのLLMsと5つの分類タスクで評価した結果、当社の調査結果は仮説を裏付けます:幻覚を含むテキストを使用することで、LLMsはより優れたパフォーマンスを達成できます。特に、Llama-3.1-8Bは、幻覚のないベースラインと比較して、ROC-AUCで18.35%の利益を達成します。さらに、GPT-4oによって生成された幻覚は、モデル全体で最も一貫した改善を提供します。さらに、パフォーマンスに影響を与える主要な要因とその根本的な理由を調査するために、実証分析とケーススタディを実施します。当社の研究は、LLMsにおける幻覚の潜在的な利用法を明らかにし、薬物発見においてLLMsを活用した将来の研究に向けた新しい視点を提供しています。
テキストから画像を生成するモデルは、入力プロンプトから高品質な画像を作成できます。ただし、物語の一貫性を維持するための要件をサポートするのに苦労しています。この問題への既存のアプローチは、通常、大規模なデータセットでの綿密なトレーニングや元のモデルアーキテクチャへの追加の修正を必要とします。これにより、異なるドメインや多様な拡散モデル構成での適用範囲が制限されます。本論文では、最初に言語モデルの固有の能力である「コンテキストの一貫性」を観察し、1 つのプロンプトを通じてコンテキストを介してアイデンティティを理解することを提案します。固有のコンテキストの一貫性からインスピレーションを得て、一貫したテキストから画像(T2I)生成のための新しいトレーニング不要な手法、「One-Prompt-One-Story」(1Prompt1Story)を提案します。当社の手法1Prompt1Storyは、すべてのプロンプトをT2I拡散モデルのための単一の入力に連結し、最初にキャラクターのアイデンティティを維持します。その後、特異値再重み付けとアイデンティティを維持するクロスアテンションという2つの新しい技術を使用して、各フレームに対する入力記述とのより良い整合性を確保するために生成プロセスを洗練します。実験では、定量的指標と定性的評価を通じて、当社の手法をさまざまな既存の一貫したT2I生成アプローチと比較し、その効果を示します。コードは https://github.com/byliutao/1Prompt1Story で入手可能です。
最近のビデオ生成技術の進歩は、特にアイデンティティを保持したビデオ生成(IPT2V)において、さまざまな下流アプリケーションに大きな影響を与えています。しかし、既存の手法は、「コピー&ペースト」のアーティファクトや低類似性の問題に苦しんでおり、主に低レベルの顔画像情報への依存が原因です。この依存は、硬直した顔の外観や無関係な詳細を反映したアーティファクトを生み出す可能性があります。これらの課題に対処するために、私たちはEchoVideoを提案します。EchoVideoは、次の2つの主要戦略を採用しています:(1)高レベルの意味的特徴をテキストから統合し、隠蔽、ポーズ、照明の変化を捨てることでクリーンな顔のアイデンティティ表現を捉えるIdentity Image-Text Fusion Module(IITF);(2)第2段階で確率的手法を組み込んだ2段階のトレーニング戦略を採用し、浅い顔情報をランダムに利用することで、忠実度の向上と浅い特徴への過度な依存を緩和することを目指しています。この戦略は、モデルに高レベルの特徴をトレーニング中に利用させ、最終的により堅牢な顔のアイデンティティ表現を育成することを促します。EchoVideoは、顔のアイデンティティを効果的に保持し、全身の完全性を維持します。幅広い実験により、高品質で制御可能かつ忠実度の高いビデオ生成において優れた結果を達成することが示されています。
既存の能力を持つモデルを望ましい振る舞いに整列させるための一般的な手法は、人間が監督を提供する能力に依存しています。しかしながら、将来の超人的モデルは人間の能力を超えるでしょう。したがって、人間は超人的モデルに対して弱い監督しか行えなくなるでしょう。この人間の評価の予想される不足は、将来のAIシステムの安全性を弱めるでしょう。拡張可能な監視と弱から強への一般化は、この問題に取り組むための2つの補完的なアプローチです。本論文では、これら2つのアプローチの強みを組み合わせて整列をさらに改善する試みを行います。具体的には、強力な事前学習モデルを用いて人間の監督を向上させる方法を検討し、その後、強力なモデルを強化された弱い人間の監督で監督します。反復的な経験的進歩を実現するために、次の類推を考えます:強力なモデルを使用して弱いモデルの監督を改善し、それを使って強力なモデルを監督することはできるでしょうか?我々は、小さな弱いモデルを真のラベルで微調整し、大きな強力なモデルからの追加支援を受けながら、その後、弱いモデルによって生成されたラベルで強力なモデルを微調整することによって、これを経験的にテストします。我々は、議論が、弱いモデルが信頼できる情報を信頼できない強力なモデルから抽出するのを支援し、弱いモデルのトレーニング時にサンプルに対する文脈としてレバレッジを提供することができることを見出しました。また、弱いモデルのアンサンブルが、強力なモデルの議論者によって生成された長い議論を活用し、より堅牢な監督推定を得るのに役立つことを示しました。OpenAIの弱から強へのNLPベンチマークでの包括的な実験は、この組み合わせアプローチがより良い整列をもたらし、議論が弱から強への一般化を支援する潜在能力を示しています。
マルチモーダル大規模言語モデル(MLLMs)は、具体的な進歩を示し、具体的なエージェントにとって有望な未来を提供しています。MLLMsを評価するための既存のベンチマークは、主に静止画像や動画を利用しており、非対話的なシナリオに制限されています。一方、既存の具体的なAIベンチマークは、タスク固有であり、十分に多様ではないため、MLLMsの具体的な能力を適切に評価していません。この課題に対処するために、私たちはMLLMs向けの包括的でインタラクティブな評価ベンチマークであるEmbodiedEvalを提案します。EmbodiedEvalには、125の異なる3Dシーン内で328の異なるタスクが特徴付けられ、厳密に選択されアノテーションが付けられています。これは、既存の具体的なAIタスクの幅広いスペクトラムをカバーし、大幅に向上した多様性を持ち、MLLMs向けに調整された統一されたシミュレーションおよび評価フレームワーク内で提供されています。これらのタスクは、ナビゲーション、オブジェクトの相互作用、ソーシャルインタラクション、属性に関する質問応答、および空間に関する質問応答の5つのカテゴリに整理され、エージェントの異なる能力を評価します。私たちはEmbodiedEvalで最先端のMLLMsを評価し、それらが具体的なタスクにおいて人間レベルと比較して著しい不足があることを発見しました。私たちの分析は、既存のMLLMsの具体的な能力の制限を示し、将来の開発に向けた示唆を提供しています。評価データとシミュレーションフレームワークは、https://github.com/thunlp/EmbodiedEval でオープンソースとして公開しています。
この論文は、機械学習(ML)が一般的知能の重要な側面、つまり未知の未来に対する堅牢性を大きく見落としていると主張しています。この堅牢性は、経済学におけるKnightian不確実性(KU)に関連しており、つまり数量化できない不確実性であり、これはMLの主要な形式体系から除外されています。この論文の目的は、この盲点を特定し、その重要性を論じ、対処するための研究を促進することであり、これが真に堅牢なオープンワールドAIを作成するために必要であると考えています。この盲点を明らかにするために、機械学習の一分野である強化学習(RL)と生物進化のプロセスを対比しています。驚異的な進歩が続いているにもかかわらず、RLは未知の状況下で苦戦し、予期しない状況下でしばしば失敗します。例えば、米国でのみ訓練された自動運転車のポリシーを英国にゼロショット転送するという考えは現在、非常に野心的に思われます。劇的な対照として、生物進化は定期的にオープンワールド内で繁栄するエージェントを生み出し、時には非常に分布外の状況にまで適応します(例:外来種、またはゼロショットの国際運転を行う人間)。興味深いことに、進化は明示的な理論、形式体系、または数学的勾配なしでこのような堅牢性を達成しています。私たちは、RLの典型的な形式体系の前提を探り、それが常に変化する複雑な世界の特徴である未知の未知との関わりを制限していることを示します。さらに、進化プロセスが新しい予測不可能な挑戦に対する堅牢性を促進するメカニズムを特定し、それらをアルゴリズム的に具現化するための潜在的な経路について議論します。結論として、MLの興味深い残存する脆弱性は、その形式体系の盲点から生じる可能性があり、KUの課題に直接立ち向かうことで大きな利益が得られるかもしれないと述べています。
大規模言語モデル(LLM)は膨大な計算リソースを必要とし、ゼロからの再トレーニングなしにその能力を向上させることが不可欠です。この領域における主要な課題は、連続事前トレーニング(CPT)および連続教師付きファインチューニング(CSFT)中に性能を妨げる「catastrophic forgetting(CF)」です。私たちは、並行して事前トレーニングされた拡張トランスフォーマーブロックを活用し、その隠れ状態を補間戦略を通じて整列させる革新的なアプローチである「Control LLM」を提案します。この手法は、既存のタスクでの性能を効果的に保持しながら新しい知識をシームレスに統合します。 包括的な実験により、Control LLMのCPTおよびCSFTにおける効果が示されています。Llama3.1-8B-Instructでは、数学的推論(Math-Hardで+14.4%)およびコーディング性能(MBPP-PLUSで+10%)で著しい改善が実現されました。Llama3.1-8Bでは、多言語能力が向上し、C-Eval(+10.6%)、CMMLU(+6.8%)、CMMLU-0shot-CoT(+30.2%)での成果を上げました。既存の手法を凌駕し、同じ基本モデルから調整されたオープンソースモデルの中でSOTAを達成し、大幅に少ないデータと計算量で実現しています。重要なのは、これらの利点が、強力な元の能力を保持しつつ、オープンソースの数学およびコーディングモデルの35%以上に比べて最小限の劣化(MMLUで<4.3%)で実現されていることです。このアプローチは、LinkedInのGenAIパワードの求職者および広告ユニット製品に成功裏に展開されています。 さらなる研究を支援するために、私たちはトレーニングおよび評価コード(https://github.com/linkedin/ControlLLM)と、公開データセットでトレーニングされたモデル(https://huggingface.co/ControlLLM)をコミュニティに提供します。
3Dガウススプラッティング技術は、静的シーンの効率的な写実的レンダリングを実現しています。最近の研究では、これらの手法を拡張して、表面再構築やトラッキングをサポートしています。ただし、3Dガウスを用いた動的表面のトラッキングは、表面の出現、消失、または分割などの複雑なトポロジー変化のために依然として困難です。これらの課題に対処するために、一般的な動的シーンにおける写実的レンダリング、正確な表面再構築、信頼性の高い3Dトラッキングを実現する新しい手法であるGSTARを提案します。複数のビューのキャプチャを入力として受け取ると、GSTARはダイナミックオブジェクトを表すためにメッシュの面にガウスを結び付けます。一貫したトポロジーを持つ表面に対しては、GSTARはメッシュのトポロジーを維持し、ガウスを用いてメッシュをトラッキングします。トポロジーが変化する領域では、GSTARはメッシュからガウスを適応的に解除し、これらの最適化されたガウスに基づいて新しい表面を生成することで、正確な登録を可能にします。さらに、フレーム間のトラッキングのための堅牢な初期化を提供する、表面ベースのシーンフロー手法を導入しています。実験により、当社の手法が効果的に動的表面をトラッキングおよび再構築し、さまざまなアプリケーションを可能にすることが示されています。当社のプロジェクトページとコードリリースは、https://eth-ait.github.io/GSTAR/ で入手可能です。