翻訳付きの日次キュレーションされたAI研究論文
Transformerは、関連性のない文脈に過剰な注意を払いがちです。本研究では、Diff Transformerを導入し、関連する文脈への注意を増幅させる一方でノイズをキャンセルします。具体的には、差分注意メカニズムは、2つの別々のソフトマックス注意マップの差として注意スコアを計算します。減算によりノイズが打ち消され、疎な注意パターンの出現が促進されます。言語モデリングの実験結果は、Diff Transformerがモデルサイズの拡大やトレーニングトークンの設定でTransformerを上回ることを示しています。さらに興味深いことに、長い文脈のモデリング、重要情報の検索、幻覚の軽減、文脈内学習、および活性化の外れ値の削減など、実用的なアプリケーションにおいて著しい利点を提供します。関連性のない文脈に気を取られることが少ないDiff Transformerは、質問応答やテキスト要約における幻覚を軽減することができます。文脈内学習において、Diff Transformerは精度を向上させるだけでなく、順序の置換に対してもより堅牢であり、慢性的な堅牢性の問題とされていた点であります。これらの結果により、Diff Transformerは大規模言語モデルを進化させるための非常に効果的で有望なアーキテクチャと位置付けられます。
本論文では、大規模言語モデル(LLM)の数学的推論能力を向上させるための高度な数学的問題解決フレームワーク、LLaMA-Berryを提案します。このフレームワークは、Monte Carlo Tree Search(MCTS)を反復的なSelf-Refineと組み合わせて推論経路を最適化し、異なる経路をグローバルに評価するためのペアワイズ報酬モデルを活用しています。LLMの自己批評能力と書き換え能力を活用することで、MCTSに適用されるSelf-Refine(SR-MCTS)は、従来の段階的および貪欲な探索アルゴリズムの非効率性と制約を克服し、解空間のより効率的な探索を促進します。Reinforcement Learning from Human Feedback(RLHF)から着想を得たペアワイズ優先報酬モデル(PPRM)は、解の間のペアワイズな選好をモデル化し、これらの選好をグローバルなランキングスコアに統合するためにEnhanced Borda Count(EBC)法を活用して、より良い回答を見つけます。このアプローチは、数学的推論課題におけるスコアの変動性と非独立分布の課題に対処しています。このフレームワークは一般的および高度なベンチマークでテストされ、GPQA、AIME24、AMC23などの複雑なオリンピアードレベルのベンチマークにおいて、ToTやrStarなどの既存手法と比較して、探索効率と問題解決能力において優れた性能を示しました。
大規模言語モデル(LLMs)はしばしば、事実の不正確さ、バイアス、および推論の失敗などの誤りを生じますが、これらは総称して「幻覚」と呼ばれます。最近の研究では、LLMsの内部状態が出力の真偽に関する情報をエンコードしており、この情報を利用して誤りを検出できることが示されています。本研究では、LLMsの内部表現が真偽に関する情報を以前に認識されていた以上に多くエンコードしていることを示します。まず、真偽情報が特定のトークンに集中していることを発見し、この特性を活用することで誤り検出の性能が著しく向上することを示します。しかし、このような誤り検出器がデータセット間で汎化できないことを示し、先行研究とは対照的に、真偽のエンコーディングが普遍的ではなく、むしろ多面的であることを示します。次に、内部表現を使用してモデルが起こす可能性のある誤りのタイプを予測することもでき、適切な緩和戦略の開発を容易にします。最後に、LLMsの内部エンコーディングと外部振る舞いとの不一致を明らかにします:彼らは正しい答えをエンコードしているかもしれませんが、一貫して誤った答えを生成します。これらの洞察を総合すると、これらの見解は、モデルの内部からLLMの誤りに関する理解を深め、誤り分析と緩和の向上に関する将来の研究を導くことができます。
テキストから画像への拡散モデル(T2I)は視覚コンテンツの作成を革新しましたが、これらの能力をテキストからビデオへの生成(T2V)に拡張することは、特に時間的一貫性を保持することにおいては課題です。一貫性を向上させる既存の手法は、しばしば画像品質の低下や実用的でない計算時間の犠牲を強いられることがあります。これらの問題に対処するために、追加のトレーニングや微調整を必要とせず、事前にトレーニングされたT2Vモデルの時間的一貫性を向上させる革新的なフレームワークであるVideoGuideを紹介します。代わりに、VideoGuideは、推論の初期段階で任意の事前にトレーニングされたビデオ拡散モデル(VDM)またはそれ自体をガイドとして活用し、ガイドモデルのノイズ除去されたサンプルをサンプリングモデルのノイズ除去プロセスに補間することで、時間的品質を向上させます。提案された手法は、時間的一貫性と画像の忠実度を著しく向上させ、様々なビデオ拡散モデルの強みをシナジー効果的に活用する、費用対効果の高い実用的な解決策を提供します。さらに、先行蒸留を実証し、提案された手法を通じて、ガイドモデルの優れたデータ事前知識を利用することで、基本モデルが強化されたテキストの一貫性を達成できることを示しています。プロジェクトページ:http://videoguide2025.github.io/
ニューラルネットワーク、特にMLPとTransformerによって表現されるものが達成した顕著な成功にもかかわらず、周期性のモデリングと推論において潜在的な欠陥を示すことを明らかにします。つまり、周期データを本当に理解するのではなく、記憶する傾向があるということです。しかし、周期性は、自然および工学システム全体で予測可能性を支える観察の繰り返しパターンを通じて、さまざまな形式の推論や一般化において重要な特性です。本論文では、Fourier解析に基づく新しいネットワークアーキテクチャであるFANを提案し、周期現象について効果的にモデル化および推論する能力を高めます。Fourier級数を導入することで、周期性がニューラルネットワークの構造と計算プロセスに自然に統合されるため、周期パターンのより正確な表現と予測が実現されます。MLPの有望な代替として、FANは、より少ないパラメータとFLOPsで様々なモデルでMLPをシームレスに置き換えることができます。幅広い実験を通じて、FANが周期関数のモデリングと推論においてどれほど効果的であり、記号式表現、時系列予測、言語モデリングを含むさまざまな実世界のタスクでのFANの優越性と汎用性を示します。
最近の大規模言語モデル(LLMs)の進歩により、特に数学における形式的な推論能力に関心が集まっています。GSM8Kベンチマークは、学年レベルの問題におけるモデルの数学的推論能力を評価するために広く使用されています。LLMsのGSM8Kでの性能は近年著しく向上していますが、彼らの数学的推論能力が本当に進歩しているかは依然として不明であり、報告された指標の信頼性に疑問が投げかけられています。これらの懸念に対処するために、我々はいくつかのSOTAオープンおよびクローズドモデルに関する大規模な研究を行います。既存の評価の制約を克服するために、我々はGSM-Symbolicを導入します。これは、多様な問題の生成を可能にする象徴的なテンプレートから作成された改良されたベンチマークです。GSM-Symbolicは、よりコントロール可能な評価を実現し、モデルの推論能力を測定するための鍵となる洞察とより信頼性の高い指標を提供します。我々の調査結果によれば、LLMsは同じ問題の異なる具体例に対して応答する際に顕著なばらつきを示しています。具体的には、GSM-Symbolicベンチマークで問題の数値のみが変更された場合、すべてのモデルの性能が低下します。さらに、これらのモデルにおける数学的推論の脆弱性を調査し、問題の節の数が増加すると性能が著しく低下することを示しています。我々は、現在のLLMsが真の論理推論を行うことができないためにこの低下が起こると仮説を立てています。彼らはトレーニングデータから推論ステップを複製しているだけであり、最終的な答えに必要な推論チェーンに寄与しない1つの節を追加すると、すべての最先端モデルで性能が著しく低下します(最大65%)。総合的に、我々の研究は、LLMsの数学的推論における能力と制約についてより微妙な理解を提供しています。
言語モデル(LLM)の進歩により、科学的発見を自動化するLLMベースの言語エージェントの開発に対する関心が高まっており、その真の能力について興奮と懐疑が引き起こされています。本研究では、科学的発見を完全に自動化するためには、エージェントがワークフロー内のすべての重要なタスクを完了できる必要があると主張します。したがって、エージェントを完全な自動化と謳う前に、科学的ワークフロー内の個々のタスクでエージェントを厳密に評価することを求めます。このために、データ駆動型科学的発見の言語エージェントを評価するための新しいベンチマークであるScienceAgentBenchを提案します。ベンチマークの科学的信頼性と現実世界での関連性を確保するために、4つの分野から44の査読付き論文から102のタスクを抽出し、9人の専門家による検証を行います。各タスクの目標出力を、自己完結型のPythonプログラムファイルに統一し、生成されたプログラム、実行結果、およびコストを調査するためにさまざまな評価尺度を使用します。各タスクは、注釈付け者と専門家による複数ラウンドの手作業検証を経て、その注釈の品質と科学的妥当性が確保されます。また、データ汚染の懸念を緩和するための2つの効果的な戦略を提案します。提案されたベンチマークを使用して、3つのフレームワーク(直接プロンプト、OpenHands、および自己デバッグ)を持つ5つのオープンウェイトおよびプロプライエタリなLLMを評価します。各タスクについて3回の試行が与えられた場合、最も性能の良いエージェントは、専門家からの知識を使用せずに32.4%のタスクを独立して解決し、34.3%のタスクを専門家からの知識を使用して解決できます。これらの結果は、現在の言語エージェントのコード生成能力の限界を強調し、科学的研究のための完全な自動化はおろか、データ駆動型発見のためのコード生成における現在の言語エージェントの限られた能力を示しています。
マルチモーダルな大規模言語モデル(MLLMs)は、グラフィカルユーザーインターフェース(GUI)エージェントの能力を変革し、制御されたシミュレーションからさまざまなプラットフォームでの複雑な実世界アプリケーションへの移行を容易にしています。ただし、これらのエージェントの効果は、そのグラウンディング能力の堅牢性にかかっています。現在のGUIエージェントは、主にHTMLやアクセシビリティツリーなどのテキストベースの表現を利用していますが、これらはしばしばノイズ、不完全さ、および増加した計算オーバーヘッドをもたらします。本論文では、GUIエージェントに人間らしい具現化を提唱し、環境を完全に視覚的に認識し、GUI上でピクセルレベルの操作を直接行うことを提案しています。重要なのは、GUI要素のさまざまな指示表現をGUI上の座標に正確にマッピングできるビジュアルグラウンディングモデルです。我々は、ウェブベースの合成データとLLaVAアーキテクチャのわずかな適応を含むシンプルな手法が、このようなビジュアルグラウンディングモデルの訓練に驚くほど効果的であることを示しています。これまでで最大のGUIビジュアルグラウンディングデータセットを収集し、130万枚以上のスクリーンショットで1,000万個のGUI要素とそれに対応する指示表現を含むデータセットを使用して、GUIエージェント向けの強力な普遍的なビジュアルグラウンディングモデルであるUGroundを訓練します。3つのカテゴリ(グラウンディング、オフラインエージェント、オンラインエージェント)にわたる6つのベンチマークでの実験結果は、1)UGroundがGUIエージェント向けの既存のビジュアルグラウンディングモデルを最大20%絶対値で上回り、2)UGroundを使用するエージェントが最先端のエージェントを上回ることを示しています。既存のエージェントが追加のテキストベースの入力を使用しているのに対し、私たちのエージェントは視覚認識のみを使用しています。これらの結果は、人間と同様にデジタル世界を航行するGUIエージェントの実現可能性と将来性を強力に支持しています。
UniMuMoは、任意のテキスト、音楽、動作データを入力条件として受け取り、すべての3つのモダリティにわたる出力を生成する統合マルチモーダルモデルを紹介します。時間同期されていないデータの欠如に対処するため、既存の大規模な音楽専用および動作専用データセットを活用するために、音楽と動作データをリズムパターンに基づいて整列させます。音楽、動作、およびテキストをトークンベースの表現に変換することで、当社のモデルはこれらのモダリティを統一されたエンコーダーデコーダートランスフォーマーアーキテクチャを介して結びつけます。単一のフレームワーク内で複数の生成タスクをサポートするために、いくつかのアーキテクチャの改善を導入します。動作を音楽のコードブックでエンコードし、動作を音楽と同じ特徴空間にマッピングすることを提案します。音楽と動作の並行生成スキームを導入し、すべての音楽と動作生成タスクを単一のトランスフォーマーデコーダーアーキテクチャに統合し、音楽-動作の共同生成の単一のトレーニングタスクで統一します。さらに、モデルは既存の事前学習された単一モダリティモデルを微調整して設計されており、計算要件を大幅に削減しています。幅広い実験により、UniMuMoが音楽、動作、およびテキストのモダリティ全体で競争力のある結果を達成していることが示されています。定量的結果は、{プロジェクトページ}でご覧いただけます。
動的シーンからの幾何学の推定は、物体が時間とともに移動し変形する状況において、コンピュータビジョンにおける中核的な課題であり続けています。現在のアプローチは、しばしば多段階のパイプラインやグローバル最適化に依存しており、深度やフローなどのサブタスクに問題を分解することで複雑なシステムが生じ、誤りを生じやすくなります。本論文では、モーションDUSt3R(MonST3R)と呼ばれる新しい幾何学中心のアプローチを提案し、動的シーンからの各時間ステップごとの幾何学を直接推定します。我々の主要な洞察は、各時間ステップに対してポイントマップを単純に推定することで、DUST3Rの表現を効果的に適応させ、これまで静的シーンにのみ使用されていた表現を動的シーンにも適用できるという点です。しかしながら、このアプローチには重要な課題があります。それは、深度ラベルを持つ動的なポーズ付きビデオという適切なトレーニングデータの不足です。それでも、我々は、問題をファインチューニングのタスクとして提示し、いくつかの適切なデータセットを特定し、この限られたデータでモデルを戦略的にトレーニングすることで、モデルが驚くほど動的なシーンを処理できるようにすることができることを示しています。これに基づいて、いくつかの後段のビデオ特有のタスクに対する新しい最適化を導入し、ビデオの深度とカメラの位置の推定において、堅牢性と効率性の観点で従来の研究を上回る強力なパフォーマンスを示します。さらに、MonST3Rは、主にフィードフォワード型の4D再構成に対して有望な結果を示しています。
拡散ベースのテキストから音楽への変換(TTM)手法の進歩にもかかわらず、効率的で高品質な生成は依然として課題です。本研究では、スコアベースの拡散トランスフォーマーの推論を加速するPresto!を紹介します。このアプローチでは、サンプリングステップとステップごとのコストを削減することで、ステップ数を削減するために、EDMファミリーの拡散モデル向けの新しいスコアベースの分布マッチング蒸留(DMD)メソッドを開発しました。これは、TTM向けの最初のGANベースの蒸留メソッドです。ステップごとのコストを削減するために、最近のレイヤー蒸留メソッドの学習を改善するためのシンプルで強力な改良を開発しました。最後に、ステップとレイヤーの蒸留メソッドを組み合わせて、二面性のアプローチを採用しています。ステップとレイヤーの蒸留メソッドをそれぞれ独立して評価し、それぞれが最高クラスのパフォーマンスを発揮することを示しています。組み合わせた蒸留メソッドは、改善された多様性を持つ高品質な出力を生成し、32秒のモノ/ステレオ44.1kHzに対して230/435msの遅延(競合するSOTAより15倍速い)で基本モデルを10〜18倍加速します。これは、私たちの知る限りで最速の高品質TTMです。音声例はhttps://presto-music.github.io/web/で聴くことができます。
この技術レポートは、医療分野における言語モデルの評価のためのNamed Clinical Entity Recognition Benchmarkを紹介し、臨床ナラティブから構造化された情報を抽出するという重要な自然言語処理(NLP)タスクを支援するため、自動コーディング、臨床試験コホートの同定、臨床意思決定支援などのアプリケーションを対象としています。 リーダーボードは、エンコーダーおよびデコーダーアーキテクチャを含む多様な言語モデルの評価のための標準化されたプラットフォームを提供し、これらのモデルが複数の医療領域で臨床エンティティを識別および分類する能力を評価します。公開されている臨床データセットの厳選されたコレクションが利用され、疾患、症状、医薬品、手順、および検査結果などのエンティティが包括されています。これらのエンティティは、異なる医療システムやデータセット間での一貫性と相互運用性を確保するために、Observational Medical Outcomes Partnership(OMOP)Common Data Modelに準拠して標準化されており、モデルのパフォーマンスの包括的な評価が行われます。モデルのパフォーマンスは主にF1スコアを用いて評価され、モデルのパフォーマンスに関する包括的な洞察を提供するためにさまざまな評価モードが補完されます。レポートには、これまでに評価されたモデルの簡単な分析も含まれており、観察されたトレンドや制約が強調されています。 このベンチマークフレームワークを確立することで、リーダーボードは透明性を促進し、比較分析を容易にし、医療NLPにおける堅牢な評価方法の必要性に対処する臨床エンティティ認識タスクにおける革新を促進することを目指しています。
報酬モデルは、多様な大規模言語モデルの改善に成功してきましたが、報酬モデル自体は厳格で情報が最小限です。特筆すべきは、既存の報酬モデルが、テキストの長さに関係なく、テキストに対して1つのバイナリフィードバックのみを割り当てることで、人間の注釈を単なる模倣している点です。画像とテキストの両方を処理する必要がある多様な言語モデルの領域では、単純な報酬モデルはテキストに対する暗黙のバイアスを学習し、画像に根ざした性質を失いがちです。本論文では、各テキストトークンに細かい注釈を提供するToken-Level Detective Reward Model(TLDR)を提案します。TLDRモデルを訓練するために、合成された難解なネガティブとそれらのトークンレベルのラベルを生成する摂動ベースの手法をまず導入します。その後、TLDRモデルがオフザシェルフモデルが自己修正するのを支援するだけでなく、幻覚評価ツールとして役立つ豊かな有用性を示します。最後に、TLDRモデルが、高品質なビジョン言語データの幅広い範囲を取得するために、人間の注釈を3倍高速化できることを示します。
最近の大規模言語モデル(LLMs)は、長い文脈のシナリオで多目的な能力を示しています。最近のいくつかのベンチマークは、LLMsの長い文脈における能力を評価するために開発されていますが、LLMsの数学的推論能力を長い文脈で評価するベンチマークが不足しており、これは実世界のシナリオでのLLMsの応用において重要です。本論文では、LLMsの長い文脈の数学的推論能力を評価するために設計された自動ベンチマークであるMathHayを紹介します。Needle in a Haystackのような以前のベンチマークは、主に長いテキスト内での情報検索に焦点を当てていましたが、MathHayは情報検索と複雑な数学的推論能力の両方を要求します。我々は、8つのトップパフォーマンスのLLMsの長い文脈の数学的推論能力を評価するためにMathHayで広範な実験を行いました。最も優れたモデルであるGemini-1.5-Pro-002でさえ、長い文脈での数学的推論に苦労し、128Kトークンでわずか51.26%の精度を達成しました。これは、MathHayベンチマークの改善余地が非常に大きいことを示しています。
大規模言語モデル(LLM)の適用が拡大するにつれて、信頼性の高い評価の需要が高まっています。既存のLLM評価ベンチマークは主に静的データセットに依存しており、モデルのパフォーマンスをユーザーとの動的な相互作用で評価することが難しい状況です。さらに、これらのベンチマークはしばしば特定の背景知識に依存しており、モデルの論理推論能力を測定することが複雑化しています。強力なモデルや手作業に基づく他の動的評価方法は、偏りを導入し、高いコストと時間を要するため、大規模な適用を妨げています。これらの問題に対処するために、私たちはTurtleBenchを提案します。TurtleBenchは、私たちが開発したオンラインTurtle Soup Puzzleプラットフォームから実際のユーザーの推測を収集します。このアプローチにより、比較的動的な評価データセットの生成が可能となり、モデルの不正行為のリスクを軽減しつつ、推論能力に関する真のユーザーのニーズに評価をより密接に合わせることができ、評価の信頼性が向上します。TurtleBenchには、1,532件のユーザーの推測と注釈後の推測の正誤が含まれています。このデータセットを使用して、現在利用可能な最も先進的な9つのLLMを徹底的に評価しました。特筆すべきは、OpenAI o1シリーズモデルがこれらの評価でトップの結果を達成しなかったことです。"o1の潜在的な推論が単純なChain-of-Thought(CoT)技術を利用している"や"CoTの長さを増やすことは推論上の利点を提供するだけでなく、ノイズコストも発生させる"など、さらなる研究のためのいくつかの仮説を提案しています。
私たちは、OmniBoothを提案します。これは、空間制御とインスタンスレベルのマルチモーダルなカスタマイズを可能にする画像生成フレームワークです。すべてのインスタンスについて、マルチモーダルな指示はテキストプロンプトまたは画像リファレンスを介して記述できます。ユーザー定義のマスクと関連するテキストまたは画像のガイダンスが与えられた場合、私たちの目標は、複数のオブジェクトが指定された座標に配置され、それらの属性が対応するガイダンスと正確に整列された画像を生成することです。このアプローチは、テキストから画像への生成の範囲を大幅に拡大し、制御可能性においてより多目的で実用的な次元に引き上げます。本論文では、提案された潜在制御信号が中心的な貢献をしており、これは高次元の空間特徴であり、空間、テキスト、画像の条件をシームレスに統合する統一された表現を提供します。テキスト条件は、ControlNetを拡張してインスタンスレベルのオープンボキャブラリー生成を提供します。画像条件は、パーソナライズされたアイデンティティによる細かい制御をさらに可能にします。実践的には、私たちの手法は、ユーザーが必要に応じてテキストまたは画像からマルチモーダルな条件を選択できるため、制御可能な生成においてユーザーにより多くの柔軟性を提供します。さらに、徹底した実験により、異なるタスクやデータセット間での画像合成の忠実度と整合性における強化されたパフォーマンスが示されています。プロジェクトページ:https://len-li.github.io/omnibooth-web/
モデルの統合は、複数の専門家モデルをより能力の高い単一のモデルに組み合わせることを目指し、ストレージおよびサービングコストの削減、汎化の向上、分散型モデル開発のサポートなどの利点を提供します。その有望さにもかかわらず、これまでの研究は主にいくつかの小さなモデルを統合することに焦点を当ててきました。これにより、モデルサイズのスケーリングの影響や、ベースモデルの品質や専門家モデルの数などの他の重要な要因との相互作用が、統合されたモデルのパフォーマンスにどのように影響するかという多くの未解決の問題が残されています。この研究では、モデルの統合の有用性を規模に合わせて体系的に評価し、これらの異なる要因の影響を調査しています。我々は、1Bから64Bのパラメータを持つ完全にファインチューニングされたモデルを用いて、4つの人気のある統合方法(平均化、タスク算術、Dare、TIES)を用いて、最大8つの異なる専門家モデルを統合する実験を行いました。我々は、専門家のトレーニングタスクである保持されたタスクと、未知の保持されたタスクへのゼロショット汎化の両方で統合されたモデルを評価しました。我々の実験は、規模におけるモデルの統合に関するいくつかの新しい知見と、異なる要因との相互作用について明らかにしています。第一に、専門家が強力なベースモデルから作成された場合、統合がより効果的であることがわかりました。第二に、より大きなモデルは統合を容易にします。第三に、統合は一貫して汎化能力を向上させます。特に、8つの大規模な専門家モデルを統合すると、統合されたモデルはしばしばマルチタスクトレーニングされたモデルと比較して汎化性能が向上します。第四に、より大きなモデルを使用すると、より多くの専門家モデルをより良く統合することができます。第五に、異なる統合方法は、より大規模なスケールで非常に似たように振る舞います。総じて、我々の研究結果は、モデルの統合のいくつかの興味深い特性を明らかにするとともに、いくつかの制限事項を強調しています。この研究が今後の研究における大規模統合の参考点となることを期待しています。
データキュレーションは、サンプルを収集し整理して効率的な学習をサポートするデータセットを作成する問題です。このタスクの中心性にもかかわらず、さまざまなキュレーション方法の大規模かつ体系的な比較にはほとんど取り組まれていませんでした。本研究では、データキュレーション戦略の形式的評価に向けた取り組みを行い、画像分類のためのキュレーション戦略の大規模ベンチマークであるSELECTを初めて紹介します。 SELECTベンチマークのベースライン手法を生成するために、ImageNet-1Kの最大のスーパーセットであるImageNet++という新しいデータセットを作成しました。当該データセットは、ImageNetを5つの新しいトレーニングデータシフトで拡張しており、それぞれがImageNet-1K自体とほぼ同じサイズであり、異なるキュレーション戦略を使用して構築されています。データキュレーションのベースラインを評価するために、2つの方法で評価を行いました:(i) 各トレーニングデータシフトを使用して同一の画像分類モデルをゼロからトレーニングすること、(ii) データ自体を事前学習された自己教師付き表現に適合させること。 我々の調査結果は興味深いトレンドを示しており、特に合成データ生成やCLIP埋め込みを使用したルックアップなどの最近のデータキュレーション方法に関連しています。これらの戦略は特定のタスクにおいて非常に競争力があることを示していますが、元のImageNet-1Kデータセットを構築するために使用されたキュレーション戦略が金の基準であることを示しています。私たちのベンチマークが新しい手法の道筋を明らかにし、ギャップをさらに縮小するための新しい手法への道を示すことが期待されます。私たちは、https://github.com/jimmyxu123/SELECTで私たちのチェックポイント、コード、ドキュメント、およびデータセットへのリンクを公開しています。
3D環境における人間の動作の合成は、特に歩行、手の届く動作、人間と物体の相互作用などの複雑な活動を含む場合、ユーザー定義のウェイポイントとステージの遷移に大きな要求を提起します。これらの要件は、現在のモデルにとって課題をもたらし、単純な人間の入力からキャラクターのアニメーションを自動化する際に著しいギャップが生じています。本論文では、単一のテキスト指示と目標位置から直接複数段階のシーン認識インタラクション動作を合成する包括的なフレームワークを導入することで、この課題に取り組みます。我々の手法は、自己回帰拡散モデルを用いて次の動作セグメントを合成し、各アクションステージの遷移を予測する自律スケジューラを採用しています。合成された動作が環境内でシームレスに統合されるようにするために、開始地点と目標地点の両方でローカルな知覚を考慮したシーン表現を提案しています。さらに、生成された動作の一貫性を向上させるために、フレーム埋め込みを言語入力と統合しています。また、モデルのトレーニングをサポートするために、120の屋内シーンで16時間の動作シーケンスをカバーし、40種類の動作がそれぞれ正確な言語記述で注釈付けされた包括的なモーションキャプチャデータセットを提示しています。実験結果は、環境とテキスト条件に密接に沿った高品質で多段階の動作を生成する我々の手法の効果を示しています。
人間のフィードバックからの強化学習(RLHF)手法は、視覚生成のための拡散モデル(DMs)を微調整する方法として台頭しています。ただし、一般的に使用されるオンポリシー戦略は報酬モデルの汎化能力に制限があり、オフポリシー手法は特に視覚生成タスクにおいて大量かつ入手困難な対人アノテーションデータを必要とします。オンポリシーとオフポリシーの両方のRLHFの制限に対処するために、報酬モデルや対人アノテーションデータに依存せず、DMsを好みに整列させる好み最適化手法を提案します。具体的には、セミポリシー好み最適化(SePPO)手法を導入します。 SePPOは、以前のチェックポイントを参照モデルとして活用しながら、それらを使用してオンポリシーの参照サンプルを生成し、「負け画像」を好みのペアで置き換えます。このアプローチにより、オフポリシーの「勝ち画像」のみを使用して最適化できます。さらに、ポリシースペースでの探索を拡大するための参照モデル選択戦略を設計します。特筆すべきは、参照サンプルを単なる学習のための負例として扱うのではなく、アンカーベースの基準を設計して、参照サンプルが勝ち画像または負け画像である可能性を評価し、モデルが生成された参照サンプルから選択的に学習できるようにします。このアプローチにより、参照サンプルの品質の不確実性による性能の低下が緩和されます。我々は、テキストから画像へのベンチマークとテキストからビデオへのベンチマークの両方でSePPOを検証します。 SePPOは、テキストから画像へのベンチマークで以前のアプローチを凌駕し、テキストからビデオへのベンチマークでも優れたパフォーマンスを示します。コードはhttps://github.com/DwanZhang-AI/SePPOで公開されます。
拡散モデルは画像生成を革新し、その拡張がビデオ生成にも有望であることが示されています。ただし、現在のビデオ拡散モデル(VDM)は、クリップレベルで適用されるスカラータイムステップ変数に依存しており、これにより画像からビデオへの生成など、さまざまなタスクに必要な複雑な時間依存関係をモデル化する能力が制限されています。この制限に対処するために、私たちはフレームに注意を払ったビデオ拡散モデル(FVDM)を提案します。これは新しいベクトル化されたタイムステップ変数(VTV)を導入しています。従来のVDMとは異なり、私たちのアプローチでは各フレームが独立したノイズスケジュールに従うことができ、細かい時間依存関係を捉えるモデルの能力が向上します。FVDMの柔軟性は、標準的なビデオ生成、画像からビデオ生成、ビデオ補間、長いビデオ合成など、複数のタスクで示されています。多様なVTV構成を通じて、生成されたビデオの品質で優れた成果を達成し、微調整中の壊滅的な忘却やゼロショット手法における限られた汎化能力などの課題を克服しています。私たちの経験的評価は、FVDMがビデオ生成の品質で最先端の手法を上回ることを示し、さらに拡張されたタスクでも優れた成績を収めています。既存のVDMの根本的な欠点に対処することで、FVDMはビデオ合成において新たなパラダイムを確立し、生成モデリングやマルチメディアアプリケーションに重要な影響をもたらす堅牢なフレームワークを提供しています。
多エージェントが共有シーンで視覚的視点を考慮しながら、シーン内のオブジェクトやそれらの間の空間関係に言及するタスクおよびデータセットを紹介します。このタスクでは、2つのエージェントが互いの視覚的視点を考慮し、自分の視点と異なる可能性があることを考慮して、シーン内のオブジェクトやそれらの間の空間関係に言及を生成および理解する必要があります。2,970の人間によって書かれた言及表現と、それぞれが人間の理解判断とペアになったデータセットを収集し、自動モデルのパフォーマンスを評価します。モデルのパフォーマンスは、言及生成および理解の両方において、人間エージェントのペアのそれよりも遅れていることがわかります。最後に、リスナーとペアになった際のコミュニケーションの成功の証拠とともにオープンウェイトのスピーカーモデルをトレーニングする実験を行い、コミュニケーションの成功率が58.9%から69.3%に向上し、最も強力なプロプライエタリモデルを上回る結果となりました。
一般的な企業での要約、RAG、およびコード生成などの人気のあるユースケースに対するLLM推論は、通常、生成長よりも桁違いに長いプロンプト長を観察します。この特性は、プリフィルの高コストと応答遅延の増加につながります。本論文では、プロンプトトークンの処理時間とコストを削減しつつ生成トークンの高品質を維持するために特に設計された新しいモデル変換および蒸留手法であるSwiftKVを提案します。SwiftKVは、次の3つの主要メカニズムを組み合わせています:i)SingleInputKVは、後のレイヤーのKVキャッシュを、はるかに早いレイヤーの出力を使用してプリフィルし、プロンプトトークンがモデル計算の大部分をスキップできるようにします。ii)AcrossKVは、隣接するレイヤーのKVキャッシュをマージしてメモリフットプリントを減らし、より高いスループットのためのより大きなバッチサイズをサポートします。iii)既存のLLMをSwiftKV用に適応させるための知識保存蒸留手法は、最小限の精度影響と低い計算およびデータ要件で実現できます。Llama-3.1-8Bおよび70Bにおいて、SwiftKVはプリフィルの計算要件を50%削減し、KVキャッシュのメモリ要件を62.5%削減し、幅広いタスクにおいて最小の品質劣化をもたらします。最適化されたvLLM実装を使用したエンドツーエンド推論サービングにおいて、SwiftKVは、最大2倍の集約スループットとトークンあたりの時間を60%短縮することができます。これにより、4x H100 GPU上で16ビット精度でLlama-3.1-70Bの場合、1秒あたり16,000トークンの推論スループットを実現し、GPUあたり560 TFlopsの驚異的な推論スループットを達成できます。