翻訳付きの日次キュレーションされたAI研究論文
LLMによって生成される推論ステップは、事前トレーニングデータで見られる日常的なコミュニケーションにおける論理的な飛躍を模倣しているため、不完全な場合があります。根底にある合理性はしばしば暗黙のまま(明示されていない)です。この課題に対処するために、私たちはRATIONALYSTを導入します。これは、ラベルのないデータから抽出された合理性注釈の広範なコレクションに基づく推論のプロセス監督のためのモデルです。私たちは、Webスケールの未ラベルデータセット(Pile)と最小限の人間の介入を伴う推論データセットの組み合わせから79,000の合理性を抽出します。この推論のためのWebスケールの事前トレーニングにより、RATIONALYSTは数学的、常識的、科学的、論理的な推論を含む多様な推論タスク全般にわたって一貫して汎化することができます。LLaMa-3-8BからファインチューニングされたRATIONALYSTは、7つの代表的な推論ベンチマークで推論の精度を平均3.9%向上させます。また、GPT-4などの大規模な検証モデルや同様のトレーニングセットでファインチューニングされた同様のサイズのモデルと比較して、優れた性能を示します。
さまざまなビジュアル基盤モデルには、独自の強みと弱みがあります。これらは、ラベルなしで異種の複数教師知識蒸留を通じて改善でき、これを「凝集モデル」と呼びます。本研究では、教師の活性化統計の影響、特に損失関数が生じる生徒モデルの品質に与える影響を調査します。さまざまな分布をより適切に整列させるために、標準的な統計正規化技術のツールキットを探求します。さらに、ダウンストリームの教師マッチング指標への影響を検討し、Hadamard行列の使用を促します。これらの行列を使用することで、各次元の多変量分布が同じ尺度を使用して標準化される等方性標準化が可能であることを示し、これを「PHI標準化」(PHI-S)と呼びます。さらに、本研究で検討された手法の中で最も優れた生徒モデルが生成されることを実証します。
大規模言語モデルはコード生成において大きな進歩を遂げてきましたが、生成されたコードの合格率は微妙なエラーに制約されており、特に複雑な問題ではテストをパスするために人間の介入がしばしば必要となります。既存のLLMベースのデバッグシステムは生成されたプログラムを一枚岩の単位として扱い、低レベルの構文エラーから高レベルのアルゴリズム上の欠陥まで、複数の粒度でバグを解決することができません。本論文では、Multi-Granularity Debugger(MGDebugger)を導入し、さまざまな粒度でのバグを分離、特定、解決する階層型コードデバッガーを提案します。MGDebuggerは問題のあるコードをサブファンクションの階層木構造に分解し、各レベルが特定のエラーの粒度を表します。デバッグ中には、各サブファンクションを分析し、ボトムアップの方法でバグを反復的に解決します。各サブファンクションを効果的にテストするために、LLMシミュレートされたPython実行エンジンを提案し、コードの実行をトレースし、重要な変数の状態を追跡してエラーを正確に特定します。広範な実験により、MGDebuggerが既存のデバッグシステムを上回り、HumanEvalにおけるシード生成の正解率を18.9%向上させ、HumanEvalFixにおける97.6%の修復成功率を達成することが示されました。さらに、MGDebuggerは異なるカテゴリや難易度レベルのバグを効果的に修正し、その堅牢性と効果を示しています。
ニューラル・ラディアンス・フィールド(NeRF)は、新しい視点合成に広く使用されており、3D物体検出(3DOD)に適応され、視点合成表現を通じた3DODへの有望なアプローチを提供しています。ただし、NeRFは固有の制限に直面しています:(i)暗黙的な性質に起因する3DOD向けの表現能力の制限、および(ii)レンダリング速度の遅さ。最近、3Dガウススプラッティング(3DGS)がこれらの制限に対処する明示的な3D表現として登場しました。これらの利点に着想を得て、本論文では、3DGSを初めて3DODに導入し、次の2つの主要な課題を特定しています:(i)ガウスブロブの曖昧な空間分布:3DGSは主に2Dピクセルレベルの監督に依存しており、ガウスブロブの3D空間分布が不明瞭であり、オブジェクトと背景の区別が不十分であり、3DODを妨げています;(ii)過剰な背景ブロブ:2D画像にはしばしば多くの背景ピクセルが含まれており、多くのノイズのあるガウスブロブを背景を表すように密集して再構築される3DGSが導入され、検出に悪影響を及ぼしています。課題(i)に対処するために、3DGSの再構築が2D画像から派生しているという事実を活用し、2D境界ガイダンスを組み込むことで、ガウスブロブの空間分布を著しく向上させ、オブジェクトとその背景との明確な区別を実現するエレガントで効率的な解決策を提案します。課題(ii)に対処するために、2Dボックスを使用したボックス重点サンプリング戦略を提案し、3D空間でのオブジェクト確率分布を生成し、3Dでの効果的な確率サンプリングを可能にし、より多くのオブジェクトブロブを保持し、ノイズの多い背景ブロブを減らします。私たちの設計の恩恵を受けて、当社の3DGS-DETは、SOTA NeRFベースの手法であるNeRF-Detを大幅に上回り、ScanNetデータセットにおいてmAP@0.25で+6.6、mAP@0.5で+8.1の改善を達成し、ARKITScenesデータセットにおいてmAP@0.25で驚異的な+31.5の改善を達成しています。
私たちはLLMの小学校数学(GSM)問題解決能力の深さを研究しています。このために、既存の数学の文章問題のペアで、2つ目の問題の答えが最初の問題を正しく解答することに依存するようにして、彼らのパフォーマンスを評価します。我々の調査結果は、ほとんどのLLMにおいて論理的なギャップがあることを示しており、それは構成ペアを解決することと各問題を独立して解決することとのパフォーマンスの違いです。このギャップは、より小さく、コスト効率が高く、数学に特化したモデルではより顕著です。さらに、指示調整のレシピやコード生成は、LLMのサイズによって異なる効果を持ちますが、GSMでのファインチューニングはタスクの過剰適合を引き起こす可能性があります。我々の分析は、大きな論理的なギャップがテストセットの漏洩ではなく、追加の文脈からの注意散漫と第2段階の推論能力の低さによるものであることを示しています。全体として、LLMは標準ベンチマークでのパフォーマンスが示す内容とは異なる推論能力の系統的な違いを示しています。
テキスト豊富な画像は、プレゼンテーションスライド、スキャンされた文書、ウェブページのスナップショットなど、実世界のアプリケーションで一般的であり、テキストが中心となる視覚要素として全体の理解を導く。複数のテキスト豊富な画像を含むタスクは特に挑戦的であり、個々の画像の内容を理解するだけでなく、複数の視覚的入力にわたる相互関係や論理フローについて推論する必要がある。これらのシナリオの重要性にもかかわらず、現在の多モーダル大規模言語モデル(MLLMs)は、テキスト豊富な複数画像のタスクを処理するのに苦労している。これは、高品質なテキスト豊かなマルチ画像シナリオのための指示チューニングデータセットの希少性と、画像の解像度と視覚的特徴シーケンスの長さのバランスをとる難しさに起因している。これらの課題に対処するために、私たちは\OurMethod を提案する。これは、複数のテキスト豊かな画像を含むビジョン言語タスクを処理するために特別に設計されたMLLMである。まず、テキスト豊かで複数画像のシナリオに適した約100万件の高品質な多モーダル指示チューニングデータを収集した。次に、入力画像の元のアスペクト比と解像度に基づいて視覚的シーケンス長の割り当てを動的に最適化する適応型高解像度マルチ画像エンコーディングモジュールを開発した。幅広いベンチマークを対象とした実験は、当社のモデルがテキスト豊かな複数画像の評価において優れた能力を持ち、一般的なドメインの評価において競争力のある性能を示すことを示している。
報酬モデルは、モデルを指示に従わせるために重要であり、通常、Bradley-Terryスタイルまたは回帰スタイルのいずれかに従ってトレーニングされます。ただし、データが適切に一致している場合、どちらのアプローチが優れているかについては、いずれかが他よりも優れているという証拠が不足しています。これは、これらのアプローチが異なる(しかし互換性のない)形式で収集されたデータを必要とするためであり、既存の公開データセットには適切に一致するデータが利用できないためです。この問題に取り組むために、私たちはHelpSteer2データセットにおいて、既存の評価(回帰スタイルのトレーニング向け)を補完するためにBradley-Terryトレーニング向けに設計された好みの注釈を公開します。データの解釈性を向上させるために、好みの注釈には人間による根拠が付属しています。このデータを使用して、適切に一致したデータに基づいてBradley-Terryモデルと回帰モデルを初めて比較します。この比較から得られた洞察に基づいて、Bradley-Terryと回帰報酬モデリングを組み合わせる新しいアプローチを提案します。このアプローチで調整されたLlama-3.1-70B-Instructモデルは、2024年10月1日現在、RewardBenchで140以上の報酬モデルの中で最高の94.1のスコアを獲得しています。また、この報酬モデルがRLHFでモデルを指示に従わせる効果を示しています。私たちはこのデータセット(CC-BY-4.0ライセンス)をhttps://huggingface.co/datasets/nvidia/HelpSteer2でオープンソース化し、トレーニングされた報酬モデルをhttps://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Rewardで公開しています。
我々は、学習されたAおよびB行列の非対称性解析を通じて、フェデレーテッドラーニングにおけるLoRAを調査しています。この過程で、A行列が一般的な知識を学習する責務を持ち、一方でB行列はクライアント固有の知識を捉えることに焦点を当てていることが明らかになりました。この発見に基づき、我々はFederated Share-A Low-Rank Adaptation(FedSA-LoRA)を導入しました。この手法は、重みの更新をモデル化するために2つの低ランクトレーニング可能な行列AおよびBを使用しますが、集約のためにサーバーと共有されるのはA行列のみです。さらに、rsLoRAやVeRAなどの他のLoRA変種における学習されたAおよびB行列の関係について探求し、一貫したパターンを明らかにしました。その結果、FedSA-LoRA手法をこれらのLoRA変種に拡張し、FedSA-rsLoRAおよびFedSA-VeRAを生み出しました。これにより、LoRAをFLと統合する一般的なパラダイムを確立し、FLと組み合わせた後続のLoRA変種に関する将来の研究へのガイダンスを提供しています。自然言語理解および生成タスクにおける幅広い実験結果は、提案手法の効果を実証しています。
テキストから画像を生成する実用的な利用は、単純な単一モデルから複数の専門コンポーネントを組み合わせた複雑なワークフローへと進化しています。ワークフローに基づくアプローチは画像品質の向上につながる可能性がありますが、効果的なワークフローの構築には、多数の利用可能なコンポーネント、それらの複雑な相互依存関係、および生成プロンプトへの依存性による、膨大な専門知識が必要です。本稿では、各ユーザープロンプトにワークフローを自動的に適合させる新しいタスクであるプロンプト適応型ワークフロー生成を紹介します。このタスクに取り組むために、2つのLLMベースのアプローチを提案します:ユーザーの好みデータから学習するチューニングベースの方法と、既存のフローを選択するためにLLMを使用するトレーニングフリーな方法です。これらのアプローチのいずれも、単一モデルや一般的なプロンプト非依存のワークフローと比較して画像品質の向上につながります。本研究は、プロンプト依存型のフロー予測がテキストから画像生成の品質向上への新たな道筋を提供し、研究分野における既存の研究方向を補完することを示しています。
機械翻訳(MT)評価のためのニューラルメトリクスは、従来の語彙メトリクスと比較して人間の判断との優れた相関性から、ますます注目されています。研究者は、品質に基づくデコーディング戦略を通じてニューラルメトリクスを活用し、尤度ベースの方法よりも優れた結果を達成してきました。大規模言語モデル(LLM)の台頭に伴い、品質推定子によって誘発される選好に直接的にモデルの重みを最適化することで、翻訳品質を向上させる可能性がある選好ベースのアラインメント技術が注目されています。本研究は、対照的な選好最適化(CPO)に焦点を当て、選好ベースのアラインメントが翻訳品質に与える影響を評価するための包括的な実験を実施しています。我々の調査結果は、CPOがアラインメントメトリクスに関して高品質データにおいて常に監督されたファインチューニング(SFT)を上回る一方、ニューラルと語彙のメトリクスの間で特に下流の評価メトリクスにおいて不安定性をもたらす可能性があることを示しています。さらに、候補翻訳の生成に基本モデルだけを頼ることが、複数の外部システムを使用する場合と比較して、下流のメトリクスにおいてより一貫性を確保しながら同等のパフォーマンスを達成することを実証しています。
Foundation Models(FM)の台頭と、それに伴うリスクや影響に対処する規制措置が、オープンソースモデルへの大きな関心を引き起こしています。しかし、既存の音声FM(SFM)は、公言されているとはいえ、既存のSFMがモデルの重み、コード、およびトレーニングデータをオープンソース条件下で公開していないため、オープンソース原則に完全に準拠していないと言えます。本研究では、この課題に取り組む最初の一歩として、欧州連合(EU)の24の公用語に焦点を当てます。我々は、オープンソースに準拠したライセンスの下で、自動音声認識データセットや未ラベルの音声コーパスを調査し、合計950k時間の適切なトレーニングデータを収集しました。さらに、許諾のCC-BYライセンスの下で441k時間の未ラベルデータの自動トランスクリプトを公開することで、EU言語向けのオープンソースSFMの作成を促進しています。
大規模言語モデル(LLMs)は、複雑なクエリの理解や高度なタスクの実行に優れた能力を示していますが、その一般化能力はしばしば記憶と深く絡み合い、より正確な評価が必要とされます。この課題に対処するために、私たちはScyllaを導入します。Scyllaは、LLMsの一般化能力を定量的に測定する動的評価フレームワークです。Scyllaは、20のタスクを通じて5つの複雑さレベルで、分布内(ID)および分布外(OOD)データでモデルのパフォーマンスを評価することによって、一般化と記憶を切り離します。多くの実験を通じて、タスクの複雑さとIDとOODデータのパフォーマンス差との間に非単調な関係があることを明らかにしました。この関係を一般化の谷と呼びます。具体的には、この現象は、非一般化行動への依存がピークに達する臨界複雑さと呼ばれる重要なしきい値を示し、LLMsの一般化能力の上限を示唆しています。モデルのサイズが大きくなるにつれて、臨界複雑さがより高いタスクの複雑さにシフトし、大きなモデルが記憶に過度に依存する前により複雑な推論タスクを処理できることを示唆しています。Scyllaと臨界複雑さの概念を活用して、LLMsの一般化能力をより堅牢に評価し、LLaMAやQwenファミリーなどのオープンソースモデルとClaudeやGPTなどのクローズドソースモデルを含む28つのLLMsをベンチマークとして提供し、LLMsの一般化能力についてより明確な理解を確立します。
人間の好みをモデリングすることは、基盤モデルを人間の価値観に合わせるために重要です。ブラッドリー・テリー(BT)報酬モデルなどの従来の報酬モデリング手法は、特に非推移的な好みに対処する際に表現力が不足しています。監督ペア選好モデル(PairPM)は一般的な好みを表現できますが、その実装は非常に特殊であり、比較されるペアの一貫した選好確率を保証することができません。さらに、複数の応答を比較する際の二次的なクエリ複雑さにより、高い計算コストがかかります。本論文では、応答を潜在空間に埋め込んで複雑な選好構造を効率的に捉えるアプローチである選好表現学習を紹介し、線形クエリ複雑さを実現します。さらに、報酬ベースの強化学習を人間のフィードバックから一般化する選好スコアベースの一般選好最適化(GPO)を提案します。実験結果によると、当社の一般選好表現モデル(GPM)は、RewardBenchベンチマークでBT報酬モデルを最大5.6%上回り、BT報酬モデルがランダムな推測のように振る舞うサイクリックな選好を効果的にモデル化します。さらに、GPOおよび当社の一般選好モデルによる言語モデルの事後トレーニングに続くAlpacaEval2.0およびMT-Benchなどのダウンストリームタスクでの評価は、最大9.3%の性能向上を示しました。これらの結果は、当社の手法が基盤モデルを微妙な人間の価値観と調和させる可能性があることを示しています。コードはhttps://github.com/general-preference/general-preference-modelで入手可能です。
大規模言語モデルは、次世代の情報アクセスエンジンとして重要な潜在能力を示しています。ただし、幻覚や非事実的なコンテンツの生成といった問題により、信頼性が損なわれています。これは特に長文応答において複雑な事実の正確性の評価と確保が困難な場合に問題となります。本論文では、LLMの長文応答の事実性を向上させつつ有用性を維持するために設計された革新的なアライメントフレームワークであるFactAlignを提案してこのギャップに取り組みます。私たちは、Kahneman-Tversky Optimization(KTO)アライメント手法を拡張した、文レベルの細かいアライメントアルゴリズムであるfKTOを導入します。最近の自動事実性評価の進歩を活用し、FactAlignは細かい事実性評価を利用してアライメントプロセスを誘導します。オープンドメインのプロンプトや情報検索質問に対する実験では、FactAlignがLLMの応答の事実的な正確性を著しく向上させることを示し、同時に有用性も向上させることができます。さらなる分析により、FactAlignがLLMにより多くの情報を提供するようトレーニングし、事実の精度を損なうことなく事実のF1スコアを向上させることができることが明らかになります。私たちのソースコード、データセット、トレーニング済みモデルは、https://github.com/MiuLab/FactAlign で公開されています。
私たちは、リアルタイムの微分可能な放射射影のみのボリュームレンダリング手法であるExact Volumetric Ellipsoid Rendering (EVER) を提案します。最近の3D Gaussian Splatting (3DGS) によるラスタライゼーションベースのアプローチとは異なり、私たちのプリミティブベースの表現は、3D Gaussianビルボードのアルファ合成ではなく、正確なボリュームレンダリングを可能にします。そのため、3DGSとは異なり、私たちの定式化はポッピングアーティファクトやビュー依存の密度の問題を抱えず、720pの解像度でNVIDIA RTX4090上で約30 FPSのフレームレートを達成しています。私たちのアプローチはレイトレーシングに基づいて構築されているため、ラスタライゼーションでは実現が難しい、デフォーカスブラー、カメラの歪み(例:フィッシュアイカメラからの歪み)などの効果を可能にします。私たちは、私たちの手法が3DGSよりもブレンディングの問題が少なく、Zip-NeRFデータセットの大規模シーンにおいて特に、リアルタイムの技術の中で最も鮮明な結果を達成していることを示し、ビューに一貫性のあるレンダリングに関する後続研究よりも精度が高いことを示します。
最近のテキスト・ツー・スピーチ(TTS)技術の進歩により、自然で表現豊かな音声が生成される一方、ユーザーが感情を選択し強度を制御するオプションが欠如しています。私たちはEmoKnobを提案します。これは、任意の感情の少数のデモンストレーションサンプルを使用して音声合成における細かい感情制御を可能にするフレームワークです。私たちのフレームワークは、最近の基盤となる音声クローニングモデルの進歩によって実現された表現豊かな話者表現空間を活用しています。感情制御フレームワークの少数のショット能力に基づき、私たちは感情制御を開放的なテキストで記述された感情に適用する2つの方法を提案し、微妙な感情の多様な配列を制御する直感的なインターフェースを実現します。より体系的な感情音声合成分野を促進するために、感情制御フレームワークの忠実度と認識性を厳密に評価するための一連の評価メトリクスを導入します。客観的および主観的評価を通じて、私たちの感情制御フレームワークが効果的に感情を音声に埋め込み、商用TTSサービスの感情表現を上回ることを示しています。
最近のビデオ大規模言語モデル(Video-LLMs)の進歩は、一般的なビデオ理解におけるその大きな潜在能力を示しています。これらのモデルの重要性を検証するために、さまざまなシナリオでの能力を診断するためのベンチマークがいくつか提案されています。しかし、既存のベンチマークは、ビデオレベルの質問応答を通じてモデルを評価するに過ぎず、細かいイベントレベルの評価やタスクの多様性が欠けています。このギャップを埋めるために、私たちはE.T. Bench(イベントレベル&時間感応型ビデオ理解ベンチマーク)を導入します。これは、オープンエンドのイベントレベルビデオ理解のための大規模で高品質なベンチマークです。3つのタスクタクソノミーに分類されるE.T. Benchは、8つのドメインで7K本のビデオ(総計251.4時間)を含む12のタスクの下に7.3Kのサンプルを網羅し、包括的な評価を提供しています。私たちは、8つの画像大規模言語モデルと12のビデオ大規模言語モデルを当社のベンチマークで広範囲に評価しました。その結果、粗いレベル(ビデオレベル)理解のための最先端モデルは、ビデオ内の興味のあるイベントを特定するなどの細かいタスクを解決するのに苦労していることが明らかになりました。これは、ビデオコンテキストの長さが短いこと、不適切な時間表現、および複数のイベントのトレーニングデータが不足していることが主な要因です。これらの問題に焦点を当て、私たちは、細かいイベントレベル理解に適したE.T. Instruct 164Kという指示調整データセットとともに、強力なベースラインモデルであるE.T. Chatを提案しています。私たちのシンプルで効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示しています。
大規模言語モデルは創造的生成に優れていますが、幻覚と偏見の問題には依然として苦しんでいます。検索拡張生成(RAG)は、LLMの応答を正確かつ最新の情報に基づかせる枠組みを提供しますが、その際には偏見の問題が発生します。つまり、どのソースが文脈に含まれるべきか、そしてそれらの重要性をどのように評価すべきかという問題です。本論文では、クロスリンガルRAGの課題を研究し、言語、文化、政治の境界が交差する地政学的紛争に関するクエリに対する既存システムの頑健性を調査するためのデータセットを提供します。当該クエリに関連する情報を含むWikipediaページからデータセットを収集し、追加の文脈を含めることや、その文脈の言語やソースの構成がLLMの応答に与える影響を調査します。結果から、既存のRAGシステムはクロスリンガルの使用例に依然として挑戦を受け、複数言語で競合する情報が提供されると一貫性の欠如が見られることが示されました。これらの問題を具体例で説明し、今後の研究がこれらの課題に対処するための手順を概説します。当該データセットとコードは、https://github.com/manestay/bordIRlines で公開されています。
ビジョン言語モデル(VLMs)は、視覚的およびテキスト情報の文脈理解に不可欠です。しかし、敵対的に操作された入力に対する脆弱性は、信頼性に関する懸念を引き起こし、VLM統合アプリケーションにおける出力の危険性を高めます。これらの悪意のあるプロンプトを検出することは、VLM生成に対する信頼を維持するために重要です。保護プロンプト分類器を開発する際の主要な課題は、大量のラベル付きの善意と悪意のあるデータが不足していることです。この問題に対処するために、我々はVLMGuardを導入します。これは、野生の未ラベルのユーザープロンプトを悪意のあるプロンプトの検出に活用する新しい学習フレームワークです。これらの未ラベルのプロンプトは、VLMが実世界で展開されるときに自然に発生し、善意と悪意の情報の両方が含まれています。未ラベルのデータを活用するために、我々は、未ラベルの混合物内で善意と悪意のサンプルを区別するための自動悪意推定スコアを提示し、それによりバイナリプロンプト分類器のトレーニングを可能にします。特筆すべきは、当フレームワークは追加の人間の注釈を必要とせず、現実世界のアプリケーションにおいて強い柔軟性と実用性を提供します。広範な実験により、VLMGuardが優れた検出結果を達成し、最先端の手法を大幅に上回ることが示されました。免責事項:本論文には攻撃的な例が含まれる場合があります。読者の慎重な判断が必要です。
拡散トランスフォーマー(DiTs)は、生成タスクにおける優れたスケーラビリティと非凡なパフォーマンスによって注目を集めています。しかしながら、著しい推論コストは実用的な展開を妨げています。特徴キャッシュメカニズムは、タイムステップ間で冗長な計算を保存および取得することを含むことで、拡散モデルにおける1ステップあたりの推論時間を削減する可能性を秘めています。DiT向けのほとんどの既存キャッシング手法は手動で設計されています。学習ベースのアプローチは戦略を適応的に最適化しようとしますが、訓練と推論の間に不一致が生じ、パフォーマンスと加速比の両方に支障をきたします。詳細な分析の結果、これらの不一致は主に2つの側面から生じることが明らかになりました:(1)前のタイムステップの無視、つまり訓練が以前のタイムステップでのキャッシュ使用の影響を無視すること、および(2)目的の不一致、つまり訓練目標(各タイムステップでのノイズの予測を整合させる)が推論の目標(高品質画像の生成)から逸脱していること。これらの不一致を緩和するために、我々はHarmoniCaを提案します。これは、新しい学習ベースのキャッシングフレームワークをStep-Wise Denoising Training(SDT)およびImage Error Proxy-Guided Objective(IEPO)に基づいて構築し、訓練と推論を調和させる方法です。従来の訓練パラダイムと比較して、新しく提案されたSDTは、ノイズ除去プロセスの連続性を維持し、モデルが訓練中に以前のタイムステップからの情報を活用できるようにし、推論時と同様に動作します。さらに、我々はIEPOを設計しました。これは、再利用されたキャッシュされた特徴によって引き起こされる最終画像エラーを近似する効率的なプロキシメカニズムを統合しています。したがって、IEPOは最終画像品質とキャッシュ利用のバランスをとり、訓練が各タイムステップでの予測出力へのキャッシュ使用の影響のみを考慮する問題を解決します。
長い入力コンテキストの取り扱いは、特にモバイルデバイスなどのリソース制約の厳しい環境において、大規模言語モデル(LLMs)にとって重要な課題です。私たちの研究は、追加のトレーニングを必要とせずに、事前にトレーニングされたLLMsが固定されたメモリ制約内で効率的に広範なシーケンスを管理することを可能にする新しいKVキャッシュ制御フレームワークであるInfiniPotを導入することで、この制約に対処することを目的としています。InfiniPotは、新しい重要度メトリクスを介して重要な情報を圧縮および保持する反復プロセスであるContinual Context Distillation(CCD)を活用し、将来のコンテキストへのアクセスがなくても重要なデータを効果的に維持します。私たちの包括的な評価によると、InfiniPotは、さまざまなNLPタスクで長いコンテキストにトレーニングされたモデルを大幅に上回り、その有効性と汎用性を確立しています。この研究は、LLMsを幅広い実世界シナリオに適用可能にするための重要な進歩を表しています。
自律ロボットが行動を起こすための取り組みにおいて、タスクプランニングは、高レベルなタスク記述を長期のアクションシーケンスに変換することを必要とする重要な課題です。最近の言語モデルエージェントの進歩にもかかわらず、それらは計画エラーに陥りやすく、先を読む能力に制限があります。ロボットの計画におけるこれらの制限に対処するために、私たちは、ドラフトプランを均衡状態に達するまで反復的に洗練する自己洗練スキームを提唱しています。驚くべきことに、このプロセスは、追加の検証者や報酬モデルを選定する必要なく、解析的観点からエンドツーエンドで最適化できるため、自己洗練プランナーを簡単な教師あり学習の形式でトレーニングできます。一方、効率的なクローズドループ計画のために環境(または内部ワールドモデル)から有用なフィードバックを取り入れるためのネストされた均衡シーケンスモデリング手法が考案されています。私たちの手法は、VirtualHome-Envベンチマークで評価され、推論計算のスケーリングが向上した高度なパフォーマンスを示しています。コードはhttps://github.com/Singularity0104/equilibrium-plannerで入手可能です。
ディープラーニングの最適化手法は、しばしば凸および近似二次の理論の組み合わせを通じて動機付けられます。私たちは、Adam、Shampoo、Prodigyの3つの手法を選択し、各手法を凸仮定なしで明確に一次の手法として理解できると主張します。実際、指数移動平均をオフにした後、各手法は特定のノルムの下で最急降下法と等価です。この観察を一般化することで、トレーニングアルゴリズムの新しい設計空間を示します。異なる演算子ノルムは、テンソルがネットワーク内で果たす役割に基づいて異なるテンソルに割り当てるべきです。例えば、線形および埋め込み層は同じ重み空間R^{m×n}を持つかもしれませんが、これらの層は異なる役割を果たし、異なるノルムが割り当てられるべきです。私たちは、ニューラルアーキテクチャを慎重にメトリック化するこの考えが、より安定してスケーラブルで、確かにより速いトレーニングにつながる可能性があると期待しています。
移動音源条件下での音声分離と音声強調モデルの体系的評価には、通常、多様なシナリオを含む広範なデータが必要とされます。しかし、現実世界のデータセットには、モデルの訓練と評価要件を満たすのに十分なデータが不足していることがよくあります。合成データセットはデータ量が多いものの、その音響シミュレーションには現実感が欠けています。そのため、現実世界のデータセットも合成データセットも実用上のニーズを効果的に満たすことができません。これらの課題に対処するために、移動音源のための高度にカスタマイズ可能なデータを生成するために設計された合成ツールキットであるSonicSimを紹介します。SonicSimは、エンボディドAIシミュレーションプラットフォームであるHabitat-simに基づいて開発されており、シーンレベル、マイクロフォンレベル、音源レベルを含む多レベルの調整をサポートしており、より多様な合成データを生成します。SonicSimを活用して、Librispeech、Freesound Dataset 50k(FSD50K)、Free Music Archive(FMA)からのデータとMatterport3Dからの90シーンを使用して、音声分離と音声強調モデルを評価するための移動音源ベンチマークデータセットであるSonicSetを構築しました。さらに、合成データと現実世界のデータの違いを検証するために、SonicSetの検証セットから残響のない生データ5時間をランダムに選択し、それを使用して実世界の音声分離データセットを記録し、それを対応する合成データセットと比較しました。同様に、他の合成データセットとSonicSetデータセットとの間の音声強調のための音響的ギャップを検証するために、実世界の音声強調データセットRealMANを利用しました。その結果、SonicSimによって生成された合成データが実世界のシナリオに効果的に一般化できることが示されました。デモとコードは、https://cslikai.cn/SonicSim/ で公開されています。