翻訳付きの日次キュレーションされたAI研究論文
ビジョン言語モデル(VLMs)は、マルチモーダルタスクで優れた成績を収めていますが、オープンワールド環境における具体的な意思決定への適応には課題があります。重要な問題の1つは、低レベルの観察における個々のエンティティと計画に必要な抽象的な概念をスムーズに結びつける難しさです。この問題に対処する一般的なアプローチは、階層エージェントを使用することです。ここでは、VLMsが高レベルの推論者として機能し、タスクを実行可能なサブタスクに分解する方法が一般的です。これらのサブタスクは通常、言語と想像された観察を使用して指定されます。しかし、言語はしばしば空間情報を効果的に伝達できず、将来の画像を十分な精度で生成することは依然として難しいです。これらの制限に対処するために、我々はビジュアル・テンポラル・コンテキスト・プロンプティングを提案します。これは、VLMsとポリシーモデル間の新しいコミュニケーションプロトコルであり、過去と現在の観察からのオブジェクト・セグメンテーションを活用してポリシー環境の相互作用をガイドします。このアプローチを使用して、我々はROCKET-1を訓練します。これは、リアルタイムのオブジェクトトラッキングによって提供されるセグメンテーションマスクと連結された視覚観察に基づいてアクションを予測する低レベルポリシーです。我々の手法は、VLMsのビジュアル言語推論能力のフルポテンシャルを引き出し、特に空間理解に大きく依存する複雑な創造的なタスクを解決することを可能にします。Minecraftでの実験は、我々のアプローチがエージェントが以前に達成不可能だったタスクを達成することを可能にし、具体的な意思決定におけるビジュアル・テンポラル・コンテキスト・プロンプティングの効果を示しています。コードとデモはプロジェクトページで入手可能です:https://craftjarvis.github.io/ROCKET-1.
離散トークンを用いた自己回帰トランスフォーマーモデルの成功は、連続モダリティ向けの量子化ベースの手法に影響を与えましたが、これらはしばしば再構成品質を制限します。そこで、我々は、ゼロショットのテキストから音声への変換のためのトークンごとの潜在拡散モデルであるSALADを紹介します。SALADは、連続表現上で動作し、最近提案された画像生成のための表現力豊かな拡散ヘッドに基づき、可変長の出力を生成するよう拡張されています。我々の手法は、文脈情報を提供し停止条件を決定するために意味トークンを利用します。我々は、人気のある離散音声合成技術を拡張するために、我々の手法に対して3つの連続バリアントを提案します。さらに、各バリアントに対して離散ベースラインを実装し、離散と連続の音声モデリング技術の比較分析を行います。我々の結果は、連続と離散の両アプローチが非常に有能であり、SALADが優れた理解度スコアを達成しながら、音声品質と話者の類似性を真のオーディオと同等に獲得していることを示しています。
心電図(ECG)は、心臓疾患を評価するための重要な非侵襲的診断ツールです。既存の自動解釈手法は一部の心臓疾患に焦点を当て、一般化が限定されており、通常、生理学的信号を使用しますが、資源が限られた環境では印刷物やデジタルのECG画像のみが利用可能な場合があります。最近の多様なデータソースからのECG関連タスクをカバーする100万以上のサンプルを含む包括的なECG画像インストラクションチューニングデータセットであるECGInstructを紹介します。ECGInstructを使用して、ECG画像理解に特化したMLLMであるPULSEを開発します。さらに、9つの異なるデータセットを対象とする4つの主要なECG画像解釈タスクをカバーする新しい評価ベンチマークであるECGBenchをキュレーションします。実験の結果、PULSEは一般的なMLLMを上回り、平均精度が15%から30%向上することが示されました。この研究は、PULSEが臨床実践におけるECG解釈の向上の可能性を示しています。
本論文では、高品質の生成を加速させるために設計されたトレーニング不要の新しい戦略である「FasterCache」を提案します。既存のキャッシュベースの手法を分析することで、隣接するステップの特徴を直接再利用することが微妙な変化の損失を引き起こすことがわかりました。さらに、分類器を使用しないガイダンス(CFG)の加速ポテンシャルを先駆的に調査し、同じタイムステップ内の条件付きと無条件の特徴の間に重要な冗長性があることを明らかにしました。これらの観察を活かし、Diffusionベースのビデオ生成を大幅に加速するためにFasterCacheを導入します。主な貢献には、特徴の差異と時間的連続性の両方を保持する動的特徴再利用戦略、およびビデオ品質を損なうことなく推論速度をさらに向上させるために条件付きと無条件の出力の再利用を最適化するCFG-Cacheが含まれます。我々は最近のビデオDiffusionモデルでFasterCacheを実験的に評価しました。実験結果は、FasterCacheがビデオ生成を著しく加速できること(例:Vchitect-2.0で1.67倍の高速化)を示し、ビデオ品質をベースラインと比較して同等に保ちながら、推論速度とビデオ品質の両方で既存の手法を一貫して上回ることを示しています。
音声(スピーチ、非スピーチ音、音楽を含む)を理解する能力は、AIエージェントが世界と効果的にやり取りするために重要です。私たちは、専門レベルの知識と複雑な推論を必要とするタスクでマルチモーダル音声理解モデルを評価するために設計された画期的なベンチマークであるMMAUを提案します。MMAUには、スピーチ、環境音、音楽を含む自然言語の質問と回答がペアになった、注意深く選定された10,000個のオーディオクリップが含まれています。情報抽出と推論の質問が含まれており、モデルに27種類の異なるスキルを示すことが求められるユニークで挑戦的なタスクが用意されています。既存のベンチマークとは異なり、MMAUはドメイン固有の知識を活用した高度な知覚と推論を重視し、モデルに専門家が直面するようなタスクに取り組むことを求めます。我々は18のオープンソースおよびプロプライエタリ(大規模)オーディオ・ランゲージ・モデルを評価し、MMAUがもたらす重要な課題を示しています。特筆すべきは、最も先進的なGemini Pro v1.5でも正解率がわずか52.97%であり、最先端のオープンソースQwen2-Audioでも52.50%しか達成していないことです。これは、さらなる改善の余地が大きいことを示しています。MMAUが、複雑な音声タスクを解決できるより高度な音声理解モデルを開発するために、音声およびマルチモーダル研究コミュニティを推進すると信じています。
ビジョン・ランゲージモデル(VLMs)は最近、著しい進歩を遂げていますが、オープンソースの指示データの規模と品質が限られているため、クローズドソースのモデルと比較してパフォーマンスが制限されています。本研究では、この制限に対処するために、40百万のサンプルを持つ大規模なマルチモーダルな指示データセットであるInfinity-MMを導入し、厳格な品質フィルタリングと重複排除を通じて強化しました。また、オープンソースのVLMを基にした合成指示生成手法を提案し、詳細な画像注釈と多様な質問生成を使用しています。このデータを使用して、20億パラメータのVLMであるAquila-VL-2Bを訓練し、同様の規模のモデルにおいて最先端のパフォーマンスを達成しました。これにより、指示データの拡充と合成データの生成がオープンソースモデルのパフォーマンスを著しく向上させることが示されました。
大規模言語モデル(LLM)の普及により、専門化されたサブネットワークを動的に活用するMixture-of-Experts(MoE)アーキテクチャが採用され、効率と性能が向上しました。その利点にもかかわらず、MoEモデルは推論中に効率的なメモリ管理やサブ最適なバッチ処理など、重要な課題に直面しています。これは、モデルアーキテクチャとシステムポリシーとの設計の不一致に起因しています。さらに、MoEをゼロからトレーニングする従来のアプローチは、コスト面でますます制約が大きくなっています。本論文では、私たちは、事前トレーニングされた密なLLMを小さなMoEモデルに変換する新しいフレームワークであるRead-MEを提案しています(一般的なMoEを「アップサイクリング」するのとは対照的)。私たちのアプローチは、専門家を抽出するために活性化スパースネスを利用しています。専門家を構成するために、広く採用されている層別のルーターデザインを調査し、その冗長性を示し、MoEバックボーンから分離されたプリゲーティングルーターを導入しています。これにより、システムにやさしい事前計算と先読みスケジューリングが可能となり、専門家を意識したバッチ処理とキャッシングが向上します。したがって、私たちの共同設計は、アルゴリズムとシステムの両面での重要なギャップに対処し、リソース制約のある環境でのLLM推論のためのスケーラブルで効率的な代替手段を確立しています。Read-MEは、同様の規模の他の人気のあるオープンソースの密なモデルを上回り、MMLUで最大10.1%の改善を達成し、平均エンドツーエンドの遅延を最大6.1%改善しています。コードは次で入手可能:https://github.com/VITA-Group/READ-ME.
自然言語処理(NLP)のベンチマークは、モデルの訓練と評価に標準化されたデータセットに依存しており、分野の進歩には不可欠です。従来、専門家による注釈が高品質なラベルを保証していましたが、現代のモデルに必要なより大きなデータセットの需要が増加するにつれ、専門家による注釈のコストはスケーリングされません。一方、クラウドソーシングはよりスケーラブルなソリューションを提供しますが、注釈の精度と一貫性が犠牲になることがよくあります。大規模言語モデル(LLMs)の最近の進歩は、既存のデータセット内のラベルエラーを検出するための注釈プロセスを向上させる新しい機会を提供しています。本研究では、LLMを判定者として使用する最近の手法を検討し、LLMのアンサンブルを活用して潜在的に誤ラベル付けされた例を特定します。さらに、異なるタスクとドメインをカバーするTRUEベンチマークからの4つのデータセットの事例研究を通じて、既存のデータセットのラベリング品質を実証的に分析し、専門家、クラウドソーシング、およびLLMベースの注釈を合意、ラベル品質、効率の観点から比較し、各注釈方法の強みと制限を示します。調査結果は、多数のラベルエラーが存在し、これらを修正すると報告されたモデルの性能が著しく向上することを示しています。これは、多くのLLMのいわゆる誤りが、本当のモデルの失敗ではなくラベルエラーに起因していることを示唆しています。さらに、誤ラベル付けされたデータの影響と、モデルの性能を向上させるためのトレーニングでそれらを緩和する方法について議論しました。
現代の大規模言語モデル(LLM)の中核であるトランスフォーマーは、推論能力を阻害する固有のアーキテクチャ上の制約に直面しています。再帰ネットワークとは異なり、トランスフォーマーには再帰的な接続が欠如しており、一定の深さの計算に制約があります。この制約により、トランスフォーマーは複雑度クラスTC^0に位置付けられ、入力長が増加するにつれて深い推論を要求するタスクを理論的に解決できない可能性があります。多くの推論タスクの基本的な要素であるカウントには、帰納的に実行するために推論の深さが線形に増加する必要があります。以前の研究では、トランスフォーマーをベースとする専門家モデル(つまり、カウントタスク用に特別に訓練されたモデル)のカウント能力の上限が確立されていますが、これらの結果は推論メカニズムの違いにより、汎用LLMに直接拡張されません。最近の研究では、Chain of Thought(CoT)推論が、カウントタスクにおけるトランスフォーマーのアーキテクチャ上の制約の一部を緩和するのに役立つことが示されています。ただし、これらのモデルにおけるトークン化の役割にはあまり注意が払われていません。専門家モデルがしばしば文字レベルのトークン化を使用するのに対し、LLMは通常、バイトレベル(BPE)トークナイザーに依存しており、これは推論が処理される方法を根本的に変えます。私たちの研究は、トークン化がLLMのカウント能力に与える影響を調査し、入力のトークン化の違いに基づく実質的な性能の変動を明らかにします。理論的および実験的な分析を提供し、トークン化の選択がモデルの理論的計算可能性を損なう方法について洞察を提供し、それによりLLMにおける推論を向上させるための新しいトークン化方法の設計をインスピレーションとして提供します。
人間のフィードバックから学習することにより、言語モデル(LM)を人間の好みと整合させることが可能となりました。ただし、人間の好みを直接収集することは費用がかかり、時間がかかる上にばらつきが大きいことがあります。魅力的な代替手段として、LMから好みを抽出して合成アノテーションのソースとすることが挙げられます。これは人間のアノテーションよりも一貫性があり、安価でスケーラブルである一方、バイアスやエラーにも影響を受けやすいです。本研究では、人間とLMからの入力を組み合わせて、アノテーションの品質を向上させ、人間のアノテーションの総コストを削減するためのルーティングフレームワークを紹介します。我々のアプローチの要点は、人間のアノテーションから恩恵を受けるであろう好みのインスタンスを特定することです。これを最適化問題として定式化します。好みのデータセットと評価メトリックが与えられた場合、任意の人間とLMのアノテーションの組み合わせに対する報酬モデルのパフォーマンスを予測するパフォーマンス予測モデルを訓練し、予測されたパフォーマンスを最大化する組み合わせを選択するためのルーティング戦略を採用します。我々は、人間とLMのラベルとペアになった新しい10Kの好みデータセットであるMultiPrefでパフォーマンス予測モデルを訓練しました。我々のルーティングフレームワークを使用して選択されたLMと直接の人間の好みのハイブリッド混合は、単独で使用するよりも報酬モデルのパフォーマンスを向上させることを示しました。また、他の3つのデータセットで選択的な人間の好み収集をシミュレートし、我々の手法が全体にうまく汎化されることを示しました。さらに、ルーティングモデルからの特徴を分析して、人間のフィードバックから恩恵を受ける可能性のあるインスタンスの特性を特定しました。たとえば、中程度の安全上の懸念や意図の複雑さを持つプロンプトなどです。この研究で使用されたデータセット、アノテーションプラットフォーム、およびソースコードを公開し、将来のより効率的で正確な好みの収集を促進します。
最近の研究では、LLMの幻覚の悪化要因の1つとして、事前トレーニングとファインチューニングの間の知識の不整合が特定されており、未知のファインチューニングデータがLLMを誤ったが妥当な出力を作り出すように誤導することがある。本論文では、この知識の不整合を解消し、幻覚を減少させるための新しいファインチューニング戦略であるPrereq-Tuneを提案する。基本的に、Prereq-Tuneはスキルと知識の学習を分離することで、モデルがタスクスキルのみを学習し、知識の不整合の影響を受けないようにする。これを実現するために、Prereq-TuneはSFTのために必要な知識を学習するための追加の事前学習段階を導入し、その後のSFTがタスクスキルに焦点を当てることができるようにする。Prereq-Tuneは、LLMの出力を内部の知識により強固に基づかせるために架空の合成データと組み合わせることもできる。実験結果は、Prereq-Tuneが短いQAや長い形式の生成タスクにおけるLLMの事実性を向上させる点で既存のベースラインを凌駕していることを示している。また、LLMにおける知識制御生成の新たな可能性を切り拓く。当該コードは以下で入手可能:https://github.com/UCSB-NLP-Chang/Prereq_tune.git。
大規模言語モデル(LLMs)は、そのパラメータに膨大な事実知識を格納することができます。ただし、そのパラメトリックな知識は文脈で提供された情報と矛盾する可能性があります。このような矛盾は、過去の情報や誤った情報に依存するなど、望ましくないモデルの振る舞いにつながる可能性があります。本研究では、LLMsが知識の矛盾を識別できるかどうか、およびLLMの残差ストリームを分析することでモデルがどの知識源に依存するかを知ることが可能かどうかを調査しています。プロービングタスクを通じて、LLMsが残差ストリーム内で知識の矛盾の信号を内部的に登録することがわかりました。これは、中間モデルの活性化をプローブすることで正確に検出できます。これにより、入力やモデルのパラメータを変更せずに、回答を生成する前に残差ストリーム内の矛盾を検出できます。さらに、モデルが文脈知識とパラメトリック知識のどちらに依存して矛盾を解決するかによって、残差ストリームには大きく異なるパターンが現れることがわかりました。このパターンは、LLMsの振る舞いを推定し、回答を生成する前に予期しない回答を防ぐために活用できます。当社の分析は、LLMsが内部で知識の矛盾をどのように管理しているかについての洞察を提供し、知識選択プロセスを制御する方法の開発の基盤を提供しています。
ロボットが物体とやり取りするビデオは、物体のダイナミクスに関する豊富な情報をエンコードしています。しかし、既存のビデオ予測手法は、通常、ロボットのアクションや物体の3D状態などのビデオからの3D情報を明示的に考慮していないため、実世界のロボットアプリケーションでの使用が制限されています。本研究では、マルチビューRGBビデオから物体のダイナミクスを学習するためのフレームワークを紹介します。このフレームワークでは、ロボットのアクション軌跡とそれらがシーンのダイナミクスに与える影響を明示的に考慮しています。我々は、3Dガウススプラッティング(3DGS)の3Dガウス表現を使用して、グラフニューラルネットワークを用いて粒子ベースのダイナミクスモデルを訓練します。このモデルは、密に追跡された3Dガウス再構築からダウンサンプリングされたスパースな制御粒子で動作します。オフラインのロボットインタラクションデータでニューラルダイナミクスモデルを学習することで、我々の手法は異なる初期配置や未知のロボットアクション下で物体の動きを予測することができます。ガウスの3D変換は、制御粒子の動きから補間され、予測された将来の物体の状態をレンダリングし、アクションに依存したビデオ予測を実現します。このダイナミクスモデルは、物体操作タスクのためのモデルベースの計画フレームワークにも適用できます。我々は、ロープ、衣類、ぬいぐるみなどのさまざまな可変材料に関する実験を行い、複雑な形状とダイナミクスをモデル化する能力を示しました。プロジェクトページはhttps://gs-dynamics.github.ioでご覧いただけます。
予期しない結果に対応して信念や行動を適応させる能力、反射は知的システムが世界とやり取りする際の基本的な要素です。認知科学の観点から見ると、これは人間とAIシステムの両方に適用可能な知能の中核原則となります。大規模言語モデル(LLM)の知能に関する議論に対処するために、Reflection-Benchを提案します。これは、知覚、記憶、信念の更新、意思決定、予測、事実に基づく考え、メタ反射など、反射に不可欠な7つのコア認知機能を網羅する包括的なベンチマークです。OpenAI o1、GPT-4、Claude 3.5 Sonnetなど13の有力なLLMのパフォーマンスを評価します。その結果、現行のLLMはまだ十分な反射能力を欠いていることが示されました。これらの結果の根本的な原因について議論し、将来の研究の可能性を提案します。総括すると、Reflection-Benchは環境と信頼性を持ってやり取りできるAIを開発するための評価ツールとインスピレーションを提供します。データとコードはhttps://github.com/YabYum/ReflectionBench で入手可能です。
ニュースソースの偏り評価は、真実の証拠に依存する専門家、組織、研究者にとって極めて重要です。情報収集や報告において、特定の偏りの指標はコンテンツ分析から明確に把握できますが、政治的な偏りやフェイクニュースなどの記述はより大きな課題を提起します。本論文では、最近提案されたニュースメディア信頼性推定手法の拡張を提案し、アウトレットとその長期的なウェブインタラクションのモデリングに焦点を当てます。具体的には、大規模なニュースメディアハイパーリンクグラフ上で、4つの強化学習戦略の分類性能を評価します。私たちの実験は、事実報道と政治的な偏りという2つの難解な偏り記述を対象とし、ソースメディアレベルで著しい性能向上を示しました。さらに、CLEF 2023 CheckThat! Labチャレンジでの当社の手法を、F1スコアと公式MAEメトリックの両方で報告された結果を上回る形で検証します。さらに、事実報道と政治的な偏りのラベルでカテゴリ分けされた、最大規模のニュースソースメディアの注釈付きデータセットを公開することで貢献します。私たちの調査結果は、時間経過に伴うハイパーリンクの相互作用に基づいてニュースメディアソースをプロファイリングすることが可能であり、進化するメディアの景観を俯瞰することができると示唆しています。
教師なし事前学習は多くの教師あり領域で革新的であることが示されています。 ただし、このような考えを強化学習(RL)に適用することは、微調整がタスク固有のデータを模倣するのではなく、反復的な自己改善を通じて解を探索および特定するという独自の課題を提起します。本研究では、未ラベルの事前軌跡データを活用して効率的な探索戦略を学習する方法を検討しています。事前データは、低レベルのスキルセットを事前学習するために使用されるか、オンラインRLのための追加のオフポリシーデータとして使用される可能性がありますが、これらのアイデアをオンライン探索に効果的に組み合わせる方法は不明瞭でした。当社の手法であるSUPE(未ラベルの事前データからのスキルによる探索)は、これらのアイデアを慎重に組み合わせることでその利点を複利化することを示しています。当社の手法は、まず変分オートエンコーダ(VAE)を使用して低レベルのスキルを抽出し、次に楽観的な報酬モデルを使用して未ラベルの軌跡を疑似的にラベル付けし、事前データを高レベルでタスクに関連する例に変換します。最後に、SUPEはこれらの変換された例をオンラインRLのための追加のオフポリシーデータとして使用して、事前学習された低レベルのスキルを組み合わせて効率的に探索する高レベルポリシーを学習します。経験的に、SUPEは以前の戦略を確実に上回り、長期間で報酬がまばらなタスクの一連の問題を成功裏に解決します。コード: https://github.com/rail-berkeley/supe.