翻訳付きの日次キュレーションされたAI研究論文
言語モデル(LM)のサブ二次計算量アーキテクチャのフロンティアを進化させることは、自然言語処理の急速に進化する分野において極めて重要です。現在の革新、例えば状態空間モデルは、当初言語モデリングタスクにおいてTransformerの性能を凌駕すると称賛されました。しかし、これらのモデルは、Transformerが伝統的に優れている領域であるインコンテキスト学習能力において欠陥を露呈しました。Basedモデルは、線形Transformerと指数関数のテイラー展開に着想を得たカーネルを融合し、畳み込みネットワークで拡張したハイブリッドソリューションとして登場しました。Transformerのインコンテキスト適応力を模倣し、この分野で有力な競争相手となりました。本研究では、Basedカーネルに対する単一で洗練された変更を提示し、Multi-Query Associative RecallタスクとPileデータセットで実証された全体的な言語モデリングプロセスにおけるインコンテキスト学習能力を強化します。
本論文は、生成型トランスフォーマーモデルを用いて長文書を処理する課題に取り組む。異なるアプローチを評価するため、広範なテキスト内に分散する事実を抽出・処理するモデルの能力を測定する新しいベンチマーク「BABILong」を導入した。GPT-4とRAGを含む評価の結果、一般的な手法は10^4要素までのシーケンスにしか有効でないことが明らかになった。一方、リカレントメモリ拡張を施してGPT-2をファインチューニングすることで、10^7要素までのタスクを処理可能となった。この成果は、これまでに公開されているニューラルネットワークモデルの中で最も長い入力処理を実現したものであり、長いシーケンスに対する処理能力の大幅な向上を示している。
ユーザーの長期的なエンゲージメント履歴を活用することは、パーソナライズされたコンテンツ推薦において不可欠です。自然言語処理(NLP)における事前学習済み言語モデル(PLM)の成功を受け、ユーザー履歴と候補アイテムをエンコードするためにPLMが使用され、コンテンツ推薦をテキストの意味的マッチングタスクとして捉えるアプローチが進んでいます。しかし、既存の研究では、非常に長いユーザー履歴テキストの処理や、ユーザーとアイテム間の相互作用が不十分であるという課題に直面しています。本論文では、コンテンツベースの推薦フレームワークであるSPARを紹介します。SPARは、長いユーザーエンゲージメント履歴から包括的なユーザー興味を抽出するという課題に効果的に対処します。これは、PLM、ポリアテンションレイヤー、およびアテンションスパース性メカニズムを活用し、ユーザー履歴をセッションベースでエンコードすることで実現されます。ユーザー側とアイテム側の特徴は、エンゲージメント予測のために十分に融合されつつ、両側の独立した表現を維持するため、実用的なモデル展開において効率的です。さらに、大規模言語モデル(LLM)を活用してユーザーエンゲージメント履歴からグローバルな興味を抽出することで、ユーザープロファイリングを強化します。2つのベンチマークデータセットでの大規模な実験により、本フレームワークが既存の最先端(SoTA)手法を上回ることを実証しました。
大規模言語モデル(LLMs)は、NLP研究者にとって幅広いタスクにおいて主要かつ重要なツールとなっています。現在、多くの研究者がLLMsを合成データ生成、タスク評価、ファインチューニング、蒸留、およびその他のモデルインザループ研究ワークフローに使用しています。しかし、これらのモデルを使用する際には、その規模、クローズドソースの性質、そしてこれらの新興ワークフローに対する標準化されたツールの欠如といった課題が生じます。これらのモデルの急速な台頭とこれらの独特な課題は、オープンサイエンスとそれらを使用する研究の再現性に即座に悪影響を及ぼしています。本論文では、研究者がシンプルなコードを書いて強力なLLMワークフローを実装できるオープンソースのPythonライブラリであるDataDreamerを紹介します。DataDreamerはまた、オープンサイエンスと再現性を促進するために提案するベストプラクティスに従うのを支援します。ライブラリとドキュメントはhttps://github.com/datadreamer-dev/DataDreamerで利用可能です。
動画制作はますます人気を集めているが、編集に必要な専門知識と労力は初心者にとって障壁となることが多い。本論文では、これらの障壁を低減するために、大規模言語モデル(LLM)を動画編集ワークフローに統合する方法を探る。私たちの設計ビジョンは、LLMを活用したエージェント支援と言語拡張編集機能を提供する新システム「LAVE」に具現化されている。LAVEは、ユーザーの映像に対して自動的に言語記述を生成し、LLMが動画を処理し編集タスクを支援するための基盤を提供する。ユーザーが編集目標を提供すると、エージェントはそれらを達成するための関連アクションを計画し実行する。さらに、LAVEはユーザーがエージェントを介して、または直接UI操作を通じて動画を編集することを可能にし、柔軟性を提供し、エージェントのアクションを手動で調整することを可能にする。初心者から熟練者までの8名の参加者を対象としたユーザー調査では、LAVEの有効性が実証された。結果はまた、提案されたLLM支援編集パラダイムに対するユーザーの認識と、それがユーザーの創造性と共創感に与える影響についても明らかにした。これらの知見に基づき、エージェント支援コンテンツ編集の将来の開発に役立つ設計の示唆を提案する。
自動的な並列評価は、大規模言語モデル(LLM)の応答品質を評価するための有望なアプローチとして登場しています。しかし、この評価手法の結果を分析する際には、スケーラビリティと解釈可能性に関する課題が生じます。本論文では、自動並列評価の結果をインタラクティブに分析するための新しいビジュアルアナリティクスツール「LLM Comparator」を紹介します。このツールは、ユーザーがモデルがベースラインモデルよりもいつ、なぜ優れている(または劣っている)のか、また2つのモデルの応答が質的にどのように異なるのかを理解するためのインタラクティブなワークフローをサポートします。私たちは、大規模テクノロジー企業の研究者やエンジニアと密接に協力して、このツールを反復的に設計・開発しました。本論文では、私たちが特定したユーザー課題、ツールの設計と開発、そして定期的にモデルを評価する参加者による観察研究について詳述します。
大規模言語モデル(LLM)は、一般的な文脈における高度な理解力と生成能力により、会話システムにおいてますます普及しています。しかし、特定のタスクやドメイン内での効果的な対話状態追跡(DST)だけでなく、応答生成も要求されるタスク指向対話(TOD)におけるその有効性は、まだ十分とは言えません。本研究では、関数呼び出しを通じてLLMを用いたDSTを解決するための新しいアプローチFnCTODを提案します。この方法は、ゼロショットDSTを改善し、大規模なデータ収集やモデルチューニングなしに多様なドメインに適応することを可能にします。実験結果は、我々のアプローチが、適度なサイズのオープンソースモデルおよびプロプライエタリなLLMの両方で優れた性能を発揮することを示しています:コンテキスト内プロンプティングにより、7Bまたは13Bパラメータの様々なモデルが、ChatGPTによって達成された以前の最先端(SOTA)を上回り、ChatGPTの性能を5.6% Avg. JGAで向上させてSOTAを打ち破ります。GPT-3.5とGPT-4の個別モデル結果は、それぞれ4.8%と14%向上しました。また、多様なタスク指向対話の小さなコレクションで微調整を行うことで、特に13BパラメータのLLaMA2-Chatモデルに、関数呼び出し機能とChatGPTに匹敵するDST性能を備えさせながら、そのチャット能力を維持できることも示しています。実験コードとモデルのオープンソース化を計画しています。
拡散モデルは画像や動画生成において非常に効果的であることが証明されているが、単一スケールの学習データを使用するため、さまざまなサイズの画像を生成する際に構成上の課題に直面している。高解像度に対応するために大規模な事前学習済み拡散モデルを適応させるには、多大な計算リソースと最適化が必要であり、低解像度モデルと同等の生成能力を達成することは依然として困難である。本論文では、低解像度モデルから得られた豊富な知識を活用し、高解像度の画像や動画生成に迅速に適応する新しい自己カスケード拡散モデルを提案する。このモデルは、チューニング不要または低コストのアップサンプラーチューニングパラダイムを採用し、マルチスケールアップサンプラーモジュールのシーケンスを統合することで、元の構成と生成能力を維持しながら効率的に高解像度に適応できる。さらに、推論プロセスを高速化し、局所的な構造的詳細を改善するために、ピボットガイドノイズ再スケジュール戦略を提案する。完全なファインチューニングと比較して、本アプローチは5倍の学習速度向上を達成し、追加で0.002Mのチューニングパラメータのみを必要とする。大規模な実験により、本アプローチがわずか10kステップのファインチューニングで高解像度の画像や動画合成に迅速に適応し、実質的に追加の推論時間を必要としないことが実証された。
本論文では、段階的にアライメントされた言語モデルが、凍結された視覚エンコーダと大規模言語モデル(LLM)を効果的に橋渡しできることを示す。視覚エンコーダとLLMの基本的なアーキテクチャと事前学習手法は広く研究されているが、視覚言語アダプタのアーキテクチャと学習戦略は最近の研究において大きく異なる。本研究では、最先端のパーシバリサンプラアーキテクチャを徹底的に探求し、強力なベースラインを構築した。しかし、パーシバリサンプラを用いた視覚言語アライメントは、直接的な監督が欠如しているため、収束が遅く、スケーラビリティが限られていることが観察された。この問題に対処するため、段階的にアライメントされた言語モデルを視覚言語アダプタとして採用したPaLM2-VAdapterを提案する。パーシバリサンプラを用いた強力なベースラインと比較して、我々の手法は経験的に、より速い収束、高い性能、および強いスケーラビリティを示す。画像およびビデオにおける様々な視覚質問応答(VQA)およびキャプショニングタスクにわたる広範な実験により、我々のモデルが最先端の視覚理解とマルチモーダル推論能力を発揮することが実証された。特に、我々の手法は、最先端の大規模視覚言語モデルと比較して30〜70%少ないパラメータでこれらの進歩を達成し、効率の大幅な向上を実現している。
非常に疎な視点からの3Dオブジェクトの再構築とレンダリングは、3D視覚技術の応用を促進し、ユーザー体験を向上させる上で極めて重要です。しかし、疎な視点からの画像は非常に限られた3D情報しか含まないため、2つの大きな課題が生じます:1) マッチングのための画像が少なすぎるため、マルチビュー一貫性を構築するのが困難であること、2) 視点のカバレッジが不十分なため、オブジェクト情報が部分的に欠落するか、高度に圧縮されることです。これらの課題に対処するため、我々はGaussianObjectを提案します。これは、ガウススプラッティングを用いて3Dオブジェクトを表現し、わずか4枚の入力画像で高品質なレンダリングを実現するフレームワークです。まず、視覚的ハルとフローティングオブジェクト除去の技術を導入し、初期最適化プロセスに構造的な事前情報を明示的に注入することで、マルチビュー一貫性の構築を支援し、粗い3Dガウス表現を生成します。次に、拡散モデルに基づくガウス修復モデルを構築し、欠落したオブジェクト情報を補完します。ここで、ガウス表現はさらに洗練されます。修復モデルのトレーニング用の画像ペアを取得するために、自己生成戦略を設計します。我々のGaussianObjectは、MipNeRF360、OmniObject3D、OpenIlluminationなどの複数の挑戦的なデータセットで評価され、わずか4視点からの強力な再構築結果を達成し、従来の最先端手法を大幅に上回る性能を示しました。
ユニバーサル・マニピュレーション・インターフェース(UMI)を紹介します。UMIは、野外での人間のデモンストレーションから直接スキルを転移し、ロボットポリシーとして展開可能にするデータ収集およびポリシー学習フレームワークです。UMIは、携帯可能で低コストかつ情報豊富なデータ収集を実現するため、ハンドヘルドグリッパーと慎重に設計されたインターフェースを採用し、挑戦的な両手操作や動的なマニピュレーションのデモンストレーションを可能にします。展開可能なポリシー学習を促進するため、UMIは推論時の遅延マッチングと相対軌道アクション表現を備えた慎重に設計されたポリシーインターフェースを組み込んでいます。これにより、学習されたポリシーはハードウェアに依存せず、複数のロボットプラットフォームで展開可能となります。これらの機能を備えたUMIフレームワークは、各タスクのトレーニングデータを変更するだけで、ゼロショットで一般化可能な動的、両手操作、精密、および長期的な行動を可能にし、新しいロボットマニピュレーション能力を解き放ちます。UMIの汎用性と有効性を、包括的な実世界の実験で実証し、多様な人間のデモンストレーションでトレーニングされたUMI経由のポリシーが、新しい環境や物体に対してゼロショットで一般化することを示します。UMIのハードウェアおよびソフトウェアシステムは、https://umi-gripper.github.ioでオープンソースとして公開されています。
大規模言語モデル(LLM)が展開される多様なコンテキストにおいては、デフォルトのモデル挙動を修正またはカスタマイズし、微妙な要件や好みを組み込む能力が求められます。そのようなモデル調整を指定するための便利なインターフェースは、「上司へのメールを下書きする際に絵文字を使わないでください」といった高レベルの言語フィードバックです。しかし、高レベルのフィードバックを書くことは、人間からのフィードバックを用いた強化学習(RLHF)のためのアノテーションを収集するよりもはるかに簡単ですが、単にそのようなフィードバックをモデルに提示すると、フィードバックが関連しないコンテキストに過剰に一般化されることがわかります。私たちは、そのような過剰一般化を避けつつ言語フィードバックを組み込む問題を研究し、新しい手法「Contextualized Critiques with Constrained Preference Optimization(C3PO)」を提案します。C3POは、高レベルのフィードバックを用いて、そのフィードバックがどのように適用されるべきか(またされるべきでないか)を指定する小さな合成選好データセットを生成します。その後、フィードバックが適用されないプロンプトに対して元のモデルからの乖離を最小化しつつ、合成選好データに従ってモデルを微調整します。実験結果は、私たちのアプローチが関連するシナリオに言語フィードバックを効果的に適用しつつ、他のコンテキストでの既存の挙動を維持することを示しています。人間およびGPT-4によって生成された高レベルのフィードバックの両方において、C3POはコンテキスト内ベースラインと同等に与えられたフィードバックに従いつつ、過剰一般化を30%削減します。