翻訳付きの日次キュレーションされたAI研究論文
近年、Transformerベースの大規模言語モデル(LLM)の性能は、さまざまな領域で目覚ましい進歩を遂げています。これらのLLMがより複雑なタスクに適用されるにつれ、より長い推論プロセスを実行したり、より大きな文脈を理解したりする必要性が高まっています。このような状況では、長いシーケンスに対するLLMの長さ一般化の失敗がより顕著になります。ほとんどの事前学習スキームでは、学習シーケンスを固定長(例えばLLaMaの2048)に切り詰めます。LLMは、相対的位置エンコーディングがこの問題に対処するために設計されているにもかかわらず、長い文脈の後に流暢なテキストを生成することに苦労し、下流タスクを実行することはなおさら困難です。長いコーパスでのファインチューニングなどの一般的な解決策は、多大なハードウェアと時間コストを伴い、慎重な学習プロセスの設計を必要とします。既存のLLMの生成能力をより効率的に活用するために、私たちはこの問題に寄与する主な分布外(OOD)要因を理論的および実証的に調査しました。この診断に基づき、私たちは即時の長さ一般化のためのシンプルで効果的な解決策、LM-Infiniteを提案します。これは、ラムダ型のアテンションマスクと距離制限のみを含み、パラメータの更新や学習を必要としません。私たちは、相対位置エンコーディング方法を使用するさまざまなLLMに適用可能であることを発見しました。LM-Infiniteは、O(n)の時間と空間で計算効率が良く、ArXivおよびOpenWebText2データセットで最大32kトークンまでの一貫した流暢さと生成品質を示し、2.72倍のデコード速度向上を実現しました。パスキー検索などの下流タスクでは、訓練長をはるかに超える入力に対して、通常のモデルが即座に失敗する状況でも機能し続けます。
マルチモーダル大規模言語モデルは近年、大きな注目を集めています。ただし、これまでの研究の多くは視覚と言語を組み合わせたマルチモーダルモデルに焦点を当てており、視覚と言語の指示に従う強力な能力を提供しています。しかし、私たちは音声も人間が世界と相互作用する重要なモダリティであると主張します。したがって、汎用アシスタントにとって、マルチモーダルな音声と言語の指示に従えることが重要です。本論文では、Large Language and Speech Model (LLaSM)を提案します。LLaSMは、エンドツーエンドで学習された大規模なマルチモーダル音声言語モデルであり、クロスモーダルな会話能力を備え、音声と言語の指示に従うことができます。初期実験では、LLaSMが人間と人工知能の相互作用において、より便利で自然な方法を提供することが示されています。具体的には、大規模な音声指示追従データセットLLaSM-Audio-Instructionsも公開しています。コードとデモはhttps://github.com/LinkSoul-AI/LLaSMおよびhttps://huggingface.co/spaces/LinkSoul/LLaSMで利用可能です。LLaSM-Audio-Instructionsデータセットはhttps://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructionsで入手できます。
私たちは、新たな最先端のアラビア語中心の基盤モデルおよび指示チューニングされたオープン生成型大規模言語モデル(LLMs)であるJaisとJais-chatを紹介します。これらのモデルは、GPT-3のデコーダー専用アーキテクチャに基づいており、アラビア語と英語のテキスト、およびさまざまなプログラミング言語のソースコードを含むデータセットで事前学習されています。130億のパラメータを持つこれらのモデルは、広範な評価に基づいて、既存のオープンなアラビア語および多言語モデルを大幅に上回るアラビア語の知識と推論能力を示しています。さらに、これらのモデルは、英語においても、類似サイズの英語中心のオープンモデルと競争力があり、はるかに少ない英語データで学習されているにもかかわらず優れた性能を発揮します。私たちは、モデルの学習、チューニング、安全性の調整、および評価について詳細に説明します。アラビア語LLMsの研究を促進するために、基盤モデルであるJaisと、指示チューニングされたJais-chatの2つのオープンバージョンを公開します。詳細はhttps://huggingface.co/inception-mbzuai/jais-13b-chatでご覧いただけます。
ロボットが研究室や専門的な工場の外で有用であるためには、新しい有用な行動を迅速に教える方法が必要です。現在のアプローチでは、タスク固有のエンジニアリングなしに新しいタスクを導入するための汎用性が欠けているか、あるいは実用的な使用を可能にする時間内でそれを実行するためのデータ効率が欠けています。本研究では、デモンストレーションからより迅速かつ汎用的に学習するための表現手段として、密なトラッキングを探求します。私たちのアプローチでは、Track-Any-Point (TAP) モデルを利用してデモンストレーション内の関連する動きを分離し、シーン構成の変化にわたってこの動きを再現するための低レベルコントローラをパラメータ化します。これにより、形状マッチング、積み上げ、接着剤の適用や物体の接着といった完全な経路追従タスクなど、複雑な物体配置タスクを解決する堅牢なロボットポリシーが得られることを示します。これらのデモンストレーションは、数分で収集することが可能です。
WeatherBench 2は、Raspら(2020)によって提案された全球中範囲(1-14日)の天気予報ベンチマークのアップデート版であり、データ駆動型の天気モデリングの進展を加速することを目的として設計されています。WeatherBench 2は、オープンソースの評価フレームワーク、公開されたトレーニングデータ、グラウンドトゥルースデータ、ベースラインデータ、そして最新のメトリクスと最先端のモデルを提供する継続的に更新されるウェブサイト(https://sites.research.google/weatherbench)で構成されています。本論文では、評価フレームワークの設計原則を説明し、現在の最先端の物理的およびデータ駆動型の天気モデルの結果を提示します。メトリクスは、主要な運用天気センターで天気予報を評価するための確立された手法に基づいています。モデルの性能を概観するために、一連のヘッドラインスコアを定義します。さらに、現在の評価設定における注意点と、データ駆動型天気予報の将来の課題についても議論します。
現実世界の制約下で、追跡・逃避の相互作用に必要なような戦略的なロボット行動を学習することは極めて困難です。これには、相互作用のダイナミクスを活用し、物理的な状態と潜在的な意図の不確実性の両方を考慮した計画が必要です。本論文では、この難解な問題を教師あり学習問題に変換し、完全観測可能なロボットポリシーが部分観測可能なポリシーのための教師信号を生成するアプローチを提案します。部分観測可能な追跡ポリシーの教師信号の質は、逃避者の行動の多様性と最適性のバランス、および完全観測可能なポリシーのモデル仮定の強さという2つの重要な要素に依存することがわかりました。私たちは、このポリシーをRGB-Dカメラを搭載した物理的な四足歩行ロボットに実装し、野外での追跡・逃避相互作用に適用しました。すべての課題にもかかわらず、センシングの制約は創造性を引き出します:ロボットは不確実な状況で情報を収集し、ノイズの多い測定値から意図を予測し、迎撃するために先回りすることを求められます。プロジェクトのウェブページ: https://abajcsy.github.io/vision-based-pursuit/