翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)の最近の評価は、基本的な自然言語タスクに対するゼロショット/フェウショット能力や、指示をツールAPIに変換する能力のテストに焦点が当てられてきました。しかし、複雑なマルチモーダル環境において、複雑なツールを活用してマルチターン・マルチモーダルの指示を完了するLLMsの評価は、まだ調査されていません。このギャップを埋めるため、我々はPowerPointタスク完了(PPTC)ベンチマークを導入し、ユーザーの指示に基づいてPPTファイルを作成・編集するLLMsの能力を評価します。このベンチマークには、多様なトピックをカバーする279のマルチターンセッションと、マルチモーダル操作を含む数百の指示が含まれています。また、ラベルAPIシーケンスではなく予測ファイルに基づいてLLMsが指示を完了したかどうかを評価するPPTX-Match評価システムを提案します。これにより、様々なLLM生成APIシーケンスをサポートします。我々は3つのクローズドLLMと6つのオープンソースLLMを測定しました。結果は、GPT-4がシングルターンダイアログテストで75.1%の精度で他のLLMsを上回る一方、セッション全体を完了するには課題があり、わずか6%のセッション精度しか達成できなかったことを示しています。我々のベンチマークでは、マルチターンセッションにおけるエラーの蓄積、長いPPTテンプレートの処理、マルチモーダル知覚の3つの主要なエラー原因を特定しました。これらは、将来のLLMおよびエージェントシステムにとって大きな課題となります。我々はPPTCのデータ、コード、評価システムをhttps://github.com/gydpku/PPTCで公開しています。
我々は、Fast Language-Audio Pre-training (FLAP) を提案する。これは、マスキング、コントラスティブ学習、再構成を通じて、効率的かつ効果的に音声と言語の表現を整列させる自己教師ありアプローチである。効率性を重視し、FLAPは音声スペクトログラムトークンをランダムにドロップし、残りのトークンにのみ焦点を当てて自己教師を行う。モダリティ間コントラスティブ学習を通じて、FLAPはペアとなった音声とテキストの表現を共有潜在空間に整列させる方法を学ぶ。特に、FLAPはマスキングによる複数の拡張ビューを活用してモダリティ間コントラストを行い、マスクされた音声トークンの部分を再構成する方法を学ぶ。さらに、FLAPは大規模言語モデル(LLM)を活用してテキスト入力を拡張し、性能向上に寄与する。これらのアプローチにより、よりロバストで情報量の多い音声-テキスト表現が得られ、FLAPはAudioCaps(R@1 53.0%を達成)およびClotho(R@1 25.5%を達成)における音声-テキスト検索タスクで最先端(SoTA)の性能を達成する。
本論文では、動的な運転シーンの空間-時間表現を学習するためのシンプルかつ強力なアプローチであるEmerNeRFを提案する。ニューラルフィールドに基づくEmerNeRFは、自己ブートストラップを通じてシーンの幾何学、外観、動き、および意味論を同時に捉える。EmerNeRFは2つの核心コンポーネントに依存している。第一に、シーンを静的フィールドと動的フィールドに階層化する。この分解は純粋に自己教師あり学習から生じ、一般的な実世界データソースから学習することを可能にする。第二に、EmerNeRFは動的フィールドから誘導されたフローフィールドをパラメータ化し、このフローフィールドを使用してマルチフレーム特徴をさらに集約し、動的オブジェクトのレンダリング精度を向上させる。これら3つのフィールド(静的、動的、フロー)を組み合わせることで、EmerNeRFは動的オブジェクトのセグメンテーションやオプティカルフロー推定のための教師データや事前学習モデルに依存することなく、高度に動的なシーンを自己完結的に表現できる。本手法はセンサーシミュレーションにおいて最先端の性能を達成し、静的シーン(+2.93 PSNR)と動的シーン(+3.70 PSNR)の再構築において従来手法を大幅に上回る。さらに、EmerNeRFの意味論的汎化能力を強化するため、2D視覚基盤モデルの特徴を4D時空間にリフトし、現代のTransformerにおける一般的な位置バイアスに対処することで、3D知覚性能を大幅に向上させる(例:占有予測精度で平均37.50%の相対的改善)。最後に、極端で高度に動的な設定下でのニューラルフィールドをベンチマークするため、多様で挑戦的な120シーケンスのデータセットを構築した。