翻訳付きの日次キュレーションされたAI研究論文
現代の人工知能(AI)システムは、基盤モデルによって支えられています。本論文では、Llama 3と呼ばれる新しい基盤モデルのセットを紹介します。Llama 3は、多言語対応、コーディング、推論、ツール使用をネイティブにサポートする言語モデルの集合体です。最大のモデルは、4050億のパラメータと最大128Kトークンのコンテキストウィンドウを備えた密なTransformerです。本論文では、Llama 3の広範な実証評価を提示します。Llama 3は、GPT-4などの主要な言語モデルと同等の品質を多数のタスクで提供することがわかりました。Llama 3を公開し、4050億パラメータの言語モデルの事前学習版と事後学習版、および入力と出力の安全性のためのLlama Guard 3モデルを含めます。本論文では、画像、ビデオ、音声の機能をLlama 3に組み込む実験の結果も提示します。このアプローチは、画像、ビデオ、音声認識タスクにおいて最先端の性能を発揮することが観察されました。結果として得られたモデルは、まだ開発中であるため、広く公開されていません。
最近のDiffusion Transformer(DiT)の進展は、高品質な動画コンテンツの生成において顕著な能力を示しています。しかしながら、Transformerベースの拡散モデルを用いて、制御可能な動きを持つ動画を効果的に生成する可能性は、まだ十分に探求されていない領域です。本論文では、テキスト、視覚、軌跡の条件を同時に統合した初の軌跡指向型DiTフレームワークであるToraを紹介します。具体的には、ToraはTrajectory Extractor(TE)、Spatial-Temporal DiT、およびMotion-guidance Fuser(MGF)で構成されています。TEは、3D動画圧縮ネットワークを用いて任意の軌跡を階層的な時空間モーションパッチにエンコードします。MGFは、これらのモーションパッチをDiTブロックに統合し、軌跡に従った一貫性のある動画を生成します。我々の設計はDiTのスケーラビリティとシームレスに整合し、動画コンテンツのダイナミクスを多様な時間、アスペクト比、解像度で精密に制御することを可能にします。大規模な実験により、Toraが高いモーション忠実度を達成しつつ、物理世界の動きを緻密にシミュレートする優れた能力を実証しています。詳細はhttps://ali-videoai.github.io/tora_videoをご覧ください。
我々は、混合モーダルな早期融合言語モデルの事前学習のために設計された、新しいモダリティ認識型エキスパート混合(MoE)アーキテクチャであるMoMaを紹介する。MoMaは、画像とテキストを任意の順序で処理するために、エキスパートモジュールをモダリティ固有のグループに分割する。これらのグループは、指定されたトークンを排他的に処理しながら、各グループ内で学習されたルーティングを採用し、意味的に情報化された適応性を維持する。我々の実験結果は、このモダリティ固有のパラメータ割り当てを通じて、事前学習の効率が大幅に向上することを明らかにしている。1兆トークンのトレーニング予算の下で、4つのテキストエキスパートと4つの画像エキスパートを備えたMoMa 1.4Bモデルは、事前学習損失で測定された計算等価な密なベースラインと比較して、全体で3.7倍、テキスト処理で2.6倍、画像処理で5.2倍のFLOPs節約を達成する。これは、8つの混合モーダルエキスパートを備えた標準的なエキスパート選択型MoEを上回り、後者は全体で3倍(テキスト:3倍、画像:2.8倍)のFLOPs節約を達成する。MoMaと深さ混合(MoD)を組み合わせることで、事前学習のFLOPs節約は全体で4.2倍(テキスト:3.4倍、画像:5.3倍)にさらに向上するが、ルーターの精度に対する感度が高まるため、因果推論の性能が低下する。これらの結果は、MoMaが混合モーダルな早期融合言語モデルの事前学習の効率を大幅に向上させる可能性を示しており、よりリソース効率的で能力の高いマルチモーダルAIシステムへの道を開くものである。
本論文では、高品質で人間らしい同時音声翻訳(SiST)システムであるCross Language Agent -- Simultaneous Interpretation(CLASI)を提案する。プロの人間通訳者に着想を得て、翻訳品質と遅延のバランスを取るために、新しいデータ駆動型の読み書き戦略を採用している。ドメイン固有の用語翻訳の課題に対処するため、CLASIはマルチモーダル検索モジュールを利用して関連情報を取得し、翻訳を強化する。大規模言語モデル(LLMs)のサポートにより、本アプローチは入力音声、過去の文脈、および検索された情報を考慮して、エラー耐性のある翻訳を生成することができる。実験結果は、本システムが他のシステムを大幅に上回ることを示している。プロの人間通訳者に準拠して、CLASIをより優れた人間評価指標である有効情報伝達率(VIP)で評価し、リスナーに成功裏に伝達される情報量を測定する。現実世界のシナリオでは、スピーチがしばしば不流暢で、非公式で、不明瞭であるが、CLASIは中国語から英語、英語から中国語の翻訳方向でそれぞれ81.3%と78.0%のVIPを達成する。対照的に、最先端の商用またはオープンソースシステムは35.4%と41.6%しか達成できない。他のシステムが13%未満のVIPしか達成できない極めて難しいデータセットにおいても、CLASIは70%のVIPを達成することができる。
私たちは、Gemma2を基盤とした包括的なLLMベースの安全なコンテンツモデレーションモデル群であるShieldGemmaを紹介します。これらのモデルは、ユーザー入力とLLM生成出力の両方において、主要な有害カテゴリ(性的表現、危険なコンテンツ、ハラスメント、ヘイトスピーチ)にわたる堅牢で最先端の安全リスク予測を提供します。公開ベンチマークと内部ベンチマークの両方で評価を行い、Llama Guard(公開ベンチマークで+10.8% AU-PRC)やWildCard(+4.3%)などの既存モデルと比較して優れた性能を示しています。さらに、安全性に関連する多様なタスクやそれ以外にも適応可能な、新しいLLMベースのデータキュレーションパイプラインを提示します。主に合成データでトレーニングされたモデルにおいて、強力な汎化性能を示しました。ShieldGemmaを公開することで、研究コミュニティに貴重なリソースを提供し、LLMの安全性を向上させ、開発者向けにより効果的なコンテンツモデレーションソリューションの創出を可能にします。
第1回データ汚染ワークショップ(CONDA 2024)は、自然言語処理におけるデータ汚染のあらゆる関連側面に焦点を当てています。ここでデータ汚染とは、大規模モデルの学習に使用される事前学習コーパスに評価データが含まれる状況を指し、これにより評価結果が損なわれることを意味します。本ワークショップでは、現在利用可能なデータセットとモデルにおけるデータ汚染の証拠を収集するための共有タスクを推進しました。この共有タスクと関連データベースの目的は、コミュニティが問題の範囲を理解し、研究者が既知の汚染されたリソースでの評価結果を報告することを避けるのを支援することです。共有タスクは、GitHubのプールリクエストを通じてコミュニティからの貢献を受け付ける、構造化された中央集権的な公開データベースを提供します。この最初のコンパイル論文は、23名の貢献者から報告された91の汚染源にわたる566件のエントリーに基づいています。個々の汚染イベントの詳細はプラットフォームで閲覧可能です。プラットフォームは引き続きオンラインで、コミュニティからの貢献を受け付けています。
音響視覚的セマンティックセグメンテーション(AVSS)は、音響的キューを用いてビデオ内の音源オブジェクトをセグメント化し分類することを目的としています。しかし、ほとんどのアプローチは閉じた集合の仮定に基づいて動作し、トレーニングデータから事前に定義されたカテゴリのみを識別するため、実用的なアプリケーションにおける新規カテゴリの検出に対する汎化能力が欠如しています。本論文では、新しいタスクとしてオープンボキャブラリー音響視覚的セマンティックセグメンテーションを導入し、AVSSタスクを注釈されたラベル空間を超えたオープンワールドシナリオに拡張します。これは、トレーニング中に見たことも聞いたこともないカテゴリを含むすべてのカテゴリを認識する必要がある、より挑戦的なタスクです。さらに、最初のオープンボキャブラリーAVSSフレームワークであるOV-AVSSを提案します。このフレームワークは主に2つの部分で構成されています:1)音響視覚的融合を実行し、すべての潜在的な音源オブジェクトを特定するユニバーサル音源ローカライゼーションモジュール、2)大規模事前学習済み視覚言語モデルからの事前知識を活用してカテゴリを予測するオープンボキャブラリー分類モジュールです。オープンボキャブラリーAVSSを適切に評価するために、AVSBench-semanticベンチマークに基づいてゼロショットトレーニングとテストサブセットを分割し、AVSBench-OVと名付けました。広範な実験により、我々のモデルがすべてのカテゴリにおいて強力なセグメンテーション能力とゼロショット汎化能力を発揮することが実証されました。AVSBench-OVデータセットにおいて、OV-AVSSはベースカテゴリで55.43%のmIoU、新規カテゴリで29.14%のmIoUを達成し、最先端のゼロショット手法を41.88%/20.61%、オープンボキャブラリー手法を10.2%/11.6%上回りました。コードはhttps://github.com/ruohaoguo/ovavssで公開されています。
私たちは、学習ベースの制御のための信頼性が高く低コストな中型ヒューマノイド研究プラットフォーム「Berkeley Humanoid」を紹介します。この軽量で内製されたロボットは、シミュレーションの複雑さが低く、人間の動きに近い動作が可能で、転倒に対する高い信頼性を備えるように特別に設計されています。このロボットは、シミュレーションと現実のギャップが小さいため、屋外環境のさまざまな地形での俊敏で堅牢な移動を実現し、軽いドメインランダム化を用いたシンプルな強化学習コントローラーで達成されています。さらに、数百メートルの移動、急勾配の未舗装路での歩行、片足および両足でのホッピングを実演し、動的な歩行における高い性能を証明しています。全方位移動が可能で、コンパクトなセットアップながら大きな外乱にも耐えられるこのシステムは、学習ベースのヒューマノイドシステムのスケーラブルなシミュレーションから現実への展開を目指しています。詳細はhttp://berkeley-humanoid.comをご覧ください。
表情や手の動きは、私たちの感情を表現し、世界と相互作用するために必要不可欠です。しかし、カジュアルに撮影されたビデオからモデル化された3D人間アバターのほとんどは、身体の動きのみをサポートしており、表情や手の動きは含まれていません。本研究では、短い単眼ビデオから学習した表現力豊かな全身3D人間アバター「ExAvatar」を提案します。ExAvatarは、全身パラメトリックメッシュモデル(SMPL-X)と3Dガウシアンスプラッティング(3DGS)を組み合わせて設計されています。主な課題は、1)ビデオ内の表情やポーズの多様性が限られていること、2)3DスキャンやRGBD画像などの3D観測データが欠如していることです。ビデオ内の多様性が限られているため、新しい表情やポーズでのアニメーション作成は容易ではありません。さらに、3D観測データが欠如しているため、ビデオ内で観測されなかった人体部分に大きな曖昧さが生じ、新しい動きの下で目立つアーティファクトが発生する可能性があります。これらの課題に対処するため、メッシュと3Dガウシアンのハイブリッド表現を導入しました。このハイブリッド表現では、各3DガウシアンをSMPL-Xのメッシュトポロジーに従って事前に定義された接続情報(つまり三角形の面)を持つ表面上の頂点として扱います。これにより、SMPL-Xの表情空間に基づいて駆動される新しい表情でのExAvatarのアニメーションが可能になります。さらに、接続ベースの正則化器を使用することで、新しい表情やポーズでのアーティファクトを大幅に削減します。
著作権隠蔽は、テキスト内の著者のアイデンティティを、そのテキストの著者に関連する文体、語彙、構文、その他の言語的特徴を変更することで偽装することを目的としています。この変更は、プライバシーと有用性のバランスを取る必要があります。強力な隠蔽技術は著者のアイデンティティを効果的に隠すことができますが、しばしばテキストの品質とその目的に対する有用性を低下させます。逆に、高い有用性を維持すると、プライバシーが不十分になり、攻撃者が著者を特定しやすくなります。したがって、これらの相反する目的の間で最適なトレードオフを達成することが重要です。本論文では、TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimizationを提案します。これは、下流の有用性を考慮してテキスト全体を再生成することで、プライバシーと有用性のトレードオフを最適化することを目的とした新しい教師なし著作権隠蔽手法です。私たちのアプローチは、ポリシー最適化を活用し、小さな言語モデルを微調整するパラダイムとして使用して、著者のアイデンティティと下流タスクの有用性を保持しながらテキストを書き換えます。私たちのアプローチが、有用性を保持しながら攻撃者の精度を大幅に低減することを示します。私たちは、コードとモデルを公開しています。
現在の視覚基盤モデルは、非構造化の2Dデータのみで訓練されており、物体やシーンの3D構造の理解が制限されています。本研究では、3Dを意識したデータによるファインチューニングが、新たに出現する意味的特徴の品質を向上させることを示します。私たちは、意味的2D特徴を効率的な3Dガウス表現に変換する手法を設計し、任意の視点でそれらを再レンダリングできるようにしました。レンダリングされた3Dを意識した特徴を用いて、2D基盤モデルにそのような3D認識を転移するファインチューニング戦略を設計しました。この方法でファインチューニングされたモデルは、単純な線形プローブを通じて、セマンティックセグメンテーションや深度推定などの下流タスクの性能を容易に向上させる特徴を生成することを実証します。特に、単一の屋内データセットでファインチューニングされたにもかかわらず、その改善はさまざまな屋内データセットやドメイン外のデータセットに転移可能です。私たちの研究が、2D基盤モデルの訓練において3D認識を注入することをコミュニティに検討させることを期待しています。プロジェクトページ: https://ywyue.github.io/FiT3D。
事前学習済みの画像拡散モデルに時間次元を組み込んで動画生成を行う手法は広く普及しています。しかし、この方法は計算コストが高く、大規模な動画データセットを必要とします。さらに重要な点として、画像と動画のデータセット間の異質性により、画像に関する専門知識が壊滅的に忘れ去られることがしばしば発生します。最近では、画像拡散モデルから直接動画スニペットを抽出する試みが行われ、これらの問題をある程度緩和しています。それでも、これらの手法では単純な動きしか持たない短い動画クリップしか生成できず、細かい動きやグリッド以外の変形を捉えることができません。本論文では、既存の画像合成手法(例えばStable Diffusion)から、学習や最適化を一切行わずに高品質な動画クリップを直接サンプリングできる新しいZero-Shot動画サンプリングアルゴリズム、ZS^2を提案します。具体的には、ZS^2は依存性ノイズモデルと時間的モーメンタムアテンションをそれぞれ用いて、内容の一貫性とアニメーションの連続性を保証します。この能力により、条件付きや文脈特化型の動画生成、指示に基づく動画編集といった関連タスクにおいて優れた性能を発揮します。実験結果は、ZS^2がゼロショット動画生成において最先端の性能を達成し、時には最近の教師あり手法を上回ることを示しています。 ホームページ: https://densechen.github.io/zss/
ニューラルフィールドは、セマンティクス、ジオメトリ、ダイナミクスを推論するなど、3D視覚世界を理解する能力により、コンピュータビジョンとロボティクスにおいて優れた性能を発揮します。2D画像から3Dシーンを密に表現するニューラルフィールドの能力を踏まえ、我々は次の疑問を投げかけます:マスクドオートエンコーダを用いて、特にポーズ付きRGB画像から効果的な3D表現を生成するために、それらの自己教師あり事前学習をスケールアップできるか?トランスフォーマーを新しいデータモダリティに拡張する驚異的な成功を受けて、我々は標準的な3D Vision TransformersをNeRFの独特な定式化に適合させることを試みます。NeRFのボリュメトリックグリッドをトランスフォーマーへの密な入力として活用し、情報密度が不均一で表現が不規則な点群などの他の3D表現と対比します。NeRFのような暗黙的表現にマスクドオートエンコーダを適用する難しさから、我々はカメラ軌道を用いてサンプリングすることでドメイン間でシーンを正規化する明示的表現を抽出することを選択します。我々の目標は、NeRFの放射輝度と密度グリッドからランダムなパッチをマスキングし、標準的な3D Swin Transformerを用いてマスクされたパッチを再構築することで達成されます。これにより、モデルは完全なシーンのセマンティックおよび空間構造を学習することができます。我々は、提案したキュレーションされたポーズ付きRGBデータ(合計180万枚以上の画像)でこの表現を大規模に事前学習します。事前学習後、エンコーダは効果的な3D転移学習に使用されます。我々の新しいNeRFの自己教師あり事前学習手法、NeRF-MAEは、驚くほどよくスケールし、さまざまな困難な3Dタスクで性能を向上させます。ラベルなしのポーズ付き2Dデータを事前学習に活用することで、NeRF-MAEはFront3DおよびScanNetデータセットにおいて、自己教師あり3D事前学習およびNeRFシーン理解ベースラインを大幅に上回り、3D物体検出においてAP50で20%以上、AP25で8%の絶対的性能向上を達成します。