翻訳付きの日次キュレーションされたAI研究論文
BigCodeコミュニティは、コード向け大規模言語モデル(Code LLMs)の責任ある開発に取り組むオープンサイエンスの協業組織であり、StarCoderとStarCoderBaseを紹介します。これらは15.5Bパラメータのモデルで、8Kのコンテキスト長、埋め込み機能、マルチクエリアテンションによる高速な大規模バッチ推論を備えています。StarCoderBaseは、The Stackから取得した1兆トークンでトレーニングされています。The Stackは、許諾ライセンスを持つGitHubリポジトリの大規模なコレクションであり、検査ツールとオプトアウトプロセスを備えています。StarCoderBaseを35BのPythonトークンでファインチューニングし、StarCoderを作成しました。我々はこれまでで最も包括的なCode LLMsの評価を実施し、StarCoderBaseが複数のプログラミング言語をサポートするすべてのオープンCode LLMを上回り、OpenAIのcode-cushman-001モデルと同等またはそれ以上の性能を示すことを確認しました。さらに、StarCoderはPythonでファインチューニングされたすべてのモデルを上回り、HumanEvalで40%のpass@1を達成するようプロンプトすることが可能であり、他のプログラミング言語での性能も維持しています。我々は、安全なオープンアクセスモデルのリリースに向けて、改良されたPII編集パイプラインと新しい帰属追跡ツールを含むいくつかの重要なステップを踏み、StarCoderモデルをOpen Responsible AI Modelライセンスのより商業的に実用的なバージョンの下で公開します。
本研究では、ビデオ理解の探求を開始するため、エンドツーエンドのチャット中心型ビデオ理解システム「VideoChat」を導入します。このシステムは、学習可能なニューラルインターフェースを介してビデオ基盤モデルと大規模言語モデルを統合し、時空間推論、イベント位置特定、因果関係推論において優れた性能を発揮します。このシステムを効果的に調整するため、数千のビデオと詳細な説明や会話を組み合わせたビデオ中心の指示データセットを提案します。このデータセットは、時空間推論と因果関係に重点を置いており、チャット中心型ビデオ理解システムのトレーニングに貴重な資産を提供します。予備的な定性的実験により、本システムが幅広いビデオアプリケーションにおいて潜在能力を発揮し、将来の研究の基準を設定することが明らかになりました。コードとデータはhttps://github.com/OpenGVLab/Ask-Anythingで公開しています。
生成AI(AIGC、別名AI生成コンテンツ)はここ数年で目覚ましい進歩を遂げており、その中でもテキストガイドによるコンテンツ生成は、人間の指示とAIGCとのインタラクションを可能にするため、最も実用的なものとなっています。テキストから画像への変換技術や3Dモデリング技術(NeRFなど)の発展に伴い、テキストから3Dへの変換は新たに登場したものの、非常に活発な研究分野となっています。本研究では、この分野に興味を持つ読者がその急速な発展に迅速に追いつけるよう、テキストから3Dへの変換に関する初の包括的な調査を行っています。まず、ユークリッドデータと非ユークリッドデータを含む3Dデータ表現を紹介します。その上で、様々な基盤技術を紹介し、最近の研究がそれらの基盤技術をどのように組み合わせて満足のいくテキストから3Dへの変換を実現しているかをまとめます。さらに、アバター生成、テクスチャ生成、形状変換、シーン生成など、テキストから3Dへの変換技術がどのように様々なアプリケーションで使用されているかをまとめます。
高精細な人間のパフォーマンスを表現することは、映画制作、コンピュータゲーム、ビデオ会議など、多様なアプリケーションにおいて不可欠な基盤技術です。本論文では、プロダクションレベルの品質に迫るため、HumanRFを提案します。これは、マルチビュー映像入力から全身の動きを捉え、未視点からの再生を可能にする4D動的ニューラルシーン表現です。我々の新しい表現は、時空間を時間行列-ベクトル分解に因数分解することで、高圧縮率で微細なディテールを捉える動的ビデオエンコーディングとして機能します。これにより、長いシーケンスにおいても時間的に一貫した人間のアクターの再構築が可能となり、挑戦的な動きの文脈においても高解像度のディテールを表現できます。多くの研究が4MP以下の解像度での合成に焦点を当てる中、我々は12MPでの動作という課題に取り組みます。この目的のために、16シーケンスの高精細なフレームごとのメッシュ再構築を提供する、160台のカメラからの12MP映像を含む新しいマルチビューデータセットActorsHQを導入します。我々は、このような高解像度データを使用することから生じる課題を示し、新たに導入したHumanRFがこのデータを効果的に活用し、プロダクションレベルの品質の新視点合成に向けて重要な一歩を踏み出していることを実証します。
アニメーション可能な3Dモデルの構築は、3Dスキャン、煩雑な位置合わせ、手動リギングが必要であるため、課題が多い。これらは任意のカテゴリに拡張することが困難である。最近、微分可能レンダリングにより単眼ビデオから高品質な3Dモデルを取得する道筋が示されたが、これらは剛体カテゴリや単一インスタンスに限定されている。本論文では、単眼ビデオからカテゴリ3Dモデルを構築しつつ、インスタンス間の変動と時間軸上の動きを分離するRACを提案する。この問題を解決するために、3つの重要なアイデアを導入する:(1) 最適化によるインスタンス固有のスケルトンの特化、(2) カテゴリ全体で共有される構造を促進しつつインスタンスの詳細を維持する潜在空間正則化手法、(3) 背景からオブジェクトを分離するための3D背景モデルの使用。人間、猫、犬の3Dモデルが、50~100本のインターネット動画から学習可能であることを示す。
本論文では、Integrated Multimodal Perception (IMP)を提案する。これは、シンプルでスケーラブルなマルチモーダル・マルチタスク学習およびモデリング手法である。IMPは、画像、動画、テキスト、音声といったマルチモーダル入力を、最小限のモダリティ固有コンポーネントのみを用いて単一のTransformerエンコーダに統合する。IMPは、効率的なモデル&タスクスケーリングのため、Alternating Gradient Descent (AGD)とMixture-of-Experts (MoE)を組み合わせた新たな設計を採用している。IMPに関する広範な実証研究を行い、以下の重要な知見を得た:1) 多様な異種モダリティ、損失関数、タスクに対して交互に勾配降下法を適用し、入力解像度も変化させることで、マルチモーダル理解が効率的に向上する。2) 単一のモダリティ非依存エンコーダ上でMoEを用いたモデルの疎化は、モダリティ固有エンコーダや追加の融合層を使用する密なモデルを凌駕し、モダリティ間の競合を大幅に緩和する。IMPは、画像分類、動画分類、画像-テキスト検索、動画-テキスト検索といった幅広い下流タスクにおいて競争力のある性能を達成する。特に注目すべきは、動画タスクに焦点を当てた疎なIMP-MoE-Lモデルを学習し、ゼロショット動画分類において新たなstate-of-the-artを達成した点である。本モデルは、Kinetics-400で77.0%、Kinetics-600で76.8%、Kinetics-700で76.8%のゼロショット分類精度を達成し、従来のstate-of-the-artをそれぞれ+5%、+6.7%、+5.8%向上させた。これらは、総学習計算コストのわずか15%しか使用せずに達成されたものである。
我々は、差分プライバシー(DP)を適用した大規模言語モデル(LLM)を用いて、プライバシー保護型の大規模レコメンダーシステムを開発するための新たなアプローチを提案します。この方法は、DPトレーニングにおける特定の課題や制限を克服するものであり、特にLLMベースのレコメンダーシステムという新興分野に適していますが、自然言語入力を処理するあらゆるレコメンダーシステムにも容易に適用可能です。我々のアプローチでは、公開済みの事前学習済みLLMをクエリ生成タスクに対してDPトレーニング手法を用いてファインチューニングします。これにより得られたモデルは、元のクエリを代表するプライベートな合成クエリを生成でき、これらのクエリは追加のプライバシーコストを発生させることなく、下流の非プライベートなレコメンデーショントレーニング手順に自由に利用できます。我々は、この手法が効果的な深層検索モデルを安全にトレーニングする能力を評価し、検索モデルを直接DPトレーニングする方法と比較して、クエリレベルのプライバシー保証を損なうことなく、検索品質が大幅に向上することを確認しました。
汎用ロボットを実現するためには、ロボットが人間のように日常的に可動物体を操作できる必要があります。現在のロボット操作は、平行グリッパーの使用に大きく依存しており、これによりロボットが扱える物体の種類が制限されています。一方、多指ロボットハンドを使用することで、人間の動作により近い操作が可能になり、多様な可動物体を扱えるようになります。この目的のために、物理シミュレータ内での可動物体を用いた器用な操作を対象とした新しいベンチマーク「DexArt」を提案します。このベンチマークでは、複数の複雑な操作タスクを定義し、ロボットハンドが各タスク内で多様な可動物体を操作する必要があります。私たちの主な焦点は、未見の可動物体に対する学習済みポリシーの汎化性能を評価することです。これは、手と物体の双方が高い自由度を持つことを考えると非常に困難な課題です。汎化を達成するために、3D表現学習を組み合わせた強化学習を使用します。広範な研究を通じて、3D点群入力を用いた強化学習において、3D表現学習が意思決定にどのように影響するかについて新たな知見を提供します。詳細はhttps://www.chenbao.tech/dexart/をご覧ください。
本論文では、会話型レコメンデーションタスクにおけるマルチタスクエンドツーエンドTransformerモデルの性能を分析する。会話型レコメンデーションとは、ユーザーが対話中に明示的に示した嗜好に基づいて推薦を行うことを目的とする。この分野における従来研究では、対話管理とエンティティ推薦タスクを別々のコンポーネントで処理する複雑なマルチコンポーネントアプローチが採用されてきたが、我々はT5テキスト変換モデルに基づく統一Transformerモデルが、関連アイテムの推薦と会話対話の生成の両方において競争力のある性能を発揮できることを示す。我々のモデルは、ReDIAL会話型映画推薦データセットでファインチューニングを行い、MovieLensから派生した追加の学習タスク(入力映画に基づく映画属性や関連映画の予測など)をマルチタスク学習設定で作成した。一連のプローブ研究を通じて、追加タスクで学習された知識が会話設定に転移されることを実証し、各タスクが関連するプローブスコアを9%から52%向上させることを示す。