翻訳付きの日次キュレーションされたAI研究論文
コード生成用大規模言語モデル(Code LLM)が急速に発展しています。強力な新モデルが毎週のようにリリースされ、コード生成タスクにおいて驚異的な性能を発揮しています。事前学習済みのCode LLMのコード生成性能を向上させるため、教師ありファインチューニング、指示チューニング、強化学習など、様々なアプローチが提案されています。本論文では、事前学習済みの大規模言語モデルのコード生成能力を効果的かつ効率的に向上させる新しいRRTF(Rank Responses to align Test&Teacher Feedback)フレームワークを提案します。このフレームワークの下で、PanGu-Coder2を開発し、OpenAI HumanEvalベンチマークにおいて62.20%のpass@1を達成しました。さらに、CoderEvalおよびLeetCodeベンチマークでの広範な評価を通じて、PanGu-Coder2がこれまでのすべてのCode LLMを一貫して上回ることを示します。
我々はTransNormerLLMを発表します。これは、従来のソフトマックスアテンションベースのモデルを精度と効率の両面で上回る、初の線形アテンションベースの大規模言語モデル(LLM)です。TransNormerLLMは、以前の線形アーキテクチャであるTransNormerを進化させ、位置埋め込み、線形アテンションの高速化、ゲーティングメカニズム、テンソル正規化、推論の高速化と安定化といった高度な改良を加えています。具体的には、LRPEと指数減衰を組み合わせることで、トークン間のグローバルな相互作用を維持しつつ、アテンションの希釈問題を回避します。さらに、我々はLightning Attentionを提案します。これは、線形アテンションの実行時間を2倍以上高速化し、メモリ使用量を驚異的な4分の1に削減する最先端の技術です。TransNormerの性能をさらに向上させるため、ゲーティングメカニズムを活用してトレーニングをスムーズにし、新しいテンソル正規化スキームを導入してモデルを高速化し、20%以上の印象的な高速化を実現しました。さらに、シーケンス長に関係なく数値的安定性と一貫した推論速度を保証する堅牢な推論アルゴリズムを開発し、トレーニングと推論の両段階で優れた効率性を示しています。我々のモデル設計の核心はスケーラビリティにあり、大規模クラスターへのシームレスなデプロイメントを可能にし、さらに大規模なモデルへの拡張を容易にします。これらすべてを、優れたパフォーマンス指標を維持しながら実現します。我々のモデル設計は、6TBを超えるサイズと2兆トークン以上を含む自己収集コーパスを用いた一連の包括的な実験を通じて厳密に検証されています。データの品質と関連性を確保するため、収集したデータをフィルタリングする新しい自己清浄戦略を実施しています。我々の事前学習済みモデルは、効率的なLLMのコミュニティの発展を促進するために公開されます。
ロボットスキル獲得のためのフレームワークを提案する。本フレームワークは、1) 言語ラベル付きロボットデータの生成を効率的にスケールアップし、2) このデータを堅牢なマルチタスク言語条件付き視覚運動ポリシーに効果的に蒸留する。1) に関しては、大規模言語モデル(LLM)を用いて高レベルの計画をガイドし、サンプリングベースのロボットプランナー(例えば、動作や把持のサンプラー)を用いて多様で豊富な操作軌道を生成する。このデータ収集プロセスを堅牢化するため、LLMは各タスクの成功条件を推論し、コードスニペットを生成する。これにより、データ収集プロセスが失敗を検出して再試行できると同時に、軌道の成功/失敗の自動ラベル付けも可能になる。2) に関しては、単一タスクの行動クローニングアプローチである拡散ポリシーを、言語条件付きのマルチタスク設定に拡張する。最後に、長期的な行動、常識的推論、道具の使用、直感的な物理をテストするため、5つのドメインにわたる18のタスクからなる新しいマルチタスクベンチマークを提案する。蒸留されたポリシーは、データ収集ポリシーにおける堅牢な再試行行動を学習しつつ、5つのドメイン全体で平均34.8%の絶対成功率を向上させることがわかった。ベンチマーク、コード、および定性的な結果は、ウェブサイトhttps://www.cs.columbia.edu/~huy/scalingup/で公開している。
視覚的物体追跡は、コンピュータビジョンにおける基本的な映像タスクである。近年、認識アルゴリズムの著しい進化により、単一/複数物体追跡とボックス/マスクベースの追跡の統合が可能となった。その中でも、Segment Anything Model(SAM)が大きな注目を集めている。本報告では、映像内のあらゆる物体を高品質で追跡するためのフレームワークであるHQTrackを提案する。HQTrackは主に、映像多物体セグメンター(VMOS)とマスクリファイナー(MR)で構成される。映像の初期フレームで追跡対象となる物体が与えられると、VMOSはその物体マスクを現在のフレームに伝播させる。この段階でのマスク結果は十分に正確ではない。なぜなら、VMOSはいくつかのクローズセット映像物体セグメンテーション(VOS)データセットで学習されており、複雑なシーンやコーナーケースへの汎化能力が限られているためである。追跡マスクの品質をさらに向上させるため、事前学習済みのMRモデルを用いて追跡結果を精緻化する。我々のパラダイムの有効性を裏付ける強力な証拠として、テスト時のデータ拡張やモデルアンサンブルといったトリックを一切使用せず、HQTrackはVisual Object Tracking and Segmentation(VOTS2023)チャレンジで2位を獲得した。コードとモデルはhttps://github.com/jiawen-zhu/HQTrackで公開されている。
医学は本質的にマルチモーダルであり、テキスト、画像、ゲノミクスなど多様なデータモダリティを包含しています。これらのデータを柔軟にエンコードし、統合し、大規模に解釈できる汎用型生物医学人工知能(AI)システムは、科学的発見から医療提供に至るまで、インパクトのある応用を可能にする潜在性を秘めています。これらのモデルの開発を可能にするため、我々はまず、新しいマルチモーダル生物医学ベンチマークであるMultiMedBenchを構築しました。MultiMedBenchは、医療質問応答、マンモグラフィーおよび皮膚科画像解釈、放射線レポート生成と要約、ゲノムバリアントコーリングなど、14の多様なタスクを網羅しています。次に、汎用型生物医学AIシステムの概念実証として、Med-PaLM Multimodal(Med-PaLM M)を紹介します。Med-PaLM Mは、臨床言語、画像、ゲノミクスを含む生物医学データを同一のモデル重みで柔軟にエンコードし、解釈する大規模マルチモーダル生成モデルです。Med-PaLM Mは、MultiMedBenchのすべてのタスクにおいて、最先端の性能に匹敵するかそれを上回る結果を示し、しばしば専門家モデルを大きく凌駕します。また、新しい医学的概念やタスクへのゼロショット汎化、タスク間のポジティブな転移学習、そして創発的なゼロショット医療推論の例も報告しています。Med-PaLM Mの能力と限界をさらに探るため、我々は放射線科医によるモデル生成(および人間による)胸部X線レポートの評価を実施し、モデルスケール全体で有望な性能を観察しました。246件の過去の胸部X線画像に対する並列ランキングでは、臨床医がMed-PaLM Mのレポートを放射線科医のレポートよりも好むケースが最大40.50%に上り、臨床的有用性の可能性を示唆しています。これらのモデルを実世界のユースケースで検証するためにはまだ多くの作業が必要ですが、我々の結果は、汎用型生物医学AIシステムの開発に向けた重要なマイルストーンを表しています。
テキストから3D生成は最近、数十億の画像-テキストペアで学習された2D拡散モデルによって大きな注目を集めています。既存の手法は主に、2D拡散モデルの事前知識を活用して3Dモデル(例:NeRF)の生成を監督するためにスコア蒸留に依存しています。しかし、スコア蒸留は視点の不整合問題に陥りやすく、暗黙的なNeRFモデリングも任意の形状を引き起こすため、現実感が乏しく制御不能な3D生成につながります。本研究では、疎でありながら自由に利用可能な3Dポイントと現実的で形状制御可能な3D生成の間のギャップを埋めるために、2Dおよび3D拡散モデルから知識を蒸留するPoints-to-3Dという柔軟なフレームワークを提案します。Points-to-3Dの核心となるアイデアは、制御可能な疎な3Dポイントを導入してテキストから3D生成をガイドすることです。具体的には、3D拡散モデルであるPoint-Eから生成された疎な点群を、単一の参照画像に基づいた幾何学的な事前知識として使用します。疎な3Dポイントをより効果的に活用するために、NeRFの幾何学を疎な3Dポイントの形状に適応的に整列させる効率的な点群ガイダンス損失を提案します。幾何学を制御するだけでなく、NeRFをより視点整合性のある外観に最適化することを提案します。具体的には、学習されたコンパクトな幾何学の深度マップとテキストに基づいて、公開されている2D画像拡散モデルControlNetに対してスコア蒸留を実行します。定性的および定量的な比較により、Points-to-3Dが視点の整合性を向上させ、テキストから3D生成において良好な形状制御性を達成することが示されています。Points-to-3Dは、ユーザーにテキストから3D生成を改善し制御する新しい方法を提供します。
アーティストやグラフィックデザイナーにとって、シーンの空間レイアウトは重要なデザイン選択です。しかし、既存のテキストから画像への拡散モデルは、空間情報の組み込みに対するサポートが限られています。本論文では、アーティストがサブシーンから構成することで高品質な画像を生成する手段として、Composite Diffusionを紹介します。アーティストは、柔軟な自由形式のセグメントレイアウトを通じて、これらのサブシーンの配置を指定できます。各サブシーンの内容は、主に自然言語テキストで記述し、さらに参照画像や、線画、落書き、人間のポーズ、キャニーエッジなどの制御入力を利用して記述することもできます。 私たちは、Composite Diffusionのための包括的でモジュール化された方法を提供し、サブシーンを生成、構成、調和させるための代替手段を可能にします。さらに、合成画像の有効性を、画像品質とアーティストの意図の達成の両面で評価したいと考えています。既存の画像品質指標は、画像合成の全体的な評価に欠けていると主張します。これに対処するために、合成生成に特に関連する新しい品質基準を提案します。 私たちのアプローチは、直感的なアート作成方法を提供すると信じています。広範なユーザー調査、定量的および定性的分析を通じて、画像生成に対する空間的、意味的、創造的な制御をより大きく達成する方法を示します。さらに、私たちの方法は、ベースの拡散モデルのアーキテクチャを再トレーニングまたは変更する必要がなく、ファインチューニングされたモデルとプラグアンドプレイ方式で動作できます。
我々は、デプロイされたモデルとユーザー間の自然な対話から学習することで、社会的対話エージェントを改善する方法を研究する。追加のアノテーションなしで、機械生成された発話の品質を暗黙的に測定するために、収集された対話エピソードにおけるユーザーの応答の長さ、感情、および反応といったシグナルを活用する。実験では、BlenderBot(Xu et al., 2023)から公開されたデプロイメントデータを使用する。人間による評価では、新しいモデルがベースライン応答よりも改善されていることが示されている。しかし、一部の代理シグナルは、望ましくない特性を持つ生成を増やす可能性もあることがわかった。例えば、会話の長さを最適化すると、ベースラインと比べてより論争的または不親切な生成が増える可能性がある一方で、肯定的な感情や反応を最適化すると、これらの行動を減少させることができる。
近年のビジョントランスフォーマー、大カーネルCNN、およびMLPは、グローバルスコープでの効果的な情報融合により、幅広い視覚タスクで顕著な成功を収めています。しかし、特にモバイルデバイス上での効率的な展開は、セルフアテンションメカニズム、大カーネル、または全結合層の重い計算コストにより、依然として大きな課題に直面しています。本研究では、この問題に対処するために従来の畳み込み定理を深層学習に適用し、適応型周波数フィルターが効率的なグローバルトークンミキサーとして機能し得ることを明らかにしました。この洞察に基づき、Adaptive Frequency Filtering (AFF) トークンミキサーを提案します。このニューラルオペレーターは、フーリエ変換を介して潜在表現を周波数領域に変換し、要素ごとの乗算を介して意味的に適応した周波数フィルタリングを実行します。これは数学的には、潜在表現の空間解像度と同じ大きさの動的畳み込みカーネルを使用した元の潜在空間でのトークンミキシング操作に相当します。AFFトークンミキサーを主要なニューラルオペレーターとして採用し、AFFNetと呼ばれる軽量ニューラルネットワークを構築しました。広範な実験により、提案したAFFトークンミキサーの有効性が実証され、AFFNetが視覚認識や密な予測タスクを含む幅広い視覚タスクにおいて、他の軽量ネットワーク設計と比較して優れた精度と効率のトレードオフを達成することが示されました。
軌道予測の分野は近年大きく発展しており、その背景には自動運転車(AV)や歩行者モーション追跡のための大規模な実世界の人間軌道データセットの公開が部分的に寄与しています。こうしたデータセットは研究コミュニティにとって大きな恩恵となっていますが、それぞれが独自のデータ形式とAPIを使用しているため、研究者が複数のデータセットにわたって手法を訓練・評価することが煩雑になっています。この問題を解決するため、我々はtrajdataを提案します。trajdataは、複数の人間軌道データセットに対する統一インターフェースを提供します。その中核として、trajdataは軌道データと地図データに対するシンプルで統一された効率的な表現とAPIを提供します。その機能を実証するため、本論文では既存の軌道データセットに対する包括的な実証評価を行い、現在の歩行者およびAVモーション予測研究の基盤となるデータに対する深い理解をユーザーに提供し、これらの知見から将来のデータセットに対する提案を行います。trajdataは許諾ライセンス(Apache 2.0)のもとで公開されており、オンラインでアクセス可能です(https://github.com/NVlabs/trajdata)。