日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

Video-LLaMA: ビデオ理解のための指示チューニングされた音声視覚言語モデル
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Jun 5, 2023

Hang Zhang, Xin Li, Lidong Bing

198

私たちは、ビデオ内の視覚的および聴覚的コンテンツを理解する能力を大規模言語モデル（LLMs）に付与するマルチモーダルフレームワークであるVideo-LLaMAを紹介します。Video-LLaMAは、凍結された事前学習済みの視覚および音声エンコーダと凍結されたLLMsからクロスモーダルトレーニングをブートストラップします。MiniGPT-4~zhu2023minigptやLLaVA~liu2023visualitなどの静的な画像理解に焦点を当てた従来のビジョンLLMsとは異なり、Video-LLaMAはビデオ理解における2つの課題に取り組みます：（1）視覚シーンの時間的変化の捕捉、（2）音声と視覚の信号の統合。最初の課題に対して、事前学習済みの画像エンコーダをビデオエンコーダに拡張するためのVideo Q-formerを提案し、ビデオと言語の対応関係を学習するためのビデオからテキスト生成タスクを導入します。2番目の課題に対して、異なるモダリティを共通の埋め込み空間に整列させることに優れた性能を発揮する事前学習済みの音声エンコーダとしてImageBind~girdhar2023imagebindを活用し、聴覚クエリトークンを学習するためのAudio Q-formerを導入します。視覚および音声エンコーダの出力をLLMの埋め込み空間に整列させるために、大規模なビジョンキャプションデータセットと高品質なビジョンインストラクションチューニングデータセットでVideo-LLaMAをトレーニングします。Video-LLaMAはビデオコンテンツを感知し理解し、ビデオ内の視覚および聴覚情報に基づいた意味のある応答を生成する能力を示しました。これは、Video-LLaMAが音声と視覚のAIアシスタントの有望なプロトタイプとしての可能性を強調しています。私たちのコード、事前学習済みモデル、デモはhttps://github.com/DAMO-NLP-SG/Video-LLaMAで利用可能です。

Polyglot-Ko技術レポート：オープンソース大規模韓国語言語モデル
A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models

Jun 4, 2023

Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park

111

Polyglotは、多言語言語モデルの非英語言語性能を向上させることを目的とした先駆的なプロジェクトです。mBERT（Devlin et al., 2019）、XGLM（Lin et al., 2022）、BLOOM（Scao et al., 2022）など、さまざまな多言語モデルが利用可能であるにもかかわらず、研究者や開発者は、現在の多言語モデルの非英語言語能力に不満を抱き、しばしばそれぞれの言語で単一言語モデルを構築することを選択しています。このギャップを埋めるため、私たちは非英語言語において改善された性能を提供する高度な多言語言語モデルの開発を目指しています。本論文では、多言語モデルではなく特定の言語に焦点を当てたPolyglot Koreanモデルを紹介します。TUNiBとの協力により、私たちのチームは研究の旅路のために慎重に選別された1.2TBの韓国語データを収集しました。私たちは、多言語モデルに着手する前に韓国語モデルの開発を優先するという意図的な決定を下しました。この選択は、いくつかの要因によって動機づけられています。まず、韓国語モデルは既存の多言語モデルとの性能比較を容易にし、最後に、韓国の企業や研究者の特定のニーズに対応するためです。本論文では、多言語言語モデルの非英語言語性能のギャップに対処するためのいくつかのステップを提案するPolyglot Koreanモデルの開発に関する私たちの取り組みを紹介します。

連鎖的思考推論の演繹的検証
Deductive Verification of Chain-of-Thought Reasoning

Jun 6, 2023

Zhan Ling, Yunhao Fang, Xuanlin Li, Zhiao Huang, Mingu Lee, Roland Memisevic, Hao Su

大規模言語モデル（LLM）は、様々な推論タスクを遂行する際に、Chain-of-Thought（CoT）プロンプティングから大きな恩恵を受けています。CoTはモデルがより包括的な推論プロセスを生成することを可能にしますが、中間推論ステップに重点を置くことで、幻覚や累積エラーを無意識に導入し、複雑な推論タスクを解決するモデルの能力を制限してしまう可能性があります。人間が慎重かつ緻密な演繹的論理推論プロセスを経てタスクを解決する方法に着想を得て、私たちは言語モデルが明示的で厳密な演繹推論を実行し、自己検証を通じてその推論プロセスの信頼性を確保することを目指しています。しかし、ChatGPTのような先進的なモデルであっても、演繹推論プロセス全体の妥当性を直接検証することは困難です。この点を踏まえ、私たちは推論検証プロセスを一連のステップバイステップのサブプロセスに分解し、それぞれが必要なコンテキストと前提のみを受け取ることを提案します。この手順を容易にするために、自然言語ベースの演繹推論フォーマットであるNatural Programを提案します。私たちのアプローチは、モデルが後続のステップが前のステップにより厳密に基づいた正確な推論ステップを生成することを可能にします。また、言語モデルがステップバイステップで推論の自己検証を実行することを可能にします。この検証プロセスを各演繹推論段階に統合することで、生成された推論ステップの厳密性と信頼性を大幅に向上させます。このプロセスを通じて、複雑な推論タスクにおける回答の正確性も向上させます。コードはhttps://github.com/lz1oceani/verify_cotで公開されます。

Mega-TTS: 内在的帰納バイアスを用いた大規模ゼロショットテキスト読み上げ
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

Jun 6, 2023

Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao

大規模で多様なデータセットを用いたテキスト音声合成のスケーリングは、特にゼロショットTTSにおいて、音色や話し方の一般化を達成する上で非常に効果的であることが証明されています。しかし、従来の研究では通常、音声をオーディオコーデックを用いて潜在変数にエンコードし、自己回帰型言語モデルや拡散モデルを用いて生成する方法が取られてきました。この方法は音声の本質的な特性を無視しており、品質の低下や制御不能な結果を招く可能性があります。我々は、音声はいくつかの属性（例: 内容、音色、プロソディ、位相）に分解可能であり、それぞれの属性は適切な帰納的バイアスを持つモジュールでモデル化されるべきであると主張します。この観点から、我々は大規模で多様なデータを用いて訓練され、異なる属性を異なる方法でモデル化する新しいゼロショットTTSシステム「Mega-TTS」を慎重に設計しました。1) オーディオコーデックでエンコードされた潜在変数を中間特徴量として使用する代わりに、位相と他の属性をうまく分離するスペクトログラムを選択しました。位相はGANベースのボコーダーによって適切に構築可能であり、言語モデルでモデル化する必要はありません。2) 音色は時間的にゆっくりと変化するグローバルな属性であるため、グローバルベクトルを用いてモデル化します。3) さらに、VQGANベースの音響モデルを使用してスペクトログラムを生成し、潜在コード言語モデルを使用してプロソディの分布を適合させます。プロソディは文中で急速に変化するため、言語モデルは局所的および長距離の依存関係を捉えることができます。我々はMega-TTSを20,000時間の音声を含むマルチドメインデータセットにスケールし、未知の話者に対する性能を評価しました。実験結果は、Mega-TTSがゼロショットTTS、音声編集、およびクロスリンガルTTSタスクにおいて、各モジュールの適切な帰納的バイアスにより、自然さ、堅牢性、話者類似性において最先端のTTSシステムを凌駕することを示しています。音声サンプルはhttps://mega-tts.github.io/demo-pageで公開されています。

MotionDiffuser: 拡散モデルを用いた制御可能なマルチエージェント動作予測
MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion

Jun 5, 2023

Chiyu Max Jiang, Andre Cornman, Cheolho Park, Ben Sapp, Yin Zhou, Dragomir Anguelov

本論文では、複数のエージェントにわたる将来の軌跡の同時分布を表現するための拡散モデルベースの手法であるMotionDiffuserを提案します。この表現にはいくつかの重要な利点があります。第一に、本モデルは多様な将来の結果を捉える高度に多峰性の分布を学習します。第二に、シンプルな予測器設計により、単一のL2損失訓練目的のみを必要とし、軌跡アンカーに依存しません。第三に、本モデルは複数のエージェントの運動の同時分布を順序不変の方法で学習することが可能です。さらに、PCAを用いた圧縮軌跡表現を活用することで、モデルの性能を向上させ、正確なサンプルの対数確率の効率的な計算を可能にします。その後、微分可能なコスト関数に基づいて制御された軌跡サンプリングを可能にする一般的な制約付きサンプリングフレームワークを提案します。この戦略により、ルールや物理的な事前知識を強制したり、特定のシミュレーションシナリオを作成するなど、さまざまな応用が可能になります。MotionDiffuserは既存のバックボーンアーキテクチャと組み合わせることで、最高の運動予測結果を達成することができます。Waymo Open Motion Datasetにおける多エージェント運動予測において、最先端の結果を得ました。

HeadSculpt: テキストによる3Dヘッドアバターの制作
HeadSculpt: Crafting 3D Head Avatars with Text

Jun 5, 2023

Xiao Han, Yukang Cao, Kai Han, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song, Tao Xiang, Kwan-Yee K. Wong

近年、テキストガイド型の3D生成手法は、大規模な視覚言語モデルや画像拡散モデルの普及を背景に、高品質なテクスチャとジオメトリの生成において顕著な進歩を遂げてきました。しかし、既存の手法は、高忠実度の3D頭部アバターの作成において依然として2つの課題に直面しています。(1) これらの手法は主に事前学習済みのテキストから画像への拡散モデルに依存しており、必要な3D認識と頭部の事前知識が欠如しているため、生成されたアバターに一貫性の欠如や幾何学的な歪みが生じやすい。(2) 微細な編集能力が不十分である。これは主に、事前学習済みの2D画像拡散モデルから継承された制限によるもので、3D頭部アバターにおいてより顕著になります。本研究では、これらの課題に対処するため、テキストプロンプトから3D頭部アバターを生成および編集するための多機能な粗から細へのパイプライン「HeadSculpt」を提案します。具体的には、まず、ランドマークベースの制御と頭部の背面視覚外観を表す学習済みテキスト埋め込みを活用して拡散モデルに3D認識を付与し、3D一貫性のある頭部アバター生成を可能にします。さらに、高解像度の微分可能なレンダリング技術を用いてテクスチャ付きメッシュを最適化するための新しいID認識編集スコア蒸留戦略を提案します。これにより、編集指示に従いながらIDを保持することが可能になります。包括的な実験と既存手法との比較を通じて、HeadSculptの優れた忠実度と編集能力を実証します。

PolyVoice: 音声間翻訳のための言語モデル
PolyVoice: Language Models for Speech to Speech Translation

Jun 5, 2023

Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang

我々は、音声間翻訳（S2ST）システムのための言語モデルベースのフレームワークであるPolyVoiceを提案します。本フレームワークは、翻訳言語モデルと音声合成言語モデルの2つの言語モデルで構成されています。我々は完全に教師なしで生成された離散化音声ユニットを使用しており、これにより本フレームワークは未記述言語にも適用可能です。音声合成部分については、既存のVALL-E Xアプローチを採用し、ユニットベースの音声言語モデルを構築しました。これにより、本フレームワークは元の音声の音声特性や話し方を保持する能力を有しています。我々は本システムを中国語→英語および英語→スペイン語のペアで検証しました。実験結果から、本システムは高い翻訳品質と音声品質を備えた音声を生成できることが示されています。音声サンプルはhttps://speechtranslation.github.io/polyvoiceで公開しています。

大規模言語モデルによるコード補完の静的評価
A Static Evaluation of Code Completion by Large Language Models

Jun 5, 2023

Hantian Ding, Varun Kumar, Yuchen Tian, Zijian Wang, Rob Kwiatkowski, Xiaopeng Li, Murali Krishna Ramanathan, Baishakhi Ray, Parminder Bhatia, Sudipta Sengupta, Dan Roth, Bing Xiang

コードで訓練された大規模言語モデルは、ソフトウェア開発者の生産性を向上させる大きな可能性を示しています。これまでに、単純なプログラミング問題におけるモデル生成コードの機能的正しさを評価するために、いくつかの実行ベースのベンチマークが提案されてきました。しかし、実行コストを考慮すると、複雑な実世界のプロジェクトに対して同じ評価を行うのは高コストです。一方で、プログラムを実行せずにエラーを検出できるリンターなどの静的解析ツールは、コード生成モデルの評価に十分に活用されていません。本研究では、抽象構文木を活用して、Pythonコード補完における静的エラーを定量化する静的評価フレームワークを提案します。実行ベースの評価と比較して、私たちの手法はより効率的であるだけでなく、実際のコードにも適用可能です。実験では、オープンソースリポジトリからコードコンテキストを収集し、公開モデルを使用して100万個の関数本体を生成します。私たちの静的解析により、未定義名と未使用変数が言語モデルによって生成されるコードで最も一般的なエラーであることが明らかになりました。また、広範な研究を通じて、サンプリング温度、モデルサイズ、およびコンテキストがコード補完における静的エラーに与える影響を示します。

光学フローと単眼深度推定における拡散モデルの驚くべき有効性
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

Jun 2, 2023

Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet

ノイズ除去拡散確率モデルは、その印象的な忠実度と多様性により、画像生成の分野を変革しました。本論文では、これらのモデルが、驚くべきことに、タスク固有のアーキテクチャや損失関数を必要とせずに、オプティカルフローや単眼深度の推定においても優れた性能を発揮することを示します。従来の回帰ベースの手法による点推定と比較して、拡散モデルはモンテカルロ推論を可能にし、例えばフローや深度における不確実性や曖昧性を捉えることができます。自己教師あり事前学習、合成データと実データを組み合わせた教師あり学習、ノイズの多い不完全な学習データを処理するための技術的革新（インフィリングとステップアンロールドノイズ除去拡散学習）、そして粗から細への単純なリファインメントを組み合わせることで、深度とオプティカルフロー推定のための最先端の拡散モデルを学習することができます。広範な実験では、ベンチマークに対する定量的な性能、アブレーション、モデルの不確実性と多様性を捉える能力、欠損値の補完に焦点を当てています。我々のモデル、DDVM（Denoising Diffusion Vision Model）は、屋内NYUベンチマークで0.074の相対深度誤差、KITTIオプティカルフローベンチマークで3.26%のFl-all外れ率を達成し、これまでに発表された最良の手法よりも約25%優れています。概要については、https://diffusion-vision.github.ioをご覧ください。

二値および三値自然言語生成
Binary and Ternary Natural Language Generation

Jun 2, 2023

Zechun Liu, Barlas Oguz, Aasish Pappu, Yangyang Shi, Raghuraman Krishnamoorthi

三値および二値ニューラルネットワークは、乗算を必要としない計算を可能にし、専用ハードウェア上で実装された場合、完全精度のネットワークに比べて複数桁の効率向上が期待されます。しかし、パラメータ空間と出力空間の両方が高度に離散化されているため、このようなネットワークの最適化は非常に困難であることが証明されています。この困難は、トランスフォーマーテキスト生成モデルのクラスにおいてさらに深刻です。これは、量子化に対するアテンション操作の感度と、高次元出力空間における自己回帰デコーディングのノイズ累積効果によるものです。私たちはこの問題に、統計ベースの重み量子化と活性化の弾力的量子化を組み合わせてアプローチし、要約と機械翻訳の下流タスクにおいて初めての三値および二値トランスフォーマーモデルを実証しました。私たちの三値BARTベースモデルは、CNN/DailyMailベンチマークでR1スコア41を達成し、完全モデルに比べてわずか3.9ポイント低いだけで、16倍の効率性を実現しました。二値モデルは精度が低いものの、35.6という非常に重要なスコアを達成しました。機械翻訳では、WMT16 En-RoベンチマークでBLEUスコア21.7と17.6を達成し、完全精度のmBARTモデルのスコア26.8と比較しました。また、8ビット活性化設定においても私たちのアプローチを比較し、三値および二値重みモデルが文献中の既存の最良の8ビット重みモデルに匹敵またはそれを上回る性能を示しました。私たちのコードとモデルは以下で公開されています： https://github.com/facebookresearch/Ternary_Binary_Transformer

LEACE: 閉形式における完全な線形概念消去
LEACE: Perfect linear concept erasure in closed form

Jun 6, 2023

Nora Belrose, David Schneider-Joseph, Shauli Ravfogel, Ryan Cotterell, Edward Raff, Stella Biderman

概念消去は、特定の特徴を表現から除去することを目的としています。これは公平性の向上（例えば、分類器が性別や人種を使用するのを防ぐ）や解釈可能性の向上（例えば、概念を除去してモデルの挙動の変化を観察する）に利用できます。本論文では、最小二乗法に基づく概念消去法（LEASt-squares Concept Erasure, LEACE）を紹介します。この手法は、線形分類器が概念を検出するのを確実に防ぎつつ、表現へのダメージを最小限に抑える閉形式の方法です。LEACEを大規模言語モデルに適用するために、「概念スクラビング」と呼ばれる新しい手順を導入し、ネットワークの各層からターゲット概念の情報を消去します。本手法の有用性を、言語モデルが品詞情報に依存する度合いを測定するタスクと、BERT埋め込みにおける性別バイアスを低減するタスクの2つで実証します。コードはhttps://github.com/EleutherAI/concept-erasureで公開されています。

プログラム合成による自然言語コマンド実行
Natural Language Commanding via Program Synthesis

Jun 6, 2023

Apurva Gandhi, Thong Q. Nguyen, Huitian Jiao, Robert Steen, Ameya Bhatawdekar

Semantic Interpreterを紹介します。これは、Microsoft Officeなどの生産性ソフトウェア向けの自然言語に親和性のあるAIシステムで、大規模言語モデル（LLM）を活用してアプリケーション機能全体でユーザーの意図を実行します。LLMは自然言語で表現されたユーザーの意図を理解するのに優れていますが、テキストからテキストへの変換以上のものを必要とするアプリケーション固有のユーザー意図を実現するには不十分です。そこで、Officeアプリケーション内でのアクション実行やエンティティとの相互作用に特化した簡潔で高水準の言語であるOfficeドメイン固有言語（ODSL）を導入します。Semantic Interpreterは、LLMを用いたAnalysis-Retrievalプロンプト構築手法を活用してプログラム合成を行い、自然言語のユーザー発話をODSLプログラムに変換します。このプログラムはアプリケーションAPIにトランスパイルされ、実行されます。本稿では主に、Microsoft PowerPointを対象とした研究探求に焦点を当てます。

潜在的なバグを含むコードの完成において、大規模言語モデルは失敗する
Large Language Models of Code Fail at Completing Code with Potential Bugs

Jun 6, 2023

Tuan Dinh, Jinman Zhao, Samson Tan, Renato Negrinho, Leonard Lausen, Sheng Zha, George Karypis

コード用大規模言語モデル（Code-LLM）は最近、プログラミング支援とコードインテリジェンスの基本的な機能であるコード補完に大きな進歩をもたらしました。しかし、既存の研究のほとんどは、生成のためのコードコンテキストにバグが存在する可能性を無視しており、これはソフトウェア開発において避けられないものです。そこで、リアルタイムのコード提案という現実的なシナリオに着想を得て、コードコンテキストに潜在的なバグ（完成したプログラムにおいてバグとなる可能性のあるアンチパターン）が含まれている場合のバグ付きコード補完問題を導入し、研究します。このタスクを体系的に研究するために、2つのデータセットを導入しました。1つは意味を変える演算子の変更から派生した合成バグを含むデータセット（buggy-HumanEval）、もう1つはコーディング問題に対するユーザー提出から派生した現実的なバグを含むデータセット（buggy-FixEval）です。潜在的なバグの存在が、高性能なCode-LLMの生成性能を著しく低下させることがわかりました。例えば、CodeGen-2B-monoのbuggy-HumanEvalのテストケースにおける合格率は、コンテキストに単一の潜在的なバグがある場合、50%以上低下します。最後に、潜在的なバグの悪影響を緩和するためのいくつかの事後的な方法を調査し、緩和後の性能には依然として大きなギャップが残っていることを明らかにしました。

Neuralangelo: 高忠実度ニューラル表面再構築
Neuralangelo: High-Fidelity Neural Surface Reconstruction

Jun 5, 2023

Zhaoshuo Li, Thomas Müller, Alex Evans, Russell H. Taylor, Mathias Unberath, Ming-Yu Liu, Chen-Hsuan Lin

ニューラルサーフェス再構成は、画像ベースのニューラルレンダリングを通じて高密度な3Dサーフェスを復元する強力な手法として示されてきました。しかし、現在の手法では、実世界のシーンの詳細な構造を復元することが困難です。この問題に対処するため、我々はNeuralangeloを提案します。これは、マルチ解像度3Dハッシュグリッドの表現力とニューラルサーフェスレンダリングを組み合わせたものです。我々のアプローチを可能にする2つの重要な要素は、(1) 高次導関数を計算するための数値勾配を平滑化操作として用いること、(2) 異なる詳細レベルを制御するハッシュグリッドに対する粗から細への最適化です。深度などの補助入力を必要とせずとも、Neuralangeloはマルチビュー画像から高密度な3Dサーフェス構造を効果的に復元し、その忠実度は従来の手法を大幅に上回り、RGBビデオキャプチャからの詳細な大規模シーン再構成を可能にします。

SAM3D：Segment Anything Modelによるゼロショット3D物体検出
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

Jun 4, 2023

Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai

大規模言語モデルの発展に伴い、ChatGPTのような多くの注目すべき言語システムが繁栄し、多くのタスクで驚異的な成功を収め、基盤モデルの驚異的な力を示しています。視覚タスクにおける基盤モデルの能力を解き放つという精神のもと、画像セグメンテーションのための視覚基盤モデルであるSegment Anything Model（SAM）が最近提案され、多くの下流2Dタスクで強力なゼロショット能力を示しています。しかし、SAMが3D視覚タスク、特に3D物体検出に適応できるかどうかはまだ検討されていません。このインスピレーションを受けて、本論文ではSAMのゼロショット能力を3D物体検出に適応させることを探求します。我々は、SAMを活用したBEV処理パイプラインを提案し、大規模なWaymoオープンデータセットで有望な結果を得ました。初期の試みとして、我々の手法は視覚基盤モデルを用いた3D物体検出に向けて一歩を踏み出し、3D視覚タスクにおけるその力を解き放つ機会を提示します。コードはhttps://github.com/DYZhang09/SAM3Dで公開されています。

GPTモデルがロボット応用と出会う：共話ジェスチャーチャットシステム
GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System

May 10, 2023

Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi

本技術論文では、GPT-3やChatGPTなどの大規模言語モデル（LLM）の最新進展を活用したチャットロボットシステムを紹介する。このシステムは、発話の概念的な意味に基づいて適切なジェスチャーを選択する共話ジェスチャー生成システムと統合されている。我々の動機は、LLMの最近の進歩を実用的なロボットアプリケーションに活用する方法を探求し、それがチャットボットとLLMの両方の発展に寄与することである。具体的には、LLMを活用することで高度に応答性の高いチャットボットシステムの開発を可能にし、LLMのユーザーインターフェースに視覚効果を追加することで付加価値を提供する。本システムのソースコードは、社内ロボット用のGitHub（https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation）と、トヨタHSR用のGitHub（https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures）で公開されている。

PLANNER: 潜在言語拡散モデルによる多様なパラグラフ生成
PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model

Jun 5, 2023

Yizhe Zhang, Jiatao Gu, Zhuofeng Wu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly

テキスト生成のための自己回帰モデルは、生成ステップ中に誤差が蓄積するため、繰り返しが多く品質の低い出力を生成することがあります。この問題は、モデルの学習方法と推論時の使用方法の違いである「露出バイアス」に起因するとされています。ノイズ除去拡散モデルは、モデルが出力を再訪して修正できる代替アプローチを提供します。しかし、これらのモデルは計算コストが高く、特に長文や段落において、自己回帰モデルと比較して流暢性の低い出力を生成する傾向があります。本論文では、潜在意味拡散と自己回帰生成を組み合わせたPLANNERモデルを提案し、段落全体をグローバルに制御しながら流暢なテキストを生成します。このモデルは、自己回帰的な「デコード」モジュールと、粗密な方法で意味的段落埋め込みを生成する「プランニング」モジュール（潜在拡散を使用）を組み合わせることでこれを実現します。提案手法は、様々な条件付き生成タスクで評価され、意味生成、テキスト補完、要約において、高品質な長文テキストを効率的に生成する効果が示されています。

VisualGPTScore: マルチモーダル生成事前学習スコアを用いた視覚言語推論
VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores

Jun 2, 2023

Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan

コントラスティブな画像-テキストマッチング損失（例：P(match|text, image)）を用いて識別的に事前学習された視覚-言語モデル（VLMs）は、構成論的理解を欠いていると批判されてきました。これは、元のキャプションが異なる意味的記述に並べ替えられた場合でも、類似したスコアを出力する可能性があることを意味します。この問題に対処するため、我々は画像条件付き言語モデルを用いて、テキストキャプションが画像に条件付けられた尤度を捉えるマルチモーダル生成スコアであるP(text|image)の{bf V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf VisualGPTScore})を提案します。VLMsが単なるバッグ・オブ・ワーズモデルであるという見解に反し、我々のオフ・ザ・シェルフのVisualGPTScoreは、構成論的推論を評価する最近提案されたAROやCrepeなどの画像-テキスト検索ベンチマークでトップクラスの性能を発揮します。さらに、VisualGPTScoreを周辺確率P(text)と点相互情報量（PMI）の積に分解します。これにより、(a) 強い言語バイアスを持つデータセットを診断し、(b) 情報理論的フレームワークを用いてWinogroundなどの他のベンチマークの結果をデバイアスすることが可能になります。VisualGPTScoreは、視覚-言語的構成性の将来の評価において貴重な洞察を提供し、強力なベースラインとして機能します。

テキストからビデオへのモデルの確率的適応
Probabilistic Adaptation of Text-to-Video Models

Jun 2, 2023

Mengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel

インターネット規模のデータで学習された大規模なテキスト-to-ビデオモデルは、任意のテキスト記述から高精細なビデオを生成する際に卓越した能力を示しています。しかし、アニメーションやロボティクスのビデオなど、ドメイン固有のデータが限られたタスクにこれらのモデルを適応させることは、事前学習済みの大規模モデルをファインチューニングすることが非常に高コストであるため、大きな計算上の課題となります。大規模言語モデルが、モデルの重みにアクセスすることなく、小さな変更可能なコンポーネント（例：プロンプト、プレフィックスチューニング）を使用して新しいタスクを実行できる方法に着想を得て、我々は、ファインチューニングを行わずに、事前学習済みの大規模テキスト-to-ビデオモデルを様々な下流ドメインやタスクに適応させる方法を調査します。この問いに答えるために、我々はVideo Adapterを提案します。これは、大規模な事前学習済みビデオ拡散モデルのスコア関数を確率的な事前分布として活用し、タスク固有の小さなビデオモデルの生成を導くものです。我々の実験では、Video Adapterが、大規模な事前学習済みビデオモデルの広範な知識を取り入れ、その高精細性を維持しつつ、アニメーション、エゴセントリックモデリング、シミュレーションおよび実世界のロボティクスデータのモデリングなど、様々なタスクにおいて高品質でありながら専門的なビデオを生成できるタスク固有の小さなビデオモデルを生成できることを示しています。詳細なビデオはウェブサイトhttps://video-adapter.github.io/でご覧いただけます。

Transformerベースのコード脆弱性検出：編集時におけるゼロショット、少数ショット、ファインチューニングの比較
Transformer-based Vulnerability Detection in Code at EditTime: Zero-shot, Few-shot, or Fine-tuning?

May 23, 2023

Aaron Chan, Anant Kharkar, Roshanak Zilouchian Moghaddam, Yevhen Mohylevskyy, Alec Helyar, Eslam Kamal, Mohamed Elkamhawy, Neel Sundaresan

ソフトウェアの脆弱性は企業に多大なコストをもたらします。ソフトウェア脆弱性検出手法の研究開発に多大な努力が払われているにもかかわらず、未検出の脆弱性は依然としてソフトウェアの所有者やユーザーをリスクにさらしています。現在の多くの脆弱性検出手法では、検出を試みる前にコードスニペットがコンパイルおよびビルド可能である必要があります。これは残念ながら、脆弱性が注入されてから除去されるまでの間に長い遅延を引き起こし、脆弱性の修正コストを大幅に増加させる可能性があります。我々は、現在の機械学習の進歩を活用して、開発者がコードを記述している最中（EditTime）に、構文的に不完全なコードスニペット上で脆弱なコードパターンを検出できることを認識しています。本論文では、大規模な脆弱なコードパターンのデータセットに対して深層学習を活用し、250以上の脆弱性タイプの複雑な表現を学習し、EditTimeで脆弱なコードパターンを検出する実用的なシステムを紹介します。我々は、最先端の事前学習済み大規模言語モデル（LLM）に対するゼロショット、少数ショット、およびファインチューニングアプローチについて議論します。我々のアプローチは、最先端の脆弱性検出モデルと比較して、最先端を10%改善することを示します。また、コードLLMによって自動生成されたコードの脆弱性を検出するための我々のアプローチも評価します。高リスクなコードシナリオのベンチマークでの評価では、脆弱性を最大90%削減できることが示されています。

Mega-TTS: 内在的帰納バイアスを用いた大規模ゼロショットテキスト読み上げ
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

Jun 6, 2023

Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao