HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

10 papers found

NaturalSpeech 3: 因子分解コーデックと拡散モデルを用いたゼロショット音声合成
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Mar 5

ByZeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao

近年の大規模なテキスト音声合成（TTS）モデルは大きな進歩を遂げていますが、音声品質、類似性、およびプロソディの面でまだ課題を残しています。音声が内容、プロソディ、音色、音響的詳細など多様な属性を複雑に包含していることを考慮すると、音声を個々の属性を表す部分空間に分解し、それぞれを個別に生成するというアイデアが自然に浮かびます。この考えに基づき、我々はNaturalSpeech 3を提案します。これは、ゼロショットで自然な音声を生成するための新しい分解型拡散モデルを備えたTTSシステムです。具体的には、1) 内容、プロソディ、音色、音響的詳細を分解するための分解型ベクトル量子化（FVQ）を備えたニューラルコーデックを設計し、2) 各部分空間の属性を対応するプロンプトに従って生成するための分解型拡散モデルを提案します。この分解設計により、NaturalSpeech 3は複雑な音声を分解された部分空間で効率的にモデル化し、分割統治的に処理することが可能です。実験結果は、NaturalSpeech 3が品質、類似性、プロソディ、および明瞭性において最先端のTTSシステムを上回ることを示しています。さらに、10億パラメータと20万時間の学習データにスケールすることで、より優れた性能を達成しました。

ファインチューニングされたマルチモーダル言語モデルは高品質な画像テキストデータフィルタである
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

Mar 5

ByWeizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang

我々は、微調整されたマルチモーダル言語モデル（MLM）を活用して画像-テキストデータをフィルタリングする新しいフレームワークを提案する。本手法は、MLMの最近の進歩を統合することで、主要なフィルタリング手法（例：CLIPScore）を上回る性能を示す。我々は、画像-テキストデータの品質を包括的に測定するために、4つの異なるが補完的な指標を設計した。MLMをデータフィルタとして微調整するための高品質な指示データを構築する新しいパイプラインを確立した。CLIPScoreと比較して、我々のMLMフィルタはより正確で包括的なスコアを生成し、フィルタリングされたデータの品質を直接向上させ、事前学習モデルの性能を向上させる。人気のある基盤モデル（CLIPやBLIP2など）および様々な下流タスクにおいて、CLIPScoreを大幅に上回る改善を達成した。我々のMLMフィルタは、異なるモデルやタスクに一般化可能であり、CLIPScoreの代替としてそのまま使用できる。MLMフィルタの設計選択を検証するための追加のアブレーションスタディも提供されている。

Wukong: 大規模推薦システムにおけるスケーリング則に向けて
Wukong: Towards a Scaling Law for Large-Scale Recommendation

Mar 4

ByBuyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen

スケーリング則は、モデル品質の持続的な向上において重要な役割を果たします。しかし、これまでの推薦モデルでは、大規模言語モデルの領域で観察されるようなスケーリング則が確認されていません。これは、それらのスケールアップメカニズムの非効率性によるものです。この制約は、これらのモデルをますます複雑化する現実世界のデータセットに適応させる上で重大な課題を提起しています。本論文では、純粋に積層型因子分解マシンに基づく効果的なネットワークアーキテクチャと、相乗的なスケールアップ戦略を提案し、これらを総称してWukongと名付け、推薦の領域でスケーリング則を確立します。Wukongのユニークな設計により、単に層を高く広くするだけで多様な任意次数の相互作用を捉えることが可能になります。6つの公開データセットで広範な評価を行った結果、Wukongは品質面で一貫して最先端のモデルを上回ることが示されました。さらに、内部の大規模データセットでWukongのスケーラビリティを評価しました。その結果、Wukongは最先端のモデルに対して品質面での優位性を維持しつつ、モデル複雑性の2桁にわたる範囲でスケーリング則を保持し、100 Gflop以上、あるいはGPT-3/LLaMa-2規模の総学習計算量にまで拡張できることが明らかになりました。これは、従来の技術では達成できなかった領域です。

MathScale: 数学的推論のための命令チューニングのスケーリング
MathScale: Scaling Instruction Tuning for Mathematical Reasoning

Mar 5

ByZhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei

大規模言語モデル（LLM）は問題解決において顕著な能力を発揮しています。しかし、数学的問題を解く能力は依然として不十分です。本論文では、最先端のLLM（例：{\tt GPT-3.5}）を用いて高品質な数学的推論データを作成するためのシンプルでスケーラブルな手法であるMathScaleを提案します。人間の数学学習における認知メカニズムに着想を得て、まずシードとなる数学問題からトピックと知識ポイントを抽出し、次に概念グラフを構築します。この概念グラフを用いて新しい数学問題を生成します。MathScaleは、生成する数学データセットのサイズ軸に沿って効果的なスケーラビリティを示します。その結果、200万の数学問題-回答ペアを含む数学的推論データセット（MathScaleQA）を作成しました。LLMの数学的推論能力を包括的に評価するために、K-12、大学、競技レベルの数学問題をカバーする10のデータセット（GSM8KやMATHを含む）からなる数学文章題ベンチマーク{\sc MwpBench}を構築しました。MathScaleQAをオープンソースのLLM（例：LLaMA-2やMistral）のファインチューニングに適用した結果、数学的推論能力が大幅に向上しました。{\sc MwpBench}で評価した結果、MathScale-7Bは全てのデータセットにおいて最先端の性能を達成し、同等サイズの最良のモデルをマイクロ平均精度で42.9%、マクロ平均精度で43.7%上回りました。

MAGID：合成マルチモーダルデータセットを自動生成するパイプライン
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

Mar 5

ByHossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour

マルチモーダル対話システムの開発は、大規模言語モデル（LLM）に必要な豊富なマルチモーダル（テキスト、画像）会話データの不足によって妨げられています。従来のアプローチでは、テキスト対話に検索された画像を追加することで、プライバシー、多様性、品質の制約が生じていました。本研究では、テキストのみの対話を多様で高品質な画像で拡張するためのフレームワークであるMultimodal Augmented Generative Images Dialogues（MAGID）を提案します。その後、拡散モデルを適用して対応する画像を作成し、特定されたテキストとの整合性を確保します。最後に、MAGIDは、画像説明生成モジュール（テキストLLM）と画像品質モジュール（美的感覚、画像とテキストの一致、安全性を扱う）との間の革新的なフィードバックループを組み込み、高品質でマルチモーダルな対話を生成します。MAGIDを3つの対話データセットで他のSOTAベースラインと比較し、自動評価と人間評価を使用します。結果は、MAGIDがベースラインと同等またはそれ以上であり、特に画像データベースが小さい検索ベースラインに対して、人間評価において大幅な改善を示しています。

EasyQuant: 大規模言語モデルのための効率的なデータフリー量子化アルゴリズム
EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs

Mar 5

ByHanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang

大規模言語モデル（LLMs）は、様々なタスクにおいて従来の手法を大きく凌駕することが証明されています。しかし、その高額な計算コストと膨大なメモリ要件は、実際の展開において大きな障壁となっています。モデルの量子化は、このオーバーヘッドを削減するための効果的な手法です。問題は、これまでの研究の多くでは、量子化されたモデルが訓練データのごく一部のサンプルを用いてキャリブレーションされており、これが未知のケースやタスクに対する量子化LLMの汎化性能に影響を与える可能性があることです。そこで本研究では、重要な問いを探求します：LLMの汎化性能を保証するデータ非依存の量子化手法を設計することは可能か？本論文では、訓練不要かつデータ非依存の重みのみの量子化アルゴリズムであるEasyQuantを提案します。我々の観察によると、重みと量子化範囲における外れ値の2つの要素が、量子化誤差を低減する上で重要であることがわかりました。したがって、EasyQuantでは、外れ値（1%未満）をそのまま残し、量子化範囲を最適化することで再構成誤差を低減します。これらの手法により、驚くべきことに、EasyQuantは元のモデルと同等の性能を達成することがわかりました。EasyQuantは訓練データに依存しないため、量子化されたLLMの汎化性能が安全に保証されます。さらに、EasyQuantは並列処理が可能であり、100Bを超えるLLMであっても数分で量子化モデルを取得できます。我々の知る限り、データ非依存の設定下でLLMに対してほぼロスレスな量子化性能を達成し、かつデータ依存手法よりも10倍以上高速に動作する初めての研究です。

目を奪う：マルチモーダル大規模言語モデルのための混合解像度適応
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

Mar 5

ByGen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

顕著な進展にもかかわらず、既存のマルチモーダル大規模言語モデル（MLLMs）は、細粒度の視覚認識において依然として劣っている。従来の研究とは異なり、我々はこの問題を画像解像度の観点から検討し、低解像度と高解像度の視覚特徴を組み合わせることで、この欠点を効果的に緩和できることを明らかにした。この観察に基づき、我々はMLLMsのための新規かつ効率的な手法を提案し、これをMixture-of-Resolution Adaptation（MRA）と称する。特に、MRAは異なる解像度の画像に対して2つの視覚経路を採用し、高解像度の視覚情報を新規のmixture-of-resolution adapters（MR-Adapters）を介して低解像度経路に埋め込む。この設計はまた、MLLMsの入力シーケンス長を大幅に削減する。MRAを検証するため、我々はこれを最近のMLLMであるLLaVAに適用し、新たなモデルをLLaVA-HRと称する。11の視覚言語（VL）タスクにおいて広範な実験を行い、LLaVA-HRが8つのVLタスクにおいて既存のMLLMsを上回ることを示した。例えば、TextVQAにおいて+9.4%の向上を達成した。さらに重要なことに、LLaVA-HRの訓練と推論はMRAを用いても効率的であり、例えば、訓練時間は20時間、推論速度はLLaVA-1.5の3倍である。ソースコードは以下で公開されている：https://github.com/luogen1996/LLaVA-HR。

モデリングコラボレーター：LLMツール使用による最小限の人的労力での主観的視覚分類の実現
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

Mar 5

ByImad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig

コンテンツモデレーションから野生動物保護まで、ニュアンスのある主観的な視覚概念を認識するモデルを必要とするアプリケーションの数が増えています。伝統的に、そのような概念の分類器を開発するには、トレーニングに必要なデータを特定し注釈付けるために、数時間、数日、あるいは数か月に及ぶ多大な手作業が必要でした。最近提案されたアジャイルモデリング技術でさえ、画像分類器を迅速にブートストラップできるものの、単一の分類器をトレーニングするために、ユーザーは30分以上もの単調で反復的なデータラベリングを依然として行わなければなりません。Fiskeの認知節約理論に基づき、私たちは新しいフレームワークを提案します。このフレームワークは、人間によるラベリングを自然言語インタラクションに置き換えることで手作業を軽減し、概念を定義するために必要な総作業量を桁違いに削減します：2,000枚の画像をラベリングする代わりに、100枚の画像と自然言語インタラクションのみで済みます。私たちのフレームワークは、大規模言語モデルや視覚言語モデルといった基盤モデルの最近の進歩を活用し、会話を通じて概念空間を切り出し、トレーニングデータポイントを自動的にラベリングします。最も重要なのは、私たちのフレームワークがクラウドソーシングによる注釈を不要にすることです。さらに、私たちのフレームワークは最終的に、コストに敏感なシナリオでも展開可能な軽量な分類モデルを生成します。15の主観的概念と2つの公開画像分類データセットにわたって、私たちのトレーニングされたモデルは、従来のアジャイルモデリングだけでなく、ALIGN、CLIP、CuPLといった最先端のゼロショット分類モデルや、PaLI-Xのような大規模視覚質問応答モデルを上回る性能を示しました。

RT-Sketch: 手描きスケッチからの目標条件付き模倣学習
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches

Mar 5

ByPriya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal

自然言語と画像は、目標条件付き模倣学習（IL）において一般的に使用される目標表現です。しかし、自然言語は曖昧である場合があり、画像は過剰に特定されている場合があります。本研究では、視覚的模倣学習における目標指定のモダリティとして手描きスケッチを提案します。スケッチは、言語と同様にユーザーが即座に提供しやすい一方で、画像と同様に下流のポリシーが空間的に認識するのを助け、さらに画像を超えてタスクに関連するオブジェクトと無関係なオブジェクトを区別することができます。我々は、RT-Sketchという目標条件付きポリシーを提案します。これは、所望のシーンの手描きスケッチを入力として受け取り、行動を出力する操作ポリシーです。RT-Sketchは、ペアになった軌跡と対応する合成的に生成された目標スケッチのデータセットで訓練されます。このアプローチを、アーティキュレーテッドカウンタートップ上のテーブルトップオブジェクト再配置を含む6つの操作スキルで評価します。実験的に、RT-Sketchは、単純な設定では画像や言語条件付きエージェントと同程度の性能を発揮し、言語目標が曖昧である場合や視覚的な妨害物が存在する場合にはより高いロバスト性を達成することがわかりました。さらに、RT-Sketchは、最小限の線画から詳細なカラー図まで、さまざまなレベルの詳細さを持つスケッチを解釈し、それに基づいて行動する能力があることを示します。補足資料とビデオについては、当社のウェブサイト（http://rt-sketch.github.io）を参照してください。

MagicClay: 生成ニューラルフィールドを用いたメッシュの彫刻
MagicClay: Sculpting Meshes With Generative Neural Fields

Mar 4

ByAmir Barda, Vladimir G. Kim, Noam Aigerman, Amit H. Bermano, Thibault Groueix

ニューラルフィールドの最近の進展は、形状生成の分野に驚異的な能力をもたらしましたが、芸術的作業における基本的な要件である段階的制御といった重要な特性が欠けています。一方、三角形メッシュは、ほとんどの幾何学関連タスクにおいて選択される表現であり、効率性と直感的な制御を提供しますが、ニューラル最適化には適していません。下流タスクをサポートするために、従来の技術では通常、まずニューラルフィールドを使用して形状を生成し、その後メッシュを抽出してさらなる処理を行うという2段階のアプローチを提案しています。本論文では、代わりに、メッシュと符号付き距離場（SDF）の表現を一貫して維持するハイブリッドアプローチを紹介します。この表現を使用して、テキストプロンプトに従ってメッシュの領域を彫刻しつつ、他の領域を変更しないアーティストフレンドリーなツールであるMagicClayを導入します。私たちのフレームワークは、形状最適化の各ステップにおいて、表現間の一貫性と正則化を慎重かつ効率的にバランスさせます。メッシュ表現に依存して、SDFをより高解像度で高速にレンダリングする方法を示します。さらに、微分可能なメッシュ再構築に関する最近の研究を活用し、SDFによって示される必要に応じてメッシュ内の三角形を適応的に割り当てます。実装されたプロトタイプを使用して、最先端技術と比較して優れた生成ジオメトリと、同じメッシュに対して初めてシーケンシャルなプロンプトベースの編集を可能にする新規の一貫した制御を実証します。

モデリングコラボレーター：LLMツール使用による最小限の人的労力での主観的視覚分類の実現
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

Mar 5

ByImad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig