AI研究論文每日精選

每日精選AI研究論文及翻譯

自然語音 3：使用分解編解碼器和擴散模型的零-shot語音合成
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Mar 5

ByZeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao

儘管最近大規模的文本轉語音（TTS）模型取得了顯著進展，但在語音品質、相似度和韻律方面仍存在不足。考慮到語音複雜地包含各種屬性（例如內容、韻律、音色和聲學細節），這對生成構成了重大挑戰，一個自然的想法是將語音因子化為代表不同屬性的個別子空間，並分別生成它們。受此激勵，我們提出了NaturalSpeech 3，一個具有新型因子化擴散模型的TTS系統，以零樣本方式生成自然語音。具體而言，1）我們設計了一個具有因子化向量量化（FVQ）的神經編解碼器，將語音波形解開為內容、韻律、音色和聲學細節的子空間；2）我們提出了一個因子化擴散模型，根據其對應的提示生成每個子空間中的屬性。通過這種因子化設計，NaturalSpeech 3可以以分而治之的方式有效且高效地建模複雜的語音，其中子空間已解開。實驗表明，NaturalSpeech 3在品質、相似度、韻律和可懂性方面優於最先進的TTS系統。此外，通過擴展至10億參數和20萬小時的訓練數據，我們實現了更好的性能。

微調的多模態語言模型是高品質的圖像文字數據篩選器。
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

Mar 5

ByWeizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang

我們提出了一個新穎的框架，通過利用微調的多模態語言模型（MLMs）來過濾圖像文本數據。我們的方法通過整合MLMs的最新進展，優於主流的過濾方法（例如CLIPScore）。我們設計了四個獨特但互補的指標，全面衡量圖像文本數據的質量。建立了一個新的流程，用於構建高質量的指導數據，以微調MLMs作為數據過濾器。與CLIPScore相比，我們的MLM過濾器產生更準確和全面的分數，直接提高了過濾數據的質量，並提升了預訓練模型的性能。我們在流行的基礎模型（即CLIP和BLIP2）和各種下游任務上實現了顯著改進。我們的MLM過濾器可以泛化到不同的模型和任務，並可用作CLIPScore的即插即用替代品。提供了額外的消融研究，以驗證我們對MLM過濾器的設計選擇。

悟空：朝向大规模推荐的扩展定律
Wukong: Towards a Scaling Law for Large-Scale Recommendation

Mar 4

ByBuyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen

在模型品質的可持續改善中，規模律扮演著重要角色。不幸的是，迄今為止的推薦模型並未展現出類似於大型語言模型領域觀察到的規模律，這是由於它們的擴展機制效率不高所致。這種限制在將這些模型適應日益複雜的現實世界數據集時帶來了重大挑戰。在本文中，我們提出了一種基於純粹堆疊分解機制的有效網絡架構，以及一種協同擴展策略，統稱為Wukong，以在推薦領域建立規模律。Wukong的獨特設計使其能夠通過更高更寬的層簡單地捕捉各種任意次序的交互作用。我們在六個公共數據集上進行了廣泛評估，結果顯示Wukong在品質方面始終優於最先進的模型。此外，我們在一個內部的大規模數據集上評估了Wukong的可擴展性。結果顯示，Wukong在品質上保持優勢，同時在模型複雜度的兩個數量級範圍內保持規模律，超過100 Gflop，或者相當於GPT-3/LLaMa-2總訓練計算規模，優於先前的技術。

MathScale：針對數學推理的指令調整進行擴展
MathScale: Scaling Instruction Tuning for Mathematical Reasoning

Mar 5

ByZhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei

大型語言模型（LLMs）展示了在解決問題方面的卓越能力。然而，它們在解決數學問題方面的熟練度仍然不足。我們提出了MathScale，這是一種簡單且可擴展的方法，使用前沿的LLMs（例如GPT-3.5）來創建高質量的數學推理數據。受人類數學學習中的認知機制啟發，該方法首先從種子數學問題中提取主題和知識點，然後構建概念圖，隨後用於生成新的數學問題。MathScale在我們生成的數學數據集的大小軸上展現出有效的可擴展性。因此，我們創建了一個包含兩百萬個數學問題-答案對的數學推理數據集（MathScaleQA）。為了全面評估LLMs的數學推理能力，我們構建了MwpBench，這是一個數學文字問題基準測試，其中包括十個數據集（包括GSM8K和MATH），涵蓋K-12、大學和競賽級別的數學問題。我們將MathScaleQA應用於微調開源LLMs（例如LLaMA-2和Mistral），從而顯著提高了數學推理能力。在MwpBench上評估，MathScale-7B在所有數據集上均實現了最先進的性能，分別在微平均準確度和宏平均準確度上超過同等大小的最佳對手42.9%和43.7%。

MAGID：用於生成合成多模態數據集的自動化流程
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

Mar 5

ByHossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour

多模互動系統的發展受限於缺乏豐富的多模（文本、圖像）對話數據，這對於大型語言模型（LLMs）是必要的。先前的方法通常通過擴充文本對話以檢索到的圖像來解決問題，但存在隱私、多樣性和質量方面的限制。在這項工作中，我們引入了多模擴增生成圖像對話（MAGID），這是一個框架，用於將僅文本對話與多樣且高質量的圖像相結合。隨後，應用擴散模型來製作相應的圖像，確保與識別的文本保持一致。最後，MAGID結合了一個創新的反饋循環，介於圖像描述生成模塊（文本LLM）和圖像質量模塊之間（涉及美學、圖像文本匹配和安全性），它們協同工作以生成高質量和多模式對話。我們在三個對話數據集上將MAGID與其他最先進的基準線進行比較，使用自動化和人工評估。我們的結果表明，MAGID與基準線相當或更好，人工評估方面有顯著改進，特別是在圖像數據庫較小的情況下與檢索基準線相比。

EasyQuant：一種針對LLM的高效無數據量化算法
EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs

Mar 5

ByHanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang

大型語言模型（LLMs）已被證明在各種任務中比傳統方法優越得多。然而，它們昂貴的計算和高記憶體需求使其難以部署。模型量化是一種減少這種開銷的有效方法。問題在於，在大多數先前的研究中，量化模型是使用來自訓練數據的少量樣本進行校準的，這可能會影響量化LLMs對未知情況和任務的泛化。因此，在這項工作中，我們探索一個重要問題：我們是否可以設計一種針對LLMs的與數據無關的量化方法，以保證其泛化性能？在這項工作中，我們提出了EasyQuant，一種無需訓練並且與數據無關的僅權重量化算法用於LLMs。我們的觀察表明，權重和量化範圍中的離群值是減少量化誤差的關鍵。因此，在EasyQuant中，我們保留離群值（少於1%）不變並優化量化範圍以減少重建誤差。通過這些方法，我們驚訝地發現EasyQuant實現了與原始模型相當的性能。由於EasyQuant不依賴任何訓練數據，量化LLMs的泛化性能得到了安全保證。此外，EasyQuant可以並行實現，使得即使對於超過100B的LLMs，量化模型也可以在幾分鐘內獲得。據我們所知，我們是第一個在與數據無關設置下實現幾乎無損失量化性能的LLMs的工作，並且我們的算法運行速度比依賴數據的方法快10倍以上。

盡情欣賞：混合解析度適應多模態大型語言模型
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

Mar 5

ByGen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

儘管現有的多模式大型語言模型（MLLMs）取得了顯著進展，但在細粒度視覺識別方面仍然表現不佳。與以往研究相反，我們從圖像解析度的角度研究了這個問題，並揭示了低解析度和高解析度視覺特徵的組合可以有效地補救這一不足。基於這一觀察，我們提出了一種新穎且高效的方法，稱為解析度混合適應（MRA）。具體而言，MRA採用兩個視覺路徑來處理不同解析度的圖像，其中高解析度的視覺信息通過新穎的解析度混合適配器（MR-Adapters）嵌入到低解析度路徑中。這種設計還大大減少了MLLMs的輸入序列長度。為了驗證MRA，我們將其應用於最近的一個名為LLaVA的MLLM，並將新模型稱為LLaVA-HR。我們在11個視覺語言（VL）任務上進行了大量實驗，結果顯示LLaVA-HR在8個VL任務上優於現有的MLLMs，例如在TextVQA上提高了9.4%。更重要的是，LLaVA-HR的訓練和推理在MRA的幫助下仍然高效，例如，訓練時間為20小時，推理速度比LLaVA-1.5快3倍。源代碼已發布在以下網址：https://github.com/luogen1996/LLaVA-HR。

合作模型：透過LLM工具使用實現主觀視覺分類，最小化人力投入
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

Mar 5

ByImad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig

從內容審查到野生動物保護，需要模型識別微妙或主觀視覺概念的應用程式數量正在增加。傳統上，為這些概念開發分類器需要大量手動工作，需要數小時、數天，甚至數月來識別和標註訓練所需的數據。即使使用最近提出的敏捷建模技術，可以快速啟動圖像分類器，用戶仍需要花費30分鐘或更多的單調、重複的數據標註來訓練單個分類器。借鑒菲斯克的認知懶人理論，我們提出了一個新框架，通過用自然語言交互取代人工標註，減少定義概念所需的總工作量一個數量級：從標註2,000張圖像到僅需100多個自然語言交互。我們的框架利用了最近基礎模型的進展，包括大型語言模型和視覺-語言模型，通過對話和自動標註訓練數據點來劃分概念空間。最重要的是，我們的框架消除了對眾包標註的需求。此外，我們的框架最終生成可在成本敏感場景中部署的輕量級分類模型。在15個主觀概念和2個公共圖像分類數據集中，我們訓練的模型表現優於傳統的敏捷建模以及ALIGN、CLIP、CuPL等最新的零樣本分類模型，以及大型視覺問答模型如PaLI-X。

RT-Sketch：從手繪草圖進行目標條件下的模仿學習
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches

Mar 5

ByPriya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal

在目標條件模仿學習（IL）中，自然語言和圖像通常被用作目標表示。然而，自然語言可能存在歧義，而圖像可能過度具體。在這項工作中，我們提出手繪草圖作為視覺模仿學習中目標規定的一種形式。草圖易於用戶即時提供，類似於語言，但與圖像一樣，它們也可以幫助下游策略具有空間感知能力，甚至超越圖像以區分任務相關與無關的對象。我們提出了RT-Sketch，這是一個以目標為條件的操作策略，接受所需場景的手繪草圖作為輸入，並輸出動作。我們在一組配對軌跡和相應的合成目標草圖數據集上訓練RT-Sketch。我們在一個可移動的櫃檯上評估了這種方法在涉及桌面物體重新排列的六種操作技能上的表現。實驗結果顯示，在直接設置中，RT-Sketch能夠達到與圖像或語言條件的代理相似的水平，同時在語言目標存在歧義或視覺干擾物存在時實現更大的韌性。此外，我們展示了RT-Sketch具有解釋和執行不同特定程度的草圖的能力，從最小的線條草圖到詳細的彩色草圖。有關補充材料和視頻，請參閱我們的網站：http://rt-sketch.github.io。

MagicClay：使用生成神經場塑造網格
MagicClay: Sculpting Meshes With Generative Neural Fields

Mar 4

ByAmir Barda, Vladimir G. Kim, Noam Aigerman, Amit H. Bermano, Thibault Groueix

最近神經領域的發展為形狀生成領域帶來了非凡的能力，但它們缺乏關鍵特性，例如增量控制 - 這是藝術工作的基本要求。另一方面，三角網格是大多數幾何相關任務的首選表示形式，提供效率和直觀控制，但不適合進行神經優化。為了支持下游任務，先前的藝術作品通常提出了一種兩步方法，首先使用神經領域生成形狀，然後提取網格進行進一步處理。相反，在本文中，我們介紹了一種混合方法，可以始終保持網格和符號距離場（SDF）表示的一致性。利用這種表示，我們引入了MagicClay - 一個友好的藝術家工具，可以根據文本提示雕塑網格的區域，同時保持其他區域不變。我們的框架在每個形狀優化步驟中仔細而有效地平衡表示之間的一致性和正則化；依賴網格表示，我們展示了如何以更高的分辨率和更快的速度呈現SDF。此外，我們利用最近的可微網格重建工作，根據SDF指示，自適應地分配網格中所需的三角形。通過實現的原型，我們展示了與最先進技術相比更優秀的生成幾何形狀，以及新穎的一致控制，首次允許對同一網格進行基於順序提示的編輯。

AI研究論文每日精選

每日精選AI研究論文及翻譯

自然語音 3：使用分解編解碼器和擴散模型的零-shot語音合成
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Mar 5

微調的多模態語言模型是高品質的圖像文字數據篩選器。
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

Mar 5

ByWeizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang

悟空：朝向大规模推荐的扩展定律
Wukong: Towards a Scaling Law for Large-Scale Recommendation

Mar 4

ByBuyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen

MathScale：針對數學推理的指令調整進行擴展
MathScale: Scaling Instruction Tuning for Mathematical Reasoning

Mar 5

ByZhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei

MAGID：用於生成合成多模態數據集的自動化流程
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

Mar 5

ByHossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour

EasyQuant：一種針對LLM的高效無數據量化算法
EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs

Mar 5

ByHanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang

盡情欣賞：混合解析度適應多模態大型語言模型
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

Mar 5

ByGen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

合作模型：透過LLM工具使用實現主觀視覺分類，最小化人力投入
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

Mar 5

ByImad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig

RT-Sketch：從手繪草圖進行目標條件下的模仿學習
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches

Mar 5

ByPriya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal

MagicClay：使用生成神經場塑造網格
MagicClay: Sculpting Meshes With Generative Neural Fields

Mar 4

ByAmir Barda, Vladimir G. Kim, Noam Aigerman, Amit H. Bermano, Thibault Groueix