AI研究論文每日精選

每日精選AI研究論文及翻譯

Phi-3 技術報告：在您的手機上本地運行的高性能語言模型
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Apr 22

ByMarah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Martin Cai, Caio César Teodoro Mendes, Weizhu Chen, Vishrav Chaudhary, Parul Chopra, Allie Del Giorno, Gustavo de Rosa, Matthew Dixon, Ronen Eldan, Dan Iter, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Jamie Huynh, Mojan Javaheripi, Xin Jin, Piero Kauffmann, Nikos Karampatziakis, Dongwoo Kim, Mahoud Khademi, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Chen Liang, Weishung Liu, Eric Lin, Zeqi Lin, Piyush Madan, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Corby Rosset, Sambudha Roy, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Xia Song, Olatunji Ruwase, Xin Wang, Rachel Ward, Guanhua Wang, Philipp Witte, Michael Wyatt, Can Xu, Jiahang Xu, Sonali Yadav, Fan Yang, Ziyi Yang, Donghan Yu, Chengruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yunan Zhang, Xiren Zhou

259

我們介紹了 phi-3-mini，這是一個擁有 380 億個參數的語言模型，訓練過程中使用了 3.3 兆個 tokens。無論是在學術基準測試還是內部測試中，其整體表現都與 Mixtral 8x7B 和 GPT-3.5 這樣的模型不相上下（例如，phi-3-mini 在 MMLU 上達到 69%，在 MT-bench 上達到 8.38），儘管體積小到可以部署在手機上。創新完全來自我們用於訓練的數據集，這是 phi-2 用過的數據集的規模擴大版本，由經過嚴格篩選的網絡數據和合成數據組成。該模型還進一步經過調整以確保韌性、安全性和對話格式。我們還提供了一些初始的參數縮放結果，使用了 4800 兆 tokens 訓練的 70 億和 140 億模型，分別稱為 phi-3-small 和 phi-3-medium，它們的能力遠遠超過 phi-3-mini（例如，在 MMLU 上分別達到 75% 和 78%，在 MT-bench 上分別達到 8.7 和 8.9）。

低位元量化的LLaMA3模型有多好？一項實證研究
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

Apr 22

ByWei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno

Meta 的 LLaMA 系列已成為最強大的開源大型語言模型 (LLM) 系列之一。值得注意的是，LLaMA3 模型最近已經釋出，通過對超過 15T 標記數據進行超大規模預訓練，取得了令人印象深刻的性能。考慮到在資源有限情況下對 LLM 進行低位量化的廣泛應用，我們探索了將 LLaMA3 量化為低位寬時的能力。這一探索有望揭示 LLaMA3 和其他即將推出的 LLM 在低位量化方面的新見解和挑戰，特別是在解決在 LLM 壓縮中遭受的性能降級問題方面。具體而言，我們對 LLaMA3 的 10 種現有後訓練量化和 LoRA 微調方法在 1-8 位和不同數據集上進行評估，以全面揭示 LLaMA3 的低位量化性能。我們的實驗結果顯示，在這些情況下，LLaMA3 仍然存在相當大的性能降級，特別是在超低位寬時。這突顯了在低位寬下需要在未來發展中彌合的顯著性能差距。我們期望這一實證研究將有助於推進未來模型，將 LLM 推向更低的位寬，以實現更高的準確性。我們的項目已在 https://github.com/Macaronlin/LLaMA3-Quantization 上釋出，而量化的 LLaMA3 模型已在 https://huggingface.co/LLMQ 上釋出。

指令層次結構：訓練LLMs以優先處理特權指令
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Apr 19

ByEric Wallace, Kai Xiao, Reimar Leike, Lilian Weng, Johannes Heidecke, Alex Beutel

當前的LLM容易受到提示注入、越獄和其他攻擊的影響，這些攻擊使對手能夠覆蓋模型的原始指令並插入惡意提示。在這項工作中，我們認為導致這些攻擊的主要弱點之一是LLM通常將系統提示（例如，應用程式開發人員提供的文本）視為與不受信任的用戶和第三方提供的文本具有相同的優先級。為了解決這個問題，我們提出了一種指令層次結構，明確定義了模型在不同優先級指令衝突時應該如何行為。然後，我們提出了一種數據生成方法，以展示這種階層式指令遵循行為，教導LLM有選擇性地忽略較低特權的指令。我們將此方法應用於GPT-3.5，顯示它顯著提高了魯棒性，即使對於在訓練期間未見過的攻擊類型，同時對標準功能的影響也很小。

FlowMind：利用LLMs進行自動工作流生成
FlowMind: Automatic Workflow Generation with LLMs

Mar 17

ByZhen Zeng, William Watson, Nicole Cho, Saba Rahimi, Shayleen Reynolds, Tucker Balch, Manuela Veloso

在快速發展的機器人流程自動化（RPA）領域中，已經在自動化重複性流程方面取得了顯著進展，但在需要用戶提出的即興或不可預測任務的情況下，其效果會降低。本文介紹了一種新方法，名為FlowMind，利用大型語言模型（LLMs）如生成預訓練變壓器（GPT）的能力來解決這一限制，並創建自動工作流生成系統。在FlowMind中，我們提出了一個通用的提示配方，用於幫助以可靠的應用程序編程接口（APIs）為基礕的LLM推理。通過這一方法，FlowMind不僅減輕了LLMs中幻覺的常見問題，還消除了LLMs與專有數據或代碼之間的直接交互，從而確保了信息的完整性和保密性 - 這是金融服務中的基石。FlowMind通過呈現自動生成工作流的高層描述進一步簡化了用戶交互，使用戶能夠有效地檢查並提供反饋。我們還介紹了NCEN-QA，這是金融領域的一個新數據集，用於對基金N-CEN報告中的問答任務進行基準測試。我們使用NCEN-QA來評估FlowMind生成的工作流的性能，並與FlowMind的基準和消融變體進行比較。我們展示了FlowMind的成功，提出的講座配方中每個組件的重要性，以及FlowMind中用戶交互和反饋的有效性。

Hyper-SD：用於高效圖像合成的軌跡分段一致性模型
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

Apr 21

ByYuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao

最近，一系列考慮擴散的蒸餾演算法已經出現，以減輕與擴散模型（DMs）多步驟推論過程相關的計算負擔。目前的蒸餾技術通常可以分為兩個不同的方面：i）ODE軌跡保留；和ii）ODE軌跡重塑。然而，這些方法存在嚴重的性能降級或領域轉移問題。為了解決這些限制，我們提出了Hyper-SD，一個新穎的框架，它協同地融合了ODE軌跡保留和重塑的優勢，同時在步驟壓縮過程中保持接近無損的性能。首先，我們引入了軌跡分段一致性蒸餾，逐步在預定義的時間步驟段內進行一致性蒸餾，有助於從更高層次的角度保留原始ODE軌跡。其次，我們結合人類反饋學習，以提升模型在低步驟範疇中的性能，並減輕蒸餾過程中所造成的性能損失。第三，我們整合分數蒸餾，進一步提高模型的低步驟生成能力，並首次嘗試利用統一的LoRA來支持所有步驟的推論過程。大量實驗和用戶研究表明，Hyper-SD在SDXL和SD1.5的1至8個推論步驟中均實現了SOTA性能。例如，Hyper-SDXL在1步驟推論中的CLIP分數和Aes分數分別比SDXL-Lightning高出+0.68和+0.51。

多模式自動可解釋性代理程式
A Multimodal Automated Interpretability Agent

Apr 22

ByTamar Rott Shaham, Sarah Schwettmann, Franklin Wang, Achyuta Rajaram, Evan Hernandez, Jacob Andreas, Antonio Torralba

本文描述了MAIA，一個多模式自動可解釋性代理。MAIA是一個系統，利用神經模型來自動執行神經模型理解任務，如特徵解釋和失敗模式發現。它為一個預先訓練的視覺語言模型配備了一組工具，支持對其他模型的子組件進行迭代實驗，以解釋它們的行為。這些工具包括人類可解釋性研究人員常用的工具：用於合成和編輯輸入、從現實世界數據集中計算最大激活實例，以及總結和描述實驗結果。MAIA提出的可解釋性實驗將這些工具組合起來描述和解釋系統行為。我們評估了MAIA應用於計算機視覺模型的情況。我們首先表徵了MAIA在學習圖像表示的特徵（神經元級別）方面的描述能力。在幾個訓練過的模型和一個新的合成視覺神經元數據集中，這些神經元與配對的地面真實描述，MAIA生成的描述與專家人類實驗者生成的描述相當。然後，我們展示了MAIA可以幫助完成兩個額外的可解釋性任務：減少對虛假特徵的敏感性，以及自動識別可能被錯誤分類的輸入。

SEED-X：具有統一多粒度理解和生成的多模型
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation

Apr 22

ByYuying Ge, Sijie Zhao, Jinguo Zhu, Yixiao Ge, Kun Yi, Lin Song, Chen Li, Xiaohan Ding, Ying Shan

多模基礎模型的快速演進已經在視覺語言理解和生成方面取得了顯著進展，例如我們先前的工作SEED-LLaMA。然而，由於模型對於各種用戶指令的有效回應和與多樣化視覺數據的互動能力有限，導致其能力與真實應用之間仍存在差距。在這項工作中，我們專注於通過整合兩個增強功能來彌合這一差距：(1)理解任意大小和比例的圖像，以及(2)實現多粒度圖像生成。我們提出了一個統一且多功能的基礎模型，名為SEED-X，能夠為理解和生成任務建模多粒度的視覺語義。除了在公共基準測試中取得競爭優異的結果外，SEED-X在經過指導調整後展示了其在各個領域的真實應用中的有效性。我們希望我們的工作能激發對多功能多模基礎模型在真實應用中所能實現的未來研究。模型、代碼和數據集將在https://github.com/AILab-CVC/SEED-X 上發布。

音樂一致性模型
Music Consistency Models

Apr 20

ByZhengcong Fei, Mingyuan Fan, Junshi Huang

一致性模型在促進高效影像/影片生成方面展現出卓越能力，能夠在最少的取樣步驟下進行合成。這已被證明有助於減輕與擴散模型相關的計算負擔。然而，在音樂生成領域中，一致性模型的應用仍然未被廣泛探索。為彌補這一空白，我們提出了音樂一致性模型（MusicCM），利用一致性模型的概念，有效地合成音樂片段的mel-spectrogram，保持高質量的同時最小化取樣步驟的數量。在現有的文本到音樂擴散模型基礎上，MusicCM 模型融入了一致性蒸餾和對抗性鑑別器訓練。此外，我們發現通過結合具有共享約束的多個擴散過程來生成延續連貫的音樂是有益的。實驗結果顯示我們的模型在計算效率、保真度和自然性方面的有效性。值得注意的是，MusicCM 在僅四個取樣步驟下實現了無縫音樂合成，例如每分鐘音樂片段僅需一秒，展示了實時應用的潛力。

MultiBooth：朝向從性生成圖像中所有概念的方向發展
MultiBooth: Towards Generating All Your Concepts in an Image from Text

Apr 22

ByChenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu

本文介紹了一種名為MultiBooth的新穎且高效的技術，用於從文本生成圖像中的多概念定制。儘管在定制生成方法方面取得了顯著進展，特別是擴散模型的成功，現有方法在處理多概念場景時常常因概念保真度低和推理成本高而遇到困難。MultiBooth通過將多概念生成過程分為兩個階段來解決這些問題：單概念學習階段和多概念集成階段。在單概念學習階段，我們利用多模態圖像編碼器和高效概念編碼技術來學習每個概念的簡潔且具有區分性的表示。在多概念集成階段，我們使用邊界框來定義交叉注意力地圖中每個概念的生成區域。這種方法使得能夠在指定區域內創建單獨的概念，從而促進多概念圖像的形成。這一策略不僅提高了概念的保真度，還降低了額外的推理成本。MultiBooth在定性和定量評估中均超越了各種基準，展示了其卓越的性能和計算效率。項目頁面：https://multibooth.github.io/

學習H-Infinity運動控制
Learning H-Infinity Locomotion Control

Apr 22

ByJunfeng Long, Wenye Yu, Quanyi Li, Zirui Wang, Dahua Lin, Jiangmiao Pang

在陡峭環境中穩定行走是四足機器人的基本能力，需要具備抵抗各種外部干擾的能力。然而，最近基於學習的策略僅使用基本的領域隨機化來提高學習策略的魯棒性，這並不能保證機器人具有足夠的抗干擾能力。在本文中，我們建議將學習過程建模為演員和新引入的干擾者之間的對抗交互作用，並確保它們在H_{infty}約束下進行優化。與最大化折扣整體獎勵的演員相反，干擾者負責產生有效的外部力量，並通過最大化任務獎勵與其神諭之間的誤差，即每次迭代中的“成本”來進行優化。為了保持演員和干擾者之間的聯合優化穩定，我們的H_{infty}約束規定了成本與外部力量強度之間的比率上限。通過訓練階段的相互作用，演員可以獲得應對日益複雜的物理干擾的能力。我們在Unitree Aliengo機器人上的四足行走任務以及在Unitree A1機器人上的更具挑戰性任務上驗證了我們方法的魯棒性，其中四足機器人被期望僅依靠後腿進行行走，就像是雙足機器人一樣。模擬的定量結果顯示相對於基準線的改善，證明了該方法及每個設計選擇的有效性。另一方面，真實機器人實驗在各種地形，包括樓梯、高平台、斜坡和滑溜地形上干擾時展示了策略的魯棒性。所有代碼、檢查點和現實世界部署指南將公開發布。

場景座標重建：通過重新定位器的增量學習對圖像集合進行姿態設定
Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer

Apr 22

ByEric Brachmann, Jamie Wynn, Shuai Chen, Tommaso Cavallari, Áron Monszpart, Daniyar Turmukhambetov, Victor Adrian Prisacariu

我們致力於從描繪場景的一組影像中估計相機參數的任務。流行的基於特徵的結構從運動（SfM）工具通過增量重建來解決這個任務：它們重複三角測量稀疏的3D點並將更多相機視圖註冊到稀疏點雲。我們重新解釋增量式結構從運動為一個視覺重新定位器的迭代應用和細化，即一種將新視圖註冊到重建當前狀態的方法。這種觀點使我們能夠研究不基於局部特徵匹配的替代視覺重新定位器。我們展示了一種稱為場景坐標回歸的基於學習的重新定位方法，允許我們從未定位的影像中構建隱式的神經場景表示。與其他基於學習的重建方法不同，我們不需要姿態先驗知識或順序輸入，並且我們可以高效地優化數千張影像。我們的方法，ACE0（ACE Zero），通過新穎視圖合成展示了與基於特徵的SfM相當的相機姿勢估計精度。項目頁面：https://nianticlabs.github.io/acezero/

AI研究論文每日精選

每日精選AI研究論文及翻譯

場景座標重建：通過重新定位器的增量學習對圖像集合進行姿態設定
Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer

Apr 22

ByEric Brachmann, Jamie Wynn, Shuai Chen, Tommaso Cavallari, Áron Monszpart, Daniyar Turmukhambetov, Victor Adrian Prisacariu