每日精選AI研究論文及翻譯
調整大型語言模型(LLMs)仍然是一項具有挑戰性的任務,這是因為超參數選擇的複雜性以及評估調整後模型的困難性。為了確定最佳超參數,自動、強大且可靠的評估基準至關重要。然而,建立這樣一個基準並不是一個簡單的任務,因為與評估準確性和隱私保護相關的挑戰。為應對這些挑戰,我們引入了一個名為PandaLM的評判大型語言模型,該模型經過訓練,可以區分出多個LLMs中的優越模型。PandaLM的焦點不僅僅在於對回應的客觀正確性,這是傳統評估數據集的主要焦點。它還涉及到重要的主觀因素,如相對簡潔性、清晰度、遵循指示、全面性和正式性。為確保PandaLM的可靠性,我們收集了一個多樣化的人工標註測試數據集,其中所有上下文都由人類生成,標籤與人類偏好保持一致。我們的結果顯示,PandaLM-7B在我們的測試數據集上以F1分數的形式實現了GPT-3.5評估能力的93.75%,以及GPT-4的88.28%。PandaLM使得LLM的評估更加公平,且成本更低,透過PandaLM調整的模型相較於使用默認Alpaca超參數訓練的對照模型實現了顯著的改進。此外,PandaLM不依賴基於API的評估,因此避免了潛在的數據洩露。PandaLM的所有資源均在https://github.com/WeOpenML/PandaLM 上公開。
指令調校的大型語言模型已經在自然語言處理領域引起了革命,並展現了在對話代理等應用中的巨大潛力。這些模型,如GPT-4,不僅能掌握語言,還能解決數學、編碼、醫學和法律等領域的複雜任務。儘管它們具有令人印象深刻的能力,但由於許多模型的黑盒特性以及缺乏全面評估研究,對它們的全部潛力仍存在著理解上的不足。為應對這些挑戰,我們提出了INSTRUCTEVAL,這是一個專門為指令調校的大型語言模型設計的更全面的評估套件。與以往的研究不同,我們的評估包括對模型在解決問題、寫作能力和與人類價值觀的一致性方面進行嚴格評估。我們採取了一種全面的方法來分析影響模型性能的各種因素,包括預訓練基礎、指令調校數據和訓練方法。我們的研究結果顯示,指令數據的質量是影響模型性能的最關鍵因素。儘管開源模型展示了令人印象深刻的寫作能力,但在解決問題和一致性方面仍有很大的改進空間。我們對開源社區快速發展模型感到鼓舞,但也強調了對這些模型所做聲稱的嚴格評估的必要性。通過INSTRUCTEVAL,我們旨在促進對指令調校模型的更深入理解以及其能力的進步。INSTRUCTEVAL可以在https://github.com/declare-lab/instruct-eval 公開獲取。
大型語言模型(LLMs)現已部署至日常使用,並定位為未來十年將產生大量文本的工具。機器生成的文本可能取代互聯網上的人工撰寫文本,並有潛力被用於惡意目的,如魚叉式釣魚攻擊和社交媒體機器人。數字水印是一種簡單而有效的策略,可減輕此類損害,因為它能夠檢測和記錄由LLM生成的文本。然而,一個關鍵問題仍然存在:在野外的現實環境中,數字水印的可靠性如何?在那裡,帶有水印的文本可能與其他文本來源混合,被人類作者或其他語言模型改寫,並被應用於眾多社會和技術領域。在本文中,我們探討不同的檢測方案,量化它們在檢測水印方面的能力,並確定在每種情況下需要觀察多少機器生成的文本才能可靠地檢測水印。我們特別強調我們的人類研究,我們在面對人類改寫時調查水印的可靠性。我們將基於水印的檢測與其他檢測策略進行比較,總的來說發現,水印技術是一種可靠的解決方案,尤其是由於其樣本複雜性 - 對於我們考慮的所有攻擊,水印證據隨著提供的範例數量增加而累積,最終會被檢測到。
在這項工作中,我們探索了最近在一系列開放式指示遵循數據集上指示調整語言模型的最新進展。儘管最近有聲稱開放模型可以與最先進的專有模型媲美,但這些主張通常伴隨著有限的評估,這使得難以全面比較模型並確定各種資源的效用。我們提供了一系列從 67 億到 650 億參數大小的指示調整模型,這些模型是在 12 個指示數據集上進行訓練的,這些數據集從手動精選(例如 OpenAssistant)到合成和精煉(例如 Alpaca)不等,並通過一系列自動、基於模型和基於人類的指標對它們的事實知識、推理、多語言能力、編碼和開放式指示遵循能力進行系統評估。我們進一步介紹了 T\"ulu,我們表現最佳的指示調整模型套件,它是在一系列高質量開放資源的組合上進行了微調。 我們的實驗表明,不同的指示調整數據集可以揭示或增強特定技能,而沒有單一數據集(或組合)能夠在所有評估中提供最佳性能。有趣的是,我們發現基於模型和人類偏好的評估未能反映基於基準的評估所顯示的模型能力差異,這表明有必要進行本工作中進行的類型的系統評估。我們的評估顯示,在任何給定評估中,最佳模型平均達到 ChatGPT 性能的 83%,以及 GPT-4 性能的 68%,這表明需要進一步投資於構建更好的基礎模型和指示調整數據以彌合差距。我們釋放了我們的指示調整模型,包括一個完全微調的 650 億 T\"ulu,以及我們的代碼、數據和評估框架,以促進未來研究。
我們利用大型語言模型LLaMA-7B來預測下一個token在過去token窗口中的條件下,提供了對英語熵的漸近上界的新估計。這個估計顯著小於目前在cover1978convergent、lutati2023focus中可用的估計。一個自然的副產物是一個用於英語文本的無損壓縮算法,該算法將大型語言模型的預測與無損壓縮方案結合。有限實驗的初步結果表明,我們的方案優於BSC、ZPAQ和paq8h等最先進的文本壓縮方案。
從單眼圖像中估計像動物身體這樣的3D關節形狀,由於相機視角、姿勢、紋理、光線等的模糊性,本質上是具有挑戰性的。我們提出了ARTIC3D,一個自監督框架,從野外的稀疏圖像集合中重建每個實例的3D形狀。具體而言,ARTIC3D建立在基於骨架的表面表示之上,並進一步受到來自穩定擴散的2D擴散先驗的引導。首先,我們通過2D擴散對輸入圖像進行遮擋/截斷來增強,以獲得更清晰的遮罩估計和語義特徵。其次,我們執行引導擴散的3D優化,以估計形狀和紋理,這些形狀和紋理具有高保真度並忠實於輸入圖像。我們還提出了一種新技術,通過擴散模型計算更穩定的圖像級梯度,相較於現有的替代方案。最後,通過在剛性部分變換下微調渲染的形狀和紋理,我們生成逼真的動畫。對多個現有數據集以及新引入的帶有遮擋和截斷的嘈雜網絡圖像集合進行了廣泛評估,結果顯示ARTIC3D的輸出對於嘈雜圖像更具魯棒性,在形狀和紋理細節方面具有更高的質量,並在動畫時更加逼真。項目頁面:https://chhankyao.github.io/artic3d/
StableDiffusion 是一個引起圖像生成和編輯領域轟動的革命性文本到圖像生成器。與傳統方法在像素空間學習擴散模型不同,StableDiffusion 通過 VQGAN 在潛在空間中學習擴散模型,確保了效率和質量。它不僅支持圖像生成任務,還能實現對真實圖像的編輯,如圖像修補和局部編輯。然而,我們觀察到 StableDiffusion 中使用的普通 VQGAN 導致了顯著的信息丟失,甚至在未經編輯的圖像區域中也會產生失真。為此,我們提出了一種新的不對稱 VQGAN,具有兩個簡單的設計。首先,除了來自編碼器的輸入外,解碼器還包含一個條件分支,將任務特定的先驗信息(如修補中的未遮罩圖像區域)納入其中。其次,解碼器比編碼器更為複雜,可以實現更詳細的恢復,同時僅輕微增加總推理成本。我們的不對稱 VQGAN 的訓練成本低廉,我們只需要重新訓練一個新的不對稱解碼器,同時保持普通 VQGAN 編碼器和 StableDiffusion 不變。我們的不對稱 VQGAN 可廣泛應用於基於 StableDiffusion 的修補和局部編輯方法。大量實驗表明,它可以顯著改善修補和編輯性能,同時保持原始的文本到圖像能力。代碼可在 https://github.com/buxiangzhiren/Asymmetric_VQGAN 找到。
隨著學術界和工業界對大型語言模型(LLMs)的日益依賴,迫切需要全面了解它們對提示的韌性。為了滿足這一重要需求,我們介紹了PromptBench,這是一個旨在衡量LLMs對對抗性提示的韌性的基準測試。本研究使用了大量針對提示的對抗性文本攻擊,涵蓋多個層次:字符、詞彙、句子和語義。這些提示隨後應用於各種任務,如情感分析、自然語言推理、閱讀理解、機器翻譯和數學問題解決。我們的研究生成了4,032個對抗性提示,經過細緻評估,涵蓋8個任務和13個數據集,總共有567,084個測試樣本。我們的研究結果顯示,當前的LLMs容易受到對抗性提示的影響。此外,我們提供了全面的分析,以了解提示韌性及其可轉移性背後的奧秘。然後,我們提供了具有洞察力的韌性分析和實用的提示組成建議,對研究人員和普通用戶都有益。我們將我們的代碼、提示和生成對抗性提示的方法論公開,從而促進這一重要領域的協作探索:https://github.com/microsoft/promptbench。
在移動設備上部署神經機器翻譯模型對於隱私、低延遲和離線情境至關重要。由於神經機器翻譯模型的容量較大,因此在設備上運行這些模型面臨著存儲、內存、計算和功耗有限的挑戰。現有研究要麼僅專注於單一指標,如FLOPs,要麼是對自回歸解碼效果不佳的通用引擎。本文提出了MobileNMT,一個能夠在設備上以15MB和30ms進行翻譯的系統。我們提出了一系列模型壓縮原則,結合量化。此外,我們實現了一個對INT8和解碼友好的引擎。通過模型和引擎的共同設計,與現有系統相比,我們的速度提高了47.0倍,記憶體節省了99.5%,僅損失了11.6%的BLEU。代碼可在https://github.com/zjersey/Lightseq-ARM 公開獲取。
為促進視覺語言預訓練(VLP)和多模態大型語言模型(LLM)在中文社群中的發展,我們首次釋出最大的公開中文高質量視頻語言數據集,名為Youku-mPLUG,該數據集從知名的中文視頻分享網站Youku收集而來,具備嚴格的安全、多樣性和質量標準。Youku-mPLUG 包含從 4 億個原始視頻中篩選出的 1 千萬個中文視頻文本對,涵蓋 45 個不同類別的廣泛視頻,用於大規模預訓練。此外,為了促進對視頻語言模型的全面評估,我們精心構建了最大的人工標註中文基準數據集,涵蓋跨模態檢索、視頻字幕生成和視頻分類等三個熱門視頻語言任務。Youku-mPLUG 能夠讓研究人員進行更深入的多模態研究,並在未來開發更好的應用。此外,我們釋出了 ALPRO 和 mPLUG-2 兩款熱門視頻語言預訓練模型,以及我們提出的在Youku-mPLUG上預訓練的模塊化僅解碼器模型 mPLUG-video。實驗表明,在Youku-mPLUG上預訓練的模型在視頻分類方面取得了高達 23.1% 的改進。此外,mPLUG-video 在這些基準數據集上實現了新的最先進結果,視頻分類準確率達到 80.5%,視頻字幕生成的 CIDEr 分數達到 68.9%。最後,我們基於凍結的 Bloomz 將 mPLUG-video 擴展為僅具有 1.7% 可訓練參數的中文多模態LLM,展示出令人印象深刻的指導和視頻理解能力。零-shot 指導理解實驗表明,使用Youku-mPLUG進行預訓練可以增強對整體和詳細視覺語義、識別場景文本以及利用開放領域知識的能力。