HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

8 papers found

普羅米修斯 2：專精於評估其他語言模型的開源語言模型
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

May 2

BySeungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo

124

諸如GPT-4等專有大語言模型常被用於評估各類語言模型生成回應的品質。然而，對於透明度、可控性及成本效益的顧慮，強烈推動了專門用於評估的開源語言模型的發展。現有的開源評估模型存在明顯不足：1) 其評分與人類評分存在顯著差異；2) 缺乏同時執行直接評估與成對排序（兩種最主流評估形式）的靈活性。此外，現有模型僅能針對通用屬性（如幫助性與無害性）進行評估，無法根據自訂標準進行客製化評判。為解決這些問題，我們推出Prometheus 2——相較前代更強大的評估專用語言模型，其評判結果與人類及GPT-4的判斷高度吻合。該模型不僅能處理直接評估與成對排序兩種格式，更可結合使用者自訂的評估準則進行分析。在四項直接評估基準與四項成對排序基準測試中，Prometheus 2在所有開源評估模型中，與人類及專有模型評判結果的相關性和一致性均位居榜首。我們的模型、程式碼與資料已公開於：https://github.com/prometheus-eval/prometheus-eval。

LoRA Land：310個可媲美GPT-4的精調大型語言模型技術報告
LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

Apr 29

ByJustin Zhao, Timothy Wang, Wael Abid, Geoffrey Angus, Arnav Garg, Jeffery Kinnison, Alex Sherstinsky, Piero Molino, Travis Addair, Devvret Rishi

122

低秩自適應（LoRA）已成為大型語言模型（LLM）參數高效微調（PEFT）中最廣泛採用的方法之一。LoRA在實現與全參數微調相當性能的同時，有效減少了可訓練參數量和記憶體佔用。本研究旨在評估基於LoRA微調的LLM在實際應用中訓練與部署的可行性。首先，我們針對10個基礎模型和31項任務（共310個模型）量測了量化低秩適配器的微調品質，發現4位元LoRA微調模型相較基礎模型平均提升34個百分點，較GPT-4平均領先10個百分點。其次，我們探討最適合微調的基礎模型類型，並評估任務複雜度啟發式方法在預測微調結果時的相關性與預測能力。最後，我們測試了LoRAX的延遲與並行處理能力——這款開源多LoRA推理伺服器透過共享基礎模型權重與動態適配器加載技術，可在單張GPU上部署多個LoRA微調模型。目前驅動LoRA Land網頁應用的LoRAX，僅憑單張80GB記憶體的NVIDIA A100 GPU即同時托管25個基於Mistral-7B的LoRA微調模型，充分展現了使用多個專業化LLM相較單一通用LLM在品質與成本效益上的雙重優勢。

WildChat：來自真實世界的百萬次 ChatGPT 互動紀錄
WildChat: 1M ChatGPT Interaction Logs in the Wild

May 2

ByWenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng

諸如GPT-4和ChatGPT等聊天機器人現已服務數百萬用戶。儘管這些工具已被廣泛使用，但目前仍缺乏能展現實際用戶群體如何使用這些工具的公開數據集。為彌補這一空白，我們向線上用戶提供免費的ChatGPT使用權限，以換取他們主動同意以匿名方式收集其聊天記錄和請求標頭。據此我們構建了WildChat數據集——一個包含100萬次用戶與ChatGPT對話的語料庫，涵蓋逾250萬次交互輪次。通過與其他常用用戶-聊天機器人交互數據集比較，我們發現該數據集具備最多樣的用戶提示、最豐富的語言種類，並為研究人員提供了最具多樣性的潛在有害使用案例。除了帶時間戳的聊天記錄，我們還強化了數據集的人口統計資料（包括州別、國別和哈希處理的IP地址）及請求標頭。這種增強設計有助於對不同地理區域和時間維度的用戶行為進行更精細分析。最後，由於數據集涵蓋廣泛的使用場景，我們驗證了其在微調指令遵循模型方面的潛在應用價值。WildChat已通過AI2 ImpACT許可協議發佈於https://wildchat.allen.ai。

StoryDiffusion：實現長序列圖像與影片生成的一致性自注意力機制
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

May 2

ByYupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, Qibin Hou

對於近期基於擴散模型的生成式模型而言，在生成圖像序列（特別是包含主體與複雜細節的內容）時保持內容一致性存在顯著挑戰。本文提出一種新型自注意力計算方法——一致性自注意力，能在零樣本設定下顯著提升生成圖像間的連貫性，並增強現有預訓練文生圖擴散模型的效果。為將該方法擴展至長時序影片生成，我們進一步設計了語義空間時序運動預測模組「語義運動預測器」。該模組經訓練可估算兩張輸入圖像在語義空間中的運動條件，能將生成圖像序列轉換為過渡平滑、主體連貫的影片，其穩定性顯著優於僅基於潛在空間的模組，尤其在長影片生成場景中表現突出。通過融合這兩項創新組件，我們的StoryDiffusion框架能夠以連貫的圖像或影片形式呈現包含豐富多樣內容的文本故事。本研究在視覺故事生成領域實現了圖像與影片協同呈現的開創性探索，期望能從架構改進的角度激發更多相關研究。程式碼已公開於：https://github.com/HVision-NKU/StoryDiffusion。

NeMo-Aligner：高效模型對齊的可擴充套件工具包
NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment

May 2

ByGerald Shen, Zhilin Wang, Olivier Delalleau, Jiaqi Zeng, Yi Dong, Daniel Egert, Shengyang Sun, Jimmy Zhang, Sahil Jain, Ali Taghibakhshi, Markel Sanz Ausin, Ashwath Aithal, Oleksii Kuchaiev

對齊大型語言模型與人類價值觀及偏好，是使其具備輔助性與安全性的關鍵。然而建構高效能對齊工具面臨挑戰，尤其針對參數量達數百億甚至數千億級別的最大規模、最強效能模型。我們開發了NeMo-Aligner工具包，這套模型對齊解決方案能高效擴展至數百個GPU的訓練規模。該工具包針對主流模型對齊範式提供高度優化且可擴展的實現方案，包括：人類回饋強化學習、直接偏好優化、SteerLM技術以及自博弈微調。此外，我們的工具包支援在多數對齊技術中採用參數高效微調模式。NeMo-Aligner採用可擴展架構設計，能透過最小化開發成本支援其他對齊技術。本工具基於Apache 2.0開源協議開放原始碼，誠邀社群參與協作：https://github.com/NVIDIA/NeMo-Aligner

FLAME：面向大語言模型的事實感知對齊
FLAME: Factuality-Aware Alignment for Large Language Models

May 2

BySheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Wen-tau Yih, Xilun Chen

對齊是一種標準程序，旨在微調預訓練的大型語言模型（LLMs），使其能遵循自然語言指令並作為實用的人工智慧助手。然而我們觀察到，傳統對齊過程不僅未能提升LLMs的事實準確性，反而經常導致更多虛假事實的生成（即幻覺現象）。本文透過系統性分析兩個對齊階段——監督式微調（SFT）與強化學習（RL）中導致幻覺的關鍵因素，探討如何使LLM對齊過程更具事實性。具體而言，我們發現對LLM進行新知識或陌生文本的訓練會加劇幻覺產生，這使得SFT階段在訓練人類標註數據（可能包含模型未接觸過的內容）時降低事實性。此外，標準RL使用的獎勵函數也會誘發幻覺，因為其引導LLM對多樣化指令生成更「有用」的回應，往往偏好更長篇且詳盡的答案。基於這些觀察，我們提出「事實感知對齊」框架，包含透過直接偏好優化實現的事實感知SFT與事實感知RL。實驗結果表明，我們提出的事實感知對齊方法能引導LLMs在保持指令遵循能力的同時，輸出更具事實性的回應。

基於大型語言模型的音訊描述系統
LLM-AD: Large Language Model based Audio Description System

May 2

ByPeng Chu, Jiang Wang, Andre Abrantes

音訊描述技術的發展已成為提升影音內容可及性與包容性的關鍵進展。傳統音訊描述製作需耗費大量專業人力，而現有自動化方法仍須經過大量訓練才能整合多模態輸入，並將輸出從字幕風格調整為音訊描述風格。本文提出一種自動化音訊描述生成流程，該流程充分利用GPT-4V(ision)強大的多模態理解與指令跟隨能力。值得注意的是，我們的方法採用現成組件構建，無需額外訓練即可生成既符合自然語言音訊描述製作標準，又能通過基於追蹤的角色識別模組保持跨幀角色語境一致性的音訊描述。在MAD數據集上的全面分析表明，我們的方法在自動音訊描述生產中達到與基於學習的方法相當的性能，CIDEr評分達20.5的實證結果充分佐證了這一點。

基於單一圖像對的文本到圖像模型定製化（注：此處採用學術界常用譯法，"Customizing"譯為"定製化"更符合技術文脈，"Text-to-Image"統一譯為"文本到圖像"，"Image Pair"採用"圖像對"這一專業表述）
Customizing Text-to-Image Models with a Single Image Pair

May 2

ByMaxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu

藝術重詮釋是指以參考作品為基礎創造變體，形成具有獨特藝術風格的配對藝術作品。我們探討能否利用這類圖像對來定制生成模型，使其掌握所展現的風格差異。本文提出「配對定制法」——一種能從單一圖像對學習風格差異，並將獲取風格應用於生成過程的新定制方法。有別於現有從圖像集合中模仿單一概念的方法，本技術能捕捉配對圖像間的風格差異，使我們在應用風格變化時避免對示例中特定圖像內容的過度擬合。為解決此新任務，我們採用聯合優化方法，將風格與內容明確分離至不同的LoRA權重空間。通過優化這些風格與內容權重，在重現風格圖與內容圖的同時促進其正交性。在推理階段，我們基於學習所得權重，透過新建的風格引導機制調整擴散過程。定性與定量實驗均表明，本方法能有效學習風格並避免對圖像內容的過度擬合，彰顯了從單一圖像對建模此類風格差異的潛力。