每日精選AI研究論文及翻譯
專有的語言模型,如GPT-4,常被用來評估來自各種語言模型的回應品質。然而,透明度、可控性和負擔能力等問題強烈促使開發專門用於評估的開源語言模型。另一方面,現有的開源評估語言模型存在嚴重缺陷:1)它們發出的分數與人類分配的分數顯著不同,2)它們缺乏執行直接評估和兩兩排名這兩種最常見的評估形式的靈活性。此外,它們沒有能力根據自定義的評估標準進行評估,而是專注於像幫助性和無害性這樣的一般特徵。為了解決這些問題,我們介紹了Prometheus 2,這是一個比其前身更強大的評估語言模型,它與人類和GPT-4的判斷非常相似。此外,它能夠處理直接評估和兩兩排名格式,並與用戶定義的評估標準分組。在四個直接評估基準和四個兩兩排名基準上,Prometheus 2在所有測試的開源評估語言模型中,與人類和專有語言模型評審之間的相關性和一致性得分最高。我們的模型、代碼和數據都可以在https://github.com/prometheus-eval/prometheus-eval 公開獲取。
低秩適應(LoRA)已成為最廣泛採用的參數高效微調(PEFT)大型語言模型(LLMs)方法之一。LoRA減少了可訓練參數和記憶體使用量,同時實現了與完全微調相當的性能。我們旨在評估在真實應用中訓練和提供LoRA微調的LLMs的可行性。首先,我們測量了通過量化低秩適配器對10個基本模型和31個任務進行微調的LLMs的質量,總共310個模型。我們發現,4位元的LoRA微調模型平均比基本模型高出34個點,比GPT-4高出10個點。其次,我們調查了進行微調的最有效基本模型,並評估了任務複雜度啟發式在預測微調結果方面的相關性和預測能力。最後,我們評估了LoRAX的延遲和並行能力,LoRAX是一個開源的多LoRA推理伺服器,可使用共享的基本模型權重和動態適配器加載,在單個GPU上部署多個LoRA微調模型。LoRAX支持LoRA Land,一個Web應用程序,在一個NVIDIA A100 GPU上托管了25個LoRA微調的Mistral-7B LLMs,具有80GB的記憶體。LoRA Land突顯了使用多個專門的LLMs相對於單一通用LLM的質量和成本效益。
像GPT-4和ChatGPT這樣的聊天機器人現在正在為數百萬用戶提供服務。儘管它們被廣泛使用,但仍然缺乏展示這些工具在實際使用中如何被一群用戶使用的公共數據集。為了彌補這一差距,我們提供了免費訪問ChatGPT的機會給線上用戶,以交換他們的肯定性、同意性的選擇,匿名收集他們的聊天記錄和請求標頭。從中,我們編制了WildChat,一個包含100萬個用戶-ChatGPT對話的語料庫,其中包含超過250萬個互動轉換。我們將WildChat與其他流行的用戶-聊天機器人互動數據集進行比較,發現我們的數據集提供了最多樣化的用戶提示,包含最多種語言,並呈現了研究人員研究的潛在有毒使用案例的最豐富變化。除了有時間戳的聊天記錄外,我們還豐富了數據集的人口統計數據,包括州、國家和經過雜湊處理的IP地址,以及請求標頭。這種增強使得可以更詳細地分析不同地理區域和時間維度下的用戶行為。最後,由於它涵蓋了廣泛的用例範圍,我們展示了數據集在微調遵循指令模型中的潛在效用。WildChat在https://wildchat.allen.ai上以AI2 ImpACT許可證發布。
對於最近基於擴散的生成模型,保持一系列生成的圖像中的內容一致性,特別是那些包含主題和複雜細節的圖像,是一個重大挑戰。在本文中,我們提出了一種新的自注意力計算方式,稱為一致性自注意力,顯著提高了生成圖像之間的一致性,並以零樣本方式增強了流行的預訓練基於擴散的文本到圖像模型。為了將我們的方法擴展到長範圍視頻生成,我們進一步引入了一個新的語義空間時間運動預測模塊,名為語義運動預測器。它被訓練來估計在語義空間中兩個提供的圖像之間的運動條件。該模塊將生成的圖像序列轉換為具有平滑過渡和一致主題的視頻,比僅基於潛在空間的模塊在長視頻生成情況下更穩定。通過將這兩個新穎組件合併,我們的框架,稱為StoryDiffusion,可以描述一個基於文本的故事,其中包含豐富多樣的內容的一致圖像或視頻。所提出的StoryDiffusion包含了在視覺故事生成中呈現圖像和視頻的開拓性探索,我們希望這將激發更多從性能方面的研究。我們的代碼已公開在https://github.com/HVision-NKU/StoryDiffusion。
對齊大型語言模型(LLMs)與人類價值觀和偏好對於使其有用且安全至關重要。然而,建立有效的工具來進行對齊可能會具有挑戰性,特別是對於通常包含數百億參數的最大和最具競爭力的LLMs。我們創建了NeMo-Aligner,這是一個用於模型對齊的工具包,可以有效地擴展至使用數百個GPU進行訓練。NeMo-Aligner具有高度優化和可擴展的實現,用於主要的模型對齊範式,如:從人類反饋中進行強化學習(RLHF)、直接偏好優化(DPO)、SteerLM和自我對弈微調(SPIN)。此外,我們的工具包支持在參數效率微調(PEFT)設置中運行大多數對齊技術。NeMo-Aligner設計用於可擴展性,可以輕鬆支持其他對齊技術,並且是以Apache 2.0許可證開源的,歡迎在https://github.com/NVIDIA/NeMo-Aligner 提交社區貢獻。
對齊是一種標準程序,用於微調預訓練的大型語言模型(LLMs),以遵循自然語言指令並作為有用的人工智能助手。然而,我們觀察到,傳統的對齊過程未能增強LLMs的事實準確性,並且常常導致生成更多虛假事實(即幻覺)。在本文中,我們研究如何使LLM對齊過程更具事實性,首先識別導致兩個對齊步驟中幻覺的因素:監督微調(SFT)和強化學習(RL)。特別是,我們發現在LLM上訓練新知識或不熟悉的文本可能會鼓勵幻覺。這使得SFT不夠事實性,因為它在可能對LLM新奇的人類標記數據上進行訓練。此外,標準RL中使用的獎勵函數也可能鼓勵幻覺,因為它引導LLM對多樣化指令提供更有幫助的回應,通常更偏好更長和更詳細的回應。基於這些觀察,我們提出了具有事實性意識的對齊,包括具有事實性意識的SFT和通過直接偏好優化的具有事實性意識的RL。實驗表明,我們提出的具有事實性意識的對齊引導LLMs輸出更具事實性的回應,同時保持遵循指令的能力。
藝術重新詮釋是創作參考作品的變體的實踐,製作一幅展現獨特藝術風格的配對作品。我們探討這樣的圖像配對是否可以用來自定義生成模型,以捕捉展示的風格差異。我們提出了一種新的自定義方法,稱為配對自定義,該方法從單一圖像對中學習風格差異,然後將獲得的風格應用於生成過程。與現有方法不同,這些方法從圖像集合中學習模仿單一概念不同,我們的方法捕捉了配對圖像之間的風格差異。這使我們能夠應用風格變化,而不會過度擬合於示例中的特定圖像內容。為了應對這個新任務,我們採用聯合優化方法,明確將風格和內容分開為不同的 LoRA 權重空間。我們優化這些風格和內容權重以重現風格和內容圖像,同時鼓勵它們的正交性。在推論過程中,我們通過基於我們學到的權重的新風格引導修改擴散過程。定性和定量實驗都顯示,我們的方法可以有效地學習風格,同時避免過度擬合圖像內容,突顯了從單一圖像對中建模這種風格差異的潛力。
音頻描述(AD)的發展是使視頻內容更具可訪問性和包容性的重要一步。傳統上,AD的製作需要大量熟練勞動力,而現有的自動化方法仍然需要廣泛的培訓,以整合多模態輸入並將輸出從字幕風格調整為AD風格。在本文中,我們介紹了一個自動化的AD生成流程,利用了GPT-4V(ision)強大的多模態和指令遵循能力。值得注意的是,我們的方法採用了現成的組件,無需額外的培訓。它生成的AD不僅符合已建立的自然語言AD製作標準,還通過基於跟踪的角色識別模塊保持跨幀的上下文一致的角色信息。對MAD數據集的深入分析顯示,我們的方法在自動AD生成方面取得了與基於學習的方法相當的性能,這得益於20.5的CIDEr分數的支持。