每日精選AI研究論文及翻譯
大型語言模型的發展引起了研究人員廣泛的興趣,他們希望了解這些模型固有的推理和問題解決能力。儘管有大量研究致力於闡明這些能力,但對這些模型的道德發展和判斷仍存在顯著差距。目前評估這些模型道德推理能力的方法是將其視為一項分類任務,但由於過度簡化,存在許多不準確之處。在這項研究中,我們通過搭建兩個不同領域-人類心理學和人工智慧之間的心理聯繫,提出了一個有效的評估框架,可以幫助界定模型的道德推理能力,並借助心理測量評估工具-定義問題測試,來評估模型的道德一致性和柯爾伯格的道德發展階段。
儘管最近的文本轉視頻(T2V)生成方法取得了顯著進展,但大多數這些研究專注於生成單一事件且具有單一背景(即單場景視頻)的短視頻片段。與此同時,最近的大型語言模型(LLMs)展示了它們在生成布局和控制下游視覺模塊(如圖像生成模型)方面的能力。這引出了一個重要問題:我們是否可以利用這些LLMs中嵌入的知識來進行時間上一致的長視頻生成?在本文中,我們提出了VideoDirectorGPT,這是一個新穎的框架,用於實現一致的多場景視頻生成,利用LLMs的知識進行視頻內容規劃和基於實際情況的視頻生成。具體而言,給定一個單一文本提示,我們首先請我們的視頻規劃LLM(GPT-4)將其擴展為“視頻計劃”,其中包括生成場景描述、實體及其相應佈局、每個場景的背景,以及實體和背景的一致性分組。接著,在視頻規劃的輸出指導下,我們的視頻生成器Layout2Vid 可以明確控制空間佈局,並能在各場景間保持實體/背景的時間一致性,同時僅通過圖像級標註進行訓練。我們的實驗表明,VideoDirectorGPT框架在單場景和多場景視頻生成中顯著改善了佈局和運動控制,並能生成具有視覺一致性的多場景視頻,同時在開放域單場景T2V生成中表現出色。我們還展示了我們的框架可以動態控制佈局引導的強度,並且可以生成帶有用戶提供圖像的視頻。我們希望我們的框架能激發未來更好地將LLMs的規劃能力整合到一致的長視頻生成中的工作。
大型多模型(LMM)跨模態構建,兩種模態之間的不一致可能導致“幻覺”,生成與上下文中的多模態信息不符的文本輸出。為解決多模態不一致問題,我們將從文本領域中的強化學習從人類反饋(RLHF)調整到視覺語言對齊任務,要求人類標註者比較兩個回應並指出更虛幻的那個,視覺語言模型則被訓練以最大化模擬人類獎勵。我們提出了一種新的對齊算法稱為事實增強 RLHF,該算法通過額外的事實信息(如圖像標題和地面真實的多選選項)來擴充獎勵模型,從而減輕 RLHF 中的獎勵黑客現象並進一步提高性能。我們還通過以前可用的人工編寫的圖像文本對增強了 GPT-4 生成的訓練數據(用於視覺指導調整),以提高我們模型的通用能力。為了在現實情境中評估所提出的方法,我們開發了一個新的評估基準 MMHAL-BENCH,特別關注對幻覺進行懲罰。作為首個使用 RLHF 訓練的 LMM,在 LLaVA-Bench 數據集上實現了顯著改進,性能水平達到了僅次於僅文本 GPT-4 的 94%(而以前的最佳方法僅能達到 87%),在 MMHAL-BENCH 上比其他基準線提高了 60%。我們在 https://llava-rlhf.github.io 上公開了我們的代碼、模型和數據。
大多數現有的多模型模型受限於無法熟練地處理多圖像、多輪對話中交錯的圖像和文本輸入,導致在培訓和數據訪問方面存在重大限制,影響其在不同交互領域中的適應性和可擴展性。為了解決這個問題,我們提出了DeepSpeed-VisualChat框架,旨在通過結合多模能力來優化大型語言模型(LLMs),並專注於增強大視覺和語言模型處理交錯輸入的能力。我們的框架值得注意的地方在於:(1)支持多輪和多圖像對話的開源支持,(2)引入創新的多模因果注意機制,以及(3)利用現有數據集上的數據混合技術,以確保在多輪、多圖像對話中的無縫互動。與現有框架相比,DeepSpeed-VisualChat展示了出色的可擴展性,可達到70B參數語言模型大小,代表了多模語言模型的重大進步,並為未來的探索奠定了堅實基礎。
訓練大型基於Transformer的模型的團隊報告,在大規模訓練時出現了訓練不穩定性,而在較小規模下使用相同的超參數進行訓練時並未出現這種情況。儘管這種不穩定性的原因具有科學價值,但要複製這些情況所需的資源量使得調查變得困難。在這項研究中,我們尋求重現和研究在較小規模下的訓練穩定性和不穩定性的方法。首先,我們專注於先前研究中描述的兩種訓練不穩定性來源:注意力層中logits的增長(Dehghani等人,2023年)和輸出logits與log概率的發散(Chowdhery等人,2022年)。通過在不同規模下測量學習率與損失之間的關係,我們展示了這些不穩定性在小型模型中當以較高學習率進行訓練時也會出現,並且在這個範疇中之前在大規模上使用的緩解方法同樣有效。這促使我們調查其他已知優化器和模型干預措施對最終損失對學習率變化的敏感性的影響程度。為此,我們研究了諸如熱身、權重衰減和muParam(Yang等人,2022年)等方法,並結合技術來訓練小型模型,在學習率變化的數量級中實現相似的損失。最後,為了總結我們的探索,我們研究了兩種情況,即通過檢查模型激活和梯度範數的縮放行為,可以在它們出現之前預測不穩定性。
大型語言模型(LLMs)可以通過根據反饋逐步改進和修訂其輸出來提高在各種任務上的準確性。我們觀察到這些修訂可能會引入錯誤,這種情況下最好回滾到先前的結果。此外,修訂通常是同質的:它們使用產生初始答案的相同推理方法,這可能無法更正錯誤。為了在這個領域進行探索,我們提出了SCREWS,一個用於推理與修訂的模塊化框架。它由三個主要模塊組成:抽樣、條件重抽樣和選擇,每個模塊都包含可根據任務手動選擇的子模塊。我們展示了SCREWS不僅將幾種先前方法統一到一個共同框架下,還揭示了幾種用於識別改進推理鏈的新策略。我們使用最先進的LLMs(ChatGPT和GPT-4)在各種推理任務上評估我們的框架,並發現了每個任務的有用新推理策略:算術單詞問題、多跳問答和代碼調試。異質的修訂策略被證明很重要,同時在原始候選和修訂候選之間進行選擇也很重要。
最近在大型語言模型(LLMs)的語言建模和新興能力方面取得的進展,使它們成為一種有前景的無參考評估自然語言生成質量的工具,並且是與人類評估相比的一種有競爭力的替代方案。然而,受限於封閉源碼或高計算需求以進行主機託管和調整,目前缺乏實踐來進一步校準現成的LLM-based評估器以實現更好的與人類對齊。在這項工作中,我們提出了AutoCalibrate,這是一種多階段、無梯度方法,用於自動校準和對齊基於LLM的評估器以符合人類偏好。我們不是直接對人類偏好進行建模,而是首先將它們隱含地包含在一組人類標籤中。然後,語言模型本身根據不同的少量樣本進行上下文學習,起草了一組初始的評分標準。為了進一步校準這一組標準,我們選擇最佳表現者並通過自我精煉重新起草它們。我們對多個文本質量評估數據集的實驗表明,通過校準,與專家評估之間的相關性顯著提高。我們的全面定性分析傳達了對有效評分標準本質的深刻直覺和觀察。
將長視頻分割成章節,使用戶能夠快速導航到他們感興趣的信息。這一重要主題由於缺乏公開發布的數據集而研究不足。為了解決這個問題,我們提出了VidChapters-7M,這是一個包含817K個用戶分章視頻的數據集,總共包含7M個章節。VidChapters-7M是通過從在線視頻中爬取用戶標註的章節來自動創建的,因此無需進行任何額外的手動標註。我們基於這個數據集提出了以下三個任務。首先,視頻章節生成任務包括將視頻在時間上進行分割並為每個片段生成一個章節標題。為了進一步分析問題,我們還定義了這個任務的兩個變體:在給定地面真實邊界的情況下進行視頻章節生成,這需要在給定標註的視頻片段的情況下生成一個章節標題,以及視頻章節定位,這需要在給定其標註標題的情況下暫時定位一個章節。我們為這三個任務基準了簡單的基準線和最先進的視頻-語言模型。我們還展示了在VidChapters-7M上的預訓練對於零-shot和微調設置下的密集視頻字幕任務具有良好的遷移效果,大大提高了YouCook2和ViTT基準測試的最新技術水平。最後,我們的實驗表明,下游性能隨著預訓練數據集的規模增加而有很好的提升。我們的數據集、代碼和模型可以在https://antoyang.github.io/vidchapters.html 公開獲取。