每日精選AI研究論文及翻譯
旋轉位置嵌入(RoPE)已被證明能夠有效地在基於Transformer的語言模型中編碼位置信息。然而,這些模型無法泛化到超出它們訓練的序列長度。我們提出了YaRN(Yet another RoPE extensioN method),這是一種計算效率高的方法,可以擴展這些模型的上下文窗口,只需10倍更少的標記和2.5倍更少的訓練步驟。使用YaRN,我們展示LLaMA模型可以有效地利用並推斷出比原始預訓練允許的上下文長得多得多,同時還超越了以前在上下文窗口擴展方面的最新技術。此外,我們展示了YaRN展現了超越微調數據集有限上下文的能力。我們在https://github.com/jquesnelle/yarn上發布了使用64k和128k上下文窗口進行微調的Llama 2 7B/13B的檢查點。
從人類反饋中學習的強化學習(RLHF)對於使大型語言模型(LLMs)與人類偏好保持一致是有效的,但收集高質量的人類偏好標籤是一個關鍵瓶頸。我們對RLHF與從人工智能反饋(RLAIF)學習的強化學習進行了一次直接比較 - RLAIF是一種技術,其中偏好由現成的LLM標記,而非人類,我們發現它們帶來了類似的改進。在摘要任務中,人類評估者在約70%的情況下更喜歡RLAIF和RLHF生成的結果,而不是基於監督微調模型的基準。此外,當被要求對RLAIF與RLHF的摘要進行評分時,人類以相同比率偏好兩者。這些結果表明,RLAIF可以產生人類級別的性能,為RLHF的可擴展性限制提供了潛在解決方案。
本文介紹了VideoGen,一種文本到視頻生成方法,可以使用參考引導的潛在擴散生成高清晰度視頻,具有高幀保真度和強大的時間一致性。我們利用現成的文本到圖像生成模型,例如Stable Diffusion,從文本提示生成具有高內容質量的圖像,作為引導視頻生成的參考圖像。然後,我們引入了一個高效的級聯潛在擴散模塊,條件是參考圖像和文本提示,用於生成潛在視頻表示,然後通過基於流的時間上採樣步驟來提高時間分辨率。最後,我們通過增強的視頻解碼器將潛在視頻表示映射到高清晰度視頻。在訓練期間,我們使用地面真實視頻的第一幀作為訓練級聯潛在擴散模塊的參考圖像。我們方法的主要特點包括:文本到圖像模型生成的參考圖像提高了視覺保真度;將其用作條件使擴散模型更加專注於學習視頻動態;視頻解碼器在未標記的視頻數據上進行訓練,因此受益於高質量且易於獲得的視頻。在質量和量化評估方面,VideoGen在文本到視頻生成方面設立了新的技術水準。
在他開創性的論文中引入信息理論的過程中,Shannon將通訊分為三個層次:技術層、語義層和效果層。技術層關注於準確重建傳輸符號,而語義層和效果層則處理推斷意義及其對接收者的影響。得益於電信技術,第一層問題已經帶來了像互聯網這樣的巨大進步。大型語言模型(LLMs)在第二個目標上取得了一些進展,但第三層仍然基本保持不變。第三個問題涉及預測和優化通訊以獲得期望的接收者行為。LLMs雖然在各種任務上展示了廣泛的泛化能力,但無法解決這個問題。造成表現不佳的一個原因可能是LLMs的訓練語料庫中缺乏“行為標記”。行為標記定義了通訊中接收者的行為,例如分享、喜歡、點擊、購買、轉發等。在為LLMs訓練預處理數據時,行為標記通常被視為噪音而從語料庫中刪除。因此,在本論文中,我們朝著在LLMs訓練中重新引入行為標記取得了一些初步進展。訓練的模型除了在內容理解任務上表現出與LLMs相似的性能外,還在行為模擬、內容模擬、行為理解和行為領域適應方面展現了泛化能力。通過在兩個語料庫上進行各種任務,我們展示了所有這些能力的結果。我們將這些模型稱為大型內容和行為模型(LCBMs)。此外,為了激發更多關於LCBMs的研究,我們發布了我們的新內容行為語料庫(CBC),這是一個包含通訊者、消息以及相應接收者行為的存儲庫。
電腦視覺模型在性別和膚色等屬性上已知存在表現差異。這意味著在分類和檢測等任務中,模型的表現會根據圖像中人物的人口統計特徵而有所不同。這些差異已被證實存在,但迄今為止尚未有統一方法來衡量電腦視覺模型常見用例中的這些差異。我們提出了一個名為FACET(FAirness in Computer Vision EvaluaTion)的新基準,這是一個包含32k圖像的大型、公開可用的評估集,用於一些最常見的視覺任務 - 圖像分類、物體檢測和分割。對於FACET中的每張圖像,我們聘請專家審查員手動標註人物相關屬性,如感知的膚色和髮型,手動繪製邊界框並標記細粒度的人物相關類別,如碟片騎師或吉他手。此外,我們使用FACET來對最先進的視覺模型進行基準測試,並對敏感人口統計屬性之間的潛在表現差異和挑戰進行更深入的理解。通過收集的詳盡標註,我們使用單一人口統計屬性以及交集方法(例如髮色和感知的膚色)來探測模型。我們的結果顯示,分類、檢測、分割和視覺定位模型在人口統計屬性和屬性交集上都存在表現差異。這些損害表明,數據集中代表的所有人在這些視覺任務中並未獲得公平和公正的對待。我們希望使用我們的基準測試的現有和未來結果將有助於建立更公平、更強大的視覺模型。FACET可在https://facet.metademolab.com/ 公開獲取。