HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

6 papers found

MMLU-Pro：一個更穩健且具挑戰性的多任務語言理解基準測試
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

Jun 3

ByYubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen

在大型語言模型時代，像是大規模多任務語言理解（MMLU）這樣的基準已成為推動人工智慧在語言理解和推理跨不同領域取得的成就的關鍵。然而，隨著模型持續改進，它們在這些基準上的表現已經開始趨於平緩，使得越來越難以辨別模型能力的差異。本文介紹了MMLU-Pro，這是一個增強的數據集，旨在擴展主要基於知識的MMLU基準，通過整合更具挑戰性、著重推理的問題，並將選擇集從四個擴展到十個選項。此外，MMLU-Pro消除了MMLU中的瑣碎和噪音問題。我們的實驗結果顯示，MMLU-Pro不僅提高了挑戰，使準確率比MMLU下降了16%至33%，還表現出在不同提示下更大的穩定性。在測試了24種不同提示風格後，模型分數對提示變化的敏感度從MMLU的4-5%降至MMLU-Pro的僅為2%。此外，我們發現，利用“思維鏈”（CoT）推理的模型在MMLU-Pro上表現優於直接回答，這與原始MMLU的研究結果形成鮮明對比，表明MMLU-Pro包含了更複雜的推理問題。我們的評估證實，MMLU-Pro是一個更具區分性的基準，可以更好地追蹤該領域的進展。

展示，而非告訴：將語言模型與示範反饋對齊
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

Jun 2

ByOmar Shaikh, Michelle Lam, Joey Hejna, Yijia Shao, Michael Bernstein, Diyi Yang

語言模型被調整以模擬眾多聲音的集體，結果產生的輸出與特定個人無關。通過監督微調或RLHF，可以將LLM從通用輸出中引開，但對於新的即興任務，需要極大的數據集。我們認為，可以透過利用極少量（<10）的示範作為反饋，將LLM對齊到特定環境。我們的方法，即示範迭代任務優化（DITTO），直接將語言模型的輸出對齊到用戶示範的行為。DITTO利用在線模仿學習的思想，通過將用戶的示範視為優於LLM及其中間檢查點的輸出，便宜地生成在線比較數據。我們評估DITTO在學習細粒度風格和任務對齊方面的能力，跨越新聞文章、電子郵件和博客文章等領域。此外，我們進行了一項用戶研究，從參與者（N=16）那裡獲取各種示範。在我們的基準測試和用戶研究中，我們發現DITTO的勝率優於少量提示、監督微調和其他自我對弈方法，平均提高了19%。通過直接使用示範作為反饋，DITTO提供了一種有效定制LLM的新方法。

從影片擴散先驗中學習時間一致的影片深度
Learning Temporally Consistent Video Depth from Video Diffusion Priors

Jun 3

ByJiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao

本研究解決了視頻深度估計的挑戰，期望不僅實現每幀的準確性，更重要的是實現跨幀的一致性。我們不是直接從頭開始開發深度估計器，而是將預測任務重新制定為一個條件生成問題。這使我們能夠利用現有視頻生成模型中嵌入的先前知識，從而降低學習難度並增強泛化能力。具體而言，我們研究如何馴服公共的穩定視頻擴散（SVD），使用混合的圖像深度和視頻深度數據集從輸入視頻中預測可靠的深度。我們在實踐中確認了一種程序化的訓練策略 - 首先優化SVD的空間層，然後在保持空間層凍結的同時優化時間層 - 在空間準確性和時間一致性方面產生最佳結果。我們進一步研究了用於對任意長度視頻進行推斷的滑動窗口策略。我們的觀察表明效率和性能之間存在一個折衷，一幀重疊已經產生了良好的結果。大量實驗結果證明了我們的方法ChronoDepth優於現有替代方案，特別是在估計深度的時間一致性方面。此外，我們強調了更一致的視頻深度在深度條件下的視頻生成和新視角合成兩個實際應用中的好處。我們的項目頁面位於https://jhaoshao.github.io/ChronoDepth/{此http網址}。

人工生成智能：文化累積在強化學習中
Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning

Jun 1

ByJonathan Cook, Chris Lu, Edward Hughes, Joel Z. Leibo, Jakob Foerster

文化累積推動了跨越人類歷史的開放且多樣化能力進步。它通過結合個人探索和代際信息傳遞來建立一個不斷擴大的知識和技能體系。儘管在人類中取得廣泛成功，但人工學習代理積累文化的能力仍未被充分探索。特別是，強化學習方法通常只致力於在單個生命週期內的改進。現有的代際算法未能捕捉文化累積的開放性和新興特性，這使個體能夠在創新和模仿之間取得平衡。基於先前展示的強化學習代理執行社會學習的能力，我們發現平衡社會學習和獨立學習的訓練設置導致文化累積。這些累積的代理優於僅接受單個生命週期訓練且具有相同累積經驗的代理。我們通過構建兩個模型來探索這種累積，這兩個模型基於兩種不同的代際概念：情境代際，其中累積通過情境學習發生，以及訓練時間代際，其中累積通過權重學習發生。情境和權重的文化累積可以被解釋為類比於知識和技能的累積。據我們所知，這項工作是首次提出在強化學習中實現新興文化累積的通用模型，為更開放式的學習系統開辟了新途徑，同時為建模人類文化提供了新機會。

μLO：學習優化器的計算效率元泛化
μLO: Compute-Efficient Meta-Generalization of Learned Optimizers

May 31

ByBenjamin Thérien, Charles-Étienne Joseph, Boris Knyazev, Edouard Oyallon, Irina Rish, Eugene Belilovsky

學習優化器（LOs）可以顯著減少神經網絡的牆鐘訓練時間，從而大幅降低訓練成本。然而，它們通常在元泛化方面表現不佳，尤其是在訓練比元訓練中看到的更大的網絡時。為了解決這個問題，我們使用了最近提出的最大更新參數化（muP），該方法允許從較小的模型到較大模型的優化器超參數的零次泛化。我們將muP理論擴展到學習優化器，將元訓練問題視為在muP下找到學習優化器。我們的評估顯示，使用muP進行元訓練的LOs在元泛化方面顯著優於在標準參數化（SP）下訓練的LOs。值得注意的是，當應用於寬度較大的模型時，我們最佳的muLO，在訓練了103個GPU小時後，與VeLO的性能相匹配或超越，VeLO是最大的公開可用學習優化器，經過4000個TPU月份的計算進行了元訓練。此外，與它們的SP對應物相比，muLOs對於更深的網絡和比元訓練期間長25倍的訓練時間範圍（長得多）表現出更好的泛化能力。

ZeroSmooth：無需訓練的擴散器適應高幀率視頻生成
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation

Jun 3

ByShaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He

近年來，影片生成在影片擴散模型出現後取得了顯著進展。許多影片生成模型能夠產生逼真的合成影片，例如穩定影片擴散（SVD）。然而，由於GPU記憶體有限以及建模大量幀的困難，大多數影片模型僅能生成低幀率的影片。訓練影片通常會以特定間隔均勻取樣以進行時間壓縮。先前的方法通常通過在像素空間中訓練影片插值模型作為後處理階段，或者為特定基礎影片模型訓練潛在空間中的插值模型來提高幀率。本文提出了一種針對生成式影片擴散模型的無需訓練的影片插值方法，可通用地應用於不同模型並支持即插即用。我們研究了影片擴散模型特徵空間中的非線性，並將影片模型轉換為具有設計的隱藏狀態校正模塊的自我級聯影片擴散模型。自我級聯結構和校正模塊旨在保持關鍵幀與插值幀之間的時間一致性。對多個熱門影片模型進行了廣泛評估，以證明所提方法的有效性，特別是我們的無需訓練方法甚至與依賴大量計算資源和大規模數據集支持的訓練插值模型相當。