每日精選AI研究論文及翻譯
目前的長文本基準主要專注於檢索式測試,要求大型語言模型(LLMs)在廣泛的輸入上下文中定位特定信息,例如「草堆中的針」(NIAH)基準。長文本生成指的是語言模型生成跨越長篇章或文件的連貫且上下文準確的文本的能力。儘管最近的研究表明在NIAH和其他檢索式長文本基準上表現強勁,但對於評估長文本生成能力的基準嚴重不足。為彌補這一差距並提供全面評估,我們引入了一個合成基準,LongGenBench,允許靈活配置自定義生成上下文長度。LongGenBench通過重新設計問題格式,要求LLMs以單一、連貫的長文本答案回應,超越傳統基準。通過使用LongGenBench進行廣泛評估,我們觀察到:(1)無論是API訪問還是開源模型在長文本生成場景中均表現出性能下降,範圍從1.2%到47.1%不等;(2)不同系列的LLMs表現出不同的性能下降趨勢,其中Gemini-1.5-Flash模型在API訪問模型中表現出最小的下降,而Qwen2系列在LongGenBench中表現出開源模型中最小的下降。
為了使大型語言模型(LLMs)在各種任務中發揮效力,理解並準確遵循指示至關重要。在這項工作中,我們嚴謹地研究了使模型能夠推廣到未見指示的關鍵因素,提供了指導收集指示調整數據的見解。通過受圖靈完備馬爾可夫算法啟發的受控實驗,我們證明當訓練數據在語義領域之間足夠多樣化時,這種泛化只有在這種情況下才會出現。我們的研究結果還顯示,僅在有限領域內進行多樣化無法確保堅固的泛化。相反,跨領域數據多樣化,即使在受限的數據預算下,也顯著增強了模型的適應能力。我們進一步將分析擴展到現實情境,包括對專家和通用模型的微調。在這兩種情況下,我們證明了以下兩點:1)通過增加已建立數據集的多樣性,同時保持數據大小不變,可以實現更好的性能;2)當擴大數據時,多樣化指示的語義比單純增加相似數據的數量更有效。我們的研究為數據集整理提供了重要見解,特別是在通過擴展專家和通用情境的訓練數據來優化模型性能時。我們表明,仔細考慮數據多樣化是關鍵的:用超出其核心領域的數據訓練專家模型將帶來顯著的性能改進,而通用模型則受益於增強其在各種應用中整體遵循指示能力的多樣數據組合。我們的結果突顯了戰略多樣化的關鍵作用,並提供了改善數據質量的明確指南。
本研究通過引入一種名為二維自迴歸(DnD)Transformer的新型模型架構,解決了向量量化(VQ)自迴歸圖像生成的信息損失瓶頸問題。DnD-Transformer通過引入新的自迴歸方向、模型深度以及序列長度方向,為圖像預測更多編碼。與傳統的一維自迴歸和先前利用類似二維圖像分解的RQ-Transformer等工作相比,DnD-Transformer是一個端到端模型,可以在相同的骨幹模型大小和序列長度下生成更高質量的圖像,為自迴歸圖像生成開啟了新的優化視角。此外,我們的實驗顯示,DnD-Transformer的潛力不僅限於生成自然圖像。它甚至可以以自監督方式生成具有豐富文本和圖形元素的圖像,展示對這些結合模態的理解。這在流行的視覺生成模型(如擴散模型)中以往並未展示,表明當僅在圖像上進行訓練時,展現了一種視覺語言智能的閃光。代碼、數據集和模型可在https://github.com/chenllliang/DnD-Transformer找到。
隨著近期研究的重大努力,以LLM作為評判者已成為評估廣泛任務中文本生成質量的成本效益替代方案,取代了人類評估。然而,LLM作為評判者與人類評估之間仍存在可靠性差距。其中一個重要原因是評估過程中缺乏引導性的指導者。受到經典文本評估中普遍使用的參考角色的啟發,我們引入了RevisEval,一種通過響應適應參考的新型文本生成評估範式。RevisEval的驅動力在於一個關鍵觀察,即理想的參考應保持與待評估的響應的必要相關性。具體而言,RevisEval利用大型語言模型(LLMs)的文本修訂能力來自適應性地修改響應,然後將修改後的文本作為參考(響應適應參考)用於後續評估。廣泛的實驗表明,RevisEval在自由參考和基於參考的傳統評估範式上優於使用LLM作為評判者的自然語言生成任務和開放式指示遵循任務。更重要的是,我們的響應適應參考可以進一步提升經典文本指標,例如BLEU和BERTScore,相較於傳統參考甚至與LLM作為評判者相媲美。還進行了詳細分析以確認RevisEval在減少偏見、推理成本影響和參考相關性方面的有效性。
近年來,增強大型語言模型(LLMs)在推理方面的能力已經引起了顯著的關注。先前的研究已經證明了各種提示策略在幫助LLMs進行推理(稱為“推理行為”)方面的有效性,例如逐步思考、在回答之前反思、使用程序解決問題以及它們的組合。然而,這些方法通常將靜態的、預定義的推理行為均勻應用於所有問題,而沒有考慮到每個問題的具體特徵或任務解決LLM的能力。在本文中,我們提出了一種名為DOTS的方法,通過尋找最佳推理軌跡,以適應每個問題的具體特徵和任務解決LLM的固有能力,使LLMs能夠動態進行推理。我們的方法包括三個關鍵步驟:i)定義可以組成各種推理行為軌跡的原子推理行動模塊;ii)通過迭代探索和評估來為每個訓練問題尋找最佳行動軌跡,以適應特定任務解決LLM;iii)使用收集到的最佳軌跡來訓練LLM計劃未見問題的推理軌跡。特別是,我們提出了兩種學習範式,即對外部LLM進行微調作為引導任務解決LLM的計劃者,或者直接對具有內部化推理行動計劃能力的任務解決LLM進行微調。我們在八個推理任務上的實驗表明,我們的方法始終優於靜態推理技術和基本指令調整方法。進一步的分析顯示,我們的方法使LLMs能夠根據問題的複雜性調整其計算,將更深入的思考和推理分配給更難的問題。
自回歸(AR)模型已將圖像生成重新定義為下一個標記的預測,展示出卓越的潛力並成為擴散模型的強大競爭對手。然而,類似ControlNet的控制到圖像生成在AR模型中仍然很少被探索。儘管受到大型語言模型進展的啟發,一種自然的方法是將控制圖像分詞為標記,並在解碼圖像標記之前將它們預先填充到自回歸模型中,但與ControlNet相比,這種方法在生成質量上仍然存在不足之處並且效率低下。為此,我們引入ControlAR,這是一個將空間控制整合到自回歸圖像生成模型中的高效且有效的框架。首先,我們探索了AR模型的控制編碼並提出了一個輕量級的控制編碼器,將空間輸入(例如canny邊緣或深度圖)轉換為控制標記。然後,ControlAR利用條件解碼方法,在控制標記和圖像標記之間進行逐標記融合的條件解碼,類似於位置編碼。與預先填充標記相比,使用條件解碼顯著增強了AR模型的控制能力,同時也保持了模型的效率。此外,所提出的ControlAR令AR模型驚人地通過條件解碼和特定控制實現了任意分辨率的圖像生成。大量實驗證明了所提出的ControlAR對於自回歸控制到圖像生成在各種輸入上的可控性,包括邊緣、深度和分割遮罩。此外,定量和定性結果均表明ControlAR超越了先前的最先進的可控擴散模型,例如ControlNet++。代碼、模型和演示將很快在https://github.com/hustvl/ControlAR 上提供。
推理計算的擴展已經釋放出長內容大型語言模型(LLMs)在各種情境下的潛力。對於知識密集型任務,增加的計算通常被分配用於整合更多外部知識。然而,如果沒有有效利用這些知識,僅擴展上下文並不總是會提高性能。在這項工作中,我們研究了檢索增強生成(RAG)的推理擴展,探索超越僅僅增加知識量的策略。我們專注於兩種推理擴展策略:上下文學習和迭代提示。這些策略提供了額外的靈活性,以擴展測試時計算(例如,通過增加檢索文檔或生成步驟),從而增強LLMs有效獲取和利用上下文信息的能力。我們探討了兩個關鍵問題:(1)當最佳配置時,RAG性能如何從推理計算的擴展中受益?(2)通過建模RAG性能與推理參數之間的關係,我們能否預測給定預算的最佳測試時計算分配?我們的觀察顯示,當最佳分配時,增加推理計算導致RAG性能幾乎呈線性增長,我們將這種關係描述為RAG的推理擴展定律。基於此,我們進一步發展了計算分配模型,以估計在不同推理配置下的RAG性能。該模型預測了在各種計算限制條件下的最佳推理參數,這與實驗結果密切一致。通過應用這些最佳配置,我們證明在長內容LLMs上擴展推理計算相比標準RAG在基準數據集上可實現高達58.9%的增益。
大型語言模型(LLMs)在各種自然語言處理任務中取得了顯著進展,長上下文模型因處理較長輸入而備受矚目。然而,Transformer架構所需的擴展鍵-值(KV)緩存大小加劇了記憶限制,特別是在解碼階段,造成了顯著的瓶頸。現有的旨在解決這一瓶頸的稀疏注意機制存在兩個限制:(1)它們通常無法可靠地識別最相關的注意力標記,以及(2)它們忽略了在連續Transformer層中跨越的標記選擇的空間一致性,這可能導致性能下降和標記選擇方面的重大開銷。本文介紹了TidalDecode,一種簡單而有效的演算法和系統,通過位置持久稀疏注意力實現快速準確的LLM解碼。TidalDecode利用現有稀疏注意機制選擇的標記的空間一致性,並引入一些標記選擇層,進行全注意力以識別具有最高注意力分數的標記,而所有其他層則對預選標記進行稀疏注意力。這種設計使TidalDecode能夠大幅減少稀疏注意力的標記選擇開銷,同時不會犧牲生成結果的質量。對多種LLM和任務的評估表明,TidalDecode在將LLM解碼延遲降低高達2.1倍的同時,與全注意力方法的生成性能相當。
從人類反饋中學習的強化學習(RLHF)已經證明在對齊大型語言模型(LLMs)與人類偏好方面具有效性。然而,基於標記級別的RLHF存在長序列上的信用分配問題,延遲獎勵使模型難以識別哪些行動導致成功結果。這阻礙了學習效率並減慢了收斂速度。在本文中,我們提出了MA-RLHF,這是一個簡單而有效的RLHF框架,將宏觀行動——標記序列或更高層次的語言結構——納入學習過程中。通過在這更高的抽象層次上運作,我們的方法減少了行動和獎勵之間的時間距離,促進了更快和更準確的信用分配。這導致更穩定的策略梯度估計,增強了每個情節中的學習效率,而在訓練或推斷期間並未增加計算複雜度。我們通過在各種模型大小和任務上進行廣泛實驗來驗證我們的方法,包括文本摘要、對話生成、問答和程序合成。我們的方法在文本摘要和代碼生成方面實現了顯著的性能改進,分別達到30%、對話18%以及問答8%的性能增益。值得注意的是,我們的方法在訓練時間方面比普通RLHF快1.7倍至2倍,並在進一步訓練中繼續優於它。我們將在https://github.com/ernie-research/MA-RLHF 上公開我們的代碼和數據。
長文本語言模型(LCLM)以其廣泛的上下文窗口而聞名,正變得日益普及。與此同時,許多長文本基準題目提出了具有挑戰性的任務,即使是最先進的LCLM也難以完成。然而,這些各種具挑戰性的長文本任務的根源卻鮮少被研究。為彌補這一不足,我們進行實驗,指出這些困難主要源於兩個基本問題:"多匹配檢索",需要同時檢索多個項目,以及"基於邏輯的檢索",需要在檢索標準中進行邏輯判斷。這兩個問題,雖然看似簡單,實際上超出了LCLM的能力範圍,因為它們被證明具有超級多步驟(需要大量步驟才能解決)的性質。這一發現可以解釋為何LLM在更高級的長文本任務中遇到困難,為重新思考解決方案提供了更準確的觀點。
在生成建模中,標記化將複雜的數據簡化為緊湊、結構化的表示,創建一個更有效、可學習的空間。對於高維視覺數據,它減少了冗餘並強調關鍵特徵,以實現高質量生成。當前的視覺標記化方法依賴於傳統的自編碼器框架,其中編碼器將數據壓縮為潛在表示,解碼器則重建原始輸入。在這項工作中,我們提出了一個新的觀點,提出將去噪作為解碼,從單步重建轉向迭代細化。具體而言,我們用擴散過程取代解碼器,通過編碼器提供的潛在信息引導逐步細化噪聲以恢復原始圖像。我們通過評估重建(rFID)和生成質量(FID)來評估我們的方法,並將其與最先進的自編碼方法進行比較。我們希望這項工作能為整合迭代生成和自編碼以改進壓縮和生成提供新的見解。
事件序列以不規則採樣間隔和混合分類和數值特徵為特徵,在各種現實世界領域中普遍存在,如醫療保健、金融和用戶互動日誌。儘管時間數據建模技術取得了進展,但對事件序列性能的評估缺乏標準化基準。這使得由於評估協議的差異而難以比較不同論文的結果,可能誤導了該領域的進展。我們引入了EBES,一個全面的基準測試工具,具有標準化的評估場景和協議,重點關注具有序列級目標的迴歸和分類問題。我們的庫通過統一接口簡化了基準測試、數據集添加和方法集成。它包括一個新穎的合成數據集,並提供預處理的現實世界數據集,包括最大的公開銀行數據集。我們的結果對數據集進行了深入分析,識別了一些不適合進行模型比較的數據集。我們調查了建模時間和序列組件的重要性,以及模型的穩健性和擴展性特性。這些發現突顯了未來研究的潛在方向。我們的基準測試旨在促進可重現研究,加快進展並增加現實世界影響。
影片大型語言模型(Video-LLMs)在粗粒度影片理解方面展現出卓越的能力,然而在細粒度時間定位方面卻遇到困難。本文介紹了一種新型的Grounded-VideoLLM,這是一種擅長以細緻方式感知和推理特定影片片段的Video-LLM。我們發現目前的Video-LLMs在細粒度影片理解方面存在限制,因為它們缺乏有效的時間建模和時間戳表示。基於此,我們通過(1)增加一個額外的時間流來編碼幀之間的關係,以及(2)使用富含特定時間知識的離散時間標記來表示時間戳,來改進我們的模型。為了優化Grounded-VideoLLM的訓練,我們採用了多階段訓練方案,從簡單的影片字幕任務開始,逐步引入越來越複雜的影片時間定位任務。為了進一步增強Grounded-VideoLLM的時間推理能力,我們還通過自動標註流程精心策劃了一個基於實際情況的VideoQA數據集。廣泛的實驗表明,Grounded-VideoLLM不僅在細粒度定位任務(如時間句子定位、密集影片字幕和基於實際情況的VideoQA)方面表現出色,還展現了作為通用影片理解的多才多藝的影片助手的巨大潛力。