HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

4 papers found

YuLan-Mini：一個開放的資料節約型語言模型
YuLan-Mini: An Open Data-efficient Language Model

Dec 23

ByYiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen

由於龐大的資源需求和涉及的技術過程的複雜性，對大型語言模型（LLMs）進行有效的預訓練一直是一項具有挑戰性的任務。本文提供了有關YuLan-Mini的詳細技術報告，這是一個具有24.2億參數的高性能基礎模型，其在類似參數規模的模型中實現了頂尖性能。我們的預訓練方法著重於通過三個關鍵技術貢獻來增強訓練效果：一個精心設計的數據管道結合了數據清理和數據調度策略，一種強大的優化方法來減輕訓練不穩定性，以及一種有效的退火方法，其中包括有針對性的數據選擇和長上下文訓練。值得注意的是，YuLan-Mini在訓練了1080億標記的情況下，實現了與行業領先模型相媲美的性能，而這些模型需要更多的數據。為了便於重現，我們釋放了每個訓練階段的數據組成的詳細信息。項目詳情可在以下鏈接中訪問：https://github.com/RUC-GSAI/YuLan-Mini。

一個完美的解決方案還是對完整關注的妥協？一項關於Gist Token-based上下文壓縮的全面研究。
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

Dec 23

ByChenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou

在這份研究中，我們對基於要點的上下文壓縮方法進行了深入的探討，以改善大型語言模型中的長篇上下文處理。我們專注於兩個關鍵問題：(1) 這些方法能否很好地取代完整的注意力模型？以及 (2) 壓縮可能導致的潛在失敗模式是什麼？通過大量實驗，我們展示了基於要點的壓縮在檢索增強生成和長文件問答等任務上可以實現接近無損的性能，但在合成回憶等任務中面臨挑戰。此外，我們識別了三個關鍵的失敗模式：邊界遺失、驚喜遺失和途中遺失。為了緩解這些問題，我們提出了兩種有效策略：細粒度自編碼，增強對原始標記信息的重建，以及分段式標記重要性估計，根據標記依賴性調整優化。我們的工作深入理解基於要點標記的上下文壓縮，並提供了改善壓縮能力的實用策略。

MMFactory：一個針對視覺-語言任務的通用解決方案搜索引擎。
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal

隨著基礎和視覺語言模型的進步，以及有效的微調技術，已經為各種視覺任務開發了大量通用和特定目的的模型。儘管這些模型具有靈活性和易用性，但沒有單一模型能夠處理所有可能由潛在用戶構想的任務和/或應用。最近的方法，如視覺編程和帶有集成工具的多模式LLM，旨在通過程序合成來應對複雜的視覺任務。然而，這些方法忽略了用戶的限制（例如性能/計算需求），產生了難以部署的測試時間特定解決方案，有時需要超出初學者能力的低級指令。為了解決這些限制，我們引入了MMFactory，這是一個通用框架，包括模型和指標路由組件，像跨各種可用模型的解決方案搜索引擎。根據任務描述和少量樣本輸入-輸出對以及（可選）資源和/或性能限制，MMFactory可以通過實例化和組合其模型庫中的視覺語言工具，提出多樣的程序化解決方案。除了合成這些解決方案，MMFactory還提出指標和基準性能/資源特性，讓用戶選擇符合其獨特設計限制的解決方案。從技術角度來看，我們還引入了一個基於委員會的解決方案提議者，利用多代理LLM對話生成可執行、多樣、通用和強大的解決方案供用戶使用。實驗結果表明，MMFactory通過提供針對用戶問題規格定制的最新解決方案，勝過現有方法。項目頁面位於https://davidhalladay.github.io/mmfactory_demo。

Molar：具有協同過濾對齊的多模態LLM用於增強的序列推薦
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Dec 24

ByYucong Luo, Qitao Qin, Hao Zhang, Mingyue Cheng, Ruiran Yan, Kefan Wang, Jie Ouyang

近十年來，序列推薦（SR）系統已經有了顯著的發展，從傳統的協同過濾轉向深度學習方法，最近又發展到大型語言模型（LLMs）。儘管LLMs的應用推動了重大進展，這些模型固有地缺乏協同過濾信息，主要依賴文本內容數據，忽略了其他模態，因此無法實現最佳的推薦性能。為了解決這一限制，我們提出了Molar，一個多模態大型語言序列推薦框架，它將多個內容模態與ID信息相結合，有效捕捉協同信號。Molar採用MLLM生成統一的物品表示，從文本和非文本數據中，促進全面的多模態建模，豐富物品嵌入。此外，它通過後對齊機制納入協同過濾信號，對齊基於內容和基於ID模型的用戶表示，確保精確的個性化和穩健的性能。通過無縫結合多模態內容和協同過濾見解，Molar捕捉了用戶興趣和上下文語義，從而提高了推薦準確性。大量實驗驗證了Molar明顯優於傳統和基於LLM的基線，突顯了其在利用多模態數據和協同信號進行序列推薦任務方面的優勢。源代碼可在https://anonymous.4open.science/r/Molar-8B06/找到。