每日精選AI研究論文及翻譯
近年來,影片自編碼器(Video AEs)的最新進展顯著提高了影片生成的質量和效率。本文提出了一種新穎且緊湊的影片自編碼器 VidTwin,將影片解耦為兩個不同的潛在空間:結構潛在向量,捕捉整體內容和全局運動,以及動態潛在向量,代表細節和快速運動。具體而言,我們的方法利用了一個編碼器-解碼器骨幹,並增加了兩個子模塊來分別提取這些潛在空間。第一個子模塊使用 Q-Former 來提取低頻運動趨勢,然後通過下採樣塊來去除冗餘內容細節。第二個子模塊將潛在向量沿空間維度進行平均以捕捉快速運動。大量實驗表明,VidTwin實現了高達0.20%的高壓縮率,並具有高重建質量(在MCL-JCV數據集上的PSNR為28.14),在下游生成任務中表現高效且有效。此外,我們的模型展示了可解釋性和可擴展性,為未來在影片潛在表示和生成方面的研究鋪平了道路。我們的代碼已在 https://github.com/microsoft/VidTok/tree/main/vidtwin 釋出。
由於龐大的資源需求和涉及的技術過程的複雜性,對大型語言模型(LLMs)進行有效的預訓練一直是一項具有挑戰性的任務。本文提供了有關YuLan-Mini的詳細技術報告,這是一個具有24.2億參數的高性能基礎模型,其在類似參數規模的模型中實現了頂尖性能。我們的預訓練方法著重於通過三個關鍵技術貢獻來增強訓練效果:一個精心設計的數據管道結合了數據清理和數據調度策略,一種強大的優化方法來減輕訓練不穩定性,以及一種有效的退火方法,其中包括有針對性的數據選擇和長上下文訓練。值得注意的是,YuLan-Mini在訓練了1080億標記的情況下,實現了與行業領先模型相媲美的性能,而這些模型需要更多的數據。為了便於重現,我們釋放了每個訓練階段的數據組成的詳細信息。項目詳情可在以下鏈接中訪問:https://github.com/RUC-GSAI/YuLan-Mini。
在這份研究中,我們對基於要點的上下文壓縮方法進行了深入的探討,以改善大型語言模型中的長篇上下文處理。我們專注於兩個關鍵問題:(1) 這些方法能否很好地取代完整的注意力模型?以及 (2) 壓縮可能導致的潛在失敗模式是什麼?通過大量實驗,我們展示了基於要點的壓縮在檢索增強生成和長文件問答等任務上可以實現接近無損的性能,但在合成回憶等任務中面臨挑戰。此外,我們識別了三個關鍵的失敗模式:邊界遺失、驚喜遺失和途中遺失。為了緩解這些問題,我們提出了兩種有效策略:細粒度自編碼,增強對原始標記信息的重建,以及分段式標記重要性估計,根據標記依賴性調整優化。我們的工作深入理解基於要點標記的上下文壓縮,並提供了改善壓縮能力的實用策略。
隨著基礎和視覺語言模型的進步,以及有效的微調技術,已經為各種視覺任務開發了大量通用和特定目的的模型。儘管這些模型具有靈活性和易用性,但沒有單一模型能夠處理所有可能由潛在用戶構想的任務和/或應用。最近的方法,如視覺編程和帶有集成工具的多模式LLM,旨在通過程序合成來應對複雜的視覺任務。然而,這些方法忽略了用戶的限制(例如性能/計算需求),產生了難以部署的測試時間特定解決方案,有時需要超出初學者能力的低級指令。為了解決這些限制,我們引入了MMFactory,這是一個通用框架,包括模型和指標路由組件,像跨各種可用模型的解決方案搜索引擎。根據任務描述和少量樣本輸入-輸出對以及(可選)資源和/或性能限制,MMFactory可以通過實例化和組合其模型庫中的視覺語言工具,提出多樣的程序化解決方案。除了合成這些解決方案,MMFactory還提出指標和基準性能/資源特性,讓用戶選擇符合其獨特設計限制的解決方案。從技術角度來看,我們還引入了一個基於委員會的解決方案提議者,利用多代理LLM對話生成可執行、多樣、通用和強大的解決方案供用戶使用。實驗結果表明,MMFactory通過提供針對用戶問題規格定制的最新解決方案,勝過現有方法。項目頁面位於https://davidhalladay.github.io/mmfactory_demo。
近十年來,序列推薦(SR)系統已經有了顯著的發展,從傳統的協同過濾轉向深度學習方法,最近又發展到大型語言模型(LLMs)。儘管LLMs的應用推動了重大進展,這些模型固有地缺乏協同過濾信息,主要依賴文本內容數據,忽略了其他模態,因此無法實現最佳的推薦性能。為了解決這一限制,我們提出了Molar,一個多模態大型語言序列推薦框架,它將多個內容模態與ID信息相結合,有效捕捉協同信號。Molar採用MLLM生成統一的物品表示,從文本和非文本數據中,促進全面的多模態建模,豐富物品嵌入。此外,它通過後對齊機制納入協同過濾信號,對齊基於內容和基於ID模型的用戶表示,確保精確的個性化和穩健的性能。通過無縫結合多模態內容和協同過濾見解,Molar捕捉了用戶興趣和上下文語義,從而提高了推薦準確性。大量實驗驗證了Molar明顯優於傳統和基於LLM的基線,突顯了其在利用多模態數據和協同信號進行序列推薦任務方面的優勢。源代碼可在https://anonymous.4open.science/r/Molar-8B06/找到。