每日精選AI研究論文及翻譯
在本報告中,我們介紹了Qwen2.5-Coder系列,這是其前身CodeQwen1.5的重大升級。該系列包括兩個模型:Qwen2.5-Coder-1.5B和Qwen2.5-Coder-7B。作為一個專注於程式碼的模型,Qwen2.5-Coder基於Qwen2.5架構構建,並繼續在超過5.5兆個標記的龐大語料庫上進行預訓練。通過細緻的數據清理、可擴展的合成數據生成和平衡的數據混合,Qwen2.5-Coder展現出令人印象深刻的程式碼生成能力,同時保留了通用的多功能性。該模型已在廣泛的與程式碼相關的任務上進行評估,在超過10個基準測試中實現了最先進的性能,包括程式碼生成、完成、推理和修復,在相同模型大小的情況下始終優於更大的模型。我們相信,Qwen2.5-Coder系列的推出不僅將推動程式碼智能研究的界限,還將通過其寬鬆的許可,鼓勵開發人員在實際應用中更廣泛地採用。
我們介紹了 Qwen2-VL 系列,這是先前 Qwen-VL 模型的先進升級,重新定義了在視覺處理中傳統的預定義解析度方法。Qwen2-VL 引入了「天真動態解析度」機制,使模型能夠動態處理不同解析度的圖像,轉換成不同數量的視覺標記。這種方法使模型能夠生成更有效和準確的視覺表示,與人類感知過程密切相符。該模型還整合了多模態旋轉位置嵌入(M-RoPE),有助於有效融合文本、圖像和視頻之間的位置信息。我們採用了統一的範式來處理圖像和視頻,增強了模型的視覺感知能力。為了探索大型多模態模型的潛力,Qwen2-VL 研究了大視覺語言模型(LVLMs)的擴展定律。通過擴展模型大小(包括 2B、8B 和 72B 參數版本)和訓練數據量,Qwen2-VL 系列取得了極具競爭力的表現。值得注意的是,Qwen2-VL-72B 模型在各種多模態基準測試中取得了與領先模型(如 GPT-4o 和 Claude3.5-Sonnet)可比的結果,勝過其他通用模型。代碼可在 https://github.com/QwenLM/Qwen2-VL 找到。
廣泛文本理解和上下文學習需要利用完整文件上下文的語言模型。由於直接訓練長上下文模型所涉及的實施挑戰,許多方法已被提出以擴展模型以處理長上下文。然而,由於數據和模型類別的差異,比較這些方法一直是具有挑戰性的,這導致了如何評估長上下文性能以及它是否與標準評估有所不同的不確定性。我們實施了一個受控的擴展方法協議,具有標準化評估,利用一致的基本模型和擴展數據。我們的研究提供了幾個關於長上下文行為的見解。首先,我們重申了困惑度作為一個通用性能指標的關鍵作用,即使在更長的上下文任務中也是如此。其次,我們發現當前的近似注意力方法在長上下文任務中系統性地表現不佳。最後,我們確認基於精確微調的方法通常在其擴展範圍內是有效的,而外推仍然具有挑戰性。所有代碼庫、模型和檢查點將開源提供,促進透明度並促進在這一AI發展關鍵領域的進一步研究。
通過提示的思維鏈(CoT)是從大型語言模型(LLMs)中引出推理能力的事實方法。但這種額外的“思考”對於哪種類型的任務真正有幫助呢?為了分析這一點,我們進行了一項定量的元分析,涵蓋了100多篇使用CoT的論文,並對14個模型的20個數據集進行了我們自己的評估。我們的結果顯示,CoT主要在涉及數學或邏輯的任務上帶來了顯著的性能提升,而在其他類型的任務上則獲得了較小的增益。在MMLU上,除非問題或模型的回答包含等號,指示符號操作和推理,否則直接生成答案而不使用CoT將導致幾乎相同的準確性。根據這一發現,我們通過區分計劃和執行並與工具增強的LLMs進行比較,分析了CoT在這些問題上的行為。CoT的很大一部分收益來自於改善符號執行,但相對於使用符號求解器,它表現不佳。我們的結果表明,CoT可以有選擇地應用,保持性能的同時節省推理成本。此外,它們表明需要超越基於提示的CoT,轉向更好地利用整個LLM應用範圍內的中間計算的新範式。
個性化在眾多語言任務和應用中扮演著關鍵角色,因為具有相同需求的用戶可能基於個人興趣而偏好不同的輸出。這導致了各種個性化方法的發展,旨在調整大型語言模型(LLMs)以生成與用戶偏好一致的定制輸出。其中一些方法涉及為每個用戶進行微調以獲得獨特的個性化LLM,但這對於廣泛應用來說成本過高。替代方法以即插即用的方式引入個性化信息,通過檢索用戶的相關歷史文本作為示範。然而,這種基於檢索的策略可能會破壞用戶歷史的連續性,無法捕捉用戶的整體風格和模式,從而導致次優性能。為應對這些挑戰,我們提出了一種新穎的個性化LLM模型。通過輕量級即插即用用戶嵌入模塊對每個個體的所有歷史上下文進行建模,它為每個用戶構建了一個特定的嵌入。通過將此嵌入附加到任務輸入,LLMs能夠更好地理解和捕捉用戶習慣和偏好,從而生成更個性化的輸出,而無需調整其自身參數。在語言模型個性化(LaMP)基準測試中進行的大量實驗表明,所提出的模型明顯優於現有的個性化LLM方法。
偏好調整是對齊深度生成模型與人類偏好的關鍵過程。本調查提供了對偏好調整和整合人類反饋的最新進展的全面概述。本文分為三個主要部分:1)介紹和基礎知識:介紹了強化學習框架、偏好調整任務、模型和不同模態下的數據集:語言、語音和視覺,以及不同的策略方法;2)對每種偏好調整方法進行深入研究:詳細分析了偏好調整中使用的方法;以及3)應用、討論和未來方向:探討了偏好調整在下游任務中的應用,包括不同模態下的評估方法,並展望未來的研究方向。我們的目標是呈現偏好調整和模型對齊的最新方法,以增進研究人員和從業者對這一領域的理解。我們希望鼓勵在這一領域進一步參與和創新。
專家混合模型(Mixture-of-Experts, MoE)由於透過專家路由實現稀疏計算,僅選擇性地啟動少量專家模塊,因此比密集模型更有效地擴展規模。然而,稀疏計算挑戰傳統的訓練方法,因為離散的專家路由阻礙了標準反向傳播,進而影響基於梯度的優化,這是深度學習的基石。為了更好地追求MoE的擴展能力,我們引入了GRIN(GRadient-INformed MoE training),該方法結合了專家路由的稀疏梯度估計,並配置模型並行性以避免標記丟失。將GRIN應用於自回歸語言建模,我們開發了一個頂尖的16times3.8B MoE模型。我們的模型僅激活了6.6B個參數,優於一個7B的密集模型,並與在相同數據上訓練的14B密集模型的性能相匹敵。通過對多個任務的廣泛評估顯示,GRIN有望顯著增強MoE的效能,在MMLU上達到79.4,在HellaSwag上達到83.7,在HumanEval上達到74.4,在MATH上達到58.9。
隨著大數據和大型語言模型時代的來臨,零-shot個性化快速定制已成為一個重要趨勢。在本報告中,我們介紹了Takin AudioLLM,這是一系列主要包括Takin TTS、Takin VC和Takin Morphing等技術和模型,專門為有聲書製作而設計。這些模型能夠進行零-shot語音生成,產生幾乎無法區分真實人類語音的高質量語音,並幫助個人根據自己的需求定制語音內容。具體而言,我們首先介紹了Takin TTS,這是一種神經編解碼語言模型,它建立在增強型神經語音編解碼器和多任務訓練框架之上,能夠以零-shot方式生成高保真自然語音。對於Takin VC,我們提倡一種有效的內容和音色聯合建模方法來提高說話者相似度,同時提倡一種基於條件流匹配的解碼器來進一步增強其自然性和表現力。最後,我們提出了Takin Morphing系統,採用高度解耦和先進的音色和韻律建模方法,使個人能夠以精確可控的方式定制其喜好的音色和韻律進行語音生成。大量實驗驗證了我們的Takin AudioLLM系列模型的有效性和韌性。有關詳細演示,請參閱https://takinaudiollm.github.io。
我們踏上古老的探索之旅:從僅僅一瞥可見部分揭示物體的隱藏維度。為了應對這一挑戰,我們提出了Vista3D,一個能夠在短短5分鐘內實現快速且一致的3D生成的框架。Vista3D的核心是一種兩階段方法:粗略階段和精細階段。在粗略階段,我們從單張圖像中使用高斯Splatting快速生成初始幾何形狀。在精細階段,我們直接從學習到的高斯Splatting中提取一個符號距離函數(SDF),並通過可微的等值面表示進行優化。此外,它通過使用兩個獨立的隱式函數來捕捉物體的可見和隱藏部分,提高了生成的質量。此外,通過角度擴散先驗合成將2D擴散先驗的梯度與3D感知擴散先驗進行協調。通過廣泛的評估,我們展示了Vista3D有效地在生成的3D物體之間維持了一個一致性和多樣性的平衡。演示和代碼將在https://github.com/florinshen/Vista3D 上提供。
本文介紹了SoloAudio,一種新型基於擴散的生成模型,用於目標聲音提取(TSE)。我們的方法在音頻上訓練潛在擴散模型,將先前的U-Net骨幹替換為在潛在特徵上運行的跳接連接的Transformer。SoloAudio通過利用CLAP模型作為目標聲音的特徵提取器,支持音頻導向和語言導向的TSE。此外,SoloAudio利用最先進的文本轉語音模型生成的合成音頻進行訓練,展現對領域外數據和未見過的聲音事件的強大泛化能力。我們在FSD Kaggle 2018混合數據集和來自AudioSet的真實數據上評估了這種方法,SoloAudio在領域內和領域外數據上均取得了最先進的結果,展現了令人印象深刻的零樣本和少樣本能力。源代碼和演示已發布。
我們介紹了基於擴散的音訊字幕生成(DAC),這是一種針對多樣化且高效的音訊字幕生成而設計的非自回歸擴散模型。儘管現有依賴語言骨幹的字幕生成模型在各種字幕生成任務中取得了顯著成功,但它們在生成速度和多樣性方面的表現不足阻礙了音訊理解和多媒體應用的進展。我們基於擴散的框架提供了獨特的優勢,源於其固有的隨機性和在字幕生成中的整體上下文建模。通過嚴格的評估,我們證明DAC不僅在字幕質量方面達到了與現有基準相比的最先進水平,而且在生成速度和多樣性方面明顯優於它們。DAC的成功表明,使用擴散骨幹,文本生成也可以與音訊和視覺生成任務無縫集成,為跨不同模態的統一音訊相關生成模型鋪平了道路。
離線多智能體強化學習(MARL)是一個令人振奮的研究方向,利用靜態數據集為多智能體系統找到最佳控制策略。儘管該領域在定義上是數據驅動的,但迄今為止的努力忽略了數據,以追求最先進的結果。我們首先通過對文獻進行調查來證實這一點,展示大多數作品如何生成自己的數據集,缺乏一致的方法論,並提供有關這些數據集特徵的稀缺信息。然後,我們展示忽略數據性質為何是有問題的,通過突出示例說明算法性能與使用的數據集密切相關,需要在該領域中進行實驗的共同基礎。為此,我們朝著改進離線MARL中數據使用和數據意識邁出了一大步,提出了三個關鍵貢獻:(1)生成新數據集的清晰指南;(2)對80多個現有數據集進行標準化,存儲在一個公開可用的存儲庫中,使用一致的存儲格式和易於使用的API;以及(3)一套分析工具,讓我們更好地了解這些數據集,幫助進一步發展。
數學長期以來主要通過自然語言傳達,以便人類理解。隨著機械化數學和證明助手的興起,越來越需要理解非正式數學文本,然而大多數現有的基準測試僅專注於英語,忽略了其他語言。本文介紹了RoMath,這是一個羅馬尼亞數學推理基準套件,包括三個數據集:RoMath-Baccalaureate、RoMath-Competitions和RoMath-Synthetic,涵蓋了各種數學領域和難度水平,旨在改進非英語語言模型並促進多語言人工智能的發展。通過專注於羅馬尼亞語,這是一種資源稀缺且具有獨特語言特徵的語言,RoMath解決了以英語為中心的模型的限制,並強調了除了簡單的自動翻譯之外,對專用資源的需求。我們對幾個開放權重語言模型進行基準測試,突顯了為代表性不足的語言創建資源的重要性。我們提供代碼和數據集。
AI代理有潛力協助使用者進行各種重要任務,包括進行科學研究。為了推動有用代理的發展,我們需要具有挑戰性且與現實世界任務直接對應的基準。本文介紹了這樣一個基準,旨在衡量AI代理應對科學研究中一個至關重要且令人驚訝地具有挑戰性的方面的準確性:計算再現性。這個任務對科學過程至關重要,涉及使用提供的程式碼和數據重現研究結果。我們介紹了CORE-Bench(計算再現性代理基準),這是一個基準,包含了來自三個學科(計算機科學、社會科學和醫學)的90篇科學論文的270個任務。CORE-Bench的任務包括三個難度級別,包括僅語言和視覺-語言任務。我們提供了一個評估系統,以快速且可並行化的方式衡量代理的準確性,相較於順序實施,每次運行節省數天的評估時間。我們評估了兩個基準代理:通用的AutoGPT和一個特定任務的代理CORE-Agent。我們使用了兩個基礎語言模型進行測試:GPT-4o和GPT-4o-mini。最佳代理在最難的任務上實現了21%的準確性,顯示在自動化例行科學任務方面有巨大的改進空間。擁有能夠重現現有工作的代理是邁向構建能夠進行新研究並驗證和改進其他研究代理性能的必要步驟。我們希望CORE-Bench能提高再現性水平,推動未來研究代理的發展。
從功能性磁共振成像(fMRI)數據中重建3D視覺圖像,在我們的會議工作中被稱為Recon3DMind,對認知神經科學和計算機視覺都具有重要意義。為了推進這一任務,我們提出了fMRI-3D數據集,其中包含了來自15名參與者的數據,展示了總共4768個3D物體。該數據集包括兩個組成部分:fMRI-Shape,先前已介紹並可在https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape中獲取,以及本文提出的fMRI-Objaverse,可在https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse中獲得。fMRI-Objaverse包含了來自5名受試者的數據,其中4名也是fMRI-Shape中的核心組成部分,每名受試者查看了117個類別中的3142個3D物體,並附有文本標題。這顯著增強了數據集的多樣性和潛在應用。此外,我們提出了MinD-3D,一個新型框架,旨在從fMRI信號中解碼3D視覺信息。該框架首先使用神經融合編碼器從fMRI數據中提取和聚合特徵,然後利用特徵橋擴散模型生成視覺特徵,最後使用生成式變壓器解碼器重建3D物體。我們通過設計語義和結構級別的指標來建立新的基準,以評估模型的性能。此外,我們評估了我們模型在分布外情境中的有效性,並分析了從fMRI信號中提取的特徵和視覺ROI的歸因。我們的實驗表明,MinD-3D不僅可以高度準確地重建3D物體,還可以加深我們對人類大腦如何處理3D視覺信息的理解。項目頁面位於:https://jianxgao.github.io/MinD-3D。
在應對多文件摘要(MDS)的挑戰中,已提出許多方法,涵蓋了提取式和抽象式摘要技術。然而,每種方法都有其局限性,僅依賴其中一種方法往往效果不佳。一種新興且有前景的策略是將提取式和抽象式摘要方法融合起來。儘管在這個領域有大量研究,但關於結合方法的研究仍然很少,特別是在越南語言處理的背景下。本文提出了一個新穎的越南語MDS框架,利用了一個兩組件管道架構,整合了提取式和抽象式技術。第一個組件採用提取式方法來識別每個文件中的關鍵句子。這是通過修改預訓練的BERT網絡實現的,該網絡使用siamese和triplet網絡結構來生成語義上有意義的短語嵌入。第二個組件利用VBD-LLaMA2-7B-50b模型進行抽象式摘要,最終生成最絈摘要文件。我們提出的框架表現出積極的性能,達到了VN-MDS數據集上39.6%的ROUGE-2分數,並優於最先進的基準。
人類價值觀及其衡量一直是跨學科的長期研究課題。人工智慧的最新進展引發了對這一領域的重新關注,大型語言模型(LLMs)作為價值衡量的工具和對象嶄露頭角。本研究引入了基於生成心理測量的價值(GPV)方法,該方法基於LLM,以數據驅動的方式進行價值衡量,理論上基於文本揭示的選擇性感知。我們首先對LLM進行微調,以實現準確的感知級別價值衡量,並驗證LLMs將文本解析為感知的能力,形成GPV管道的核心。將GPV應用於人類撰寫的博客,我們展示了其穩定性、有效性,以及相對於先前心理學工具的優越性。然後,將GPV擴展到LLM價值衡量,我們通過以下方式推進了當前技術:1)一種心理測量方法,根據其可擴展和自由形式的輸出來衡量LLM的價值,實現特定上下文的衡量;2)對衡量範式進行比較分析,顯示先前方法的反應偏差;以及3)試圖將LLM的價值與其安全性相關聯,揭示不同價值體系的預測能力,以及各種價值對LLM安全性的影響。通過跨學科的努力,我們旨在利用人工智慧來進行下一代心理測量,並將心理測量應用於價值與人工智慧的協調。