每日精選AI研究論文及翻譯
語言模型在各種應用中表現出色,然而最複雜的模型通常是專有的。例如,OpenAI 的 GPT-4 和 Anthropic 的各種模型價格昂貴且消耗大量能源。相比之下,開源社區已經生產出具競爭力的模型,例如 Llama3。此外,針對特定領域的較小語言模型,如針對法律、醫療或金融任務定制的模型,已經超越了它們的專有對手。本文介紹了一種新方法,該方法利用功能標記來整合多個開源模型,每個模型都經過優化以適應特定任務。我們新開發的 Octopus v4 模型利用功能標記智能地將用戶查詢引導到最適合的垂直模型,並重新格式化查詢以達到最佳性能。Octopus v4 是 Octopus v1、v2 和 v3 模型的進化,擅長於選擇和參數理解以及重新格式化。此外,我們探索了將圖形作為一種多功能數據結構的使用,通過利用 Octopus 模型和功能標記的能力有效協調多個開源模型。請使用我們的開源 GitHub(https://www.nexa4ai.com/)來嘗試 Octopus v4 模型(https://huggingface.co/NexaAIDev/Octopus-v4),並貢獻給更大的語言模型圖形。通過啟用小於 10B 參數的模型,我們在相同級別模型中實現了 74.8 的 SOTA MMLU 得分。
受 Kolmogorov-Arnold 表示定理的啟發,我們提出 Kolmogorov-Arnold 網路(KANs)作為多層感知器(MLPs)的有希望的替代方案。MLPs 在節點("神經元")上具有固定的激活函數,而 KANs 在邊緣("權重")上具有可學習的激活函數。KANs 完全沒有線性權重 - 每個權重參數都被參數化為樣條函數的單變量函數取代。我們展示了這看似簡單的改變使 KANs 在準確性和可解釋性方面勝過 MLPs。在準確性方面,比較小的 KANs 在數據擬合和 PDE 求解方面可以實現與比較大的 MLPs 相當或更好的準確性。從理論和實證來看,KANs 具有比 MLPs 更快的神經擴展規律。在可解釋性方面,KANs 可以直觀地可視化並且可以輕鬆地與人類用戶互動。通過數學和物理領域的兩個示例,我們展示了 KANs 可以成為有用的合作者,幫助科學家(重新)發現數學和物理定律。總之,KANs 是 MLPs 的有希望替代方案,為進一步改進今天嚴重依賴 MLPs 的深度學習模型開啟了機會。
像GPT和Llama這樣的大型語言模型是通過預測下一個token來進行訓練的。在這項工作中,我們建議訓練語言模型同時預測多個未來token,可以提高樣本效率。更具體地,在訓練語料庫的每個位置,我們要求模型使用n個獨立的輸出頭,基於共享的模型主幹,來預測接下來的n個token。將多token預測視為輔助訓練任務,我們測量了在代碼和自然語言模型中提高下游能力的效果,而在訓練時間上並沒有額外的開銷。這種方法對於更大的模型尺寸特別有用,並且在進行多個時期的訓練時仍然具有吸引力。在生成基準測試中,效益尤為明顯,我們的模型在編碼等方面始終比強基準高出幾個百分點。我們的130億參數模型在HumanEval上解決的問題比可比的下一個token模型多12%,在MBPP上多17%。對小型算法任務的實驗表明,多token預測有利於歸納頭和算法推理能力的發展。作為一個額外的好處,使用4個token預測訓練的模型在推理時速度提高了3倍,即使使用大批量大小。
在個性化圖像生成領域,保留概念的圖像創建能力顯著提高。創建一幅自然地融合多個概念、構圖統一且視覺上吸引人的圖像確實具有挑戰性。本文介紹了一種名為「InstantFamily」的方法,該方法採用了一種新穎的遮罩交叉注意機制和多模態嵌入堆棧,以實現零樣本多ID圖像生成。我們的方法有效地保留了ID,因為它利用了來自預訓練人臉識別模型的全局和局部特徵,並與文本條件相結合。此外,我們的遮罩交叉注意機制實現了對生成圖像中多個ID和構圖的精確控制。我們通過實驗展示了InstantFamily的有效性,證明了它在生成具有多個ID的圖像方面的優越性,同時解決了眾所周知的多ID生成問題。此外,我們的模型在單個ID和多個ID保留方面均實現了最先進的性能。此外,我們的模型展現出卓越的可擴展性,可以保留比其最初訓練時更多的ID。
最近,已經顯示迭代式偏好優化方法在一般指導調整任務中表現良好,但通常對推理任務幾乎沒有改進(Yuan等,2024年,Chen等,2024年)。在這項工作中,我們開發了一種迭代方法,通過優化競爭生成的“思維鏈”(CoT)候選者之間的偏好,來優化導致正確答案的勝利與失敗推理步驟。我們使用修改後的DPO損失(Rafailov等,2023年)進行訓練,並加入了一個額外的負對數概似項,我們發現這是至關重要的。我們展示了這種方案的重複迭代過程中推理能力的改善。儘管僅依賴於訓練集中的示例,我們的方法使得在GSM8K上Llama-2-70B-Chat的準確率從55.6%提高到81.6%(在32個樣本中以多數投票達到88.7%),在MATH上從12.5%提高到20.8%,在ARC-Challenge上從77.8%提高到86.7%,這超越了其他不依賴額外來源數據集的基於Llama-2的模型。
我們通過 QLoRA fine-tuning,將 Llama-3-8B-Instruct 的上下文長度從 8K 擴展到 80K。整個訓練週期非常高效,在一台 8xA800(80G)GPU 機器上僅需 8 小時。結果模型在各種評估任務中表現優異,包括 NIHS、主題檢索和長篇上下文語言理解;同時,它也很好地保留了對短篇上下文的原始能力。這種戲劇性的上下文擴展主要歸因於由 GPT-4 生成的僅 3.5K 合成訓練樣本,這表明了大型語言模型本身(儘管在很大程度上被低估)擴展其原始上下文長度的潛力。事實上,隨著更多計算資源,上下文長度可以擴展到遠超過 80K。因此,團隊將公開發布所有資源(包括數據、模型、數據生成管道、訓練代碼),以促進社區未來的研究:https://github.com/FlagOpen/FlagEmbedding。
本研究介紹了MotionLCM,將可控運動生成擴展至實時水平。現有的文本條件運動生成中用於空間控制的方法存在顯著的運行時效率問題。為了解決這個問題,我們首先提出了運動潛在一致性模型(MotionLCM)用於運動生成,建立在潛在擴散模型(MLD)之上。通過採用一步(或少數步)推理,我們進一步提高了運動潛在擴散模型在運動生成中的運行時效率。為確保有效的可控性,我們在MotionLCM的潛在空間中加入了運動控制網(ControlNet),並在香草運動空間中啟用明確的控制信號(例如骨盆軌跡),以直接控制生成過程,類似於控制其他無潛在擴散模型用於運動生成。通過應用這些技術,我們的方法可以實時生成帶有文本和控制信號的人體運動。實驗結果展示了MotionLCM的卓越生成和控制能力,同時保持實時運行時效率。
目前用於視覺內容的自動標題生成方法面臨著缺乏細節、內容幻覺和指示不清等挑戰。在這項工作中,我們提出了VisualFactChecker(VFC),這是一個靈活的無需訓練的流程,可為2D圖像和3D物體生成高保真度和詳細的標題。VFC包括三個步驟:1)提議,在這一步驟中,圖像到文本標題生成模型提出多個初始標題;2)驗證,在這一步驟中,一個大型語言模型(LLM)利用物體檢測和視覺問答模型等工具對提出的標題進行事實核查;3)標題生成,在這一步驟中,一個LLM通過總結標題提議和事實核查結果來生成最終標題。在這一步驟中,VFC可以靈活地按照複雜的指示生成各種風格的標題。我們使用四個指標進行全面的標題評估:1)用於圖像文本相似性的CLIP-Score;2)用於測量原始圖像和使用標題生成的文本到圖像模型重建的圖像之間相似性的CLIP-Image-Score;3)在亞馬遜機械土耳其上進行的人類研究;4)用於細粒度評估的GPT-4V。評估結果表明,VFC在COCO數據集上的2D圖像和Objaverse數據集上的3D資產方面,優於最先進的開源標題生成方法。我們的研究表明,通過將開源模型結合到一個流程中,我們可以實現與GPT-4V等專有模型相媲美的標題生成能力,盡管模型尺寸小了超過10倍。
我們提出了GS-LRM,一個可擴展的大型重建模型,能夠在單個A100 GPU上以0.23秒的速度從2-4個姿勢稀疏圖像中預測高質量的3D高斯基元。我們的模型採用非常簡單基於Transformer的架構;我們將輸入的姿勢圖像進行拼接,將多視圖圖像令牌通過一系列Transformer塊,並直接從這些令牌解碼最終的每像素高斯參數,以進行可微分渲染。與先前僅能重建物體的LRM不同,通過預測每像素的高斯分佈,GS-LRM自然地處理具有大範圍和複雜性變化的場景。我們展示了我們的模型可以通過分別在Objaverse和RealEstate10K上進行訓練來處理物體和場景捕獲。在兩種情況下,該模型均遠遠優於最先進的基準模型。我們還展示了我們的模型在下游3D生成任務中的應用。我們的項目網頁位於:https://sai-bi.github.io/project/gs-lrm/。
隨著 NeRF 的出現,3D 高斯點降(3D-GS)為實時神經渲染打開了一條道路,克服了體積法方法的計算負擔。在 3D-GS 的開創性工作之後,有幾種方法試圖實現可壓縮且高保真性能的替代方案。然而,這些方法採用了與幾何無關的優化方案,忽略了場景固有的 3D 結構,從而限制了表達能力和表現質量,導致各種浮點和瑕疵。在這項工作中,我們提出了一種結構感知高斯點降方法(SAGS),它隱式編碼了場景的幾何結構,反映了最先進的渲染性能,並在基準新視角合成數據集上降低了存儲需求。SAGS 基於一種本地-全局圖表示,有助於學習複雜場景,並強制實施保持場景幾何的有意義的點位移。此外,我們引入了 SAGS 的輕量級版本,使用一種簡單而有效的中點插值方案,展示了一種緊湊的場景表示,無需依賴任何壓縮策略即可實現高達 24 倍的尺寸減小。在多個基準數據集上進行的大量實驗表明,與最先進的 3D-GS 方法相比,SAGS 在渲染質量和模型大小方面具有優越性。此外,我們展示了我們的結構感知方法可以有效地緩解以往方法的浮點瑕疵和不規則失真,同時獲得精確的深度圖。項目頁面:https://eververas.github.io/SAGS/。
視覺語言數據集對於文本到圖像(T2I)和圖像到文本(I2T)研究至關重要。然而,目前的數據集缺乏細緻詳盡的描述,這些描述可以讓模型學習到更豐富的關聯。為了填補這一空白,我們引入了連接和對比圖像描述(DOCCI)數據集,其中包含長篇、人工標註的英文描述,涵蓋了1.5萬張圖像,這些圖像由單一研究人員拍攝、精心挑選並捐贈,旨在捕捉空間關係、計數、文本呈現、世界知識等關鍵挑戰。我們指示人類標註者為每張圖像創建全面的描述;這些描述平均長度為136個詞,旨在清晰地區分每張圖像與相關或相似的圖像。每個描述都高度組合,通常涵蓋多個挑戰。通過定量和定性分析,我們證明DOCCI可作為圖像到文本生成的有效訓練資源——在DOCCI上微調的PaLI 5B模型展現出與高性能更大模型(如LLaVA-1.5 7B和InstructBLIP 7B)相當或更優的結果。此外,我們展示DOCCI是文本到圖像生成的有用測試平臺,突顯了當前文本到圖像模型在捕捉長描述和細節方面的局限性。
3D場景生成迅速成為一個具有挑戰性的新研究方向,這得益於2D生成擴散模型的持續改進。在這個領域的大部分先前工作通過迭代地將新生成的幀與現有幾何圖形拼接來生成場景。這些作品通常依賴於預訓練的單眼深度估計器將生成的圖像提升到3D,將它們與現有場景表示融合。然後通常通過文本度量來評估這些方法,測量生成的圖像與給定文本提示之間的相似性。在這項工作中,我們對3D場景生成領域做出了兩個基本貢獻。首先,我們指出使用單眼深度估計模型將圖像提升到3D是次優的,因為它忽略了現有場景的幾何形狀。因此,我們引入了一種新穎的深度完成模型,通過教師蒸餾和自我訓練來訓練,以學習3D融合過程,從而提高場景的幾何一致性。其次,我們引入了一種基於地面真實幾何的場景生成方法的新基準方案,因此可以衡量場景結構的質量。
基於優化的方法,如分數蒸餾取樣(SDS),在零樣本3D生成方面表現出潛力,但由於每個樣本所需的函數評估次數(NFEs)較高,效率較低。本文介紹了基於分數的迭代重建(SIR),這是一種高效且通用的用於3D生成的算法,採用多視圖基於分數的擴散模型。給定擴散模型生成的圖像,SIR通過反复優化3D參數來減少NFEs,與SDS中的單次優化不同,模擬了3D重建過程。通過在像素空間中進行優化等其他改進,我們提出了一種高效的方法,稱為MicroDreamer,通常適用於各種3D表示和3D生成任務。特別是,在保持可比性能的情況下,MicroDreamer在生成神經輻射場方面比SDS快5-20倍,並且在單個A100 GPU上從3D高斯分割生成網格大約需要20秒,時間是最快零樣本基線DreamGaussian的一半。我們的代碼可在https://github.com/ML-GSAI/MicroDreamer找到。
當前的3D研究,特別是在重建和生成方面,大量依賴於2D圖像作為輸入或監督。然而,目前這些2D-3D映射的設計對記憶體需求高,對現有方法構成了重大瓶頸,並阻礙了新應用的發展。為此,我們提出了一對高度可擴展的組件,用於3D神經場:Lightplane Render和Splatter,顯著降低了2D-3D映射中的記憶體使用量。這些創新使得能夠以較小的記憶體和計算成本處理更多且更高分辨率的圖像。我們展示了它們在各種應用中的實用性,從受益於單場景優化的圖像級損失,到實現一個多功能管道,大幅擴展3D重建和生成。程式碼:https://github.com/facebookresearch/lightplane。