每日精選AI研究論文及翻譯
語言模型在各種軟體應用中展現出效能,尤其在與自動工作流相關的任務中。這些模型具有關鍵的能力來呼叫函數,這對於創建人工智慧代理是至關重要的。儘管大規模語言模型在雲端環境中表現出色,但常常伴隨著隱私和成本方面的擔憂。目前用於函數呼叫的設備內模型面臨延遲和準確性問題。我們的研究提出了一種新方法,使得具有 20 億參數的設備內模型在準確性和延遲方面均超越了 GPT-4,並將上下文長度減少了 95%。與基於 RAG 的函數呼叫機制的 Llama-7B 相比,我們的方法將延遲提高了 35 倍。這種方法將延遲降低到被認為適用於在生產環境中部署各種邊緣設備的水準,符合真實應用的性能要求。
我們介紹了Eurus,一套針對推理進行優化的大型語言模型(LLMs)。從Mistral-7B和CodeLlama-70B進行微調後,Eurus模型在涵蓋數學、代碼生成和邏輯推理問題的各種基準測試中取得了開源模型的最新成果。值得注意的是,Eurus-70B在通過12個測試涵蓋五個任務的全面基準測試中,在推理方面擊敗了GPT-3.5 Turbo,並在LeetCode和TheoremQA這兩個具有挑戰性的基準測試中實現了33.3%和32.6%的一次通過準確率,遠遠優於現有開源模型超過13.3%的差距。Eurus的優異表現主要歸因於UltraInteract,我們新編制的大規模高質量對齊數據集,專門為複雜推理任務而設計。UltraInteract可用於監督微調和偏好學習。對於每個指令,它包括一個偏好樹,其中包含統一格式的多樣化規劃策略的推理鏈、與環境和評論的多輪交互軌跡,以及促進偏好學習的成對數據。UltraInteract使我們能夠深入探索推理任務的偏好學習。我們的研究表明,一些成熟的偏好學習算法在推理任務中可能不如它們在一般對話中的有效性。受此啟發,我們提出了一個新穎的獎勵建模目標,該目標連同UltraInteract,導致一個強大的獎勵模型。
大型語言模型(LLMs)在處理超過32K標記的長序列方面取得了顯著進展。然而,它們的性能評估主要僅限於困惑度和合成任務等指標,這可能無法完全捕捉它們在更微妙、現實世界情境中的能力。本研究引入了一個專門的基準(LIConBench),專注於極端標籤分類領域內的長上下文學習。我們精心挑選了六個資料集,標籤範圍涵蓋28至174個類別,涵蓋了不同輸入(少樣本演示)長度,從2K到50K不等。我們的基準要求LLMs理解整個輸入以識別龐大的標籤空間,以做出正確的預測。我們在我們的基準上評估了13個長上下文LLMs。我們發現,在標記長度為20K以下時,長上下文LLMs表現相對良好,並且從利用長上下文窗口中受益。然而,當上下文窗口超過20K後,除了GPT-4外,大多數LLMs的性能會急劇下降。這表明了目前LLMs在處理和理解長、上下文豐富序列方面存在顯著差距。進一步分析顯示,模型傾向於偏好對序列末尾呈現的標籤進行預測。它們在長序列中推理多個部分的能力仍有待改進。我們的研究顯示,現有LLMs對長上下文的理解和推理仍然是一項具有挑戰性的任務。我們認為LIConBench可能成為未來長上下文LLMs更現實的評估基準。
我們使用最新發布的大型語言模型(LLMs)系列Gemma家族,利用流行的LLaVA框架訓練一套多模態基礎模型(MMFM)。特別關注的是擁有2B參數的Gemma模型,為構建功能強大的小型規模MMFM提供機會。與此領域其他論文的發現一致,我們測試了消除三個設計特徵的影響:預訓練連接器、使用更強大的影像主幹,以及增加語言主幹的大小。我們稱之為LLaVA-Gemma的結果模型在各種評估中表現中等,但未能超越當前相當大小的SOTA模型。對性能的進一步分析顯示出混合效應;跳過預訓練往往會降低性能,更大的視覺模型有時會提高性能,增加語言模型的大小則效果不一。我們公開發布了LLaVA-Gemma模型的訓練配方、代碼和權重。
在視頻生成中,可控性扮演著至關重要的角色,因為它使用戶能夠創建所需的內容。然而,現有模型很大程度上忽視了精確控制作為表達更深層敘事細微差異的電影語言的相機姿勢。為了緩解這個問題,我們引入了CameraCtrl,實現了對文本到視頻(T2V)模型的相機姿勢進行精確控制。通過精確地對相機軌跡進行參數化,然後在T2V模型上訓練一個即插即用的相機模塊,而不影響其他部分。此外,還進行了對各種數據集影響的全面研究,表明具有不同相機分佈和相似外觀的視頻確實增強了可控性和泛化能力。實驗結果證明了CameraCtrl在實現精確和領域自適應相機控制方面的有效性,標誌著在從文本和相機姿勢輸入實現動態和定制視頻敘事的追求中邁出了一步。我們的項目網站位於: https://hehao13.github.io/projects-CameraCtrl/.
我們介紹了HyperCLOVA X,這是一系列針對韓國語言和文化量身定制的大型語言模型(LLMs),同時具有在英語、數學和編碼方面的競爭能力。HyperCLOVA X是通過平衡的韓語、英語和代碼數據進行訓練的,隨後通過高質量的人工標註數據進行調整,同時遵守嚴格的安全指南,體現了我們對負責任人工智能的承諾。這個模型在各種基準測試中進行評估,包括全面的推理、知識、常識、事實性、編碼、數學、聊天、遵循指示和無害性,在韓語和英語中均有表現。HyperCLOVA X展現了在韓語中強大的推理能力,背後是對語言和文化細微差異的深刻理解。對其固有的雙語特性進行進一步分析,以及其擴展到多語能力,突顯了模型的跨語言能力和對非目標語言的強大泛化能力,包括幾種語言對之間的機器翻譯和跨語言推理任務。我們相信HyperCLOVA X可以為各地區或國家在發展其主權LLMs方面提供有益指導。
我們研究潛在擴散模型(LDMs)的擴展特性,著重於它們的取樣效率。儘管改進的網絡架構和推理算法已被證明能有效提升擴散模型的取樣效率,但模型大小這一關鍵取樣效率決定因素尚未受到深入研究。通過對已建立的文本到圖像擴散模型進行實證分析,我們深入探討模型大小如何影響在不同取樣步驟下的取樣效率。我們的研究發現揭示了一個令人驚訝的趨勢:在給定推理預算下運作時,較小的模型經常優於其較大的對應模型在生成高質量結果方面。此外,我們擴展了我們的研究,通過應用各種擴散取樣器、探索不同的下游任務、評估後蒸餾模型,以及相對於訓練計算的性能比較,來展示這些發現的普遍性。這些發現為LDM擴展策略的發展開辟了新途徑,這些策略可用於在有限的推理預算內增強生成能力。
大型語言模型(LLMs)因其處理人類語言並執行未經明確訓練的任務的能力而引起廣泛興趣。這對化學科學具有相關性,因為該領域面臨著小型且多樣的數據集問題,這些數據集通常以文本形式存在。LLMs已顯示出在應對這些問題方面具有潛力,並越來越多地被利用來預測化學性質、優化反應,甚至自主設計和執行實驗。然而,我們對LLMs的化學推理能力仍然只有非常有限的系統性了解,這將需要以改進模型並減輕潛在危害為目的。在這裡,我們介紹了一個名為「ChemBench」的自動化框架,旨在嚴格評估最先進的LLMs的化學知識和推理能力,並與人類化學家的專業知識進行比較。我們為化學科學的各個子領域精心挑選了超過7,000個問答對,評估了領先的開源和封閉源LLMs,發現在我們的研究中,最佳模型平均表現優於最優秀的人類化學家。然而,這些模型在一些對人類專家來說輕而易舉的化學推理任務上遇到困難,並提供過於自信且具有誤導性的預測,例如有關化學物質的安全性檔案。這些發現強調了一個雙重現實,即儘管LLMs在化學任務上表現出色,但進一步的研究對於增強它們在化學科學中的安全性和實用性至關重要。我們的研究結果還表明,需要對化學課程進行調整,並強調繼續發展評估框架以改進安全且有用的LLMs的重要性。
目前,頂尖大型語言模型的預訓練需要數以兆計的文字,這遠遠超過大多數語言所能提供的量。雖然將多種語言的文字納入是獲取更多預訓練數據的明顯途徑,但多語性通常被視為一種詛咒,大多數模型訓練工作仍然主要專注於單個大型語言。我們認為多語性可以是一種福祉,並且應該能夠通過多語訓練大幅提升小語言模型的能力。在這項研究中,我們介紹了Poro 34B,這是一個擁有340億參數的模型,經過了1兆個芬蘭語、英語和編程語言的標記訓練。我們展示了多語訓練方法可以產生一個模型,不僅在芬蘭語方面明顯超越現有模型的能力,而且在翻譯方面表現出色,在生成英語和編程語言方面也具有競爭力。我們在https://huggingface.co/LumiOpen/Poro-34B 釋出了模型參數、腳本和數據,並採用開放許可證。
我們提出了3D凝聚,這是一個針對捕捉具有語義相似物體的2D圖像進行3D感知對齊的新問題。給定一組未標記的互聯網圖像,我們的目標是從輸入中關聯共享的語義部分,並將來自2D圖像的知識聚合到共享的3D標準空間中。我們引入了一個通用框架,該框架處理該任務,而無需假設形狀模板、姿勢或任何攝像機參數。其核心是一個包含幾何和語義信息的標準3D表示。該框架針對每個輸入圖像的標準表示進行優化,以及一個逐圖像坐標映射,將2D像素坐標轉換為3D標準幀,以考慮形狀匹配。優化過程融合了來自預先訓練的圖像生成模型的先前知識和來自輸入圖像的語義信息。前者為這個受限任務提供了強大的知識指導,而後者提供了必要的信息,以減輕來自預先訓練模型的訓練數據偏差。我們的框架可用於各種任務,如對應匹配、姿勢估計和圖像編輯,在具有挑戰性的照明條件下以及在野外在線圖像集合上實現強大的結果。
我們提出了LLM-ABR,這是第一個利用大型語言模型(LLMs)的生成能力來自主設計適應不同網絡特性的自適應位元率(ABR)算法的系統。在強化學習框架內運行,LLM-ABR賦予LLMs設計關鍵組件,如狀態和神經網絡架構的能力。我們在不同網絡環境下評估LLM-ABR,包括寬頻、衛星、4G和5G。LLM-ABR在各種網絡設置中始終優於默認的ABR算法。