每日精選AI研究論文及翻譯
目前有越來越多的大型語言模型(LLMs)可供用戶付費查詢。我們回顧了查詢流行的LLM API(例如GPT-4、ChatGPT、J1-Jumbo)所需的成本,發現這些模型具有異構的價格結構,費用相差兩個數量級。特別是在大量查詢和文本集合上使用LLMs可能會很昂貴。受此啟發,我們概述並討論了用戶可以利用的三種策略,以降低使用LLMs的推論成本:1)提示適應、2)LLM逼近和3)LLM串聯。作為示例,我們提出了FrugalGPT,這是LLM串聯的一個簡單而靈活的實例,它學習了在不同查詢中使用哪些LLM組合以降低成本並提高準確性。我們的實驗表明,FrugalGPT可以以高達98%的成本降低與最佳個別LLM(例如GPT-4)的性能匹配,或在相同成本下將準確性提高4%。這裡提出的想法和發現為可持續且高效地使用LLMs奠定了基礎。
儘管「指導調整」的生成式大型語言模型(LLMs)展現出令人印象深刻的泛化能力,可以適應新任務,但訓練階段嚴重依賴大量多樣且高質量的指導數據(例如ChatGPT和GPT-4)。不幸的是,獲取高質量數據,特別是人類撰寫的數據,可能會在成本和可取得性方面帶來重大挑戰。此外,與隱私相關的擔憂可能進一步限制對這些數據的訪問,使獲取數據的過程變得複雜且微妙。因此,這阻礙了調整模型的泛化能力,並可能限制其在某些情境下的有效性。為了應對這個問題,我們的研究引入了一種名為聯邦指導調整(FedIT)的新方法,該方法利用聯邦學習(FL)作為調整LLMs的指導框架。這標誌著FL為LLMs的指導調整的首次探索。這一點尤為重要,因為文本數據主要由最終用戶生成。因此,必須設計和適應FL方法,以有效利用這些用戶在本地設備上存儲的多樣指導,同時保護隱私並確保數據安全。在本文中,通過進行廣泛使用的GPT-4自我評估,我們展示了通過利用客戶端端的異構和多樣指導集合,使用提出的框架FedIT,相較於僅具有有限本地指導的集中式訓練,我們提高了LLMs的性能。此外,在本文中,我們開發了一個名為Shepherd的Github存儲庫。該存儲庫提供了一個基礎框架,用於探索使用跨不同類別的異構指導進行LLMs的聯邦微調。
我們提出了一個名為InternChat(簡稱iChat)的互動式視覺框架。該框架整合了具有規劃和推理能力的聊天機器人,例如ChatGPT,以及非語言指令,如指向性動作,使用戶能夠直接操控屏幕上的圖像或視頻。指向性(包括手勢、游標等)動作可以在執行需要精細控制、編輯和生成視覺內容的視覺中心任務時提供更多靈活性和精確性。InternChat這個名稱代表互動、非語言和聊天機器人。與現有依賴純語言的互動系統不同,通過整合指向性指令,所提出的iChat顯著提高了用戶與聊天機器人之間的溝通效率,以及聊天機器人在視覺中心任務中的準確性,尤其是在物體數量大於2的複雜視覺場景中。此外,在iChat中,使用輔助控制機制來提高LLM的控制能力,並且對一個名為Husky的大型視覺語言模型進行微調,以進行高質量的多模態對話(令ChatGPT-3.5-turbo印象深刻,達到93.89% GPT-4質量)。我們希望這項工作能激發未來互動式視覺系統的新思路和方向。歡迎查看代碼:https://github.com/OpenGVLab/InternChat。
最近已證明大型語言模型(LLMs)在各種自然語言處理任務中表現出色。為應對多步驟推理任務,少樣本思維鏈(CoT)提示包括少量手工製作的逐步推理演示,使LLMs能夠明確生成推理步驟並提高其推理任務準確性。為了消除手動工作,零樣本-CoT將目標問題陳述與“讓我們逐步思考”連接為LLMs的輸入提示。儘管零樣本-CoT取得成功,但仍存在三個缺陷:計算錯誤、遺漏步驟錯誤和語義誤解錯誤。為解決遺漏步驟錯誤,我們提出計劃與解決(PS)提示。它由兩個組件組成:首先,制定計劃將整個任務劃分為較小的子任務,然後根據計劃執行子任務。為解決計算錯誤並提高生成推理步驟的質量,我們通過更詳細的指導擴展PS提示並推導PS+提示。我們在三個推理問題跨十個數據集上評估了我們提出的提示策略。在GPT-3上的實驗結果顯示,我們提出的零樣本提示始終在所有數據集上大幅優於零樣本-CoT,與零樣本思維程序提示相當或超越,並在數學推理問題上與8樣本CoT提示性能相當。代碼可在https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting找到。
擴散模型已成為流行的文本到圖像生成模型,可以根據文本提示生成高質量且內容豐富的圖像。然而,在現有模型中,當輸入提示為簡潔敘事時,存在對語義理解和常識推理的限制,導致圖像生成質量低下。為了改進對敘事提示的處理能力,我們提出了一種簡單而有效的參數節省的微調方法,稱為語義理解和推理適配器(SUR-adapter)用於預訓練的擴散模型。為了實現這一目標,我們首先收集並標註了一個新數據集SURD,其中包含超過57,000個語義校正的多模樣本。每個樣本包含一個簡單的敘事提示、一個基於關鍵詞的複雜提示和一幅高質量圖像。然後,我們將敘事提示的語義表示與複雜提示進行對齊,並通過知識蒸餾將大型語言模型(LLMs)的知識轉移到我們的SUR-adapter,從而使其獲得強大的語義理解和推理能力,以建立高質量的文本語義表示,用於文本到圖像生成。我們通過集成多個LLMs和流行的預訓練擴散模型進行實驗,展示了我們方法的有效性,使擴散模型能夠理解和推理簡潔的自然語言而不會降低圖像質量。我們的方法可以使文本到圖像擴散模型更易於使用,提供更好的用戶體驗,這證明了我們的方法有潛力進一步推動用戶友好型文本到圖像生成模型的發展,彌合簡單敘事提示和基於關鍵詞的複雜提示之間的語義差距。
提示微調是預先訓練語言模型參數高效調整的成功方法之一。儘管被認為是最高效的方法之一(微調軟提示佔總參數的<0.1%),但通常表現比其他高效調整方法差,並且對超參數非常敏感。在這項工作中,我們介紹了殘差提示微調 - 一種簡單而高效的方法,顯著提高了提示微調的性能和穩定性。我們建議使用帶有殘差連接的淺層網絡來重新參數化軟提示嵌入。我們的實驗表明,殘差提示微調在SuperGLUE基準測試中明顯優於提示微調。值得注意的是,我們的方法在T5-Base上比提示微調提高了+7個點,並且可以將提示長度減少10倍而不影響性能。此外,我們展示了我們的方法對於學習率和提示初始化的選擇是穩健的,並且在少樣本設置中是有效的。
我們提出了一個名為MultiModal-GPT的視覺與語言模型,用於與人類進行多輪對話。MultiModal-GPT能夠遵循來自人類的各種指示,例如生成詳細說明、計算感興趣物件的數量,以及回答用戶的一般問題。MultiModal-GPT是從OpenFlamingo進行了參數高效微調,並在語言模型的交叉注意力部分和自注意力部分都添加了低秩適配器(LoRA)。我們首先利用視覺和語言數據構建指示模板,進行多模式指示調整,以使模型理解並遵循人類指示。我們發現訓練數據的質量對對話表現至關重要,少量包含簡短答案的數據可能會導致模型對任何指示作出簡短回應。為了進一步增強MultiModal-GPT與人類對話的能力,我們利用僅語言指示遵循數據來聯合訓練MultiModal-GPT。將僅語言和視覺-語言指示使用相同指示模板進行聯合訓練有效提高了對話表現。各種演示展示了MultiModal-GPT與人類進行連續對話的能力。代碼和演示位於https://github.com/open-mmlab/Multimodal-GPT。
我們提出了 AvatarReX,一種從視頻數據中學習基於 NeRF 的全身化身的新方法。所學化身不僅可以提供對身體、手部和面部的表達控制,還支持實時動畫和渲染。為此,我們提出了一種組合式化身表示,其中身體、手部和面部分別建模,以使參數化網格模板的結構先驗得到適當利用,同時不影響表示靈活性。此外,我們將每個部分的幾何和外觀解耦。通過這些技術設計,我們提出了一個專用的延遲渲染管道,可以以實時幀速執行,合成高質量的自由視圖圖像。幾何和外觀的解耦還使我們能夠設計一種兩過程訓練策略,將體積渲染和表面渲染結合起來進行網絡訓練。通過這種方式,可以應用基於補丁級的監督,迫使網絡學習基於幾何估計學習銳利的外觀細節。總的來說,我們的方法實現了具有實時渲染能力的表達豐富的全身化身的自動構建,並能為新的身體動作和面部表情生成具有動態細節的照片逼真圖像。
大型語言模型(LLMs)可以通過逐步推理來在許多任務上取得強大表現,這通常被稱為思維鏈推理(CoT)。誘人的是將這些CoT解釋解讀為LLM解決任務的過程。然而,我們發現CoT解釋可能會系統性地誤導模型預測的真正原因。我們展示了當將偏見特徵添加到模型輸入中時,例如在幾輪提示中重新排列多個選項以使答案始終為“(A)”時,CoT解釋可能會受到嚴重影響,而模型在解釋中未能提及這些偏見特徵。當我們將模型偏向不正確答案時,它們經常生成支持這些答案的CoT解釋。這導致在使用來自OpenAI的GPT-3.5和Anthropic的Claude 1.0進行BIG-Bench Hard的13個任務套件測試時,準確性可能下降高達36%。在社會偏見任務中,模型解釋證明支持與刻板印象一致的答案,而未提及這些社會偏見的影響。我們的研究結果表明,CoT解釋可能是合理但具有誤導性的,這可能增加我們對LLMs的信任,但不能保證其安全性。CoT對於可解釋性是有前景的,但我們的結果強調了評估和改進解釋忠實度的有針對性努力的必要性。
現有的神經輻射場(NeRF)方法存在反射物體的問題,通常導致渲染模糊或扭曲。我們提出了一種多空間神經輻射場(MS-NeRF)方法,不是計算單一輻射場,而是使用一組特徵場在平行子空間中表示場景,這有助於神經網絡更好地理解反射和折射物體的存在。我們的多空間方案作為現有NeRF方法的增強,僅需要少量計算開銷來訓練和推斷額外空間的輸出。我們使用三個代表性基於NeRF的模型,即NeRF、Mip-NeRF和Mip-NeRF 360,展示了我們方法的優越性和兼容性。在一個新建的數據集上進行比較,該數據集包含25個合成場景和7個具有複雜反射和折射的真實拍攝場景,所有場景都具有360度的觀察角度。大量實驗表明,我們的方法在渲染通過鏡面物體的複雜光路的高質量場景方面明顯優於現有的單一空間NeRF方法。我們的代碼和數據集將公開在https://zx-yin.github.io/msnerf。
Transformer 模型是自然語言處理(NLP)和計算機視覺的基礎。儘管近期有許多研究致力於降低這類模型的二次成本(作為序列長度 n 的函數),但有效處理超長序列(例如,超過 16K 個標記)仍然具有挑戰性。例如,基於整本書回答問題或總結科學文章等應用效率低下或不可行。在本文中,我們提出通過將輸入壓縮成在每一層都與 n 無關的表示(其大小為 r),顯著降低 Transformer 模型複雜度對 n 的依賴性。具體來說,通過利用許多任務中僅有的一小部分特殊標記(我們稱之為 VIP 標記)對最終預測最具相關性的事實,我們提出了一種 VIP 標記中心壓縮(Vcc)方案,根據它們對近似這些 VIP 標記表示的影響,有選擇性地壓縮輸入序列。與競爭基準相比,所提出的算法不僅高效(在 4K 和 16K 長度上相比基準實現了 3 倍以上的效率改進),而且在大量任務上實現了競爭性或更好的性能。此外,我們展示了我們的算法可以擴展到 128K 個標記(或更多),同時持續提供準確性改進。
ELECTRA,生成器-鑑別器預訓練框架,在各種下游任務中取得了令人印象深刻的語義建構能力。儘管表現令人信服,ELECTRA仍然面臨單調的訓練和互動不足的挑戰。僅具有遮罩語言建模(MLM)的生成器導致偏向學習和鑑別器標籤不平衡,降低了學習效率;鑑別器對生成器沒有明確的反饋迴路導致這兩個組件之間存在差距,未充分利用課程學習。在本研究中,提出了一種多角度課程學習(MCL)方法,以獲取多個角度和視覺角度,實現高效的樣本預訓練,並充分利用生成器和鑑別器之間的關係。具體而言,設計了三個自監督課程,以多角度方式緩解MLM的固有缺陷並平衡標籤。此外,提出了兩個自校正課程,通過為次級監督創建“校正筆記本”來彌合兩個編碼器之間的差距。此外,進行了一個課程湯試驗,以解決MCL的“拉鋸戰”動態問題,進化出更強大的預訓練模型。實驗結果表明,我們的方法分別在GLUE和SQuAD 2.0基準上將ELECTRA的平均性能提高了2.8%和3.2%絕對點,並在相同設置下超越了最近的先進ELECTRA風格模型。預訓練的MCL模型可在https://huggingface.co/McmanusChen/MCL-base找到。