每日精選AI研究論文及翻譯
最近的研究表明,在對高質量指令數據集進行微調後,所得到的模型能夠具有令人印象深刻的能力,以應對各種任務。然而,現有的指令數據生成方法通常會產生重複數據,並且在數據質量上不夠可控。本文通過將指令數據分類為4個與代碼相關的任務,擴展了指令微調的泛化能力,並提出了基於LLM的生成器-鑑別器數據處理框架,從開源代碼中生成多樣且高質量的指令數據。因此,我們介紹了CodeOcean,這是一個包含20,000個指令實例的數據集,涵蓋了4個通用的與代碼相關的任務,旨在增強指令微調的效果並提高微調模型的泛化能力。隨後,我們提出了WaveCoder,這是一個經過微調的代碼LLM,具有廣泛且多功能的增強指令微調。該模型專為增強代碼語言模型(LLMs)的指令微調而設計。我們的實驗表明,Wavecoder模型在相同微調規模下在不同與代碼相關的任務上的泛化能力優於其他開源模型。此外,Wavecoder在以前的代碼生成任務中表現出高效性。因此,本文對指令數據生成和微調模型領域做出了重要貢獻,為增強代碼相關任務中的性能提供了新的見解和工具。
大型語言模型(LLMs)的指數增長為多模式AGI系統開啟了眾多可能性。然而,視覺和視覺語言基礎模型的進展,這也是多模式AGI的關鍵元素之一,並未跟上LLMs的步伐。在這項工作中,我們設計了一個大規模視覺語言基礎模型(InternVL),將視覺基礎模型擴展到60億個參數,並逐步將其與大型語言模型對齊,使用來自各種來源的視訊圖像數據。該模型可廣泛應用於並在視覺感知任務(如圖像級或像素級識別)以及視覺語言任務(如零樣本圖像/視頻分類、零樣本圖像/視頻-文本檢索)上取得最先進的性能,並與LLMs連接以創建多模式對話系統。我們希望我們的研究能為多模式大型模型的發展做出貢獻。代碼和模型可在https://github.com/OpenGVLab/InternVL找到。
作為人類,我們不斷與同行互動並以自然語言形式接收反饋。這種語言反饋使我們能夠反思自己的行為,保持適當的行為並糾正錯誤。一個自然而然的問題是:我們能否使用語言反饋來對齊大型語言模型(LLMs)?與以往將LLMs與獎勵或偏好數據對齊的研究相比,我們首次系統地探索了透過語言反饋(即判斷)來對齊的方法。我們開始深入研究可以適應對齊LLMs與判斷的潛在方法,揭示這些方法無法充分利用這些判斷。為了更有效地利用判斷,我們提出了一個新的框架,對比非概然訓練(CUT),它允許基於判斷對不當內容進行細粒度檢測和更正。我們的離線對齊結果顯示,僅使用1317個現成的判斷數據,CUT(LLaMA2-13b)能夠擊敗175B DaVinci003,並在AlpacaEval上超過最佳基準52.34分。在線對齊結果表明,CUT能夠以迭代方式使用特定於模型的判斷數據對齊LLMs(LLaMA2-chat-13b),在AlpacaEval上的性能從81.09提高到91.36分。我們的分析進一步表明,判斷對LLM對齊的潛力大於獎勵,值得未來進行研究。
人類擁有卓越的「視覺感知」技能,能夠看到並理解所見之物,幫助他們理解視覺世界,進而進行推理。最近,多模式大型語言模型(MLLM)在視覺-語言任務上取得了令人印象深刻的表現,包括視覺問答、圖像標註、視覺推理和圖像生成等。然而,當要求現有的MLLM系統識別或計數(感知)給定圖像中的實體時,存在問題。為了開發一個準確的MLLM系統,用於感知和推理,我們建議使用多模式LLM的感知眼睛——多功能視覺編碼器(VCoder)。我們將VCoder與感知模態(如分割或深度圖)相結合,以提高MLLM的感知能力。其次,我們利用COCO的圖像和現成的視覺感知模型的輸出,創建了我們的COCO分割文本(COST)數據集,用於訓練和評估MLLM對象感知任務。第三,我們引入了評估MLLM對象感知能力的指標,應用於我們的COST數據集。最後,我們提供了豐富的實驗證據,證明了VCoder在對象級感知技能方面優於現有的多模式LLM,包括GPT-4V。我們將我們的數據集、代碼和模型開源,以促進研究。我們在https://github.com/SHI-Labs/VCoder 開源我們的代碼。
創建人工智慧(AI)代理的關鍵方法之一是強化學習(RL)。然而,構建一個獨立的RL策略,直接將知覺映射到行動,會遇到嚴重問題,其中最主要的問題是在多個任務之間缺乏通用性,以及需要大量的訓練數據。主要原因是在制定策略時無法有效地將先前信息整合到知覺-行動循環中。大型語言模型(LLMs)作為將跨領域知識融入AI代理的基本方法出現,但缺乏對特定決策問題的重要學習和適應。本文提出了一個通用框架模型,用於將結構化推理整合並學習到AI代理的策略中。我們的方法受到人類大腦中的模塊化發現的啟發。該框架利用構建內在和外在功能來添加對推理結構的先前理解。它還提供了在每個模塊或功能內學習模型的適應能力,符合認知過程的模塊化結構。我們深入描述了該框架並將其與其他AI流程和現有框架進行了比較。本文探討了實際應用,包括實驗,展示了我們方法的有效性。我們的結果表明,當組織推理和先前知識嵌入時,AI代理的表現和適應能力更好。這為更具彈性和通用性的AI代理系統打開了大門。
作為自然語言處理的最新進展,大型語言模型(LLMs)在許多實際任務中已經達到了與人類相當的語言理解和生成能力,甚至被認為是通往人工通用智能的潛在途徑。為了更好地促進LLMs的研究,許多開源LLMs,如Llama 2和Falcon,最近被提出並獲得了與專有模型相當的性能。然而,這些模型主要設計用於英語情境,在中文情境中表現不佳。在這份技術報告中,我們提出了YAYI 2,包括基本模型和聊天模型,共有30億參數。YAYI 2是從頭開始在包含了我們預訓練數據處理流程篩選的2650億令牌的多語料庫上進行預訓練的。基本模型通過數百萬條指令的監督微調和從人類反饋中進行強化學習,與人類價值觀保持一致。在多個基準測試上進行了大量實驗,如MMLU和CMMLU,一致表明所提出的YAYI 2在性能上優於其他類似大小的開源模型。
語言模型攻擊通常假設兩種極端的威脅模型之一:完全白盒訪問模型權重,或者僅限於文本生成 API 的黑盒訪問。然而,現實世界中的 API 往往比僅限於文本生成更具靈活性:這些 API 提供“灰盒”訪問,導致新的威脅向量。為了探索這一點,我們對 GPT-4 API 中公開的三個新功能進行了紅隊測試:微調、函數調用和知識檢索。我們發現,對模型進行微調,即使是在 15 個有害示例或 100 個良性示例的情況下,都可以從 GPT-4 中去除核心保護措施,從而實現一系列有害輸出。此外,我們發現 GPT-4 助理很容易洩露函數調用架構,並可以執行任意函數調用。最後,我們發現知識檢索可以被劫持,通過向檢索文檔中注入指令。這些漏洞凸顯了 API 提供的功能擴展可能會產生新的漏洞。
從單視圖進行的三維重建具有挑戰性,因為存在單眼線索的模棱兩可性以及有關遮蔽區域的信息不足。神經輻射場(NeRF)雖然在視角合成和三維重建方面很受歡迎,但通常依賴多視圖影像。現有的使用NeRF進行單視圖三維重建的方法要麼依賴於數據先驗來虛構遮蔽區域的視角,但這可能不具有物理準確性,要麼依賴於RGB相機觀察到的陰影,但在環境光線和低反照率背景下很難檢測。我們提出使用由單光子雪崩二極管捕獲的飛行時間數據來克服這些限制。我們的方法使用激光雷達瞬態數據監督NeRF模擬兩次反射的光路。通過利用NeRF和激光雷達測量的兩次反射光的優勢,我們展示了可以在沒有數據先驗或依賴受控環境照明或場景反照率的情況下重建可見和遮蔽幾何。此外,我們展示了在傳感器空間和時間分辨率的實際限制下改進的泛化能力。我們認為,隨著單光子激光雷達在消費者設備(如手機、平板電腦和頭戴設備)上變得普及,我們的方法是一個有前途的方向。
儘管CLIP是許多視覺語言應用中的基礎模型,但CLIP存在嚴重的文本定位偏見。這種偏見導致CLIP模型在忽略真實的視覺語義的同時,會「模仿」嵌入在圖像中的視覺文本。我們發現,在最流行的圖像-文本數據集LAION-2B中,標題也密集地「模仿」(拼寫)嵌入在圖像中的文本。我們的分析顯示,約有50%的圖像嵌入了視覺文本內容,而其中90%的標題或多或少地模仿了視覺文本。基於這樣的觀察,我們仔細檢查了不同版本的CLIP模型,並驗證了視覺文本是衡量這些模型的LAION風格圖像-文本相似性的主要因素。為了檢查這些模仿標題是否塑造了文本定位偏見,我們使用不同以模仿標題為導向的標準篩選出的LAION子集來訓練一系列CLIP模型。我們展示了使用模仿標題訓練容易塑造此類偏見,但卻損害了CLIP模型中預期的視覺語言表示學習。這表明,迫切需要重新審視CLIP-like模型的設計或基於CLIP分數篩選構建的現有圖像-文本數據集策劃流程。
Text-to-Image(T2I)擴散模型的普及使得能夠從文本描述生成高質量的圖像成為可能。然而,生成具有參考視覺屬性的多樣化定制圖像仍然具有挑戰性。本研究專注於在更抽象的概念或類別級別上個性化T2I擴散模型,從一組參考圖像中適應共同特徵,同時創建具有足夠變化的新實例。我們提出了一種解決方案,允許預訓練的T2I擴散模型學習一組軟提示,從所學分佈中抽樣提示以生成新的圖像。這些提示提供了文本引導的編輯功能,並在控制變化和在多個分佈之間混合方面提供了額外的靈活性。我們還展示了所學提示分佈對於其他任務(如文本到3D)的適應性。最後,我們通過包括自動評估和人類評估在內的定量分析展示了我們方法的有效性。項目網站:https://briannlongzhao.github.io/DreamDistribution
我們研究單張圖像零樣本3D形狀重建問題。最近的研究通過生成建模3D資產來學習零樣本形狀重建,但這些模型在訓練和推論時計算成本高昂。相比之下,這個問題的傳統方法是基於回歸的,其中訓練確定性模型直接回歸物體形狀。這種回歸方法比生成方法具有更高的計算效率。這帶出一個自然問題:生成建模對於高性能是必要的嗎,或者相反,基於回歸的方法仍然具有競爭力?為了回答這個問題,我們設計了一個強大的基於回歸的模型,稱為ZeroShape,基於這一領域的收斂發現和一個新的洞察。我們還精心挑選了一個大型的現實世界評估基準,其中包含來自三個不同現實世界3D資料集的物體。這個評估基準更加多樣化,比先前的作品用於定量評估模型的數據量大一個數量級,旨在減少我們領域中的評估變異性。我們展示ZeroShape不僅實現了優越的性能,還顯著展示了更高的計算和數據效率。
縮寫擴展是一種用來加快溝通速度的策略,通過限制輸入量並使用語言模型來建議擴展。在這裡,我們探討了基於先前對話來個性化大型語言模型(LLM)建議的方法,以增強預測的相關性,特別是當用戶數據較少時(約1000個樣本)。具體來說,我們比較了對縮寫輸入進行擴展文本建議的微調、提示微調和檢索增強生成。我們在一位患有ALS的真實用戶身上部署了一個具有80億參數的LLM進行案例研究,並在電影角色個性化方面進行了實驗,結果顯示:(1)在某些情況下可能需要定制化,而提示微調對這些情況有很好的泛化能力;(2)在領域內數據上微調(僅需600個樣本)仍然顯示出一定的增益,但(3)檢索增強的少樣本選擇也優於微調;(4)參數高效調整可實現高效且可擴展的個性化。對於提示微調,我們還發現將學習到的“軟提示”初始化為與用戶相關的概念標記,比隨機初始化具有更高的準確性。
隨著大規模生成式人工智慧模型的發展從文本(1D)生成擴展到包括圖像(2D)和視頻(3D)生成,處理空間和時間信息帶來了質量、性能和效率方面的獨特挑戰。我們首次提出了針對多模態文本到圖像(TTI)和文本到視頻(TTV)生成模型的新系統設計空間的研究。目前的模型架構設計分為兩類:擴散式和Transformer-based模型。我們對一套八個代表性TTI/TTV模型進行系統性能特徵化,結果顯示,在應用了最先進的優化技術如Flash Attention後,對於基於擴散的TTI模型,卷積佔執行時間的高達44%,而對於基於Transformer的模型,線性層佔執行時間的高達49%。我們還觀察到,基於擴散的TTI模型類似於LLM推理的預填階段,並且從Flash Attention獲得的加速比Transformer-based的TTI模型更高,速度提升為1.1-2.5倍,而Transformer-based的TTI模型則類似於解碼階段。由於針對LLM設計的優化並不直接適用於TTI/TTV模型,我們必須對這些工作負載進行全面特徵化,以獲得新的優化機會。在這樣做的過程中,我們定義了TTI/TTV模型的序列長度,並觀察到在擴散模型推理中,序列長度可以高達4倍。此外,我們還觀察到TTV工作負載的時間方面構成了獨特的系統瓶頸,其中時間關注佔總注意時間的60%以上。總的來說,我們深入的系統性能特徵化是設計高效且可部署系統以應對新興TTI/TTV工作負載的關鍵第一步。
物體的物理特性,如質量,顯著影響我們用手操作它的方式。令人驚訝的是,這個方面在先前的3D動作合成研究中迄今被忽略了。為了提高合成的3D手部物體運動的自然性,本研究提出了MACS,這是第一個基於質量條件的3D手部和物體運動合成方法。我們的方法基於級聯擴散模型,生成的互動會根據物體的質量和互動類型合理調整。MACS還接受手動繪製的3D物體軌跡作為輸入,並合成根據物體質量條件的自然3D手部運動。這種靈活性使MACS可用於各種下游應用,例如為ML任務生成合成訓練數據,快速為圖形工作流程製作手部動畫,以及為電腦遊戲生成角色互動。我們的實驗表明,一個小規模數據集就足以使MACS在訓練期間未見的插值和外插物體質量上合理泛化。此外,由我們的表面接觸合成模型ConNet生成的質量條件接觸標籤使MACS對未見的物體有中等泛化能力。我們的全面用戶研究證實了合成的3D手部物體互動是高度合理和逼真的。
本文介紹了「Shai」,一個針對資產管理行業設計的 10B 級大型語言模型,建立在開源基礎模型之上。通過持續的預訓練和微調,使用針對性語料庫,Shai 在與其領域相關的任務中展現出卓越的表現,勝過基準模型。我們的研究包括開發創新的評估框架,該框架整合了專業資格考試、定制任務、開放式問答和安全評估,全面評估了Shai的能力。此外,我們討論了利用大型語言模型如GPT-4進行資產管理性能評估所面臨的挑戰和影響,建議結合自動評估和人類判斷。Shai的發展展示了10B級大型語言模型在金融領域中的潛力和多功能性,具有顯著的性能和適度的計算需求,希望提供實用見解和方法,協助同行在類似努力中取得成功。
最近,研究人員嘗試探討大型語言模型(LLMs)處理影片的能力,並提出了幾種影片LLM模型。然而,LLMs處理影片對齊(VG)的能力,即一項重要的與時間相關的影片任務,需要模型精確定位影片中符合給定文本查詢的時間片段的起始和結束時間戳,仍然在文獻中尚不清楚且未被探索。為填補這一空白,本文提出了LLM4VG基準,系統評估不同LLMs在影片對齊任務上的表現。基於我們提出的LLM4VG,我們設計了廣泛的實驗,以檢驗兩組影片LLM模型在影片對齊上的表現:(i)在文本-影片配對上訓練的影片LLMs(簡稱為VidLLM),以及(ii)結合預訓練視覺描述模型(如影片/圖像字幕模型)的LLMs。我們提出了整合VG指示和來自不同類型生成器的描述的方法,包括基於字幕的生成器用於直接視覺描述,以及基於VQA的生成器用於信息增強。我們還對各種VidLLMs進行了全面比較,並探討了不同視覺模型、LLMs、提示設計等的影響。我們的實驗評估得出兩個結論:(i)現有的VidLLMs仍遠遠未能達到令人滿意的影片對齊表現,應該包含更多與時間相關的影片任務來進一步微調這些模型,以及(ii)LLMs與視覺模型的結合展現了對影片對齊的初步能力,通過採用更可靠的模型和進一步引導提示指令,有望實現更大的改進。