每日精選AI研究論文及翻譯
文字到圖像模型個性化旨在將使用者提供的概念引入模型,使其能夠在不同情境中進行綜合。然而,目前的方法主要集中在從多個具有不同背景和姿勢變化的圖像中學習單一概念的情況,當適應不同情境時往往會遇到困難。在這項工作中,我們引入了文本場景分解任務:給定一個可能包含多個概念的場景的單一圖像,我們旨在為每個概念提取一個獨特的文本標記,從而實現對生成的場景進行精細控制。為此,我們提出了通過指示目標概念存在的蒙版來擴充輸入圖像的方法。這些蒙版可以由用戶提供,也可以通過預先訓練的分割模型自動生成。然後,我們提出了一種新的兩階段定制過程,優化一組專用文本嵌入(handles)以及模型權重,取得準確捕捉概念並避免過度擬合之間的微妙平衡。我們使用遮罩擴散損失來使handles生成其分配的概念,並通過交叉注意力地圖上的新損失來防止糾纏。我們還引入了聯合抽樣,這是一種旨在改善生成圖像中結合多個概念能力的訓練策略。我們使用多個自動指標定量比較我們的方法與幾個基準方法,並通過用戶研究進一步確認結果。最後,我們展示了我們方法的幾個應用。項目頁面位於:https://omriavrahami.com/break-a-scene/
Transformer架構在多個研究領域展現出令人印象深刻的性能,並成為許多神經網絡模型的基礎。然而,對其運作方式仍知之甚少。特別是在簡單的預測損失下,表示是如何從梯度訓練動態中出現仍然是一個謎。在本文中,針對具有一個自注意層和一個解碼器層的單層Transformer,我們以數學嚴謹的方式分析其SGD訓練動態,用於下一個token預測任務。我們揭開自注意層如何結合輸入token的動態過程的黑盒子,並揭示潛在歸納偏差的本質。更具體地,基於以下假設:(a)沒有位置編碼,(b)長輸入序列,以及(c)解碼器層學習速度快於自注意層,我們證明自注意作為一種具有辨識掃描算法的行為:從均勻的關注開始,逐漸更多地關注不同的關鍵token以預測特定的下一個token,並對出現在不同下一個token中的常見關鍵token進行較少的關注。在不同的token中,它逐漸降低關注權重,按照訓練集中關鍵和查詢token之間的低到高共現順序。有趣的是,這個過程並不導致取勝者通吃,而是因為兩層之間的學習速率而減速,留下(幾乎)固定的token組合。我們在合成和真實數據(WikiText)上驗證了這種“掃描和捕捉”動態。
最近的研究顯示,透過使用外部工具,可以提升大型語言模型(LLMs)的解決問題能力的潛力。然而,先前的研究在這方面取決於現有工具的可用性。在這項研究中,我們採取了一個初步步驟,試圖消除這種依賴性,提出了一個封閉迴路框架,稱為LLMs作為工具製造者(LATM),在這個框架中,LLMs創建自己可重複使用的工具來解決問題。我們的方法包括兩個關鍵階段:1)工具製造:LLM充當工具製造者,為特定任務製作工具,其中工具以Python實用函數的形式實現。2)工具使用:LLM充當工具使用者,應用工具製造者製作的工具來解決問題。工具使用者可以是與工具製造者相同或不同的LLM。工具製造使LLM能夠持續生成可應用於不同請求的工具,以便未來請求在解決任務時可以調用相應的API。此外,LLMs在工具製造和工具使用階段之間的分工引入了實現成本效益而不降低生成的工具和問題解決方案質量的機會。例如,認識到工具製造需要比工具使用更複雜的能力,我們可以將一個功能強大但資源密集的模型應用為工具製造者,將一個輕量且成本效益的模型應用為工具使用者。我們驗證了我們的方法在各種複雜推理任務上的有效性,包括Big-Bench任務。使用GPT-4作為工具製造者,GPT-3.5作為工具使用者,LATM可以實現與僅使用GPT-4進行工具製造和工具使用相當的性能,同時顯著降低推論成本。
本文介紹了ControlVideo,這是一種用於以文字驅動的視頻編輯的新方法。利用文本到圖像擴散模型和ControlNet的能力,ControlVideo旨在增強與給定文本對齊的視頻的保真度和時間一致性,同時保留源視頻的結構。通過將額外條件如邊緣地圖納入其中,通過精心設計的策略在源視頻-文本對上進行關鍵幀和時間注意的微調,實現了這一目標。對ControlVideo設計的深入探討有助於未來研究單次調整視頻擴散模型。從定量上看,ControlVideo在保真度和一致性方面優於一系列競爭基線,同時仍與文本提示保持一致。此外,它提供了具有高視覺逼真度和與源內容相符的視頻,展示了在利用包含不同程度源視頻信息的控制時的靈活性,以及多種控制組合的潛力。項目頁面位於https://ml.cs.tsinghua.edu.cn/controlvideo/。
Minsky的“心靈社會”和Schmidhuber的“學會思考”啟發了由大型多模態神經網絡(NNs)組成的多樣化心靈社會,透過在“心靈風暴”中互相訪問來解決問題。最近基於NN的心靈社會的實現包括大型語言模型(LLMs)和其他基於NN的專家通過自然語言界面進行通信。通過這樣做,它們克服了單個LLMs的限制,改進了多模態零樣本推理。在這些基於自然語言的心靈社會(NLSOMs)中,新的代理人 - 所有通過相同的通用符號語言進行通信 - 可以輕鬆以模塊化方式添加。為了展示NLSOMs的威力,我們組裝並實驗了幾個(最多有129名成員),利用其中的心靈風暴來解決一些實際的AI任務:視覺問答、圖像標題、文本到圖像合成、3D生成、自我中心檢索、具身AI和一般基於語言的任務解決。我們將這視為朝著擁有數十億代理人的更大NLSOMs的起點 - 其中一些可能是人類。隨著這些異質心靈的偉大社會的出現,許多新的研究問題突然變得至關重要,對於人工智能的未來至關重要。NLSOM的社會結構應該是什麼?擁有君主制而不是民主制的(不)優勢是什麼?如何利用NN經濟原則來最大化強化學習NLSOM的總獎勵?在這項工作中,我們確定、討論並試圖回答其中一些問題。
AI 系統中的社會對齊旨在確保這些模型遵循既定的社會價值觀。然而,不同於人類通過社會互動來達成價值判斷的共識,目前的語言模型(LMs)被訓練成僵化地在孤立環境中複製其訓練語料庫,導致在陌生情境下泛化能力不足並容易受到對抗攻擊的威脅。本研究提出了一種新穎的訓練範式,允許 LM 從模擬的社會互動中學習。相較於現有方法,我們的方法更具可擴展性和效率,在對齊基準和人類評估中展現出優異的表現。LMs 訓練中的這種範式轉變使我們更接近開發出能夠堅固且準確反映社會規範和價值觀的 AI 系統。
從人類反饋中學習已被證明可以改善文本到圖像模型。這些技術首先學習捕捉人類在任務中關心的獎勵函數,然後基於所學習的獎勵函數改進模型。儘管已經研究了相對簡單的方法(例如,基於獎勵分數的拒絕抽樣),但使用獎勵函數來微調文本到圖像模型仍然具有挑戰性。在這項工作中,我們提出使用在線強化學習(RL)來微調文本到圖像模型。我們專注於擴散模型,將微調任務定義為一個RL問題,並使用策略梯度來更新預訓練的文本到圖像擴散模型,以最大化反饋訓練獎勵。我們的方法名為DPOK,將策略優化與KL正則化相結合。我們對RL微調和監督微調的KL正則化進行了分析。在我們的實驗中,我們展示了DPOK在圖像文本對齊和圖像質量方面通常優於監督微調。
隨著對話代理人在表現上變得越來越類似人類,我們迫切需要開發有效的方式來以高層次術語描述它們的行為,同時避免陷入拟人陷阱。在本文中,我們凸顯了角色扮演的概念。將對話代理人的行為描述為角色扮演,讓我們能夠借鑑熟悉的民間心理術語,而不賦予語言模型實際上缺乏的人類特徵。通過這種方式,我們討論了兩個重要的對話代理人行為情況,即(表面上的)欺騙和(表面上的)自我意識。
我們提出了PandaGPT,一種結合視覺和聽覺指示跟隨能力的大型語言模型的方法。我們的初步實驗表明,PandaGPT能夠執行複雜任務,如生成詳細的圖像描述、根據視頻創作故事,以及回答有關音頻的問題。更有趣的是,PandaGPT能夠同時接受多模態輸入並自然地組合它們的語義。例如,PandaGPT可以關聯圖像/視頻中物體的外觀和音頻中它們的聲音。為此,PandaGPT結合了ImageBind的多模態編碼器和Vicuna的大型語言模型。值得注意的是,PandaGPT的訓練僅需要對齊的圖像-文本對。由於ImageBind在將來自不同模態的數據嵌入到相同空間的能力強大,PandaGPT展示了新興的、即零樣本的跨模態行為,適用於圖像和文本以外的數據(例如視頻、音頻、深度、熱像和IMU)。我們希望PandaGPT作為邁向構建能夠像人類一樣全面感知和理解不同模態輸入的AGI的初始步驟。我們的項目頁面位於https://panda-gpt.github.io/。
基於大型語言模型(LLM)的決策代理展現了在多個任務間泛化的能力。然而,它們的表現依賴於龐大的數據和計算。我們認為這種低效源於遺忘現象,即模型在訓練過程中通過參數記憶其行為。因此,在新任務上的訓練可能會降低模型在先前任務上的表現。與LLM的隱式記憶機制相反,人類大腦利用分佈式記憶存儲,有助於有效管理和組織多個技能,減輕遺忘現象。受此啟發,我們提出了一個內部工作記憶模塊,用於存儲、融合和檢索不同下游任務的信息。評估結果顯示,所提出的方法提高了在Atari遊戲和元世界物體操作任務中的訓練效率和泛化能力。此外,我們展示了記憶微調進一步增強了所提架構的適應性。
我們介紹了三塔(3T),一種靈活的方法,通過整合預訓練圖像分類器來改善視覺語言模型的對比學習。儘管對比模型通常是從頭開始訓練的,但LiT(Zhai等,2022)最近展示了使用預訓練分類器嵌入的性能提升。然而,LiT直接用凍結的嵌入替換圖像塔,排除了對比訓練圖像塔的任何潛在好處。通過3T,我們提出了一種更靈活的策略,使圖像塔能夠從預訓練嵌入和對比訓練中受益。為了實現這一目標,我們引入了一個包含凍結預訓練嵌入的第三塔,並鼓勵這第三塔與主要的圖像-文本塔之間的對齊。在實驗上,3T在檢索任務中始終優於LiT和CLIP風格的從頭開始基線。對於分類任務,3T可靠地優於從頭開始的基線,雖然對於JFT預訓練模型,它表現不及LiT,但對於ImageNet-21k和Places365預訓練,它優於LiT。
自回歸語言模型是通過最小化模型分佈Q相對於數據分佈P的交叉熵來進行訓練,即最小化前向交叉熵,這等同於最大概似估計(MLE)。我們觀察到以這種方式訓練的模型可能會「過度泛化」,即生成非人類風格的文本。此外,我們認為反向交叉熵,即P相對於Q的交叉熵,更能反映人類如何評估模型生成的文本。因此,我們提出了使用MixCE進行學習,這是一個將前向和反向交叉熵混合的目標。我們在已知P的合成數據設置和真實數據上評估了使用此目標訓練的模型,並展示結果模型生成的文本更好,無需複雜的解碼策略。我們的代碼和模型可在以下鏈接公開獲取:https://github.com/bloomberg/mixce-acl2023
大型語言模型(LLMs)正在改變社會,滲透到各種應用中。因此,LLMs將經常與我們和其他代理互動。因此,深入了解LLMs在互動社會環境中的行為具有重要的社會價值。在這裡,我們建議使用行為博弈理論來研究LLMs的合作和協調行為。為此,我們讓不同的LLMs(GPT-3、GPT-3.5和GPT-4)彼此之間以及與其他類似人類的策略進行有限重複博弈。我們的結果顯示,LLMs通常在這些任務中表現良好,並且還揭示了持久的行為特徵。在一組兩個玩家-兩種策略的遊戲中,我們發現LLMs在像重複囚徒困境家族這樣的重覆遊戲中表現特別出色,其中重視自身利益是有利的。然而,在需要協調的遊戲中,它們表現不佳。因此,我們進一步專注於這兩個不同家族的遊戲。在經典的重複囚徒困境中,我們發現GPT-4行為特別不寬容,總是在另一個代理人出現違約行為後才違約。在性別之戰中,我們發現GPT-4無法與簡單的輪流選擇方案的行為相匹配。我們驗證這些行為特徵在穩健性檢查中是穩定的。最後,我們展示了如何通過提供有關對手的更多信息以及要求其在做出選擇之前預測對手的行動來修改GPT-4的行為。這些結果豐富了我們對LLMs社會行為的理解,為機器的行為博弈理論鋪平了道路。
Transformer 在固定上下文長度的任務上展現出令人印象深刻的泛化能力。然而,它們無法泛化到任意長度的序列,即使對於看似簡單的任務,如複製字符串。此外,僅僅在更長的序列上進行訓練是低效的,因為全局注意機制的計算複雜度是二次的。在這項工作中,我們展示了這種失敗模式與位置編碼與更長序列(即使是相對編碼)的分布不匹配有關,並引入了一個新的位置編碼家族,可以克服這個問題。具體來說,我們的隨機位置編碼方案模擬了更長序列的位置,並隨機選擇一個有序子集來符合序列的長度。我們對 6000 個模型在 15 個算法推理任務上進行了大規模實證評估,結果顯示我們的方法使 Transformer 能夠泛化到未見長度的序列(平均測試準確度提高了 12.0%)。
詞元嵌入是從離散詞彙符號到連續向量的映射,是任何語言模型(LM)的核心。然而,詞彙符號的意義也可以通過它們在長篇文本中的結構角色來確定甚至重新定義。本文探討了一個問題:語言模型是否可以在沒有固定詞元嵌入的情況下表現出色?這樣的語言模型必須完全依賴上下文中詞元的共現和重複,而不是任何詞元的先驗身份。為了回答這個問題,我們研究了對詞彙符號不變的語言模型,因此在實踐中不需要固定的詞元嵌入。首先,我們證明我們可以構建一個對詞彙符號不變的LM,以多項式速率收斂到真實語言模型,其中速率與上下文長度成正比,並且常數因子與詞彙量的次線性成反比。其次,為了構建一個對詞彙符號不變的LM,我們簡單地使用隨機高斯向量對詞元進行編碼,使得每個詞元在每個序列中映射到相同的表示,但在序列之間映射到不同的表示。從實證角度來看,我們證明在給定足夠長的上下文的情況下,它確實可以達到與標準語言模型相當的困惑度。我們進一步探討了對詞彙符號不變的語言模型的兩個特性:首先,對於從英文替換密碼生成的文本,它隱式實現了基於貝葉斯的上下文解碼,並以高準確度推斷底層真實詞元的映射。其次,在合成上下文推理任務中,它的平均準確度比標準語言模型高出4倍。最後,我們討論了將標準語言模型規範化為對詞彙符號不變的方法以及潛在的實際應用。
大型語言模型(LLMs)如GPT-3已經成為通用語言模型,能夠應對許多自然語言生成或理解任務。在機器翻譯(MT)任務中,多項研究已調查少量提示機制,以引出LLMs更好的翻譯。然而,對於這些翻譯在質量上與標準神經機器翻譯(NMT)模型生成的翻譯有何不同,卻相對較少進行調查。在本研究中,我們從文字的直譯性方面調查這些差異。透過涉及詞彙對齊和單調性的直譯性度量,我們發現GPTs從英語(E-X)翻譯出的翻譯往往較不直譯,同時在MT質量指標上表現類似或更好。我們展示這一發現在人類評估中也得到證實。然後,我們展示這些差異在翻譯包含慣用表達的句子時尤為明顯。
我們提出了Backpacks:一種新的神經架構,將強大的建模性能與可解釋性和控制接口結合在一起。Backpacks學習詞彙中每個單詞的多個非上下文感知向量,並將序列中的單詞表示為該序列中感知向量的上下文相關、非負線性組合。我們發現,在訓練後,感知向量會專門化,每個都編碼單詞的不同方面。我們可以通過檢查其(非上下文、線性)投影到輸出空間上來解釋感知向量,並且可以干預這些可解釋的鉤子以可預測地改變模型的行為。我們在OpenWebText上訓練了一個擁有170M參數的Backpack語言模型,與一個GPT-2 small(124M參數)Transformer的損失相匹配。在詞彙相似性評估中,我們發現Backpack感知向量甚至優於一個擁有6B參數的Transformer LM的詞嵌入。最後,我們提出了簡單的算法,通過干預感知向量來執行可控文本生成和去偏見。例如,我們可以編輯感知詞彙以更傾向某個主題,或將性別偏見源頭定位到一個感知向量並全局抑制該感知。
在上下文學習中,這種能力使模型能夠在不需要權重更新的情況下即時從輸入示例中學習,這是大型語言模型的一個明確特徵。在這項工作中,我們遵循(Garg等,2022)提出的設置,以更好地了解從線性回歸這個簡單但基本任務的角度來看上下文學習的普遍性和限制。我們旨在探討的關鍵問題是:在不同分布變化下,變壓器是否比某些自然且更簡單的架構更擅長執行上下文學習?為了比較變壓器,我們建議使用基於基於集合的多層感知器(MLP)的簡單架構。我們發現,變壓器和基於集合的MLP在分布內評估下都表現出上下文學習的能力,但變壓器更接近普通最小二乘法(OLS)的性能。變壓器在輕微分布變化下也表現出更好的韌性,而基於集合的MLP則表現不佳。然而,在嚴重的分布變化下,兩種模型的上下文學習能力都會下降。
一般認為,最強的語言模型(LMs)依賴於龐大的規模、指導數據和人類反饋的結合,以執行專業任務,例如摘要和改寫,而無需監督。在本文中,我們提出語言模型可以學習總結和改寫句子,而無需這三個因素。我們提出了「不可能蒸餾」,這是一個框架,可以直接從現成的LM中提煉出一個特定任務的數據集,即使該LM本身無法可靠地解決該任務。通過在生成的數據集上訓練一個學生模型,並通過自蒸餾來增強其能力,我們的方法可以從低質量的教師模型中獲得高質量的模型和數據集,而無需規模或監督。使用「不可能蒸餾」,我們能夠提煉出一個比175B參數的GPT-3性能更好(在質量和可控性方面)的模型,該模型的規模小了一個數量級,只有770M參數,這是通過自動和人工評估確認的。此外,作為我們方法的一個有用副產品,我們獲得了DIMSUM+,一個包含3.4M句子摘要和改寫的高質量數據集。我們的分析顯示,作為一個純粹由LM生成的語料庫,這個數據集比所有人類編寫的數據集更多樣化,更適合泛化到未知領域,包括包含4M樣本的Gigaword。
最近在文本到圖像生成方面取得的進展已經顯著促進了零樣本3D形狀生成的進步。這是通過得分蒸餾實現的,該方法利用預先訓練的文本到圖像擴散模型來優化3D神經表示的參數,例如神經輻射場(NeRF)。儘管顯示出有希望的結果,現有方法通常無法保留複雜形狀(例如人體)的幾何形狀。為了應對這一挑戰,我們提出了ZeroAvatar,這是一種在優化過程中引入明確的3D人體先驗的方法。具體而言,我們首先從單張圖像中估計並微調參數化人體的參數。然後在優化過程中,我們使用姿態參數化人體作為額外的幾何約束來規範擴散模型以及基礎密度場。最後,我們提出了一個UV引導的紋理規範項,進一步引導在不可見的身體部位完成紋理。我們展示了ZeroAvatar顯著增強了基於優化的圖像到3D頭像生成的魯棒性和3D一致性,優於現有的零樣本圖像到3D方法。
在大多數當前的研究中,大型語言模型(LLMs)能夠通過特定提示的引導,生成一系列思維鏈來執行推理任務。然而,它們在解決複雜推理問題方面的能力與人類之間仍存在顯著差距。目前,大多數方法著重於思維鏈(COT)和工具使用,而沒有考慮採用和應用人類認知框架。眾所周知,當人類面對複雜推理挑戰時,通常會運用各種認知能力,並需要與工具、知識和外部環境信息的各個方面進行互動,以完成複雜任務。本文介紹了一個新穎的智能框架,稱為OlaGPT。OlaGPT仔細研究了一個認知架構框架,並提出模擬人類認知的某些方面。該框架涉及近似不同的認知模塊,包括注意力、記憶、推理、學習以及相應的調度和決策機制。受人類主動學習機制的啟發,它提出了一個學習單元,記錄先前的錯誤和專家意見,並動態參考它們以增強解決類似問題的能力。該文還概述了人類解決問題的常見有效推理框架,並相應地設計了思維鏈(COT)模板。還提出了一個全面的決策機制,以最大程度地提高模型準確性。OlaGPT的有效性已在多個推理數據集上進行了嚴格評估,實驗結果顯示OlaGPT超越了最先進的基準,展示了其卓越性能。我們對OlaGPT的實現可在GitHub上找到:https://github.com/oladata-team/OlaGPT。