每日精選AI研究論文及翻譯
在生成模型領域中,為特定身份識別(ID)創建內容已經引起了相當大的興趣。在文本到圖像生成(T2I)領域中,以主題驅動的內容生成已經取得了巨大的進展,使圖像中的ID可控。然而,將其擴展到視頻生成尚未得到很好的探索。在這項工作中,我們提出了一個簡單而有效的主題身份可控視頻生成框架,稱為視頻自定擴散(VCD)。通過幾張圖像定義的特定主題ID,VCD加強了身份信息的提取,並在初始化階段注入了逐幀相關性,以實現穩定的視頻輸出,並在很大程度上保留了身份。為了實現這一目標,我們提出了三個對於高質量ID保留至關重要的新組件:1)通過提示到分割訓練的ID模塊,以解開ID信息和背景噪聲,以便更準確地學習ID標記;2)具有3D高斯噪聲先驗的文本到視頻(T2V)VCD模塊,以獲得更好的幀間一致性;3)視頻到視頻(V2V)臉部VCD和平鋪VCD模塊,用於去模糊臉部並提高視頻的分辨率。 儘管其簡單性,我們進行了大量實驗,驗證VCD能夠生成穩定且高質量的視頻,並具有比選定的強基線更好的ID。此外,由於ID模塊的可轉移性,VCD還可以與公開可用的微調文本到圖像模型很好地配合,進一步提高了其可用性。代碼可在https://github.com/Zhen-Dong/Magic-Me 找到。
大型語言模型(LLMs)在各個領域中取得了顯著的推理表現。然而,在推理任務領域中,我們發現了一個脆弱性:儘管這種排序並不改變基礎任務,但LLMs對前提的排序非常脆弱。特別是,我們觀察到當前提順序與中間推理步驟所需的上下文一致時,LLMs可以取得最佳表現。例如,在演繹推理任務中,將前提按照提示中的真實證明順序呈現(而非隨機排序)顯著提高了模型的準確性。我們首先研究了不同LLMs在演繹推理中前提排序的影響,我們的評估顯示,對前提排序進行排列組合可能導致性能下降超過30%。此外,我們釋出了基於GSM8K的基準R-GSM,以檢驗數學問題解決的排序效應,我們再次觀察到準確性明顯下降,相對於原始的GSM8K基準。
基於擴散的圖像生成模型,如DALL-E 3和Stable Diffusion-XL,在生成具有逼真且獨特構圖的圖像方面展現出卓越能力。然而,這些模型在精確推理物體的物理和空間配置方面並不堅固,特別是在接收到非傳統、即屬於分布之外的描述時,例如“一張有五條腿的椅子”。本文提出了一種具有三維思維鏈(L3GO)的語言代理,在推理時能夠處理當前基於數據驅動的擴散模型難以應對的非傳統物體的基於部件的三維網格生成。更具體地說,我們使用大型語言模型作為代理,在3D模擬環境中通過試錯來構建所需物體。為了促進我們的研究,我們開發了一個新的基準測試,名為Unconventionally Feasible Objects(UFO),以及SimpleBlenv,這是建立在Blender之上的包裝環境,語言代理可以通過API調用構建和組合原子建築塊。人類和自動GPT-4V評估表明,我們的方法在ShapeNet的三維網格生成方面勝過標準GPT-4和其他語言代理(例如ReAct和Reflexion)。此外,當在我們的UFO基準測試上進行測試時,我們的方法在人類評估方面優於其他最先進的文本到二維圖像和文本到三維模型。
長度泛化,定義為從較短的訓練序列推斷到較長的測試序列的能力,對於語言模型來說是一個重要挑戰。即使是處理相對簡單任務的大型Transformer,這個問題仍然存在。在本文中,我們使用兩個整數相加的任務來測試Transformer的長度泛化能力。我們展示了長度泛化成功與數據格式和位置編碼類型密切相關。通過適當組合數據格式和位置編碼,我們首次展示標準Transformer可以推斷到輸入長度的2.5倍的序列長度。然而,與分布內泛化不同,長度泛化仍然脆弱,受到隨機權重初始化和訓練數據順序等因素的顯著影響,導致在不同隨機種子之間存在較大的變異。
在跨多個節點擴展計算的迫切需求凸顯了高效並行計算的重要性,特別是在消息傳遞介面(MPI)整合領域。生成基於MPI的並行程序的具有挑戰性的並行編程任務一直未被探索。本研究首先調查了最先進語言模型在生成基於MPI的並行程序方面的性能。研究發現,廣泛使用的模型如GPT-3.5和PolyCoder(專門的多語言代碼模型)在生成基於MPI的程序時表現出顯著的性能下降,與通用程序相比。相反,預先在C和C++等MPI相關編程語言上進行過預訓練的領域特定模型如MonoCoder表現優於更大的模型。隨後,我們通過在HPCorpusMPI上對MonoCoder進行微調,引入了一個專用的基於MPI程序生成的下游任務。我們將結果稱為MPIrigen。我們提出了一種創新的預處理方法,僅在觀察完整代碼後進行完成,從而實現更廣泛上下文的更好完成。使用新穎的面向HPC的評估方法,對比GPT-3.5的零-shot性能,比較分析表明MPIrigen在生成精確的MPI函數方面表現出色,預測位置和函數的準確率高達0.8,對於參數預測的準確率超過0.9。這種量身定制解決方案的成功凸顯了領域特定微調在優化語言模型以生成並行計算代碼方面的重要性,為新一代自動並行化工具鋪平了道路。本工作的來源可在我們的GitHub MPIrigen存儲庫中找到:https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen
計算能力,或稱為「運算」,對於人工智慧(AI)能力的開發和部署至關重要。因此,政府和公司已開始利用運算作為治理AI的手段。例如,政府正在投資國內運算能力,控制運算流向競爭對手國家,並對某些行業補貼運算訪問。然而,這些努力僅是運用運算來治理AI開發和部署的冰山一角。相對於AI的其他關鍵輸入(數據和算法),與AI相關的運算是一個特別有效的干預點:它是可檢測的、可排除的、可量化的,並通過極度集中的供應鏈生產。這些特點,再加上運算對尖端AI模型的獨特重要性,表明治理運算有助於實現共同的政策目標,如確保AI的安全和有益使用。更具體地說,政策制定者可以利用運算來促進對AI的監管可見性,分配資源以促進有益結果,並對不負責任或惡意的AI開發和使用實施限制。然而,儘管基於運算的政策和技術有助於在這些領域提供支援,但它們在實施準備方面存在顯著差異。一些想法目前正在試點,而其他一些受制於對基礎研究的需求。此外,對運算治理的天真或範圍不當的方法在隱私、經濟影響和權力集中等領域存在重大風險。最後,我們建議設置防護措施,以最小化來自運算治理的這些風險。
獎勵微調已成為對齊基礎模型與下游目標的一種有前途的方法。在語言領域中,通過使用強化學習(RL)來最大化反映人類偏好的獎勵,取得了顯著成功。然而,在視覺領域中,現有基於RL的獎勵微調方法受到大規模訓練中的不穩定性的限制,使其無法推廣到複雜的未知提示。本文提出了Proximal Reward Difference Prediction(PRDP),首次在具有超過100K提示的大規模提示數據集上實現了穩定的黑盒獎勵微調擴散模型。我們的關鍵創新是Reward Difference Prediction(RDP)目標,它與RL目標具有相同的最優解,同時具有更好的訓練穩定性。具體來說,RDP目標是一個監督回歸目標,要求擴散模型預測由其去噪軌跡生成的圖像對的獎勵差異。我們在理論上證明了獲得完美獎勵差異預測的擴散模型正是RL目標的最大化者。我們進一步開發了一種具有近端更新的在線算法,以穩定地優化RDP目標。在實驗中,我們展示了PRDP在小規模訓練中可以匹配已建立的基於RL的方法的獎勵最大化能力。此外,通過對Human Preference Dataset v2和Pick-a-Pic v1數據集中的文本提示進行大規模訓練,PRDP在各種複雜的未知提示上實現了優越的生成質量,而基於RL的方法完全失敗。
大型語言模型(LLMs)正變得越來越普遍,並在提供不同形式的寫作輔助方面得到廣泛應用。然而,由於其有限的個性化和控制,LLM 驅動的寫作系統可能會讓用戶感到沮喪,尤其是當用戶缺乏提示工程方面的經驗時。我們認為設計是解決這些挑戰的一種方式,並介紹了 GhostWriter,一種 AI 增強的寫作設計探針,用戶可以通過其行使增強的代理權和個性化。GhostWriter 利用LLMs在用戶撰寫時隱含地學習用戶的預期寫作風格,同時允許透過手動風格編輯和註釋進行明確的教學時刻。我們研究了18名參與者在兩個不同寫作任務上使用 GhostWriter,觀察到它幫助用戶製作個性化的文本生成,並通過提供多種控制系統寫作風格的方式來賦予用戶權力。通過這項研究,我們提出了關於人們與AI輔助寫作的關係的見解,並為未來工作提供設計建議。
隨著生成式人工智慧模型日益複雜,事後量化(PTQ)已成為在邊緣設備(如移動設備和電視)上部署超大規模模型的有前途的解決方案。然而,現有的PTQ方案耗費相當多的時間和資源,在實際情況中可能成為瓶頸,特別是在需要頻繁模型更新和多次超參數調整的情況下。作為一種具有成本效益的替代方案,已提出了一次性PTQ方案。然而,由於無法考慮注意力模組中各層之間的相互依賴,這些方案的性能仍然有些受限,而這是Transformer模型中非常重要的特徵。因此,在本文中,我們提出了一種新穎的PTQ算法,以平衡準確性和效率。所提出的名為aespa的算法的關鍵思想是為了效率而進行逐層量化,同時考慮跨層依賴以保留注意力分數。通過對各種語言模型的廣泛實驗和複雜性分析,我們證明了aespa在量化Transformer模型時既準確又高效。