每日精選AI研究論文及翻譯
文字到圖像生成是現代電腦視覺的重要領域,隨著生成式架構的演進已實現顯著進步。其中,基於擴散技術的模型展現了關鍵的品質提升,這類模型通常分為像素級與潛在空間級兩種方法。本文提出Kandinsky1——一種對潛在擴散架構的新穎探索,融合了圖像先驗模型原理與潛在擴散技術。該圖像先驗模型經獨立訓練,可將文字嵌入向量映射至CLIP的圖像嵌入向量。此模型的另一特點是改進版的MoVQ實現,作為圖像自動編碼器組件。整體設計模型包含33億參數。我們同時部署了用戶友好的演示系統,支援多種生成模式,包括文字到圖像生成、圖像融合、文圖混合生成、圖像變體生成以及文字引導的修補/擴繪功能。此外,我們開源了Kandinsky模型的原始碼與訓練檢查點。實驗評估顯示在COCO-30K資料集上達成8.03的FID分數,標誌著我們的模型在可量化的圖像生成品質方面成為頂尖開源方案。
最近大型多模型(LMM)在視覺指導調整方面展示了令人鼓舞的進展。在這裡,我們展示了LLaVA中全連接視覺-語言跨模態連接器出乎意料地強大且高效。通過對LLaVA進行簡單修改,即使用CLIP-ViT-L-336px與MLP投影,並添加學術任務導向的VQA數據以及簡單的回應格式提示,我們建立了更強的基準線,並在11個基準測試中實現了最先進的表現。我們的最終13B檢查點僅使用了120萬筆公開數據,在單個8-A100節點上約1天內完成完整訓練。我們希望這能使最先進的LMM研究更具可及性。代碼和模型將公開提供。
最新發布的GPT-4代碼解釋器在解決複雜數學問題方面展現出卓越能力,其核心優勢在於能流暢地進行自然語言推理、生成代碼、執行代碼並根據執行結果持續推演。本文提出一種針對開源語言模型的微調方法,使其能運用代碼進行數學方程式建模與推導,從而提升數學推理能力。我們設計了MathCodeInstruct數據集生成方法,創建包含數學問題及其代碼解決方案的新穎高質量數據集,每個解決方案均交織自然語言、代碼與執行結果。同時提出定制化的監督微調與推理框架,據此培育出MathCoder模型系列——該系列模型能生成基於代碼的解決方案來攻克複雜數學難題。令人矚目的是,MathCoder模型在MATH(45.2%)和GSM8K(83.9%)數據集上刷新了開源LLM的評分紀錄,顯著超越其他開源方案。更突出的是,MathCoder不僅在GSM8K和MATH數據集上勝過ChatGPT-3.5與PaLM-2,更在競賽級MATH數據集上超越GPT-4。相關數據集與模型將發佈於https://github.com/mathllm/MathCoder。
最近,基於非常大規模的無監督或弱監督的文本到圖像訓練數據集,文本到圖像擴散模型已經成為圖像生成的前沿,由於其無監督訓練,控制其在下游任務中的行為,如最大化人類感知的圖像質量、圖像文本對齊或道德圖像生成,是困難的。最近的研究通過使用普通強化學習對擴散模型進行下游獎勵函數的微調,這種方法以梯度估算器的高變異性而聞名。在本文中,我們提出了AlignProp,一種通過對去噪過程的獎勵梯度進行端對端反向傳播,將擴散模型與下游獎勵函數對齊的方法。儘管這種反向傳播的天真實現需要存儲現代文本到圖像模型的偏導數而需要過高的內存資源,但AlignProp通過微調低秩適配器權重模塊並使用梯度檢查點,使其內存使用量可行。我們在將AlignProp應用於微調擴散模型以達到各種目標,如圖像文本語義對齊、美學、可壓縮性和對存在的物體數量的可控性以及它們的組合方面進行了測試。我們展示AlignProp在比起其他方法更少的訓練步驟中實現了更高的獎勵,同時在概念上更簡單,使其成為優化擴散模型以適應感興趣的可微分獎勵函數的直接選擇。代碼和可視化結果可在https://align-prop.github.io/找到。
大多數大型語言模型(LLMs)只會訓練一次,並且不會進行更新;因此,它們缺乏動態適應我們不斷變化的世界的能力。在這項工作中,我們對LLM生成的文本的事實性進行了詳細研究,並在回答測試當前世界知識的問題的情況下進行了研究。具體來說,我們引入了FreshQA,這是一個新穎的動態QA基準,包含各種問題和答案類型,包括需要快速變化的世界知識以及需要揭穿虛假前提的問題。我們在兩種模式的評估程序下對各種開源和專有的LLMs進行基準測試,這使我們能夠測量正確性和幻覺。通過涉及超過50K個判斷的人類評估,我們揭示了這些模型的局限性,並展示了顯著的改進空間:例如,所有模型(無論模型大小)在涉及快速變化的知識和虛假前提的問題上都遇到困難。受到這些結果的激勵,我們提出了FreshPrompt,這是一種簡單的少數提示方法,通過將從搜索引擎檢索的相關和最新信息納入提示,顯著提高了LLM在FreshQA上的性能。我們的實驗表明,FreshPrompt在FreshQA上的表現優於其他競爭的搜索引擎增強提示方法,如Self-Ask(Press等,2022年),以及商業系統如Perplexity.AI。對FreshPrompt的進一步分析顯示,檢索證據的數量和其順序對影響LLM生成的答案的正確性起著關鍵作用。此外,指導LLM生成簡潔直接的答案有助於減少幻覺,相較於鼓勵更冗長的答案。為了促進未來的工作,我們在github.com/freshllms/freshqa上發布了FreshQA,並承諾定期更新。
語言模型已展現出處理多種生成任務的能力。本文提出的UniAudio系統有別於先前針對特定任務的方法,透過語言模型技術在給定輸入條件下生成多種類型音訊(包含語音、音效、音樂及歌聲)。UniAudio具備三階段架構:1)首先將所有目標音訊與其他條件模態進行標記化處理;2)把來源-目標對串接為單一序列;3)運用語言模型執行下一標記預測。為解決神經編解碼器基於殘差向量量化所產生過長序列的問題,本研究另提出多尺度Transformer模型。UniAudio的訓練規模擴展至16.5萬小時音訊資料與10億參數,涵蓋所有生成任務,旨在同時獲取音訊本質特性及其與多模態間關聯的充分先驗知識。因此訓練完成的UniAudio模型有潛力成為通用音訊生成的基礎模型:其在所有訓練任務中均展現強大能力,並能透過簡單微調無縫支援新音訊生成任務。實驗結果表明,UniAudio在11項任務中的大多數項目上達到最先進或至少具競爭力的表現。演示與程式碼已發布於https://github.com/yangdongchao/UniAudio。
目前的視覺語言生成模型依賴大量配對的圖像-文字數據來達到最佳性能和泛化能力。然而,自動收集這樣的數據(例如通過大規模網絡抓取)會導致低質量和圖像-文字關聯性差,而人工標註則更準確但需要大量手動工作和開支。我們引入了ITIT(InTegrating Image Text):一種創新的訓練範式,基於循環一致性概念,允許在未配對的圖像和文字數據上進行視覺語言訓練。ITIT由一個聯合圖像-文字編碼器和不相交的圖像和文字解碼器組成,這使得單一框架中實現了雙向的圖像到文字和文字到圖像生成。在訓練期間,ITIT利用一小組配對的圖像-文字數據,確保其輸出在兩個方向上與輸入相當匹配。同時,模型還在僅包含圖像或文字的更大數據集上進行訓練。這是通過強制執行原始未配對樣本與循環生成對應物之間的循環一致性來實現的。例如,它為給定的輸入圖像生成標題,然後使用該標題創建輸出圖像,並確保輸入和輸出圖像之間的相似性。我們的實驗表明,使用未配對數據集的ITIT展現出與使用高質量配對數據相似的擴展行為。我們展示了與最先進的文字到圖像和圖像到文字模型相當的圖像生成和標題性能,只使用了數量級更少(僅3M)的配對圖像-文字數據。
使用從人類反饋中學習的強化學習(RLHF)來對齊大型語言模型已經取得了巨大成功。開源偏好數據集和獎勵模型使得在通用聊天設置之外進行更廣泛的實驗成為可能,特別是為了使系統在網頁問答、摘要和多輪對話等任務中更加「有幫助」。在優化幫助性時,已經一致觀察到RLHF會驅使模型生成較長的輸出。本文證明了優化回應長度是RLHF在這些設置中報告的改進背後的一個重要因素。首先,我們研究了在三個開源偏好數據集上訓練的用於幫助性的獎勵模型的獎勵和長度之間的關係。在這裡,長度與獎勵強烈相關,獎勵分數的提升很大程度上是通過改變輸出長度的分佈來實現的。然後,我們探索了在RL和獎勵模型學習過程中的干預措施,以查看是否可以實現與RLHF相同的下游改進而不增加長度。雖然我們的干預措施減輕了長度增加,但在各種設置中並不是均勻有效的。此外,我們發現,即使僅基於長度的獎勵運行RLHF,也可以重現初始策略模型上的大部分下游改進,這表明在這些設置中的獎勵模型還有很長的路要走。
我們介紹了 DragView,一個用於生成未見場景新視角的新穎互動框架。DragView 從單一來源圖像初始化新視角,並且渲染由稀疏的未姿態多視角圖像集支持,全部在單個前饋過程中無縫執行。我們的方法始於用戶通過本地相對坐標系統拖動來源視角。通過將抽樣的 3D 點沿著目標射線投影到來源視角上,獲得像素對齊的特徵。然後,我們結合了一個視角依賴的調製層,以有效處理投影過程中的遮擋。此外,我們擴展了視線點注意機制以包括所有來源像素,促進從其他未姿態視角初始化的坐標對齊點特徵的聚合。最後,我們使用另一個轉換器將射線特徵解碼為最終像素強度。重要的是,我們的框架既不依賴於 2D 先前模型,也不依賴於相機姿勢的明確估計。在測試期間,DragView 展示了對於在訓練期間未見過的新場景的泛化能力,同時僅利用未姿態支持圖像,實現了具有靈活相機軌跡的以照片寫實為特徵的新視角生成。在我們的實驗中,我們對 DragView 的性能與最近在無姿態條件下運行的場景表示網絡以及對噪聲測試相機姿勢敏感的可泛化 NeRF 進行了全面比較。DragView 在視角合成質量方面一貫展現出卓越性能,同時更加用戶友好。項目頁面:https://zhiwenfan.github.io/DragView/。
在網路上執行任務對大型語言模型(LLMs)構成基本挑戰,包括組合龐大的開放世界任務和網頁界面間的變化。僅僅指定一個龐大提示以處理所有可能的行為和狀態是極其複雜的,並導致不相關行為之間的行為泄漏。將任務分解為不同策略可以應對這一挑戰,但需要仔細地在策略之間移交控制。我們提出了用於網路操作的堆疊式LLM策略(SteP),這是一種動態組合策略以解決各種網路任務。SteP定義了一個馬可夫決策過程,其中狀態是代表控制狀態的策略堆疊,即策略調用鏈。與傳統方法僅限於靜態層次結構不同,SteP實現了根據任務複雜性調整的動態控制。我們對SteP進行了多個基準測試和網路環境的評估,包括WebArena、MiniWoB++和一個CRM。在WebArena上,SteP相對於使用GPT-4策略的SOTA有所提升(14.9\%至33.5\%),而在MiniWob++上,SteP與先前的作品相媲美,同時使用的數據量明顯較少。我們的程式碼和數據可在https://asappresearch.github.io/webagents-step找到。