每日精選AI研究論文及翻譯
文字到圖像生成是現代計算機視覺中一個重要領域,通過生成架構的演進取得了顯著的改進。在這些模型中,有基於擴散的模型已經證明了重要的質量提升。這些模型通常分為兩個類別:像素級和潛在級方法。我們提出Kandinsky1,這是一種新穎的潛在擴散架構探索,結合了圖像先驗模型的原則與潛在擴散技術。圖像先驗模型被單獨訓練,將文本嵌入映射到CLIP的圖像嵌入。所提出模型的另一個獨特特徵是修改後的MoVQ實現,它作為圖像自編碼器組件。整體而言,所設計的模型包含33億參數。我們還部署了一個用戶友好的演示系統,支持多種生成模式,如文字到圖像生成、圖像融合、文字和圖像融合、圖像變化生成,以及文字引導的修補/超出修補。此外,我們釋放了Kandinsky模型的源代碼和檢查點。實驗評估在COCO-30K數據集上展示了8.03的FID分數,使我們的模型成為在可測量圖像生成質量方面頂尖的開源表現者。
最近大型多模型(LMM)在視覺指導調整方面展示了令人鼓舞的進展。在這裡,我們展示了LLaVA中全連接視覺-語言跨模態連接器出乎意料地強大且高效。通過對LLaVA進行簡單修改,即使用CLIP-ViT-L-336px與MLP投影,並添加學術任務導向的VQA數據以及簡單的回應格式提示,我們建立了更強的基準線,並在11個基準測試中實現了最先進的表現。我們的最終13B檢查點僅使用了120萬筆公開數據,在單個8-A100節點上約1天內完成完整訓練。我們希望這能使最先進的LMM研究更具可及性。代碼和模型將公開提供。
最近发布的GPT-4代碼解譯器展示了在解決具有挑戰性的數學問題方面的卓越能力,這主要歸因於其能夠無縫地運用自然語言進行推理、生成代碼、執行代碼,並根據執行結果繼續進行推理。在本文中,我們提出了一種微調開源語言模型的方法,使其能夠使用代碼來建模和推導數學方程式,從而增強其數學推理能力。我們提出了一種生成包含數學問題及基於代碼的解決方案的新穎高質量數據集的方法,稱為MathCodeInstruct。每個解決方案交錯著自然語言、代碼和執行結果。我們還介紹了一種定制的監督微調和推理方法。這種方法產生了MathCoder模型,這是一系列能夠為解決具有挑戰性的數學問題生成基於代碼的解決方案的模型。令人印象深刻的是,MathCoder模型在MATH(45.2%)和GSM8K(83.9%)數據集上實現了開源LLM中的最新成績,遠遠優於其他開源替代方案。值得注意的是,MathCoder模型不僅在GSM8K和MATH上超越了ChatGPT-3.5和PaLM-2,還在競賽級MATH數據集上超越了GPT-4。數據集和模型將在https://github.com/mathllm/MathCoder 上發布。
最近,基於非常大規模的無監督或弱監督的文本到圖像訓練數據集,文本到圖像擴散模型已經成為圖像生成的前沿,由於其無監督訓練,控制其在下游任務中的行為,如最大化人類感知的圖像質量、圖像文本對齊或道德圖像生成,是困難的。最近的研究通過使用普通強化學習對擴散模型進行下游獎勵函數的微調,這種方法以梯度估算器的高變異性而聞名。在本文中,我們提出了AlignProp,一種通過對去噪過程的獎勵梯度進行端對端反向傳播,將擴散模型與下游獎勵函數對齊的方法。儘管這種反向傳播的天真實現需要存儲現代文本到圖像模型的偏導數而需要過高的內存資源,但AlignProp通過微調低秩適配器權重模塊並使用梯度檢查點,使其內存使用量可行。我們在將AlignProp應用於微調擴散模型以達到各種目標,如圖像文本語義對齊、美學、可壓縮性和對存在的物體數量的可控性以及它們的組合方面進行了測試。我們展示AlignProp在比起其他方法更少的訓練步驟中實現了更高的獎勵,同時在概念上更簡單,使其成為優化擴散模型以適應感興趣的可微分獎勵函數的直接選擇。代碼和可視化結果可在https://align-prop.github.io/找到。
語言模型(LMs)已證明具備處理各種生成任務的能力。本文介紹UniAudio系統,與先前的特定任務方法不同,利用LMs技術生成多種類型的音頻(包括語音、聲音、音樂和歌唱)並給定輸入條件。UniAudio 1)首先對所有類型的目標音頻進行標記,以及其他條件模態,2)將源-目標對連接為單個序列,並3)使用LMs進行下一倗預測。此外,提出了一種多尺度Transformer模型,以處理由於基於殘差向量量化的神經編解碼器在標記化中引起的過長序列。UniAudio的訓練擴展至165K小時的音頻和10億參數,基於所有生成任務,旨在獲得足夠的先前知識,不僅涉及音頻的內在特性,還包括音頻與其他模態之間的相互關係。因此,經過訓練的UniAudio模型有潛力成為通用音頻生成的基礎模型:它在所有訓練任務中展現出強大的能力,並可以在簡單微調後無縫支持新的音頻生成任務。實驗表明,UniAudio在11個任務中實現了最先進或至少具有競爭力的結果。Demo和代碼已在https://github.com/yangdongchao/UniAudio上發布。
大多數大型語言模型(LLMs)只會訓練一次,並且不會進行更新;因此,它們缺乏動態適應我們不斷變化的世界的能力。在這項工作中,我們對LLM生成的文本的事實性進行了詳細研究,並在回答測試當前世界知識的問題的情況下進行了研究。具體來說,我們引入了FreshQA,這是一個新穎的動態QA基準,包含各種問題和答案類型,包括需要快速變化的世界知識以及需要揭穿虛假前提的問題。我們在兩種模式的評估程序下對各種開源和專有的LLMs進行基準測試,這使我們能夠測量正確性和幻覺。通過涉及超過50K個判斷的人類評估,我們揭示了這些模型的局限性,並展示了顯著的改進空間:例如,所有模型(無論模型大小)在涉及快速變化的知識和虛假前提的問題上都遇到困難。受到這些結果的激勵,我們提出了FreshPrompt,這是一種簡單的少數提示方法,通過將從搜索引擎檢索的相關和最新信息納入提示,顯著提高了LLM在FreshQA上的性能。我們的實驗表明,FreshPrompt在FreshQA上的表現優於其他競爭的搜索引擎增強提示方法,如Self-Ask(Press等,2022年),以及商業系統如Perplexity.AI。對FreshPrompt的進一步分析顯示,檢索證據的數量和其順序對影響LLM生成的答案的正確性起著關鍵作用。此外,指導LLM生成簡潔直接的答案有助於減少幻覺,相較於鼓勵更冗長的答案。為了促進未來的工作,我們在github.com/freshllms/freshqa上發布了FreshQA,並承諾定期更新。
目前的視覺語言生成模型依賴大量配對的圖像-文字數據來達到最佳性能和泛化能力。然而,自動收集這樣的數據(例如通過大規模網絡抓取)會導致低質量和圖像-文字關聯性差,而人工標註則更準確但需要大量手動工作和開支。我們引入了ITIT(InTegrating Image Text):一種創新的訓練範式,基於循環一致性概念,允許在未配對的圖像和文字數據上進行視覺語言訓練。ITIT由一個聯合圖像-文字編碼器和不相交的圖像和文字解碼器組成,這使得單一框架中實現了雙向的圖像到文字和文字到圖像生成。在訓練期間,ITIT利用一小組配對的圖像-文字數據,確保其輸出在兩個方向上與輸入相當匹配。同時,模型還在僅包含圖像或文字的更大數據集上進行訓練。這是通過強制執行原始未配對樣本與循環生成對應物之間的循環一致性來實現的。例如,它為給定的輸入圖像生成標題,然後使用該標題創建輸出圖像,並確保輸入和輸出圖像之間的相似性。我們的實驗表明,使用未配對數據集的ITIT展現出與使用高質量配對數據相似的擴展行為。我們展示了與最先進的文字到圖像和圖像到文字模型相當的圖像生成和標題性能,只使用了數量級更少(僅3M)的配對圖像-文字數據。
使用從人類反饋中學習的強化學習(RLHF)來對齊大型語言模型已經取得了巨大成功。開源偏好數據集和獎勵模型使得在通用聊天設置之外進行更廣泛的實驗成為可能,特別是為了使系統在網頁問答、摘要和多輪對話等任務中更加「有幫助」。在優化幫助性時,已經一致觀察到RLHF會驅使模型生成較長的輸出。本文證明了優化回應長度是RLHF在這些設置中報告的改進背後的一個重要因素。首先,我們研究了在三個開源偏好數據集上訓練的用於幫助性的獎勵模型的獎勵和長度之間的關係。在這裡,長度與獎勵強烈相關,獎勵分數的提升很大程度上是通過改變輸出長度的分佈來實現的。然後,我們探索了在RL和獎勵模型學習過程中的干預措施,以查看是否可以實現與RLHF相同的下游改進而不增加長度。雖然我們的干預措施減輕了長度增加,但在各種設置中並不是均勻有效的。此外,我們發現,即使僅基於長度的獎勵運行RLHF,也可以重現初始策略模型上的大部分下游改進,這表明在這些設置中的獎勵模型還有很長的路要走。
在網路上執行任務對大型語言模型(LLMs)構成基本挑戰,包括組合龐大的開放世界任務和網頁界面間的變化。僅僅指定一個龐大提示以處理所有可能的行為和狀態是極其複雜的,並導致不相關行為之間的行為泄漏。將任務分解為不同策略可以應對這一挑戰,但需要仔細地在策略之間移交控制。我們提出了用於網路操作的堆疊式LLM策略(SteP),這是一種動態組合策略以解決各種網路任務。SteP定義了一個馬可夫決策過程,其中狀態是代表控制狀態的策略堆疊,即策略調用鏈。與傳統方法僅限於靜態層次結構不同,SteP實現了根據任務複雜性調整的動態控制。我們對SteP進行了多個基準測試和網路環境的評估,包括WebArena、MiniWoB++和一個CRM。在WebArena上,SteP相對於使用GPT-4策略的SOTA有所提升(14.9\%至33.5\%),而在MiniWob++上,SteP與先前的作品相媲美,同時使用的數據量明顯較少。我們的程式碼和數據可在https://asappresearch.github.io/webagents-step找到。
我們介紹了 DragView,一個用於生成未見場景新視角的新穎互動框架。DragView 從單一來源圖像初始化新視角,並且渲染由稀疏的未姿態多視角圖像集支持,全部在單個前饋過程中無縫執行。我們的方法始於用戶通過本地相對坐標系統拖動來源視角。通過將抽樣的 3D 點沿著目標射線投影到來源視角上,獲得像素對齊的特徵。然後,我們結合了一個視角依賴的調製層,以有效處理投影過程中的遮擋。此外,我們擴展了視線點注意機制以包括所有來源像素,促進從其他未姿態視角初始化的坐標對齊點特徵的聚合。最後,我們使用另一個轉換器將射線特徵解碼為最終像素強度。重要的是,我們的框架既不依賴於 2D 先前模型,也不依賴於相機姿勢的明確估計。在測試期間,DragView 展示了對於在訓練期間未見過的新場景的泛化能力,同時僅利用未姿態支持圖像,實現了具有靈活相機軌跡的以照片寫實為特徵的新視角生成。在我們的實驗中,我們對 DragView 的性能與最近在無姿態條件下運行的場景表示網絡以及對噪聲測試相機姿勢敏感的可泛化 NeRF 進行了全面比較。DragView 在視角合成質量方面一貫展現出卓越性能,同時更加用戶友好。項目頁面:https://zhiwenfan.github.io/DragView/。