每日精選AI研究論文及翻譯
檢測現代大型語言模型生成的文本被認為是困難的,因為LLM和人類都可能展現出各種複雜的行為。然而,我們發現基於對比兩個密切相關語言模型的分數在區分人類生成和機器生成文本方面非常準確。基於這種機制,我們提出了一種新穎的LLM檢測器,只需要使用一對預先訓練的LLM進行簡單的計算。這種方法名為"雙筒望遠鏡",在不使用任何訓練數據的情況下實現了最先進的準確性。它能夠在不進行任何特定於模型的修改的情況下,從各種現代LLM中發現機器文本。我們在多個文本來源和不同情況下對"雙筒望遠鏡"進行了全面評估。在各種文檔類型中,"雙筒望遠鏡"以0.01%的偽陽性率檢測到ChatGPT(以及其他LLM)生成樣本的超過90%,儘管沒有接受任何ChatGPT數據的訓練。
為了增強開源大型語言模型(LLMs)在角色扮演方面的能力,已經投入了相當多的努力,試圖模擬專有對應物。然而,我們認為LLMs本質上具有角色扮演能力,這是因為它們在龐大的訓練語料庫中擁有對角色和潛在對話的廣泛知識。因此,在這項研究中,我們介紹了Ditto,一種用於角色扮演的自我對齊方法。Ditto利用角色知識,鼓勵一個遵循指示的LLM模擬角色扮演對話,作為閱讀理解的一種變體。該方法創建了一個包含4,000個角色的角色扮演訓練集,其角色數量比當前可用數據集大十倍。隨後,我們使用這個自生成的數據集對LLM進行微調,以增強其角色扮演能力。通過評估我們精心構建且可重現的角色扮演基準和MT-Bench的角色扮演子集,Ditto在各種參數規模下始終保持一致的角色身份,並在多輪角色扮演對話中提供準確的角色特定知識。值得注意的是,它優於所有開源角色扮演基準,展現出與先進專有聊天機器人相當的性能水平。此外,我們提出了在角色扮演領域的第一個全面的交叉監督對齊實驗,揭示了LLMs的內在能力將知識限制在角色扮演之內。與此同時,角色扮演風格可以在較小模型的指導下輕鬆獲得。我們在https://github.com/OFA-Sys/Ditto 開源相關資源。
我們介紹了元提示(meta-prompting),這是一種有效的輔助技術,旨在增強語言模型(LMs)的功能性。這種方法將單個LM轉變為一個多面手指揮者,擅長管理和整合多個獨立的LM查詢。通過使用高級指令,元提示引導LM將複雜任務分解為更小、更易管理的子任務。然後,這些子任務由同一LM的不同“專家”實例處理,每個實例都在特定的、量身定制的指導下運作。這個過程的核心是LM本身,作為指揮者,確保專家模型的輸出無縫溝通和有效整合。它還利用其固有的批判性思維和強大的驗證過程來完善和驗證最終結果。這種合作提示方法使單個LM能夠同時充當全面的指揮者和一組多樣化專家,顯著提高其在各種任務中的性能。元提示的零槍擊、任務不可知的特性大大簡化了用戶互動,無需詳細的、任務特定的指令。此外,我們的研究展示了外部工具(如Python解釋器)無縫集成到元提示框架中,從而擴大了其應用範圍和效用。通過對GPT-4進行嚴格實驗,我們確立了元提示相對於傳統輔助方法的優越性:在所有任務中取平均值,包括24點遊戲、一步將軍和Python編程謎題,元提示搭配Python解釋器功能,超越標準提示17.1%,專家(動態)提示17.3%,多人格提示15.2%。
擴散模型在文本到圖像生成和編輯方面表現出色。然而,現有方法在處理涉及多個物件、多個屬性和關係的複雜文本提示時往往面臨挑戰。本文提出了一種全新的無需訓練的文本到圖像生成/編輯框架,名為Recaption、Plan and Generate(RPG),利用多模態LLM的強大思維鏈推理能力來增強文本到圖像擴散模型的組成性。我們的方法將MLLM作為全局規劃器,將生成複雜圖像的過程分解為子區域內的多個更簡單的生成任務。我們提出了補充性區域擴散,以實現區域化的組成生成。此外,我們以閉環方式將文本引導的圖像生成和編輯整合到提出的RPG中,從而增強泛化能力。大量實驗表明,我們的RPG在多類別物件組合和文本-圖像語義對齊方面優於最先進的文本到圖像擴散模型,包括DALL-E 3和SDXL。值得注意的是,我們的RPG框架與各種MLLM架構(例如MiniGPT-4)和擴散骨幹(例如ControlNet)具有廣泛的兼容性。我們的代碼可在以下鏈接找到:https://github.com/YangLing0818/RPG-DiffusionMaster
文本到圖像擴散模型是一類深度生成模型,展示了出色的高質量圖像生成能力。然而,這些模型容易受到隱含偏見的影響,這些偏見源於規模龐大的文本-圖像訓練對,可能無法準確地建模我們關心的圖像方面。這可能導致次優質樣本、模型偏見以及與人類倫理和偏好不符的圖像。本文提出了一種有效的可擴展算法,使用強化學習(RL)跨越各種不同的獎勵函數來改進擴散模型,例如人類偏好、組成性和公平性,涵蓋數百萬圖像。我們說明了我們的方法如何顯著優於現有的方法,使擴散模型與人類偏好保持一致。我們進一步說明了這如何顯著改進了預訓練的穩定擴散(SD)模型,生成的樣本在80.3%的時間內被人類偏好,優於基本SD模型的樣本,同時改善了生成樣本的組成和多樣性。
理解和推理空間關係是視覺問答(VQA)和機器人技術的基本能力。雖然視覺語言模型(VLM)在某些VQA基準測試中表現出色,但它們仍然缺乏3D空間推理的能力,例如識別物體之間的量化關係,如距離或大小差異。我們假設VLM的有限空間推理能力是由於訓練數據中缺乏3D空間知識,並旨在通過使用互聯網規模的空間推理數據來解決這個問題。為此,我們提出了一個系統來促進這種方法。我們首先開發了一個自動的3D空間VQA數據生成框架,可擴展到1億真實世界圖像上的20億VQA示例。然後,我們研究了訓練配方中的各種因素,包括數據質量、訓練流程和VLM架構。我們的工作在度量空間中具有第一個互聯網規模的3D空間推理數據集。通過在這樣的數據上訓練VLM,我們顯著增強了其在質性和量性空間VQA方面的能力。最後,我們展示了這種VLM由於其量化估計能力而在思維鏈空間推理和機器人技術中解鎖了新的下游應用。項目網站:https://spatial-vlm.github.io/
隨著大型多模型(LMMs)的能力不斷提升,評估LMMs的表現變得日益重要。此外,在非英語語境(如中文)中評估LMMs的先進知識和推理能力存在更大的差距。我們介紹了CMMMU,一個新的中文大型多學科多模理解基準,旨在評估LMMs在中文語境中要求大學水平學科知識和深思熟慮推理的任務。CMMMU受MMMUs的標註和分析模式啟發並嚴格遵循之。 CMMMU包括來自大學考試、小測驗和教科書的1.2萬個手動收集的多模問題,涵蓋六個核心學科:藝術與設計、商業、科學、健康與醫學、人文與社會科學以及科技與工程,類似於其同伴MMMUs。這些問題涵蓋30個學科,包括39種高度異質的圖像類型,如圖表、圖解、地圖、表格、樂譜和化學結構。 CMMMU專注於中文語境中具有領域特定知識的複雜感知和推理。我們評估了11個開源LMMs和一個專有的GPT-4V(ision)。即使GPT-4V也僅實現了42%的準確率,表明還有很大的改進空間。CMMMU將推動社區構建面向專家人工智能的下一代LMMs,並通過提供多樣化的語言語境促進LMMs的民主化。
胸部X光攝影(CXR)是臨床實踐中最常進行的影像檢查。最近在視覺語言基礎模型(FMs)的發展方面取得的進展使得自動化CXR解釋成為可能,這可以協助醫師進行臨床決策並改善患者結果。然而,開發能夠準確解釋CXR的FMs具有挑戰性,原因在於(1)醫學影像領域中大規模視覺語言數據集的有限可用性,(2)無法捕捉醫學數據複雜性的視覺和語言編碼器,以及(3)缺乏評估框架來對FMs在CXR解釋上的能力進行基準測試。在這項工作中,我們首先通過引入CheXinstruct - 一個從28個公開數據集中精心策劃的大規模指令調整數據集來應對這些挑戰。然後,我們提出CheXagent - 一個能夠分析和總結CXR的指令調整FM。為構建CheXagent,我們設計了一個用於解析放射學報告的臨床大型語言模型(LLM),一個用於表示CXR圖像的視覺編碼器,以及一個用於橋接視覺和語言模態的網絡。最後,我們介紹CheXbench - 一個新穎的基準測試,旨在系統性地評估FMs在8個與臨床相關的CXR解釋任務上的表現。通過與五位專家放射科醫師進行廣泛的定量評估和定性評論,顯示CheXagent在CheXbench任務上優於先前開發的通用和醫學領域FMs。此外,為了提高模型的透明度,我們對性別、種族和年齡等因素進行公平性評估,以突顯潛在的性能差異。我們的項目位於https://stanford-aimi.github.io/chexagent.html。
我們提出了Hourglass Diffusion Transformer(HDiT),這是一種影像生成模型,具有與像素數量線性擴展的特性,支持直接在像素空間進行高分辨率(例如1024乘1024)的訓練。基於Transformer架構,該架構已知可以擴展到數十億個參數,HDiT填補了卷積U-Net的效率和Transformer的可擴展性之間的差距。HDiT成功訓練,無需典型的高分辨率訓練技術,如多尺度架構、潛在自編碼器或自我條件訓練。我們展示了HDiT在ImageNet 256^2上與現有模型競爭,並在FFHQ-1024^2上為擴散模型設立了新的技術水準。
我們提出了擴散推論時間 T 優化(DITTO),這是一個通用框架,用於通過優化初始噪聲潛變量來控制預訓練的文本轉音樂擴散模型的推論時間。我們的方法可以用於通過任何可微特徵匹配損失來進行優化,以實現目標(風格化)輸出,並利用梯度檢查點實現記憶效率。我們展示了音樂生成的驚人廣泛應用,包括修補、擴展和循環,以及強度、旋律和音樂結構控制 - 所有這些都無需對基礎模型進行微調。當我們將我們的方法與相關的訓練、引導和基於優化的方法進行比較時,我們發現 DITTO 在幾乎所有任務上均實現了最先進的性能,包括在可控性、音頻質量和計算效率方面優於可比方法,從而為擴散模型的高質量、靈活、無需訓練的控制打開了大門。聲音示例可在 https://DITTO-Music.github.io/web/ 找到。
透過強化學習 (RLHF) 將大型語言模型 (LLMs) 與人類偏好對齊可能導致獎勵破解,即LLMs利用獎勵模型 (RM) 中的缺陷來獲得看似高獎勵,卻未達到潛在目標。我們在設計RM以減輕獎勵破解時識別到兩個主要挑戰:在RL過程中的分布變化和人類偏好的不一致性。作為解決方案,我們提出了加權平均獎勵模型 (WARM),首先對多個RM進行微調,然後在權重空間中將它們進行平均。這個策略遵循一個觀察,即在共享相同預訓練時,微調的權重保持線性模式連接。通過平均權重,WARM相較於傳統的預測集成方法提高了效率,同時在分布變化和偏好不一致性方面提高了可靠性。我們在摘要任務上進行的實驗,使用最佳N和RL方法,顯示WARM提高了LLM預測的整體質量和對齊性;例如,使用WARM微調的策略RL在與使用單個RM微調的策略RL對比時,勝率達到了79.4%。
最近,擴散模型在語義分割任務中的出色轉移能力引起了越來越多的研究關注。然而,使用擴散模型生成細粒度分割遮罩通常需要在標註數據集上進行額外訓練,這使得預先訓練的擴散模型是否單獨理解其生成圖像的語義關係程度不明確。為了解答這個問題,我們利用從穩定擴散(SD)中提取的語義知識,旨在開發一個能夠生成細粒度分割地圖而無需進行任何額外訓練的圖像分割器。主要困難在於,具有語義意義的特徵圖通常僅存在於空間維度較低的層中,這直接從這些特徵圖中提取像素級語義關係構成了挑戰。為了克服這個問題,我們的框架通過利用SD的生成過程識別圖像像素與低維特徵圖的空間位置之間的語義對應,並將其用於構建圖像分辨率的分割地圖。在大量實驗中,所產生的分割地圖被證明具有良好的劃分和捕捉圖像的細節部分,表明擴散模型中存在高度準確的像素級語義知識。
在訓練大型生成模型以產生自然語言和圖像方面已取得顯著進展。然而,3D生成模型的進展受到其在訓練過程中龐大的資源需求、以及效率低、非緊湊和表現較差的表示形式的阻礙。本文介紹了Make-A-Shape,這是一種新的3D生成模型,旨在以高效的方式在廣泛範圍內進行訓練,能夠利用1000萬個公開可用的形狀。從技術角度來看,我們首先創新地引入了小波樹表示法,通過制定子帶係數過濾方案來緊湊編碼形狀,以有效利用係數之間的關係。然後,通過設計子帶係數打包方案將表示形式佈局在低分辨率網格中,使表示形式可以被擴散模型生成。此外,我們推導出子帶自適應訓練策略,以有效地訓練我們的模型學習生成粗糙和細節小波係數。最後,我們擴展了我們的框架,通過額外的輸入條件來控制,使其能夠從各種模態生成形狀,例如單視圖/多視圖圖像、點雲和低分辨率體素。在我們豐富的一系列實驗中,我們展示了各種應用,例如無條件生成、形狀完成以及在各種模態上的有條件生成。我們的方法不僅在提供高質量結果方面超越了現有技術水平,而且能夠在幾秒內高效生成形狀,通常在大多數情況下僅需2秒即可實現。
在這項研究中,我們介紹了Orion-14B,這是一個具有140億參數的多語言大型語言模型集合。我們採用了數據排程方法,在來自英語、中文、日語、韓語和其他語言的文本中,訓練了一個基礎模型,該模型包含了2500億標記。此外,我們對一系列針對對話應用和其他特定用例進行了微調的模型。我們的評估結果表明,Orion-14B在廣泛的任務中實現了最先進的性能。我們將Orion-14B模型系列及其相關代碼公開提供,旨在激發未來在該領域的研究和實際應用。https://github.com/OrionStarAI/Orion
最近語言模型(LM)的進展展示了令人印象深刻的零樣本語音轉換(VC)性能。然而,現有基於LM的VC模型通常應用來自源語義到聲學特徵的離線轉換,需要完整的源語音,並限制了它們在實時應用中的部署。本文介紹了StreamVoice,一種新型的基於LM的流式模型,用於零樣本VC,實現了在給定任意說話者提示和源語音的情況下進行實時轉換。具體來說,為了實現流式處理能力,StreamVoice採用了一個完全因果上下文感知的LM,具有一個時間獨立的聲學預測器,同時在自回歸的每個時間步驟交替處理語義和聲學特徵,從而消除對完整源語音的依賴。為了應對流式處理中由於上下文不完整而可能導致的性能下降,我們通過兩種策略增強了LM的上下文感知性:1)教師引導的上下文預見,使用教師模型在訓練期間總結當前和未來的語義上下文,引導模型對缺失上下文的預測;2)語義遮罩策略,促進從前面受損的語義和聲學輸入進行聲學預測,增強上下文學習能力。值得注意的是,StreamVoice是第一個基於LM的流式零樣本VC模型,無需任何未來的前瞻。實驗結果表明,StreamVoice具有流式轉換能力,同時保持與非流式VC系統相當的零樣本性能。
近年來在視覺、語言和機器人領域取得了顯著進展。我們現在擁有能夠根據語言查詢識別物體的視覺模型,能夠有效控制移動系統的導航系統,以及能夠處理各種物體的抓取模型。儘管取得了這些進展,但機器人的通用應用仍然落後,即使它們依賴於識別、導航和抓取這些基本能力。在本文中,我們採用系統優先的方法來開發一個名為OK-Robot的新型基於開放知識的機器人框架。通過結合用於物體檢測的視覺-語言模型(VLMs)、用於移動的導航基元和用於物體操作的抓取基元,OK-Robot提供了一個集成解決方案,可進行拾取和放置操作而無需任何訓練。為了評估其性能,我們在10個真實家庭環境中運行了OK-Robot。結果表明,OK-Robot在開放式拾取和放置任務中實現了58.5%的成功率,代表了開放詞彙移動操作(OVMM)領域的最新技術水平,比以往工作的性能提高了近1.8倍。在更乾淨、沒有雜亂的環境中,OK-Robot的性能提高到了82%。然而,從OK-Robot中獲得的最重要見解是,在結合像VLMs這樣的開放知識系統與機器人模塊時,微妙細節的關鍵作用。我們的實驗視頻可在我們的網站上找到:https://ok-robot.github.io
近年來,3D角色生成的最新進展受到了相當大的關注。這些突破旨在產生更加逼真且可動的角色,縮小虛擬與現實世界體驗之間的差距。大多數現有作品採用得分蒸餾取樣(Score Distillation Sampling,SDS)損失,結合可微分渲染器和文本條件,引導擴散模型生成3D角色。然而,SDS通常會生成過度平滑的結果,臉部細節較少,因此與祖先取樣相比缺乏多樣性。另一方面,其他作品從單張圖像生成3D角色,其中不需要的光線效果、透視視角和較低的圖像質量等挑戰使它們難以可靠地重建具有對齊完整紋理的3D面部網格。在本文中,我們提出了一種名為UltrAvatar的新型3D角色生成方法,具有增強的幾何保真度和優質的基於物理的渲染(PBR)紋理,並且沒有不需要的光線效果。為此,所提出的方法提出了一種擴散色彩提取模型和一種真實性引導的紋理擴散模型。前者消除了不需要的光線效果,顯示真實的擴散色彩,使生成的角色可以在各種照明條件下渲染。後者遵循兩種基於梯度的引導,用於生成PBR紋理,以更好地呈現多樣的面部特徵和與3D網格幾何更好對齊的細節。我們展示了所提出方法的有效性和魯棒性,在實驗中大幅優於最先進的方法。
本文介紹了Human-LRM,這是一個單階段前饋式大型重建模型,旨在從單張圖像預測人類神經輻射場(NeRF)。我們的方法展示了在使用包含3D掃描和多視角捕獲的大量數據集進行訓練時的顯著適應性。此外,為了增強模型在野外場景中的應用性,特別是在存在遮擋情況下,我們提出了一種新穎的策略,通過條件三面擴散模型將多視角重建轉化為單視角。這種生成性擴展解決了從單視角觀察時人體形狀的固有變化,並使得可以從被遮擋的圖像中重建完整的人體。通過大量實驗,我們展示了Human-LRM在幾個基準測試中明顯優於先前方法。
準確模擬現實世界物體動態對於各種應用至關重要,例如機器人技術、工程、圖形學和設計。為了更好地捕捉複雜的現實動態,如接觸和摩擦,基於圖網絡的學習模擬器最近展現出巨大潛力。然而,將這些學習模擬器應用於真實場景面臨兩個主要挑戰:首先,將學習模擬器擴展到處理現實世界場景的複雜性,這可能涉及數百個物體,每個物體都具有復雜的3D形狀;其次,處理來自感知而不是3D狀態信息的輸入。在這裡,我們介紹了一種方法,顯著降低了運行基於圖網絡的學習模擬器所需的內存。基於這種內存高效的模擬模型,我們隨後提出了一種知覺界面,即可編輯的 NeRFs,它可以將現實世界場景轉換為結構化表示,以便圖網絡模擬器處理。我們展示了我們的方法使用的內存遠遠少於以前基於圖網絡的模擬器,同時保留了它們的準確性,並且在合成環境中學習的模擬器可以應用於從多個攝像機角度捕獲的真實世界場景。這為將學習模擬器的應用擴展到僅在推理時可用感知信息的設置打開了道路。
虛擬實境(VR)展現了社交互動的潛力,其感受比其他媒體更具沉浸感。關鍵在於能夠在戴著VR頭戴式設備時準確地動畫化自己的逼真化頭像。儘管在離線環境中可以實現對特定人物頭像進行高質量註冊到頭戴式攝像機(HMC)圖像,但通用實時模型的性能明顯下降。在線註冊也具有挑戰性,因為攝像機視角傾斜和模態差異。在這項工作中,我們首先展示了頭像和頭戴攝像機圖像之間的領域差距是困難的主要來源之一,其中基於變壓器的架構在領域一致數據上實現了高準確性,但在重新引入領域差距時性能下降。基於這一發現,我們開發了一個系統設計,將問題分解為兩部分:1)一個接受領域內輸入的迭代細化模塊,和2)一個通用頭像引導的圖像對圖像風格轉換模塊,其條件是基於當前對表情和頭部姿勢的估計。這兩個模塊互相加強,因為當展示接近真實示例時,圖像風格轉換變得更容易,更好的領域差距消除有助於註冊。我們的系統高效地產生高質量結果,無需昂貴的離線註冊來生成個性化標籤。通過在一款廉價頭戴式設備上進行大量實驗,我們驗證了我們方法的準確性和效率,顯示與直接回歸方法以及離線註冊相比有顯著改進。