每日精選AI研究論文及翻譯
在日常生活中,從個人用途到專業應用如Photoshop,都廣泛需要文本引導的圖像編輯。然而,現有方法要麼是零樣本,要麼是在自動合成的數據集上進行訓練,其中包含大量噪音。因此,在實踐中仍需要大量手動調整才能產生理想的結果。為解決這個問題,我們介紹了MagicBrush(https://osu-nlp-group.github.io/MagicBrush/),這是第一個大規模手動標註的指導實際圖像編輯數據集,涵蓋各種情境:單輪、多輪、提供遮罩和無遮罩編輯。MagicBrush包含超過10K個手動標註的三元組(源圖像、指令、目標圖像),支持訓練大規模文本引導的圖像編輯模型。我們在MagicBrush上對InstructPix2Pix進行微調,並展示新模型可以根據人類評估產生更好的圖像。我們進一步進行了廣泛的實驗,從多個維度包括定量、定性和人類評估來評估當前圖像編輯基準。結果顯示了我們數據集的挑戰性質以及當前基準和實際編輯需求之間的差距。
大型語言模型(LLMs)已經革新了自然語言處理(NLP),但訓練需要大量的GPU資源。降低LLMs訓練的門檻將鼓勵更多研究人員參與,使學術界和社會都受益。儘管現有方法專注於參數高效的微調,調整或添加少量參數,但很少有方法解決在有限資源下調整LLMs的全部參數的挑戰。在這項工作中,我們提出了一種新的優化器,稱為低內存優化(LOMO),它將梯度計算和參數更新合併為一步,以減少內存使用。通過將LOMO與現有的節省內存技術相結合,我們將內存使用量降低到10.8%,相較於標準方法(DeepSpeed解決方案)。因此,我們的方法使得在單台機器上使用8個RTX 3090,每個具有24GB內存,可以對65B模型進行全部參數微調成為可能。
大型語言模型(LLMs)在程式碼生成方面表現出卓越的能力,但在具有挑戰性的程式設計任務上仍然遇到困難。自我修復——即模型自行偵錯並修正程式碼中的錯誤——最近已成為提升這些情境下性能的熱門方法。然而,文獻中對自我修復如何以及何時有效的研究非常有限,人們可能會懷疑模型在程式碼由同一模型生成時,是否真的能夠提供準確的反饋,解釋程式碼錯誤的原因。在本文中,我們分析了GPT-3.5和GPT-4在APPs上執行自我修復的能力,該資料集包含各種不同的編碼挑戰。為此,我們首先建立了一種名為pass@t的新評估策略,該策略衡量任務的通過率與從模型中取樣的總token數量之比,從而實現與純取樣方法的公平比較。通過這種評估策略,我們發現自我修復的效果僅在GPT-4中可見。我們還觀察到,自我修復受到反饋階段的瓶頸影響;使用GPT-4對由GPT-3.5生成的程式進行反饋,以及使用專家人類程式設計師對由GPT-4生成的程式進行反饋,我們實現了顯著的性能提升。
我們介紹了AvatarBooth,一種新穎的方法,可使用文字提示或特定圖像生成高質量的3D頭像。與先前只能根據簡單文字描述合成頭像的方法不同,我們的方法可以從隨意捕捉的面部或身體圖像創建個性化頭像,同時支持基於文本的模型生成和編輯。我們的主要貢獻在於使用為人臉和身體分別進行精細調整的雙擴散模型來精確控制頭像生成。這使我們能夠捕捉面部外觀、服裝和配飾的細微細節,從而產生高度逼真的頭像生成。此外,我們引入了姿勢一致性約束來增強優化過程中從擴散模型合成的頭部圖像的多視角一致性,從而消除來自不受控制的人體姿勢的干擾。此外,我們提出了一種多分辨率渲染策略,有助於粗到細監督3D頭像生成,從而提高所提出系統的性能。生成的頭像模型可以使用額外的文本描述進行進一步編輯,並由運動序列驅動。實驗表明,AvatarBooth在從文字提示或特定圖像生成方面在渲染和幾何質量上優於先前的文字轉3D方法。請查看我們的項目網站:https://zeng-yifei.github.io/avatarbooth_page/。
開放詞彙物體偵測已經從預先訓練的視覺語言模型中受益良多,但仍受限於可用的偵測訓練數據量。雖然可以通過使用網絡圖像-文本對作為弱監督來擴展偵測訓練數據,但這在與圖像級預訓練相比的規模上尚未實現。在這裡,我們通過自我訓練來擴展偵測數據,該方法使用現有的檢測器在圖像-文本對上生成虛擬框標註。在擴展自我訓練時的主要挑戰包括標籤空間的選擇、虛擬標註篩選和訓練效率。我們提出了 OWLv2 模型和 OWL-ST 自我訓練配方,以應對這些挑戰。OWLv2 在可比較的訓練規模(約 1000 萬個示例)下超越了先前最先進的開放詞彙檢測器的性能。然而,通過 OWL-ST,我們可以擴展到超過 10 億個示例,進一步取得了巨大的改進:在 L/14 結構下,OWL-ST 將對 LVIS 稀有類別的 AP 從 31.2% 提高到 44.6%(相對改進 43%)。OWL-ST 為開放世界定位解鎖了 Web 規模的訓練,類似於圖像分類和語言建模所見的情況。
我們提出了一種針對機器人的自監督感知運動預訓練方法。 我們的模型名為RPT,是一個Transformer,運作於感知運動令牌序列上。 給定一系列攝影機圖像、本體感應機器人狀態和過去動作,我們將交錯的序列編碼為令牌,遮罩掉一個隨機子集,並訓練模型來預測遮罩掉的內容。 我們假設如果機器人能夠預測缺失的內容,它已經獲得了一個對物理世界的良好模型,可以使其行動。 RPT旨在操作潛在的視覺表示,這使得預測可行,實現了對10倍更大模型的擴展,以及在真實機器人上每秒10次的推論。 為了評估我們的方法,我們使用運動規劃和基於模型的抓取算法結合,收集了一個包含20,000個真實世界軌跡的數據集,歷時9個月。 我們發現在這些數據上進行預訓練一貫優於從頭開始訓練,導致在疊疊樂任務中提高了2倍,並具有良好的擴展性能。
狀態空間模型(SSMs)在需要建模長程依賴性並能有效擴展到長序列的任務上展現出令人印象深刻的成果,這歸因於其次二次運行時間複雜度。最初設計用於連續信號的SSMs在視覺和音訊等眾多任務中展現出卓越的性能;然而,在語言建模任務中,SSMs仍然落後於Transformer的表現。在這項研究中,我們提出了一個名為區塊狀態Transformer(BST)的混合層,內部結合了一個用於長程情境化的SSM子層,以及一個用於序列的短期表示的區塊Transformer子層。我們研究了三種不同且完全可並行化的變體,將SSMs和區塊注意力整合在一起。我們展示了我們的模型在語言建模困惑度上優於類似基於Transformer的架構,並且對更長序列具有泛化能力。此外,與區塊循環Transformer相比,當採用模型並行化時,區塊狀態Transformer在層級上的速度增加超過十倍。
研究規模定律發現,大型語言模型(LMs)在規模增加(模型大小、訓練數據和計算)時,整體損失呈現可預測的改善。在這裡,我們提出證據支持一種主張,即LMs可能呈現逆向規模,或隨著規模增加,任務表現更差,例如由於訓練目標和數據存在缺陷。我們通過運行一個公開比賽收集的11個數據集,逆向規模獎,提供實證證據支持逆向規模的存在,並設立了一個可观的獎池。通過對數據集的分析,以及文獻中發現的其他例子,我們確定了逆向規模的四個潛在原因:(i)更傾向於重複記憶的序列而不是遵循上下文指示,(ii)模仿訓練數據中不良模式,(iii)任務包含一個易於分散注意力的任務,LMs可能專注於此而非更難的真實任務,以及(iv)正確但具有誤導性的少樣本示範任務。我們將獲獎數據集發布在https://inversescaling.com/data,以便進一步研究逆向規模。我們的任務有助於推動U形和倒U形規模趨勢的發現,其中初始趨勢逆轉,表明規模趨勢在預測更大規模模型行為方面不如先前理解的可靠。總的來說,我們的結果表明,有些任務僅通過增加模型規模本身可能不會帶來進展,需要更加慎重地思考用於訓練語言模型的數據和目標。
最近的研究探討了使用大量配對的文本-音訊數據進行文本轉音訊合成。然而,具有高質量文本標註的音訊錄製可能難以獲得。在這項研究中,我們通過使用未標記的視頻和預訓練的語言-視覺模型來進行文本轉音訊合成。我們提出通過利用視覺模態作為橋樑來學習所需的文本-音訊對應關係。我們訓練一個有條件的擴散模型,以生成視頻的音訊軌,給定一個由預訓練對比語言-圖像預訓練(CLIP)模型編碼的視頻幀。在測試時,我們首先探索進行零樣本模態轉移,並使用一個CLIP編碼的文本查詢來條件化擴散模型。然而,我們觀察到相對於圖像查詢,性能明顯下降。為了彌合這一差距,我們進一步採用預訓練的擴散先驗模型,以生成一個CLIP圖像嵌入,給定一個CLIP文本嵌入。我們的結果顯示了所提出方法的有效性,以及預訓練的擴散先驗可以減少模態轉移差距。雖然我們專注於文本轉音訊合成,但所提出的模型也可以從圖像查詢生成音訊,在主觀聆聽測試中表現出與最先進的圖像轉音訊合成模型競爭力的性能。這項研究提供了一種新的方法,通過利用視頻中自然發生的音訊-視覺對應和預訓練語言-視覺模型的威力,來處理文本轉音訊合成。
部署大型語言模型(LLMs)可能存在來自有害輸出的危險,例如有毒或不誠實的言論。先前的工作引入了工具,以引出有害輸出,以便識別和減輕這些風險。儘管這是確保語言模型安全的一個寶貴步驟,但這些方法通常依賴於現有的用於不良輸出的分類器。這限制了它們僅適用於在事先精確知道有害行為類型的情況。然而,這忽略了紅隊測試的一個核心挑戰:發展對模型可能展現的行為的情境理解。此外,當這樣的分類器已經存在時,紅隊測試的邊際價值有限,因為可以簡單地使用分類器來過濾訓練數據或模型輸出。在這項工作中,我們考慮紅隊測試,假設對手是根據高層次、抽象的不良行為規範進行工作。預期紅隊將完善/擴展此規範並確定從模型中引出此行為的方法。我們的紅隊測試框架包括三個步驟:1)在所需上下文中探索模型的行為;2)建立不良行為的衡量(例如,訓練一個反映人類評估的分類器);和3)利用此衡量和已建立的紅隊測試方法來利用模型的缺陷。我們將此方法應用於紅隊測試 GPT-2 和 GPT-3 模型,以系統地發現引出有毒和不誠實陳述的提示類別。在此過程中,我們還構建並發布了由人類標記為常識真實、常識虛假或其他的 20,000 個陳述的 CommonClaim 數據集。代碼可在 https://github.com/thestephencasper/explore_establish_exploit_llms 找到。CommonClaim 可在 https://github.com/thestephencasper/common_claim 找到。
人類具備以組合方式理解場景的認知能力。為了賦予人工智能系統類似的能力,以物體為中心的表示學習旨在在視覺場景中無需監督地獲取個別物體的表示。儘管最近在以物體為中心的表示學習方面取得了對複雜合成數據集的顯著進展,但在應用於複雜現實世界場景中仍存在巨大挑戰。其中一個重要原因是現實世界數據集對以物體為中心的表示學習方法的特定設計非常稀缺。為了解決這個問題,我們提出了一個名為 OCTScenes 的多功能現實世界桌面場景數據集,旨在作為比較、評估和分析以物體為中心的表示學習方法的基準。OCTScenes 包含 5000 個桌面場景,總共包含 15 個日常物品。每個場景以 60 幀捕捉,涵蓋 360 度的視角。因此,OCTScenes 是一個多功能基準數據集,可以同時滿足對靜態場景、動態場景和多視角場景任務的以物體為中心的表示學習方法的評估。在 OCTScenes 上進行了對靜態、動態和多視角場景的以物體為中心的表示學習方法的大量實驗。結果顯示,儘管這些方法在複雜合成數據集上表現出色,但在從現實世界數據中學習有意義的表示方面存在不足。此外,OCTScenes 可以作為推動現有最先進方法進步的催化劑,激勵它們適應現實世界場景。數據集和代碼可在 https://huggingface.co/datasets/Yinxuan/OCTScenes 上獲得。
我們提出了CAJun,一個新穎的階層式學習和控制框架,使四足機器人能夠以適應性跳躍距離連續跳躍。CAJun包括高層次的質心策略和低層次的腿部控制器。具體而言,我們使用強化學習(RL)來訓練質心策略,該策略指定了腿部控制器的步態定時、基準速度和擺動腳位置。腿部控制器根據步態定時對擺動腳目標和基準速度指令進行最優控制,優化擺動腿和支撐腿的馬達指令。此外,我們重新制定了腿部控制器中的支撐腿優化器,將策略訓練速度提高了一個數量級。我們的系統結合了學習的靈活性和最優控制的穩健性。通過將RL與最優控制方法結合,我們的系統實現了學習的靈活性,同時享受控制方法的穩健性,使其易於應用於真實機器人。我們展示,在單個GPU上訓練20分鐘後,CAJun能夠在Go1機器人上實現連續、長距離的適應性跳躍,並且在模擬與真實之間存在較小的差距。此外,該機器人可以跨越最大寬度為70厘米的間隙,比現有方法寬40%以上。