每日精選AI研究論文及翻譯
受大數據預訓練驅動,Segment Anything Model(SAM)已被證明為一個強大且可促進的框架,徹底改變了分割模型。儘管具有通用性,尚未深入探討為特定視覺概念定制SAM而無需人力提示,例如,在不同圖像中自動分割您的寵物狗。本文提出了一種無需訓練的個性化方法,稱為PerSAM,用於SAM。給定僅一張帶有參考遮罩的圖像,PerSAM首先通過位置先驗來定位目標概念,並通過三種技術在其他圖像或視頻中進行分割:目標引導注意力、目標語義提示和級聯後處理。通過這種方式,我們有效地使SAM適應私人使用而無需任何訓練。為了進一步減輕遮罩的模糊性,我們提出了一種高效的一次性微調變體,PerSAM-F。凍結整個SAM,我們引入了兩個可學習的權重用於多尺度遮罩,僅在10秒內訓練2個參數以提高性能。為了展示我們的效力,我們構建了一個新的分割數據集,PerSeg,用於個性化評估,並在具有競爭性表現的視頻對象分割上測試我們的方法。此外,我們的方法還可以增強DreamBooth,以個性化穩定擴散用於文本到圖像生成,從而消除背景干擾以獲得更好的目標外觀學習。代碼已在https://github.com/ZrrSkywalker/Personalize-SAM 上發布。
儘管大型語言模型(如ChatGPT)生成質量令人印象深刻,但根據特定用戶需求調整輸出仍然是一個挑戰。在本文中,我們提出了一個三代理生成流程,包括生成器、指導者和編輯器,以增強生成輸出的定制化。生成器產生初始輸出,特定用戶的指導者生成編輯指示,編輯器生成符合用戶偏好的修訂輸出。推理專用的大型語言模型(ChatGPT)既充當生成器又充當編輯器,而較小的模型則充當特定用戶的指導者,引導生成過程以滿足用戶需求。指導者使用編輯器引導的強化學習進行訓練,利用來自大規模編輯器模型的反饋來優化指示生成。在兩個抽象摘要數據集上的實驗結果顯示了我們方法在生成更符合用戶期望的輸出方面的有效性。
我們提出了 Shap-E,一種用於3D資產的有條件生成模型。與最近關於3D生成模型的工作不同,這些模型產生單一輸出表示,Shap-E直接生成可以呈現為紋理網格和神經輻射場的隱式函數的參數。我們通過兩個階段來訓練Shap-E:首先,我們訓練一個編碼器,將3D資產確定性地映射到隱式函數的參數;其次,我們對編碼器的輸出訓練一個有條件擴散模型。當在大量配對的3D和文本數據集上進行訓練時,我們的模型能夠在幾秒內生成複雜且多樣的3D資產。與Point-E相比,Point-E是一種基於點雲的顯式生成模型,Shap-E收斂速度更快,盡管對建模更高維度、多表示輸出空間,但達到了相當或更好的樣本質量。我們在https://github.com/openai/shap-e上釋放模型權重、推理代碼和樣本。
近期的 AI 助理代理,如 ChatGPT,主要依賴監督微調(SFT)與來自人類反饋的強化學習(RLHF),以調整大型語言模型(LLMs)的輸出與人類意圖一致,確保它們具有幫助性、道德性和可靠性。然而,這種依賴性可能會嚴重限制 AI 助理代理的真正潛力,因為獲取人類監督的高成本以及相關的質量、可靠性、多樣性、自一致性和不良偏見問題。為應對這些挑戰,我們提出了一種名為 SELF-ALIGN 的新方法,結合基於原則的推理和LLMs的生成能力,實現AI代理的自我調整,並最小化人類監督。我們的方法包括四個階段:首先,我們使用LLM生成合成提示,並使用主題導向方法來增加提示的多樣性;其次,我們使用少量人類編寫的原則供AI模型遵循,並通過在上下文中從示範(原則應用)中引導LLM,以對用戶查詢產生幫助性、道德性和可靠性的回應;第三,我們使用高質量的自我調整回應對原始LLM進行微調,使結果模型能夠直接為每個查詢生成理想的回應,而無需再使用原則集和示範;最後,我們提供一個改進步驟來解決過於簡短或間接回應的問題。將SELF-ALIGN應用於LLaMA-65b基礎語言模型,我們開發了一個名為Dromedary的AI助理。僅使用不到300行人類標註(包括<200個種子提示、16個通用原則和5個示例進行上下文學習),Dromedary在各種設置的基準數據集上顯著超越了幾個最先進的AI系統,包括Text-Davinci-003和Alpaca。