每日精選AI研究論文及翻譯
給定兩幅圖像,一幅描繪一人,另一幅描繪另一人穿著的服裝,我們的目標是生成一個視覺化,展示服裝在輸入人物身上的可能外觀。一個關鍵挑戰是在變形服裝以適應主題之間的重大身體姿勢和形狀變化的同時,合成一個保留真實細節的視覺化。先前的方法要麼專注於保留服裝細節而沒有效處理姿勢和形狀變化,要麼允許試穿具有所需形狀和姿勢,但缺乏服裝細節。在本文中,我們提出了一種基於擴散的架構,統一了兩個 UNet(稱為平行 UNet),這使我們能夠在單個網絡中保留服裝細節並變形服裝以應對重大的姿勢和身體變化。平行 UNet 的關鍵思想包括:1)通過交叉注意機制隱式變形服裝,2)服裝變形和人物融合作為統一過程的一部分,而不是兩個獨立任務的序列。實驗結果表明,TryOnDiffusion 在質量和量化方面均實現了最先進的性能。
人眼的反射特性是一個被低估的資訊來源,提供了關於我們周圍世界的外觀的信息。透過對移動中人眼的成像,我們可以透過眼睛中的反射收集攝像機視線之外的場景的多個視角。本文中,我們使用包含眼睛反射的肖像圖像重建攝像機視線之外的3D場景。這個任務具有挑戰性,原因在於1)準確估計眼睛姿勢的困難,以及2)眼睛虹膜和場景反射的混合外觀。我們的方法聯合優化角膜姿勢、描繪場景的輻射場,以及觀察者的眼睛虹膜紋理。我們進一步提出了對虹膜紋理圖案的簡單正則化先驗,以提高重建質量。通過對合成和真實世界拍攝的各種實驗,展示了我們的方法在恢復使用眼睛反射的3D場景方面的可行性,這些實驗包括具有不同眼睛顏色的人物。
大型語言模型編碼器(Code LLMs),如StarCoder,在與代碼相關的任務中展現出卓越的性能。然而,大多數現有模型僅在廣泛的原始代碼數據上進行預訓練,沒有進行指導微調。本文介紹了WizardCoder,它通過將Evol-Instruct方法應用於代碼領域,為Code LLMs提供了複雜的指導微調能力。通過對四個著名的代碼生成基準進行全面實驗,即HumanEval、HumanEval+、MBPP和DS-1000,我們展示了我們模型的卓越能力。它在所有其他開源Code LLMs上取得了顯著的優勢。此外,我們的模型甚至在HumanEval和HumanEval+上超越了最大的封閉LLMs,Anthropic的Claude和Google的Bard。我們的代碼、模型權重和數據可在https://github.com/nlpxucan/WizardLM 上公開獲取。
最近對大型語言模型(LLMs)的研究已經在一般自然語言處理人工智慧助手方面取得了顯著進展。一些研究進一步探索了使用LLMs來規劃和調用模型或API以應對更一般的多模態用戶查詢。儘管取得了這一進展,由於視覺任務的多樣性,複雜的基於視覺的任務仍然具有挑戰性。這種多樣性體現在兩個方面:1)推理路徑。對於許多實際應用,僅通過檢視查詢本身很難準確地分解查詢。通常需要基於特定視覺內容和每個步驟的結果進行規劃。2)靈活的輸入和中間結果。對於野外案例,輸入形式可能是靈活的,不僅包括單個圖像或視頻,還包括視頻和圖像的混合,例如,用戶視圖圖像與一些參考視頻。此外,複雜的推理過程還將生成多樣的多模態中間結果,例如,視頻敘述,分段視頻剪輯等。為了應對這樣的一般情況,我們提出了一種多模態人工智慧助手AssistGPT,採用交錯的代碼和語言推理方法,稱為Plan,Execute,Inspect和Learn(PEIL)來將LLMs與各種工具集成。具體而言,規劃者能夠使用自然語言來規劃執行器中下一步應該做什麼,基於當前的推理進度。檢查器是一個高效的內存管理器,協助規劃者向特定工具提供適當的視覺信息。最後,由於整個推理過程既複雜又靈活,因此設計了一個學習者,使模型能夠自主探索並發現最佳解決方案。我們在A-OKVQA和NExT-QA基準上進行了實驗,取得了最先進的結果。此外,展示了我們的系統處理比基準中更複雜問題的能力。
知識蒸餾(KD)是一種有潛力減少大型語言模型(LLMs)高計算需求的技術。然而,先前的KD方法主要應用於白盒分類模型或訓練小模型來模仿像ChatGPT這樣的黑盒模型API。如何有效地從白盒生成式LLMs中提煉知識仍未得到深入探討,隨著LLMs的繁榮,這變得越來越重要。在這項工作中,我們提出MiniLLM,從生成式較大的語言模型中提煉出較小的語言模型。我們首先將標準KD方法中的前向Kullback-Leibler散度(KLD)目標替換為反向KLD,這對於在生成式語言模型上進行KD更為適用,以防止學生模型高估教師分佈的低概率區域。然後,我們提出了一種有效的優化方法來學習這個目標。在指令遵循設置中進行的大量實驗表明,MiniLLM模型生成的回應更準確,整體質量更高,暴露偏差更低,校準更好,長文本生成性能更高。我們的方法也適用於具有1.2億至130億參數的不同模型系列。我們將在https://aka.ms/MiniLLM 上發布我們的代碼和模型檢查點。
大型語言模型(LLM)的前所未有表現需要改進評估。我們認為,與其僅僅探索LLM能力的廣度,精心和周到的設計對於進行徹底、公正和適用的評估至關重要。鑒於世界知識對LLM的重要性,我們建立了一個以知識為導向的LLM評估基準(KoLA),在其中我們精心設計了三個關鍵因素:(1)對於能力建模,我們模仿人類認知,形成了一個包含19個任務的四級知識相關能力分類。 (2)對於數據,為了確保公平比較,我們既使用了經常被LLM預先訓練的語料庫維基百科,也使用了持續收集的新興語料庫,旨在評估處理未見數據和不斷發展知識的能力。 (3)對於評估標準,我們採用對比系統,包括整體標準分數,以便更好地在任務和模型之間進行數值比較,以及一個獨特的自對比指標,用於自動評估知識幻覺。我們評估了21個開源和商業LLM,並獲得了一些有趣的發現。KoLA數據集和開放參與排行榜已在https://kola.xlore.cn 公開發布,並將持續更新,以提供開發LLM和知識相關系統的參考。
基礎大型語言模型(LLMs)如 GPT-4 代表了 AI 領域的一場革命,透過自然語言處理實現了在現實世界中的應用。然而,它們也帶來許多重大風險,例如存在偏見、私人或有害文本,以及未經授權包含受版權保護的材料。 我們介紹 h2oGPT,這是一套基於生成式預訓練轉換器(GPTs)的大型語言模型(LLMs)創建和使用的開源程式碼存儲庫。該項目的目標是創建世界上最好的真正開源替代方案,以取代封閉式的 GPTs。通過與令人難以置信且不可阻擋的開源社區合作,我們開源了幾個從 70 到 400 億參數的精調 h2oGPT 模型,可在完全寬鬆的 Apache 2.0 許可證下商業使用。我們的發布中還包括使用自然語言進行 100% 私人文件搜索。 開源語言模型有助於推動 AI 發展,使其更具可及性和可信賴性。它們降低了進入門檻,讓個人和團體能夠根據自己的需求來定制這些模型。這種開放性增加了創新、透明度和公平性。開源策略對於公平分享 AI 好處至關重要,H2O.ai 將繼續實現 AI 和 LLMs 的民主化。
我們提出了DreamHuman,一種僅從文字描述生成逼真可動的3D人類角色模型的方法。最近的文本轉3D方法在生成方面取得了相當大的進展,但在一些重要方面仍然存在不足。控制和空間分辨率通常受限,現有方法生成的是固定而非動畫的3D人類模型,而對於複雜結構如人類的人體測量一致性仍然是一個挑戰。DreamHuman將大型文本到圖像合成模型、神經輻射場和統計人體模型結合在一個新穎的建模和優化框架中。這使得能夠生成具有高質量紋理和學習的、特定實例的表面變形的動態3D人類角色。我們展示了我們的方法能夠從文本生成各種可動、逼真的3D人類模型。我們的3D模型具有多樣的外觀、服裝、膚色和身體形狀,並在視覺保真度方面明顯優於通用文本到3D方法和先前基於文本的3D角色生成器。欲了解更多結果和動畫,請查看我們的網站:https://dream-human.github.io。
儘管調整過的大型語言模型(LLMs)在各種自然語言處理任務中展現出卓越的能力,但它們在文字以外的其他數據模態上的有效性尚未得到充分研究。在這項工作中,我們提出了Macaw-LLM,一種新穎的多模態LLM,無縫地整合了視覺、音頻和文字信息。Macaw-LLM由三個主要組件組成:用於編碼多模態數據的模態模塊、用於利用預訓練的LLMs的認知模塊,以及用於協調不同表示的對齊模塊。我們的新型對齊模塊無縫地將多模態特徵與文字特徵相連,簡化了從模態模塊到認知模塊的適應過程。此外,我們構建了一個大規模的多模態指令數據集,涉及多輪對話,包括69K個圖像實例和50K個視頻實例。我們已經公開提供了我們的數據、代碼和模型,希望這能為未來多模態LLMs的研究鋪平道路,擴展LLMs處理多樣數據模態和應對複雜現實情境的能力。
大型語言模型(LLMs)已展示出在上下文學習中取得多樣新能力的令人振奮進展,從邏輯推理到編碼寫作不等。機器人學研究人員也探索使用LLMs來提升機器人控制的能力。然而,由於低級機器人動作取決於硬件且在LLM訓練語料庫中佔比較少,現有的將LLMs應用於機器人學的努力主要將LLMs視為語義規劃器,或依賴人工設計的控制基元來與機器人進行接口。另一方面,獎勵函數被證明是可以為控制策略進行優化以實現多樣任務的靈活表示,而它們的語義豐富性使其適合由LLMs指定。在這項工作中,我們介紹了一種利用這一領悟的新範式,通過利用LLMs定義可以進行優化並完成各種機器人任務的獎勵參數。通過使用LLMs生成的獎勵作為中間接口,我們可以有效地將高級語言指令或更正與低級機器人動作之間的差距。同時,結合實時優化器MuJoCo MPC,增強了一種互動行為創建體驗,用戶可以立即觀察結果並向系統提供反饋。為了系統評估我們提出的方法的性能,我們為模擬四足機器人和靈巧機械手機器人設計了總共17個任務。我們展示了我們提出的方法可可靠地應對90%的設計任務,而使用基本技能作為與代碼作為策略的接口的基線則完成了50%的任務。我們進一步在真實機器人手臂上驗證了我們的方法,複雜的操作技能,如非抓握推動,是通過我們的互動系統實現的。
現實世界中的物件種類幾乎是無限的,因此使用在固定類別集上訓練的模型來捕捉是不可能的。因此,近年來,開放詞彙的方法引起了學術界的興趣。本文提出了一種新的方法,用於零樣本開放詞彙分割。先前的研究主要依賴對比訓練,使用圖像-文本對,利用分組機制來學習既與語言對齊又定位良好的圖像特徵。然而,這可能會引入模糊性,因為具有相似標題的圖像在視覺上的外觀通常不同。相反,我們利用大規模文本到圖像擴散模型的生成特性來對給定文本類別採樣一組支援圖像。這為給定文本提供了外觀的分佈,避開了模糊性問題。我們進一步提出了一種機制,考慮採樣圖像的上下文背景,以更好地定位物件並直接分割背景。我們展示了我們的方法可以用於將幾個現有的預訓練自監督特徵提取器與自然語言相關聯,並通過映射回支援集中的區域提供可解釋的預測。我們的提議無需訓練,僅依賴預訓練組件,但在一系列開放詞彙分割基準測試中表現出色,Pascal VOC基準測試的領先優勢超過10%。
在解決決策任務時,人類通常依賴兩個關鍵信息來源:(1) 歷史政策數據,提供與環境互動的重播,以及 (2) 自然語言形式的分析洞察,揭示寶貴的思考過程或戰略考量。儘管如此,先前的大部分研究都僅聚焦於一個信息來源:它們要麼僅使用歷史重播來直接學習政策或價值函數,要麼從事語言模型訓練,僅利用語言語料庫。在本文中,我們主張一個強大的自主代理應該涵蓋這兩個來源。因此,我們提出了ChessGPT,一個將政策學習和語言建模相結合的GPT模型,通過整合來自這兩個來源的數據在象棋遊戲中。具體來說,我們構建了一個與象棋相關的大規模遊戲和語言數據集。利用這個數據集,我們展示了兩個模型示例ChessCLIP和ChessGPT,整合了政策學習和語言建模。最後,我們提出了一個完整的評估框架,用於評估語言模型在象棋方面的能力。實驗結果驗證了我們模型和數據集的有效性。我們在https://github.com/waterhorse1/ChessGPT上開源了我們的代碼、模型和數據集。
我們匯編了一個包含4,550道問題和解決方案的全面數據集,來自麻省理工學院數學、電機工程和計算機科學(EECS)課程的問題集、期中考試和期末考試,這些課程是獲得學位所必需的。我們評估大型語言模型實現麻省理工學院數學和EECS專業的畢業要求的能力。我們的結果表明,GPT-3.5成功解決了整個麻省理工學院課程的三分之一,而GPT-4在排除基於圖像的問題後,通過提示工程實現了完美的解決率。我們在這個數據集上對一個開源的大型語言模型進行了微調。我們利用GPT-4自動評分模型回答,提供了按課程、問題和答案類型詳細的性能分析。通過將問題嵌入到低維空間中,我們探索了問題、主題和課程之間的關係,並發現哪些問題和課程需要通過少量樣本學習來解決其他問題和課程。我們的分析提供了有價值的見解,突顯了語言模型在學習和改進數學和EECS教育方面的潛力,同時強調了課程先決條件和課程設計。
我們介紹了「預測」:一種構建可控制的時間點過程生成模型的方法,該模型在非同步條件下受到第二個相關過程(控制過程)的實現的影響。我們通過交錯事件和控制的序列來實現這一點,使得控制在事件序列中的停止時間之後出現。這項工作是由在符號音樂生成控制中出現的問題所激發的。我們專注於填充控制任務,其中控制本身是事件的子集,並且在固定控制事件的情況下完成對事件序列的條件生成。我們使用大型且多樣化的Lakh MIDI音樂數據集來訓練預測填充模型。這些模型與提示音樂生成的自回歸模型的性能相匹配,並具有執行填充控制任務(包括伴奏)的額外能力。人類評估者報告說,預測模型生成的伴奏與人類創作的音樂在20秒片段中的音樂性相似。
我們提出了一種方法,可以在輸入視頻中推薦音樂,同時允許用戶通過自由形式的自然語言來引導音樂選擇。這個問題的一個關鍵挑戰是現有的音樂視頻數據集提供了所需的(視頻,音樂)訓練對,但缺乏音樂的文本描述。本文通過以下三個貢獻來應對這一挑戰。首先,我們提出了一種文本合成方法,依賴於基於類比的提示程序,從一個大規模語言模型(BLOOM-176B)中生成自然語言音樂描述,給定預先訓練的音樂標記器輸出和少量人類文本描述。其次,我們使用這些合成音樂描述來訓練一個新的三模型,該模型融合文本和視頻輸入表示以查詢音樂樣本。在訓練過程中,我們引入了一種文本輸出規則化機制,我們展示這對模型性能至關重要。我們的模型設計允許檢索到的音樂音頻與兩個輸入模態一致,通過匹配視頻中描繪的視覺風格和自然語言查詢中描述的音樂流派、情緒或樂器。第三,為了評估我們的方法,我們通過為問題標註 YT8M-MusicVideo 數據集中的 4k 個子片段,提供自然語言音樂描述的測試數據集,我們將其公開。我們展示了我們的方法在視頻到音樂檢索上可以達到或超過先前方法的性能,同時在使用文本引導時顯著提高了檢索準確性。
我們探討敏捷機器人中的一項基準任務:捕捉以高速投擲的物體。這是一項具有挑戰性的任務,涉及跟踪、截取和保護一個被投擲的物體,僅通過對物體的視覺觀察和機器人的本體感知狀態,在幾分之一秒內完成。我們介紹兩種基本不同解決方案策略的相對優點:(i)使用加速受限軌跡優化的模型預測控制,和(ii)使用零階優化的強化學習。我們提供有關各種性能折衷的見解,包括樣本效率、從模擬到實際的轉移、對分布變化的穩健性,以及通過大量硬件實驗實現全身多模態。最後,我們提出將“傳統”和“基於學習”的技術融合用於敏捷機器人控制的建議。我們的實驗視頻可在以下網址找到:https://sites.google.com/view/agile-catching
預先訓練的多模式視覺語言模型(VLMs)因在下游視覺應用中表現卓越,尤其在少量和零樣本設置下,而日益受到歡迎。然而,為某些下游應用選擇表現最佳的 VLM 並不簡單,因為這取決於數據集和任務。與此同時,在新應用上對所有可用的 VLM 進行詳盡評估不僅耗時且需要大量計算,還需要收集一個帶標籤的數據集進行評估。隨著開源 VLM 變體數量的增加,需要一種高效的模型選擇策略,而無需訪問經過精心編輯的評估數據集。本文提出了一種新的任務和基準,用於在無法訪問下游任務數據集的情況下有效評估 VLMs 在下游應用中的零樣本表現。具體來說,我們引入了一個新任務 LOVM:僅語言視覺模型選擇,期望方法僅基於對所需下游應用的文本描述執行模型選擇和性能預測。然後,我們引入了一個包含 35 個預先訓練的 VLMs 和 23 個數據集的廣泛 LOVM 基準,期望方法對預先訓練的 VLMs 進行排名並預測它們的零樣本表現。
最近,基於擴散的生成模型在圖像生成和編輯方面取得了顯著的成功。然而,它們在視頻編輯方面仍然面臨重要限制。本文介紹了VidEdit,一種新型的零樣本基於文本的視頻編輯方法,確保了強大的時間和空間一致性。首先,我們提出將基於地圖的和預訓練的文本到圖像擴散模型相結合,提供一種無需訓練且高效的編輯方法,其設計符合時間平滑性。其次,我們利用現成的全景分割器以及邊緣檢測器,並適應它們的用法來進行條件擴散式地圖編輯。這確保了對目標區域進行精細的空間控制,同時嚴格保留原始視頻的結構。定量和定性實驗表明,VidEdit在DAVIS數據集上優於最先進的方法,涉及語義忠實度、圖像保留和時間一致性指標。有了這個框架,處理一個視頻僅需大約一分鐘,並且可以基於唯一的文本提示生成多個兼容的編輯。項目網頁位於https://videdit.github.io。
最近在3D場景理解方面取得的進展使得能夠跨越大量不同場景的數據集進行可擴展的表示學習成為可能。因此,對於未見過的場景和物體的泛化,僅從單個或少量輸入圖像中生成新視角,以及支持編輯的可控場景生成現在都是可能的。然而,通常在大量場景上聯合訓練時,與像NeRFs這樣針對單個場景進行優化的模型相比,通常會影響渲染質量。在本文中,我們利用最近擴散模型的進展,為3D場景表示學習模型提供了渲染高保真新視角的能力,同時保留了諸如對象級場景編輯等好處。具體而言,我們提出了DORSal,它將視頻擴散架構應用於基於場景中心化槽位表示的3D場景生成。在複雜的合成多對象場景和現實世界的大規模Street View數據集上,我們展示了DORSal實現了可擴展的神經渲染3D場景的能力,並改進了現有方法。
我們展示了如何建立一個模型,允許從視頻中在新的照明條件下實現場景的真實、自由視角渲染。我們的方法——UrbanIR:城市場景逆向渲染——從視頻中計算逆向圖形表示。UrbanIR從單個未知照明的無邊界戶外場景視頻中聯合推斷形狀、反照率、可見性,以及太陽和天空照明。UrbanIR使用安裝在汽車上的攝像頭的視頻(與典型NeRF風格估計中同一點的多個視圖相比)。因此,標準方法產生了較差的幾何估計(例如,屋頂),並且存在許多''浮游物''。逆向圖形推斷中的錯誤可能導致強烈的渲染異常。UrbanIR使用新穎的損失來控制這些和其他錯誤來源。UrbanIR使用一種新穎的損失來對原始場景中的陰影體積進行非常好的估計。由此產生的表示有助於可控編輯,提供重照場景和插入物體的逼真自由視角渲染。定性評估表明,相對於最先進技術,有著明顯的改進。
本文提出了一個自主尋求資訊的視覺問答框架,稱為AVIS。我們的方法利用大型語言模型(LLM)動態策略化外部工具的使用,並調查它們的輸出,從而獲取提供問題答案所需的不可或缺的知識。回答需要外部知識的視覺問題,例如“這張圖中的建築紀念著什麼事件?”,是一個複雜的任務。這個任務呈現出一個需要一系列動作的組合搜索空間,包括調用API、分析它們的回應和做出明智決策。我們進行了一項用戶研究,收集了人類在面對這個任務時的各種決策實例。然後,這些數據被用來設計一個系統,包括三個組件:一個由LLM驅動的規劃器,動態確定下一步應該使用哪個工具;一個由LLM驅動的推理器,從工具輸出中分析並提取關鍵信息;以及一個工作記憶組件,在整個過程中保留獲得的信息。收集的用戶行為在兩個關鍵方面指導我們的系統。首先,通過分析用戶所做決策的順序,我們創建了一個轉換圖,描述了不同的狀態並限制了每個狀態可用的行動。其次,我們使用用戶決策的示例,為我們的LLM驅動的規劃器和推理器提供相關的情境實例,增強它們做出明智決策的能力。我們展示了AVIS在知識密集型視覺問答基準測試中(如Infoseek和OK-VQA)取得了最先進的結果。
最近神經重建技術的進步使得可以從隨意拍攝的圖像集合中進行高質量的3D物體重建。目前的技術主要在相對簡單的圖像集合上分析其進展,這些集合中結構從運動(SfM)技術可以提供地面真實(GT)相機姿勢。我們注意到SfM技術在野外圖像集合(例如具有不同背景和光線的圖像搜索結果)上往往失敗。為了促進從隨意拍攝的圖像中進行3D重建的系統性研究進展,我們提出了NAVI:一個新的類別不可知的物體圖像集合數據集,具有高質量的3D掃描,以及每個圖像的2D-3D對齊,提供幾乎完美的GT相機參數。這些2D-3D對齊使我們能夠提取準確的導數標註,例如密集像素對應、深度和分割地圖。我們展示了在不同問題設置上使用NAVI圖像集合的情況,並顯示NAVI使得可以進行更全面的評估,這是現有數據集無法實現的。我們認為NAVI對於促進3D重建和對應估計的系統性研究進展是有益的。項目頁面:https://navidataset.github.io
在這份研究中,我們探討大規模語言模型(LLM)對YouTube視頻的自動語音識別(ASR)的影響,我們將其作為長篇ASR的來源。我們展示了在美國英語(en-us)和混合印度英語(en-in)長篇ASR測試集中,相對詞錯率(WER)最多降低8%,以及在重要術語錯誤率(STER)上最多降低30%,相對於使用基於最大熵的語言模型的強大首過基線。改進的格子處理導致格子具有適當(非樹狀)的雙字拓撲結構,並從前一段的1最佳假設中攜帶上下文,這在使用LLM進行重評時帶來了顯著的優勢。我們還發現,LLM與訓練於大量可用數據(如C4)以及傳統神經語言模型的組合所帶來的性能提升是可加的,並且明顯優於使用最大熵LM的強大首過基線。
在不同照明條件下重建和重新照明物體和場景具有挑戰性:現有的神經渲染方法通常無法處理材料和光線之間的複雜交互作用。將預先計算的輻射傳輸技術納入可以實現全局照明,但仍然難以應對具有次表面散射效應的材料。我們提出了一個新穎的框架,通過體積渲染學習輻射傳輸場,並利用各種外觀線索來端對端地優化幾何。該框架擴展了重新照明和重建能力,以以數據驅動的方式處理更廣泛範圍的材料。所產生的模型在現有和新的條件下產生合理的渲染結果。我們將公開發布代碼和一個包含具有次表面散射效應的物體的新穎光線舞台數據集。
考慮一個機器人的任務是整理一個精心構建的樂高運動汽車的桌子。人類可能會意識到將運動汽車拆解並放好是不符合社交禮儀的。機器人如何得出這個結論呢?儘管最近大型語言模型(LLMs)已被用於實現社交推理,但將這種推理基於現實世界仍然具有挑戰性。為了在現實世界中進行推理,機器人必須超越被動地向LLMs查詢,*主動從環境中收集信息*,以做出正確的決定。例如,在檢測到有一輛被遮蔽的汽車後,機器人可能需要主動感知汽車,以了解它是由樂高製成的高級型號汽車,還是由幼兒製作的玩具車。我們提出了一種方法,利用LLM和視覺語言模型(VLM)來幫助機器人主動感知其環境,從而進行基於現實的社交推理。為了在規模上評估我們的框架,我們發布了MessySurfaces數據集,其中包含70個需要清潔的現實世界表面的圖像。我們還通過一個機器人在2個精心設計的表面上展示了我們的方法。我們發現MessySurfaces基準測試平均提高了12.9%,機器人實驗平均提高了15%,相對於不使用主動感知的基線。可以在https://minaek.github.io/groundedsocialreasoning找到數據集、代碼和我們方法的視頻。
深度學習模型的超參數調整可以使性能提升一個數量級,而計算量卻相同。儘管如此,系統性調整並不常見,尤其對於昂貴且具有許多超參數的大型模型,這需要對權衡、預算和搜索範圍進行困難的判斷。為了應對這些問題並提出一種穩健調整大型模型的實用方法,我們提出了成本感知帕累托區域貝葉斯搜索(CARBS),這是一種貝葉斯優化算法,可在性能成本帕累托邊界周圍執行局部搜索。CARBS即使在具有許多超參數的無界搜索空間中也表現出色,學習縮放關係,以便在模型擴展時進行調整,並自動化許多調整中的「黑魔法」。在我們的研究結果中,我們通過調整一個簡單的基準線(如原始ProcGen論文中提供的PPO)有效解決了整個ProcGen基準測試。我們還從Chinchilla項目(Hoffmann等人,2022年)中重現了模型大小與訓練標記縮放結果,同時通過一個簡單的自動化過程發現了其他每個超參數的縮放定律,該過程使用的計算量明顯較少,並且適用於任何深度學習問題(不僅僅是語言模型)。