每日精選AI研究論文及翻譯
像ChatGPT一樣的模型已經在人工智慧的各種應用中引起了革命,從摘要和編碼到翻譯,甚至超越了人類的表現。然而,目前的情況缺乏一個可存取、高效且具成本效益的端對端RLHF(Reinforcement Learning with Human Feedback)訓練管道,尤其是當在數十億參數的規模上進行訓練時。本文介紹了DeepSpeed-Chat,這是一個新穎的系統,使RLHF訓練對AI社區變得更加可存取。DeepSpeed-Chat提供了三個關鍵功能:一個易於使用的ChatGPT-like模型的訓練和推斷體驗,一個DeepSpeed-RLHF管道,復制了InstructGPT的訓練管道,以及一個強大的DeepSpeed-RLHF系統,結合了各種優化,以統一方式進行訓練和推斷。該系統提供了無與倫比的效率和可擴展性,使得能夠在短時間內以及成本的一小部分訓練具有數千億參數的模型成為可能。通過這一發展,DeepSpeed-Chat為更廣泛地存取先進的RLHF訓練鋪平了道路,即使是資源有限的數據科學家,也能促進AI領域的創新和進一步發展。
稀疏的專家混合架構(MoEs)可以擴展模型容量,而不會增加訓練或推理成本。儘管MoEs取得成功,但存在一些問題:訓練不穩定、標記丟失、無法擴展專家數量或微調無效。在這項研究中,我們提出了Soft MoE,這是一個完全可微分的稀疏Transformer,解決了這些挑戰,同時保留了MoEs的優勢。Soft MoE通過將所有輸入標記的不同加權組合傳遞給每個專家,執行隱式軟分配。與其他MoE作品一樣,Soft MoE中的專家僅處理(組合的)標記子集,從而實現更大的模型容量,並降低推理成本。在視覺識別方面,Soft MoE遠優於標準Transformer(ViTs)和流行的MoE變體(標記選擇和專家選擇)。例如,Soft MoE-Base/16的推理成本比ViT-Huge/14低10.5倍(牆鐘時間低5.7倍),在類似訓練後表現相當。Soft MoE還具有良好的擴展性:Soft MoE Huge/14在16個MoE層中擁有128個專家,比ViT Huge/14多40倍以上的參數,而推理時間成本僅增長2%,並且表現顯著更好。
儘管語言引導的圖像操作取得了顯著進展,但如何準確指導操作過程以忠實反映人類意圖的挑戰仍然存在。使用自然語言對操作任務進行準確而全面的描述是費時的,有時甚至是不可能的,主要是由於語言表達中存在的固有不確定性和模棱兩可性。在不倚賴外部跨模態語言信息的情況下完成圖像操作是否可行?如果存在這種可能性,固有的模態差距將輕鬆消除。在本文中,我們提出了一種新穎的操作方法,名為ImageBrush,它學習視覺指令以進行更準確的圖像編輯。我們的關鍵想法是使用一對轉換圖像作為視覺指令,這不僅能準確捕捉人類意圖,還有助於在現實場景中的可訪問性。捕捉視覺指令特別具有挑戰性,因為它涉及僅從視覺演示中提取潛在意圖,然後將此操作應用於新圖像。為應對這一挑戰,我們將視覺指令學習定義為基於擴散的修補問題,通過生成的迭代過程充分利用上下文信息。精心設計了視覺提示編碼器,以增強模型在揭示視覺指令背後的人類意圖方面的能力。大量實驗表明,我們的方法生成引人入勝的操作結果,符合演示中所涉及的轉換。此外,我們的模型展現出對各種下游任務的強大泛化能力,如姿勢轉移、圖像翻譯和視頻修補。
我們的方法稱為「嵌入式語言/圖像對齊X光」(Embeddings for Language/Image-aligned X-Rays,ELIXR),利用一個語言對齊的圖像編碼器結合或植入到一個固定的LLM,PaLM 2,以執行各種任務。我們使用來自MIMIC-CXR數據集的圖像配對相應的放射學報告來訓練這個輕量級適配器架構。ELIXR在零樣本胸部X光(CXR)分類(13個發現的平均AUC為0.850)、數據高效CX光分類(對於1%(約2,200張圖像)和10%(約22,000張圖像)的訓練數據,對於五個發現(肺膨脹、心臟肥大、浸潤、胸腔積液和肺水腫)的平均AUC分別為0.893和0.898)、以及語義搜索(在十九個查詢中的0.76標準化折扣累積增益(NDCG),其中有十二個查詢的完美檢索)。與現有的數據高效方法(包括監督對比學習(SupCon))相比,ELIXR需要兩個數量級更少的數據來達到類似的性能。ELIXR在CXR視覺語言任務上也表現出潛力,分別在視覺問答和報告質量保證任務上達到58.7%和62.5%的整體準確率。這些結果表明ELIXR是一種強大且多功能的CXR人工智能方法。
受到基於DETR的方法在COCO檢測和分割基準上建立新紀錄的啟發,許多最近的努力顯示對如何通過在凍結主幹的同時以自監督方式預訓練Transformer進一步改進基於DETR的方法越來越感興趣。一些研究已聲稱在準確性方面取得了顯著進展。在本文中,我們仔細研究了他們的實驗方法,並檢查他們的方法是否仍然對最新的H-Deformable-DETR等最新技術有效。我們對COCO物體檢測任務進行了全面實驗,以研究預訓練數據集的選擇、定位和分類目標生成方案的影響。不幸的是,我們發現以前的代表性自監督方法,如DETReg,在完整數據範疇上無法提升強大的基於DETR的方法的性能。我們進一步分析原因,發現僅僅結合更準確的框預測器和Objects365基準可以顯著改善後續實驗的結果。我們通過在COCO驗證集上實現AP=59.3%的強大物體檢測結果來展示我們方法的有效性,超越了H-Deformable-DETR + Swin-L的+1.4%。最後,我們通過結合最新的圖像到文本標題模型(LLaVA)和文本到圖像生成模型(SDXL)生成一系列合成預訓練數據集。值得注意的是,在這些合成數據集上進行預訓練導致物體檢測性能顯著提升。展望未來,我們預期通過擴展合成預訓練數據集將獲得實質性優勢。
作為基礎視覺語言模型,CLIP廣泛應用於零樣本圖像分類,因其能夠理解各種視覺概念和自然語言描述。然而,如何充分利用CLIP卓越的類人理解能力來實現更好的零樣本分類仍然是一個未解之謎。本文從人類視覺知覺過程中汲取靈感:一種現代神經科學觀點認為,在對物體進行分類時,人類首先推斷其與類別無關的屬性(例如背景和方向),這有助於將前景物體與背景區分開來,然後基於此信息做出決策。受此啟發,我們觀察到為CLIP提供上下文屬性可以改善零樣本分類並減輕對偶發特徵的依賴。我們還觀察到,CLIP本身可以合理地從圖像中推斷這些屬性。基於這些觀察,我們提出了一種名為PerceptionCLIP的無需訓練的零樣本分類方法,分為兩步:首先推斷上下文屬性(例如背景),然後在此基礆上進行對象分類。我們的實驗表明,PerceptionCLIP實現了更好的泛化性、組別韌性和更好的可解釋性。例如,搭配ViT-L/14的PerceptionCLIP在Waterbirds數據集上將最差組別準確率提高了16.5%,在CelebA數據集上提高了3.5%。