每日精選AI研究論文及翻譯
大型語言模型用於程式碼(程式碼LLM)正蓬勃發展。每週都會推出新的強大模型,展示在程式碼生成任務上出色的表現。已提出各種方法來提升預訓練程式碼LLM的生成性能,例如監督微調、指導微調、強化學習等。本文提出了一個新穎的RRTF(Rank Responses to align Test&Teacher Feedback)框架,可以有效且高效地提升預訓練的大型語言模型用於程式碼生成。在此框架下,我們提出了PanGu-Coder2,在OpenAI HumanEval基準測試中取得了62.20%的pass@1。此外,通過對CoderEval和LeetCode基準測試的廣泛評估,我們展示PanGu-Coder2在一致優於所有先前的程式碼LLM。
我們提出了TransNormerLLM,這是第一個基於線性注意力的大型語言模型(LLM),在準確性和效率方面均優於傳統基於softmax注意力的模型。TransNormerLLM是基於先前的線性注意力架構TransNormer進化而來,通過包括位置嵌入、線性注意力加速、閘控機制、張量歸一化、推理加速和穩定化等先進修改。具體來說,我們使用LRPE與指數衰減,以避免注意力稀釋問題,同時允許模型保留標記之間的全局交互作用。此外,我們提出了Lightning Attention,一種先進技術,可以將線性注意力運行時間加速超過兩倍,並將內存使用量減少四倍。為了進一步提升TransNormer的性能,我們利用閘控機制平滑訓練,並採用新的張量歸一化方案加速模型,實現超過20%的顯著加速。此外,我們開發了一種強大的推理算法,確保數值穩定性和一致的推理速度,無論序列長度如何,都展現出在訓練和推理階段均具有卓越效率。我們的模型設計著重於可擴展性,可以無縫部署在大型集群上,並有助於擴展到更加龐大的模型,同時保持優異的性能指標。通過在我們自行收集的語料庫上進行一系列全面的實驗,其中包含超過6TB的數據,包含超過2萬億個標記,我們實現了對模型設計的嚴格驗證。為確保數據質量和相關性,我們實施了一種新的自潔策略來過濾我們收集的數據。我們的預訓練模型將被釋出,以促進社區對高效LLM的進步。
我們提出了一個機器人技能習得框架,該框架能夠 1) 高效擴展語言標記機器人數據的生成,並且 2) 有效地將這些數據提煉為強大的多任務語言條件視覺運動策略。對於(1),我們使用大型語言模型(LLM)來引導高層級規劃,並使用基於抽樣的機器人規劃器(例如運動或抓取抽樣器)來生成多樣且豐富的操作軌跡。為了使這個數據收集過程更加穩健,LLM 還推斷出每個任務的成功條件的代碼片段,同時使數據收集過程能夠檢測失敗並重試,以及自動標記軌跡的成功/失敗。對於(2),我們將擴散策略單任務行為克隆方法擴展到具有語言條件的多任務設置。最後,我們提出了一個新的多任務基準測試,涵蓋五個領域的 18 個任務,用於測試長時間視角行為、常識推理、工具使用和直觀物理。我們發現,我們提煉的策略在其數據收集策略中成功學習了強大的重試行為,同時在五個領域中平均提高了 34.8% 的絕對成功率。基準測試、代碼和定性結果可在我們的網站上找到:https://www.cs.columbia.edu/~huy/scalingup/
在計算機視覺中,視覺物體追蹤是一項基礎的視頻任務。最近,感知算法顯著增強的能力使得單/多物體和基於框/遮罩的追蹤得以統一。其中,「Segment Anything Model」(SAM)引起了廣泛關注。在本報告中,我們提出了一個名為HQTrack的框架,用於在視頻中高質量地追蹤任何物體。HQTrack主要由視頻多物體分割器(VMOS)和遮罩優化器(MR)組成。給定要在視頻的初始幀中追蹤的物體,VMOS將物體遮罩傳播到當前幀。由於VMOS是在幾個最接近的視頻物體分割(VOS)數據集上進行訓練的,對於復雜和角落場景的泛化能力有限,因此這一階段的遮罩結果不夠準確。為了進一步提高追蹤遮罩的質量,我們使用了預訓練的MR模型來優化追蹤結果。作為我們範式有效性的有力證明,HQTrack在視覺物體追蹤和分割(VOTS2023)挑戰中排名第二,而無需使用任何技巧,如測試時數據增強和模型集成。代碼和模型可在https://github.com/jiawen-zhu/HQTrack找到。
醫學本質上是多模態的,具有豐富的數據形式,包括文本、影像、基因組等。靈活編碼、整合和解釋這些數據的通用生物醫學人工智慧(AI)系統,潛在地可以實現從科學發現到護理交付等具有影響力的應用。為了促進這些模型的開發,我們首先編輯了MultiMedBench,這是一個新的多模態生物醫學基準。MultiMedBench 包含了14個不同的任務,如醫學問答、乳房X光攝影和皮膚科影像解釋、放射學報告生成和摘要,以及基因組變異呼叫等。然後,我們介紹了Med-PaLM Multimodal(Med-PaLM M),這是我們的一個通用生物醫學AI系統的概念證明。Med-PaLM M 是一個大型多模態生成模型,可以靈活編碼和解釋包括臨床語言、影像和基因組等在內的生物醫學數據,使用相同的模型權重。Med-PaLM M 在所有MultiMedBench任務上達到了與或超越最先進技術的競爭性表現,往往超過專家模型很大範圍。我們還報告了對新醫學概念和任務的零-shot泛化示例,跨任務的正向轉移學習,以及新興的零-shot醫學推理。為了進一步探討Med-PaLM M 的能力和局限性,我們對模型生成(和人類)胸部X光報告進行了放射學家評估,觀察到在不同模型規模下表現令人鼓舞。在對246例回顧性胸部X光進行並排排名時,臨床醫生在多達40.50%的情況下對Med-PaLM M 的報告表現出兩兩偏好,這表明潛在的臨床效用。雖然需要大量工作來驗證這些模型在實際用例中的有效性,但我們的結果代表了通用生物醫學AI系統發展的一個里程碑。
最近,文字轉3D生成引起了相當大的關注,這得益於在數十億張圖像-文字對上訓練的2D擴散模型。現有方法主要依賴分數蒸餾,以利用2D擴散先驗來監督3D模型的生成,例如NeRF。然而,分數蒸餾容易遭受視角不一致問題,而隱式的NeRF建模也可能導致任意形狀,進而導致不夠逼真和難以控制的3D生成。在這項工作中,我們提出了一個靈活的Points-to-3D框架,以從2D和3D擴散模型中提煉知識,彌合稀疏但自由可用的3D點與逼真形狀可控的3D生成之間的差距。Points-to-3D的核心思想是引入可控制的稀疏3D點來引導文字轉3D生成。具體來說,我們使用從3D擴散模型Point-E生成的稀疏點雲作為幾何先驗,條件是單張參考圖像。為了更好地利用稀疏3D點,我們提出了一個高效的點雲引導損失,以自適應地驅動NeRF的幾何形狀與稀疏3D點的形狀對齊。除了控制幾何形狀,我們提出了為了更具視角一致性的外觀優化NeRF的方法。具體來說,我們對公開可用的2D圖像擴散模型ControlNet進行分數蒸餾,條件是文字以及學習到的緊湊幾何深度圖。定性和定量比較表明,Points-to-3D改善了視角一致性,並實現了良好的形狀可控性,用於文字轉3D生成。Points-to-3D為用戶提供了一種改進和控制文字轉3D生成的新途徑。
對於藝術家或平面設計師來說,場景的空間佈局是一個至關重要的設計選擇。然而,現有的文本到圖像擴散模型在整合空間信息方面提供的支持有限。本文介紹了複合擴散作為一種讓藝術家通過組合子場景生成高質量圖像的方法。藝術家可以通過靈活的自由形式段落佈局來指定這些子場景的排列。他們可以主要使用自然文本描述每個子場景的內容,並可以額外利用參考圖像或控制輸入,如線條藝術、塗鴉、人體姿勢、canny邊緣等。 我們提供了一種全面且模塊化的複合擴散方法,使得生成、組合和協調子場景的方式更加多樣化。此外,我們希望評估複合圖像在圖像質量和實現藝術家意圖方面的有效性。我們認為現有的圖像質量指標缺乏對圖像複合的全面評估。為解決這一問題,我們提出了特別適用於複合生成的新穎質量標準。 我們相信我們的方法提供了一種直觀的藝術創作方法。通過廣泛的用戶調查、定量和定性分析,我們展示了它如何實現對圖像生成具有更大的空間、語義和創意控制。此外,我們的方法無需重新訓練或修改基礎擴散模型的架構,可以與微調模型以即插即用的方式配合運作。
我們研究通過從用戶與已部署模型之間的自然對話中學習,來改善社交對話代理的方法,而無需額外的標註。為了隱含地衡量機器生成的發言的質量,我們利用信號,如用戶回應長度、情感以及在收集的對話片段中未來人類發言的反應。我們的實驗使用了從BlenderBot(Xu等人,2023)公開發布的部署數據。人類評估表明,我們的新模型在基準回應上有所改進;然而,我們發現一些代理信號也可能導致更多具有不良特性的生成。例如,優化對話長度可能會導致與基準相比更具爭議性或不友好的生成,而優化正面情感或反應可能會減少這些行為。
最近的視覺轉換器、大核心卷積神經網絡和多層感知器在廣泛的視覺任務中取得了顯著的成功,這要歸功於它們在全局範圍內的有效信息融合。然而,它們的高效部署,尤其是在移動設備上,仍然面臨顯著挑戰,這是由於自注意機制、大核心或全連接層的高計算成本所致。在這項工作中,我們應用傳統卷積定理到深度學習中,以應對這一問題,並揭示自適應頻率濾波器可以作為高效的全局標記混合器。基於這一見解,我們提出了自適應頻率濾波(AFF)標記混合器。這種神經運算子通過傅立葉變換將潛在表示轉換到頻率域,並通過逐元素乘法執行語義自適應頻率濾波,從數學上等於在原始潛在空間中使用動態卷積核進行標記混合操作,其尺寸與該潛在表示的空間分辨率一樣大。我們將AFF標記混合器作為主要神經運算子來構建一個輕量級神經網絡,名為AFFNet。大量實驗證明了我們提出的AFF標記混合器的有效性,並顯示AFFNet在廣泛的視覺任務上,包括視覺識別和密集預測任務,實現了優越的準確性和效率折衷,相較於其他輕量級網絡設計。
近年來,軌跡預測領域有了顯著的增長,部分原因是由於釋出了許多大規模、真實世界的人類軌跡數據集,用於自動駕駛車輛(AVs)和行人運動跟踪。儘管這些數據集對社群來說是一大福音,但它們各自使用自定義和獨特的數據格式和應用程序接口(API),使研究人員在多個數據集上訓練和評估方法變得繁瑣。為了解決這個問題,我們提出了trajdata:一個統一的接口,用於多個人類軌跡數據集。在其核心,trajdata提供了一個簡單、統一和高效的軌跡和地圖數據表示和應用程序接口。作為其功能的展示,在這項工作中,我們對現有的軌跡數據集進行了全面的實證評估,為用戶提供了對支撐當前大部分行人和AV運動預測研究的數據有豐富理解,並根據這些見解提出了未來數據集的建議。trajdata採用寬鬆的許可(Apache 2.0),可在線上訪問https://github.com/NVlabs/trajdata。