每日精選AI研究論文及翻譯
我們實證研究了一種簡單的層修剪策略,針對流行的開放權重預訓練LLM家族,在移除大部分層(高達一半)之前,在不同的問答基準測試中發現性能幾乎不受損。為了修剪這些模型,我們通過考慮層之間的相似性來識別最佳的層塊進行修剪;然後,為了“修復”損傷,我們進行少量微調。具體來說,我們使用參數高效微調(PEFT)方法,特別是量化和低秩適配器(QLoRA),這樣我們的每個實驗都可以在單個A100 GPU上執行。從實際角度來看,這些結果表明層修剪方法可以補充其他PEFT策略,進一步減少微調的計算資源,同時可以改善推理的記憶體和延遲。從科學角度來看,這些LLM對於刪除層的韌性意味著當前的預訓練方法要麼沒有適當利用網絡較深層的參數,要麼較淺層在存儲知識方面發揮了關鍵作用。
大型語言模型(LLMs)的演進,如ChatGPT和GPT-4,引發了有關人工通用智能(AGI)來臨的討論。然而,在開源模型中複製這些進展一直是一項具有挑戰性的任務。本文介紹了InternLM2,一個開源LLM,在全面評估、長文本建模和開放式主觀評估方面優於其前輩,通過創新的預訓練和優化技術。InternLM2的預訓練過程被細緻地描述,突出了對包括文本、代碼和長文本數據在內的多種數據類型的準備。InternLM2有效地捕捉長期依賴性,最初在預訓練和微調階段使用4k標記進行訓練,然後轉向32k標記,展現出在200k個“草堆中的針”測試中出色的表現。InternLM2進一步通過監督微調(SFT)和一種新穎的從人類反饋中進行條件在線強化學習(COOL RLHF)策略進行調整,以應對衝突的人類偏好和獎勵破解。通過在不同訓練階段和模型大小釋放InternLM2模型,我們為社區提供了有關模型演進的見解。
最近,3D 高斯飄點(3D Gaussian Splatting,3DGS)已經徹底改變了輝度場重建的方法,實現了高質量的新視角合成和快速渲染速度,無需預先烘焙。然而,由於 3D 高斯飄點存在多視角不一致的特性,無法準確表示表面。我們提出了2D 高斯飄點(2D Gaussian Splatting,2DGS),這是一種新方法,可以從多視角圖像中建模和重建幾何準確的輝度場。我們的關鍵思想是將 3D 体積折疊成一組2D定向平面高斯盤。與 3D 高斯相比,2D 高斯在建模表面時提供了視角一致的幾何,並具有固有的表面建模能力。為了準確恢復薄表面並實現穩定的優化,我們引入了一個透視準確的2D飄點過程,利用射線-飄點交集和光柵化。此外,我們還結合深度失真和法向一致性項,進一步提高重建的質量。我們展示了我們的可微渲染器可以實現無噪聲和詳細的幾何重建,同時保持競爭力的外觀質量、快速訓練速度和實時渲染。我們的代碼將公開提供。
在文本到圖像(T2I)生成模型方面取得了令人印象深刻的進展,產生了大量高性能模型,能夠生成具有美學吸引力且逼真的圖像。儘管取得了進步,這些模型仍然難以生成與輸入提示一致的圖像,往往無法正確捕捉對象的數量、關係和屬性。現有的解決方案旨在改善提示-圖像一致性,但面臨以下挑戰:(1)通常需要對模型進行微調,(2)僅關注附近的提示樣本,(3)在圖像質量、表示多樣性和提示-圖像一致性之間存在不利的權衡。在本文中,我們解決了這些挑戰,並引入了一個名為OPT2I的T2I提示優化框架,該框架利用大型語言模型(LLM)來改善T2I模型中的提示-圖像一致性。我們的框架從用戶提示開始,迭代生成修訂提示,目標是最大化一致性分數。我們在兩個數據集MSCOCO和PartiPrompts上進行了廣泛的驗證,結果顯示OPT2I可以將初始一致性分數提高高達24.9%,並保持FID,增加生成和真實數據之間的召回率。我們的工作利用LLM的威力,為通過構建更可靠和強大的T2I系統鋪平了道路。
最近的文本到4D生成技術利用預先訓練的文本到視頻模型進行監督,合成動態的3D場景。然而,現有的運動表示,如變形模型或時間依賴的神經表示,受到能夠生成運動量限制-它們無法合成超出用於體素渲染的邊界框遠的運動。缺乏更靈活的運動模型導致4D生成方法與最近的、接近照片般逼真的視頻生成模型之間的現實差距。在這裡,我們提出TC4D:軌跡條件的文本到4D生成,將運動分解為全局和局部組件。我們使用由樣条參數化的軌跡來表示場景邊界框的全局運動,通過剛性變換。我們通過來自文本到視頻模型的監督來學習符合全局軌跡的局部變形。我們的方法使得能夠合成沿著任意軌跡動畫的場景,進行組合式場景生成,並顯著改善了生成運動的逼真度和量,我們通過定性和用戶研究來進行評估。視頻結果可在我們的網站上查看:https://sherwinbahmani.github.io/tc4d。
最近的3D高斯飛濺(3D-GS)相較於基於NeRF的神經場景表示,展現出卓越的渲染保真度和效率。儘管展示了實時渲染的潛力,3D-GS在具有複雜細節的大場景中遇到渲染瓶頸,這是由於位於視錐體內的高斯基元過多所致。這種限制在縮小視圖時尤為明顯,可能導致在細節變化的場景中出現渲染速度不一致的情況。此外,它常常難以通過啟發式密度控制操作在不同尺度上捕捉相應細節水平。受到層級細節(LOD)技術的啟發,我們引入了Octree-GS,採用LOD結構化的3D高斯方法,支持場景表示的層級細節分解,有助於最終渲染結果。我們的模型從多分辨率錨點集中動態選擇適當層級,確保具有自適應LOD調整的一致渲染性能,同時保持高保真度的渲染結果。
在這項研究中,我們提出了AniPortrait,一個新穎的框架,用於生成由音訊和參考肖像圖驅動的高質量動畫。我們的方法論分為兩個階段。首先,我們從音訊中提取3D中間表示,並將其投影到一系列2D面部特徵點上。隨後,我們採用強大的擴散模型,結合運動模組,將特徵點序列轉換為逼真且時間一致的肖像動畫。實驗結果顯示AniPortrait在面部自然性、姿勢多樣性和視覺質量方面的優越性,從而提供了增強的知覺體驗。此外,我們的方法論在靈活性和可控性方面具有相當大的潛力,可以有效應用於面部運動編輯或面部重現等領域。我們在https://github.com/scutzzj/AniPortrait 上釋出了代碼和模型權重。
我們提出了DreamPolisher,一種新穎的基於高斯擴散的方法,具有幾何引導,旨在從文本描述中學習跨視圖一致性和細緻細節。儘管最近在文本到3D生成方法上取得了令人鼓舞的進展,但主流方法通常無法確保視圖一致性和紋理豐富性。這個問題尤其突出於僅使用文本輸入的方法。為了解決這個問題,我們提出了一種基於兩階段高斯擴散的方法,以實現視圖之間的幾何一致性。首先,粗略的3D生成經過幾何優化進行細化。隨後,我們使用一個ControlNet驅動的細化器,結合幾何一致性術語,來提高生成的3D資產的紋理保真度和整體一致性。通過涵蓋各種物體類別的多樣文本提示的實證評估顯示了DreamPolisher在生成一致且逼真的3D物體方面的有效性,與文本指示的語義密切相符。
本文介紹了一種針對英特爾數據中心 GPU Max 1550 進行優化的 SYCL 多層感知器(MLP)實現。為了提高性能,我們的實現通過在 MLP 的每一層中融合操作,最大程度地減少緩慢的全局內存訪問,從而最大化了通用寄存器文件和共享本地內存中的數據重用。我們通過簡單的屋頂線模型表明,這導致算術強度顯著提高,從而提高了性能,特別是對於推斷。我們將我們的方法與類似的 CUDA MLP 實現進行比較,並展示我們在英特爾數據中心 GPU 上的實現在推斷方面的性能優於 Nvidia 的 H100 GPU 上的 CUDA 實現最多達到 2.84 倍,而在訓練方面則最多達到 1.75 倍。本文還展示了我們的 SYCL 實現在三個重要領域的效率:圖像壓縮、神經輻射場和物理信息機器學習。在所有情況下,我們的實現在相同英特爾 GPU 上比 PyTorch 的 Intel 擴展(IPEX)實現高出多達 30 倍,在 Nvidia 的 H100 GPU 上比 CUDA PyTorch 版本高出多達 19 倍。代碼可在 https://github.com/intel/tiny-dpcpp-nn 找到。