每日精選AI研究論文及翻譯
隨著大型語言模型(LLM)的發展,將它們與人類偏好相協調變得日益重要。我們提出了分步式DPO(sDPO),這是對最近流行的直接偏好優化(DPO)進行擴展,用於調整協調。這種方法涉及將可用的偏好數據集分割並以分步方式利用,而不是一次性全部使用。我們證明了這種方法有助於在DPO訓練框架內使用更精確對齊的參考模型。此外,sDPO訓練最終模型的效能更佳,甚至優於其他具有更多參數的流行LLM。
3D 高斯飛濺(GS)在 3D 擬合精度和渲染速度方面已經比神經輻射場取得了顯著的改進。然而,這種具有分散高斯的非結構化表示對於生成建模構成了重大挑戰。為了解決這個問題,我們引入了 GaussianCube,這是一種結構化的 GS 表示,對於生成建模既強大又高效。我們首先提出了一種修改的密度約束 GS 擬合算法,可以使用固定數量的自由高斯獲得高質量的擬合結果,然後通過最優運輸將高斯重新排列到預定義的體素網格中。結構化網格表示使我們能夠在擴散生成建模中使用標準的 3D U-Net 作為骨幹,而無需精心設計。在 ShapeNet 和 OmniObject3D 上進行的大量實驗表明,我們的模型在質量和量化方面均取得了最先進的生成結果,凸顯了 GaussianCube 作為一種強大且多功能的 3D 表示的潛力。
在多模式大型語言模型(LLMs)方面取得了巨大進展。最近的研究將這些模型擴展到視頻輸入,具有有前途的指示跟隨能力。然而,一個重要的缺失部分是時間定位。這些模型無法準確回答“何時?”的問題。我們確定了限制它們時間定位能力的三個關鍵方面:(i)時間表示、(ii)架構和(iii)數據。我們通過提出語言指導的時間定位助手(LITA)來解決這些缺點,具有以下功能:(1)我們引入時間標記,將時間戳編碼為相對於視頻長度的時間,以更好地表示視頻中的時間。 (2)我們在架構中引入SlowFast標記,以捕捉細粒度時間解析度的時間信息。 (3)我們強調LITA的時間定位數據。除了利用具有時間戳的現有視頻數據集外,我們提出了一個新任務,即推理時間定位(RTL),以及用於學習和評估此任務的數據集ActivityNet-RTL。推理時間定位需要視頻LLMs的推理和時間定位。LITA在這個具有挑戰性的任務上表現出色,幾乎使基線的時間平均交集-聯合(mIoU)翻倍。此外,我們展示了我們對時間定位的強調也相對於現有的視頻LLMs顯著改善了基於視頻的文本生成,包括對時間理解的36%相對改善。代碼可在以下網址找到:https://github.com/NVlabs/LITA
基於擴散的文本到圖像生成模型,例如穩定擴散,已經在內容生成領域引起了革命性變革,實現了在圖像編輯和視頻合成等領域的重大進展。儘管這些模型具有強大的能力,但它們並非沒有局限性。合成與輸入文本相符的圖像仍然具有挑戰性,需要多次運行並使用精心設計的提示才能獲得滿意的結果。為了減輕這些限制,許多研究努力對預訓練的擴散模型,即UNet,進行微調,利用各種技術。然而,在這些努力中,一個重要的問題一直未被深入探討:是否可能且可行通過微調文本編碼器來改善文本到圖像擴散模型的性能?我們的研究結果顯示,與其將穩定擴散中使用的CLIP文本編碼器替換為其他大型語言模型,我們可以通過我們提出的微調方法TextCraftor 來增強它,從而在定量基準和人類評估方面實現顯著改進。有趣的是,我們的技術還通過將經過各種獎勵微調的不同文本編碼器進行插值,實現了可控的圖像生成。我們還展示了TextCraftor 與UNet微調是正交的,可以結合使用以進一步提高生成質量。
我們提出了Mesh2NeRF,這是一種從帶紋理網格中推導出真實輻射場的方法,用於3D生成任務。許多3D生成方法將3D場景表示為用於訓練的輻射場。它們的真實輻射場通常是從大規模合成的3D數據集的多視圖渲染中擬合而來,這往往會因遮擋或擬合不足問題而產生藝術品。在Mesh2NeRF中,我們提出了一種解析解,可以直接從3D網格中獲取真實輻射場,通過使用具有定義表面厚度的佔用函數來表徵密度場,並通過考慮網格和環境照明的反射函數來確定視角相關的顏色。Mesh2NeRF提取出準確的輻射場,為訓練生成式NeRF和單個場景表示提供直接監督。我們驗證了Mesh2NeRF在各種任務中的有效性,在ABO數據集的單個場景表示中,視圖合成的PSNR實現了顯著的3.12dB改善,在ShapeNet Cars的單視圖條件生成中提高了0.69 PSNR,在Objaverse Mugs的無條件生成中明顯改善了從NeRF中提取網格。