每日精選AI研究論文及翻譯
擴散模型在圖像和視頻生成方面取得了顯著成功。在這項工作中,我們展示了擴散模型還可以生成高性能的神經網絡參數。我們的方法很簡單,利用自編碼器和標準的潛在擴散模型。自編碼器提取了訓練網絡參數子集的潛在表示。然後訓練擴散模型來從隨機噪聲合成這些潛在參數表示。然後生成新的表示,通過自編碼器的解碼器,其輸出可用作新的網絡參數子集。在各種架構和數據集上,我們的擴散過程始終生成性能相當或更好的模型,而額外成本很小。值得注意的是,我們在實驗中發現生成的模型在性能上與訓練的網絡不同。我們的結果鼓勵更多探索擴散模型的多樣用途。
我們介紹了一種名為廣義指令調整(稱為GLAN)的通用且可擴展的方法,用於大型語言模型(LLMs)的指令調整。與先前依賴種子示例或現有數據集來構建指令調整數據的工作不同,GLAN專門利用人類知識和能力的預先策劃分類作為輸入,並在所有學科中生成大規模合成指令數據。具體來說,受人類教育系統中的系統結構啟發,我們通過半自動方式利用LLMs分解人類知識和能力到各種領域、子領域,最終到獨特學科,構建了這個分類法。隨後,我們為每個學科生成了一個全面的科目列表,並繼續設計了針對每個科目的課程大綱,同樣利用LLMs。通過大綱中每個課堂會話中詳細列出的細粒度關鍵概念,我們能夠生成涵蓋人類知識和技能整個範譜的多樣指令。對大型語言模型(例如Mistral)的廣泛實驗表明,GLAN在多個維度上表現出色,從數學推理、編碼、學術考試、邏輯推理到一般指令遵循,而無需使用這些任務的特定訓練數據。此外,GLAN允許輕鬆定制,只需將新節點納入我們的分類法,即可添加新領域或技能。
大多數影片字幕模型旨在處理幾秒鐘的短視頻片段,並輸出描述低層次視覺概念(例如物體、場景、基本動作)的文字。然而,大多數現實世界的視頻持續時間為數分鐘或數小時,具有跨越不同時間粒度的複雜階層結構。我們提出了Video ReCap,一種遞迴式視頻字幕模型,可以處理長度截然不同的視頻輸入(從1秒到2小時),並在多個層次上輸出視頻字幕。這種遞迴式視頻-語言架構利用了不同視頻階層之間的協同作用,可以高效處理長達一小時的視頻。我們利用課程學習訓練方案來學習視頻的層次結構,從描述基本動作的片段級字幕開始,然後專注於段落級描述,最後生成長達一小時視頻的摘要。此外,我們通過將Ego4D與8,267個手動收集的長範圍視頻摘要進行擴充,引入了Ego4D-HCap數據集。我們的遞迴模型可以靈活生成不同層次的字幕,同時對於其他複雜的視頻理解任務也很有用,例如在EgoSchema上進行的VideoQA。數據、代碼和模型可在以下網址獲得:https://sites.google.com/view/vidrecap
我們介紹了VideoPrism,一種通用的影片編碼器,可使用單一凍結模型應對多樣的影片理解任務。我們在一個包含3600萬高質量影片標題對和5.82億影片片段的異質語料庫上對VideoPrism進行預訓練,其中包含帶有噪聲平行文本(例如ASR轉錄)的影片片段。預訓練方法改進了遮罩自編碼,通過全局-局部蒸餾語義影片嵌入和標記洗牌方案,使VideoPrism能夠主要專注於影片模態,同時利用與影片相關的寶貴文本。我們在四個廣泛的影片理解任務組上對VideoPrism進行了廣泛測試,從網絡影片問答到科學CV,並在33個影片理解基準測試中的30個上實現了最先進的性能。
為了使基於大型語言模型(LLM)的助理能夠有效地適應不斷變化的信息需求,必須能夠通過持續在新數據上進行訓練來更新它們的事實知識。這樣做的標準方法包括在新文檔上進行持續預訓練,然後進行問答(QA)配對的指導調整。然而,我們發現使用這種方法訓練的LLM在回答問題時存在困難,即使文檔的困惑度已被最小化。我們發現QA配對通常比較簡單,而文檔則更為複雜,以精巧的方式將許多事實陳述編織在一起。因此,我們假設讓LLM在持續預訓練文檔之前先接觸QA配對將是有益的,這樣從複雜文檔中編碼知識的過程將考慮到如何通過問題訪問這些知識。基於此,我們提出了預指導調整(PIT)方法,該方法在訓練文檔之前先對問題進行指導調整。這與標準指導調整形成對比,後者是在訓練文檔後學習如何提取知識。大量實驗和消融研究表明,PIT顯著增強了LLM吸收新文檔知識的能力,優於標準指導調整17.8%。
LLM已經改變了自然語言處理並在各個領域展示了潛力,然而在金融領域的潛力尚未被充分探索,這是因為缺乏深入評估以及金融任務的複雜性。這與LLM的快速發展一起,凸顯了迫切需要為LLM建立系統性金融評估基準的重要性。在本文中,我們介紹了FinBen,這是第一個全面的開源評估基準,專門設計來全面評估LLM在金融領域的能力。FinBen包含了23個金融任務的35個數據集,這些任務根據Cattell-Horn-Carroll理論的啟發,分為三個難度範疇,用於評估LLM在歸納推理、聯想記憶、定量推理、晶化智力等方面的認知能力。我們對15個代表性的LLM進行了評估,包括GPT-4、ChatGPT和最新的Gemini,在金融領域揭示了它們的優勢和局限性。研究結果顯示,GPT-4在量化、提取、數值推理和股票交易方面領先,而Gemini在生成和預測方面表現出色;然而,兩者在複雜提取和預測方面都遇到困難,顯示了對針對性增強的明顯需求。指導調整可以提高簡單任務的表現,但在改善複雜推理和預測能力方面表現不佳。FinBen旨在持續評估金融領域的LLM,通過定期更新任務和模型,促進AI的發展。
本文提出了一種演算法,允許使用僅2D影像監督的方式聯合優化由分解的低秩張量表示的相機姿態和場景幾何。首先,我們基於1D信號進行了一項試驗性研究,並將我們的發現與3D情境相關聯,其中對基於體素的 NeRFs 進行天真的聯合姿態優化可能會導致次優解。此外,基於頻譜分析,我們建議對2D和3D輻射場應用卷積高斯濾波器,以實現從粗糙到精細的訓練時間表,從而實現聯合相機姿態優化。利用分解低秩張量中的分解特性,我們的方法實現了與暴力3D卷積等效的效果,僅帶來少量計算開銷。為了進一步提高聯合優化的魯棒性和穩定性,我們還提出了平滑的2D監督技術、隨機縮放的核參數以及邊緣引導損失遮罩的技巧。廣泛的定量和定性評估表明,我們提出的框架在新視角合成和優化的快速收斂方面實現了卓越的性能。
本文介紹了一種名為MVDiffusion++的神經架構,用於3D物體重建,該架構可以在沒有相機姿態信息的情況下,基於一個或少數幾個圖像合成物體的密集且高分辨率視圖。MVDiffusion++通過兩個驚人簡單的想法實現了卓越的靈活性和可擴展性:1)一種“無姿態架構”,其中2D潛在特徵之間的標準自注意力學習了跨任意數量條件和生成視圖的3D一致性,而無需明確使用相機姿態信息;以及2)一種“視圖丟棄策略”,該策略在訓練期間丟棄大量輸出視圖,從而降低了訓練時的內存佔用,並使得在測試時能夠進行密集且高分辨率的視圖合成。我們使用Objaverse進行訓練,並使用Google掃描對象進行評估,並使用標準新視圖合成和3D重建指標,其中MVDiffusion++明顯優於當前的技術水平。我們還通過將MVDiffusion++與文本到圖像生成模型相結合,展示了一個文本到3D應用示例。
手動為3D網格創建紋理是耗時的,即使對於專家視覺內容創作者也是如此。我們提出了一種快速方法,可以根據用戶提供的文本提示自動為輸入的3D網格上紋理。重要的是,我們的方法將照明與表面材料/反射從生成的紋理中分離出來,使得網格可以在任何照明環境中進行正確的重新照明和渲染。我們引入了LightControlNet,這是一種基於ControlNet架構的新的文本到圖像模型,它允許將期望的照明規格化為模型的條件圖像。然後,我們的文本到紋理流程通過兩個階段構建紋理。第一階段使用LightControlNet生成網格的一組稀疏且視覺上一致的參考視圖。第二階段應用基於得分蒸餾採樣(SDS)的紋理優化,該方法與LightControlNet合作,從而提高紋理質量,同時將表面材料與照明分離。我們的流程比以前的文本到紋理方法快得多,同時產生高質量且可重新照明的紋理。
觸覺對人類來說是一種重要的感知方式,但尚未被納入多模式生成語言模型中。部分原因是由於獲取觸覺數據的自然語言標籤困難,以及將觸覺讀數與視覺觀察和語言描述對齊的複雜性。為了彌合這一差距,本研究引入了一個新的數據集,包含了4.4萬組野外視覺-觸覺對,其中英文語言標籤由人類(10%)和GPT-4V的文本虛標籤(90%)進行注釋。我們使用這個數據集來訓練一個視覺-語言對齊的觸覺編碼器,用於開放詞彙分類,以及一個觸覺-視覺-語言(TVL)模型,用於使用已訓練的編碼器進行文本生成。結果表明,通過納入觸覺,TVL模型在現有任何一對這些模態訓練的模型上提高了觸覺-視覺-語言對齊(+29%分類準確性)。儘管數據集中只有一小部分是人工標記的,但TVL模型在新的觸覺-視覺理解基準上展示出比GPT-4V(+12%)和開源視覺-語言模型(+32%)更好的視覺-觸覺理解。代碼和數據:https://tactile-vlm.github.io。
儘管多模式大型語言模型(MLLMs)取得了顯著進展,但仍面臨挑戰,特別是在應對提示中的虛假信息時,容易在這種情況下產生幻覺式回應。為了定量評估這種脆弱性,我們提出了MAD-Bench,這是一個精心策劃的基準測試,包含850個測試樣本,分為6個類別,如不存在的物體、物體數量、空間關係和視覺混淆等。我們對流行的MLLMs進行了全面分析,從GPT-4V、Gemini-Pro到開源模型,如LLaVA-1.5和CogVLM。從實證角度來看,我們觀察到GPT-4V與其他模型之間存在顯著的性能差距;而先前的強健指令調整模型,如LRV-Instruction和LLaVA-RLHF,在這個新基準測試上並不有效。雖然GPT-4V在MAD-Bench上實現了75.02%的準確率,但我們實驗中任何其他模型的準確率範圍從5%到35%不等。我們進一步提出了一種解決方案,即在欺騙性提示中添加一段額外的段落,以鼓勵模型在回答問題之前三思。令人驚訝的是,這種簡單的方法甚至可以將準確率提高一倍;然而,絕對數字仍然太低,無法令人滿意。我們希望MAD-Bench可以作為一個有價值的基準測試,激發進一步研究,以增強模型對抗欺騙性提示的韌性。
近年來,單一文件新聞摘要在忠實性方面取得了顯著進展,這是由對事實一致性或幻覺評估的研究推動的。我們詢問這些進展是否能擴展到其他文本摘要領域。我們提出了一個新的評估基準,針對以主題為焦點的對話摘要,這些摘要是由不同大小的LLMs生成的。我們提供了有關這些摘要的事實一致性的二元句級人工標註,以及對事實不一致句子的詳細解釋。我們的分析顯示,現有的LLMs在對話領域中幻覺出大量事實錯誤,無論模型大小如何。另一方面,當包括GPT-4在內的LLMs充當二元事實評估者時,它們表現不佳,並且可以被現有的最先進的專門事實評估指標超越。最後,我們使用經過精心選擇的錯誤分類法對幻覺類型進行了分析。我們發現模型生成的摘要中存在各種錯誤和錯誤分佈,非LLM基礎的指標可以更好地捕捉所有錯誤類型,勝過LLM基礎的評估者。
擴散模型在文本到圖像生成方面取得了顯著的進展。然而,現有模型在面對多對象合成生成時仍然存在許多困難。本文提出了一種新的無需訓練且易轉移的文本到圖像生成框架,名為RealCompo,旨在利用文本到圖像和佈局到圖像模型的優勢,以增強生成圖像的寫實性和組成性。提出了一種直觀且新穎的平衡器,用於動態平衡兩個模型在去噪過程中的優勢,使得可以輕鬆使用任何模型而無需額外訓練。大量實驗表明,我們的RealCompo在多對象合成生成方面始終優於最先進的文本到圖像模型和佈局到圖像模型,同時保持生成圖像的滿意寫實性和組成性。代碼可在https://github.com/YangLing0818/RealCompo找到。