AI研究論文每日精選

每日精選AI研究論文及翻譯

神經網絡擴散
Neural Network Diffusion

Feb 20

ByKai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell, Zhuang Liu, Yang You

擴散模型在圖像和視頻生成方面取得了顯著成功。在這項工作中，我們展示了擴散模型還可以生成高性能的神經網絡參數。我們的方法很簡單，利用自編碼器和標準的潛在擴散模型。自編碼器提取了訓練網絡參數子集的潛在表示。然後訓練擴散模型來從隨機噪聲合成這些潛在參數表示。然後生成新的表示，通過自編碼器的解碼器，其輸出可用作新的網絡參數子集。在各種架構和數據集上，我們的擴散過程始終生成性能相當或更好的模型，而額外成本很小。值得注意的是，我們在實驗中發現生成的模型在性能上與訓練的網絡不同。我們的結果鼓勵更多探索擴散模型的多樣用途。

從頭開始的合成數據：針對語言模型的通用指令調整
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

Feb 20

ByHaoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei

我們介紹了一種名為廣義指令調整（稱為GLAN）的通用且可擴展的方法，用於大型語言模型（LLMs）的指令調整。與先前依賴種子示例或現有數據集來構建指令調整數據的工作不同，GLAN專門利用人類知識和能力的預先策劃分類作為輸入，並在所有學科中生成大規模合成指令數據。具體來說，受人類教育系統中的系統結構啟發，我們通過半自動方式利用LLMs分解人類知識和能力到各種領域、子領域，最終到獨特學科，構建了這個分類法。隨後，我們為每個學科生成了一個全面的科目列表，並繼續設計了針對每個科目的課程大綱，同樣利用LLMs。通過大綱中每個課堂會話中詳細列出的細粒度關鍵概念，我們能夠生成涵蓋人類知識和技能整個範譜的多樣指令。對大型語言模型（例如Mistral）的廣泛實驗表明，GLAN在多個維度上表現出色，從數學推理、編碼、學術考試、邏輯推理到一般指令遵循，而無需使用這些任務的特定訓練數據。此外，GLAN允許輕鬆定制，只需將新節點納入我們的分類法，即可添加新領域或技能。

VideoPrism：用於視頻理解的基礎視覺編碼器
VideoPrism: A Foundational Visual Encoder for Video Understanding

Feb 20

ByLong Zhao, Nitesh B. Gundavarapu, Liangzhe Yuan, Hao Zhou, Shen Yan, Jennifer J. Sun, Luke Friedman, Rui Qian, Tobias Weyand, Yue Zhao, Rachel Hornung, Florian Schroff, Ming-Hsuan Yang, David A. Ross, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Ting Liu, Boqing Gong

我們介紹了VideoPrism，一種通用的影片編碼器，可使用單一凍結模型應對多樣的影片理解任務。我們在一個包含3600萬高質量影片標題對和5.82億影片片段的異質語料庫上對VideoPrism進行預訓練，其中包含帶有噪聲平行文本（例如ASR轉錄）的影片片段。預訓練方法改進了遮罩自編碼，通過全局-局部蒸餾語義影片嵌入和標記洗牌方案，使VideoPrism能夠主要專注於影片模態，同時利用與影片相關的寶貴文本。我們在四個廣泛的影片理解任務組上對VideoPrism進行了廣泛測試，從網絡影片問答到科學CV，並在33個影片理解基準測試中的30個上實現了最先進的性能。

視頻重述：對一小時長視頻進行遞歸式標題生成
Video ReCap: Recursive Captioning of Hour-Long Videos

Feb 20

ByMd Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius

大多數影片字幕模型旨在處理幾秒鐘的短視頻片段，並輸出描述低層次視覺概念（例如物體、場景、基本動作）的文字。然而，大多數現實世界的視頻持續時間為數分鐘或數小時，具有跨越不同時間粒度的複雜階層結構。我們提出了Video ReCap，一種遞迴式視頻字幕模型，可以處理長度截然不同的視頻輸入（從1秒到2小時），並在多個層次上輸出視頻字幕。這種遞迴式視頻-語言架構利用了不同視頻階層之間的協同作用，可以高效處理長達一小時的視頻。我們利用課程學習訓練方案來學習視頻的層次結構，從描述基本動作的片段級字幕開始，然後專注於段落級描述，最後生成長達一小時視頻的摘要。此外，我們通過將Ego4D與8,267個手動收集的長範圍視頻摘要進行擴充，引入了Ego4D-HCap數據集。我們的遞迴模型可以靈活生成不同層次的字幕，同時對於其他複雜的視頻理解任務也很有用，例如在EgoSchema上進行的VideoQA。數據、代碼和模型可在以下網址獲得：https://sites.google.com/view/vidrecap

調校指令的語言模型是更好的知識學習者。
Instruction-tuned Language Models are Better Knowledge Learners

Feb 20

ByZhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting Zhou, Graham Neubig, Xi Victoria Lin, Wen-tau Yih, Srinivasan Iyer

為了使基於大型語言模型（LLM）的助理能夠有效地適應不斷變化的信息需求，必須能夠通過持續在新數據上進行訓練來更新它們的事實知識。這樣做的標準方法包括在新文檔上進行持續預訓練，然後進行問答（QA）配對的指導調整。然而，我們發現使用這種方法訓練的LLM在回答問題時存在困難，即使文檔的困惑度已被最小化。我們發現QA配對通常比較簡單，而文檔則更為複雜，以精巧的方式將許多事實陳述編織在一起。因此，我們假設讓LLM在持續預訓練文檔之前先接觸QA配對將是有益的，這樣從複雜文檔中編碼知識的過程將考慮到如何通過問題訪問這些知識。基於此，我們提出了預指導調整（PIT）方法，該方法在訓練文檔之前先對問題進行指導調整。這與標準指導調整形成對比，後者是在訓練文檔後學習如何提取知識。大量實驗和消融研究表明，PIT顯著增強了LLM吸收新文檔知識的能力，優於標準指導調整17.8%。

FinBen：大型語言模型的全面財務基準
The FinBen: An Holistic Financial Benchmark for Large Language Models

Feb 20

ByQianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang

LLM已經改變了自然語言處理並在各個領域展示了潛力，然而在金融領域的潛力尚未被充分探索，這是因為缺乏深入評估以及金融任務的複雜性。這與LLM的快速發展一起，凸顯了迫切需要為LLM建立系統性金融評估基準的重要性。在本文中，我們介紹了FinBen，這是第一個全面的開源評估基準，專門設計來全面評估LLM在金融領域的能力。FinBen包含了23個金融任務的35個數據集，這些任務根據Cattell-Horn-Carroll理論的啟發，分為三個難度範疇，用於評估LLM在歸納推理、聯想記憶、定量推理、晶化智力等方面的認知能力。我們對15個代表性的LLM進行了評估，包括GPT-4、ChatGPT和最新的Gemini，在金融領域揭示了它們的優勢和局限性。研究結果顯示，GPT-4在量化、提取、數值推理和股票交易方面領先，而Gemini在生成和預測方面表現出色；然而，兩者在複雜提取和預測方面都遇到困難，顯示了對針對性增強的明顯需求。指導調整可以提高簡單任務的表現，但在改善複雜推理和預測能力方面表現不佳。FinBen旨在持續評估金融領域的LLM，通過定期更新任務和模型，促進AI的發展。

提升相機姿勢和分解低秩張量輻射場的聯合優化的魯棒性
Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

Feb 20

ByBo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu

本文提出了一種演算法，允許使用僅2D影像監督的方式聯合優化由分解的低秩張量表示的相機姿態和場景幾何。首先，我們基於1D信號進行了一項試驗性研究，並將我們的發現與3D情境相關聯，其中對基於體素的 NeRFs 進行天真的聯合姿態優化可能會導致次優解。此外，基於頻譜分析，我們建議對2D和3D輻射場應用卷積高斯濾波器，以實現從粗糙到精細的訓練時間表，從而實現聯合相機姿態優化。利用分解低秩張量中的分解特性，我們的方法實現了與暴力3D卷積等效的效果，僅帶來少量計算開銷。為了進一步提高聯合優化的魯棒性和穩定性，我們還提出了平滑的2D監督技術、隨機縮放的核參數以及邊緣引導損失遮罩的技巧。廣泛的定量和定性評估表明，我們提出的框架在新視角合成和優化的快速收斂方面實現了卓越的性能。

MVDiffusion++：用於單視角或稀疏視角3D物體重建的密集高解析度多視角擴散模型
MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction

Feb 20

ByShitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan

本文介紹了一種名為MVDiffusion++的神經架構，用於3D物體重建，該架構可以在沒有相機姿態信息的情況下，基於一個或少數幾個圖像合成物體的密集且高分辨率視圖。MVDiffusion++通過兩個驚人簡單的想法實現了卓越的靈活性和可擴展性：1）一種“無姿態架構”，其中2D潛在特徵之間的標準自注意力學習了跨任意數量條件和生成視圖的3D一致性，而無需明確使用相機姿態信息；以及2）一種“視圖丟棄策略”，該策略在訓練期間丟棄大量輸出視圖，從而降低了訓練時的內存佔用，並使得在測試時能夠進行密集且高分辨率的視圖合成。我們使用Objaverse進行訓練，並使用Google掃描對象進行評估，並使用標準新視圖合成和3D重建指標，其中MVDiffusion++明顯優於當前的技術水平。我們還通過將MVDiffusion++與文本到圖像生成模型相結合，展示了一個文本到3D應用示例。

一個用於多模態對齊的觸覺、視覺和語言數據集
A Touch, Vision, and Language Dataset for Multimodal Alignment

Feb 20

ByLetian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg

觸覺對人類來說是一種重要的感知方式，但尚未被納入多模式生成語言模型中。部分原因是由於獲取觸覺數據的自然語言標籤困難，以及將觸覺讀數與視覺觀察和語言描述對齊的複雜性。為了彌合這一差距，本研究引入了一個新的數據集，包含了4.4萬組野外視覺-觸覺對，其中英文語言標籤由人類（10%）和GPT-4V的文本虛標籤（90%）進行注釋。我們使用這個數據集來訓練一個視覺-語言對齊的觸覺編碼器，用於開放詞彙分類，以及一個觸覺-視覺-語言（TVL）模型，用於使用已訓練的編碼器進行文本生成。結果表明，通過納入觸覺，TVL模型在現有任何一對這些模態訓練的模型上提高了觸覺-視覺-語言對齊（+29%分類準確性）。儘管數據集中只有一小部分是人工標記的，但TVL模型在新的觸覺-視覺理解基準上展示出比GPT-4V（+12%）和開源視覺-語言模型（+32%）更好的視覺-觸覺理解。代碼和數據：https://tactile-vlm.github.io。

FlashTex：具有LightControlNet的快速可重新照明網格紋理化
FlashTex: Fast Relightable Mesh Texturing with LightControlNet

Feb 20

ByKangle Deng, Timothy Omernick, Alexander Weiss, Deva Ramanan, Jun-Yan Zhu, Tinghui Zhou, Maneesh Agrawala

手動為3D網格創建紋理是耗時的，即使對於專家視覺內容創作者也是如此。我們提出了一種快速方法，可以根據用戶提供的文本提示自動為輸入的3D網格上紋理。重要的是，我們的方法將照明與表面材料/反射從生成的紋理中分離出來，使得網格可以在任何照明環境中進行正確的重新照明和渲染。我們引入了LightControlNet，這是一種基於ControlNet架構的新的文本到圖像模型，它允許將期望的照明規格化為模型的條件圖像。然後，我們的文本到紋理流程通過兩個階段構建紋理。第一階段使用LightControlNet生成網格的一組稀疏且視覺上一致的參考視圖。第二階段應用基於得分蒸餾採樣（SDS）的紋理優化，該方法與LightControlNet合作，從而提高紋理質量，同時將表面材料與照明分離。我們的流程比以前的文本到紋理方法快得多，同時產生高質量且可重新照明的紋理。

你的多模式LLM容易被欺騙嗎？對欺騙性提示的實證分析
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

Feb 20

ByYusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan

儘管多模式大型語言模型（MLLMs）取得了顯著進展，但仍面臨挑戰，特別是在應對提示中的虛假信息時，容易在這種情況下產生幻覺式回應。為了定量評估這種脆弱性，我們提出了MAD-Bench，這是一個精心策劃的基準測試，包含850個測試樣本，分為6個類別，如不存在的物體、物體數量、空間關係和視覺混淆等。我們對流行的MLLMs進行了全面分析，從GPT-4V、Gemini-Pro到開源模型，如LLaVA-1.5和CogVLM。從實證角度來看，我們觀察到GPT-4V與其他模型之間存在顯著的性能差距；而先前的強健指令調整模型，如LRV-Instruction和LLaVA-RLHF，在這個新基準測試上並不有效。雖然GPT-4V在MAD-Bench上實現了75.02％的準確率，但我們實驗中任何其他模型的準確率範圍從5％到35％不等。我們進一步提出了一種解決方案，即在欺騙性提示中添加一段額外的段落，以鼓勵模型在回答問題之前三思。令人驚訝的是，這種簡單的方法甚至可以將準確率提高一倍；然而，絕對數字仍然太低，無法令人滿意。我們希望MAD-Bench可以作為一個有價值的基準測試，激發進一步研究，以增強模型對抗欺騙性提示的韌性。

TofuEval：評估以主題為焦點的對話摘要中LLM的幻覺
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

Feb 20

ByLiyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown

近年來，單一文件新聞摘要在忠實性方面取得了顯著進展，這是由對事實一致性或幻覺評估的研究推動的。我們詢問這些進展是否能擴展到其他文本摘要領域。我們提出了一個新的評估基準，針對以主題為焦點的對話摘要，這些摘要是由不同大小的LLMs生成的。我們提供了有關這些摘要的事實一致性的二元句級人工標註，以及對事實不一致句子的詳細解釋。我們的分析顯示，現有的LLMs在對話領域中幻覺出大量事實錯誤，無論模型大小如何。另一方面，當包括GPT-4在內的LLMs充當二元事實評估者時，它們表現不佳，並且可以被現有的最先進的專門事實評估指標超越。最後，我們使用經過精心選擇的錯誤分類法對幻覺類型進行了分析。我們發現模型生成的摘要中存在各種錯誤和錯誤分佈，非LLM基礎的指標可以更好地捕捉所有錯誤類型，勝過LLM基礎的評估者。

RealCompo：現實主義與組成性動態平衡改進文本到圖像擴散模型
RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models

Feb 20

ByXinchen Zhang, Ling Yang, Yaqi Cai, Zhaochen Yu, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui

擴散模型在文本到圖像生成方面取得了顯著的進展。然而，現有模型在面對多對象合成生成時仍然存在許多困難。本文提出了一種新的無需訓練且易轉移的文本到圖像生成框架，名為RealCompo，旨在利用文本到圖像和佈局到圖像模型的優勢，以增強生成圖像的寫實性和組成性。提出了一種直觀且新穎的平衡器，用於動態平衡兩個模型在去噪過程中的優勢，使得可以輕鬆使用任何模型而無需額外訓練。大量實驗表明，我們的RealCompo在多對象合成生成方面始終優於最先進的文本到圖像模型和佈局到圖像模型，同時保持生成圖像的滿意寫實性和組成性。代碼可在https://github.com/YangLing0818/RealCompo找到。

AI研究論文每日精選

每日精選AI研究論文及翻譯

神經網絡擴散
Neural Network Diffusion

Feb 20

ByKai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell, Zhuang Liu, Yang You

從頭開始的合成數據：針對語言模型的通用指令調整
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

Feb 20

VideoPrism：用於視頻理解的基礎視覺編碼器
VideoPrism: A Foundational Visual Encoder for Video Understanding

Feb 20

視頻重述：對一小時長視頻進行遞歸式標題生成
Video ReCap: Recursive Captioning of Hour-Long Videos

Feb 20

ByMd Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius

調校指令的語言模型是更好的知識學習者。
Instruction-tuned Language Models are Better Knowledge Learners

Feb 20

ByZhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting Zhou, Graham Neubig, Xi Victoria Lin, Wen-tau Yih, Srinivasan Iyer

FinBen：大型語言模型的全面財務基準
The FinBen: An Holistic Financial Benchmark for Large Language Models

Feb 20

提升相機姿勢和分解低秩張量輻射場的聯合優化的魯棒性
Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

Feb 20

ByBo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu

MVDiffusion++：用於單視角或稀疏視角3D物體重建的密集高解析度多視角擴散模型
MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction

Feb 20

ByShitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan

RealCompo：現實主義與組成性動態平衡改進文本到圖像擴散模型
RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models

Feb 20

ByXinchen Zhang, Ling Yang, Yaqi Cai, Zhaochen Yu, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui