AI研究論文每日精選

每日精選AI研究論文及翻譯

FinTral：一系列 GPT-4 級別的多模態金融大型語言模型
FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

Feb 16

ByGagan Bhatia, El Moatez Billah Nagoudi, Hasan Cavusoglu, Muhammad Abdul-Mageed

我們介紹了 FinTral，這是一套基於 Mistral-7b 模型打造、專為金融分析量身定制的最先進多模式大型語言模型（LLMs）套件。FinTral 整合了文本、數值、表格和圖像數據。我們通過利用我們為此工作精心策劃的大量文本和視覺數據集，為 FinTral 增添了特定領域的預訓練、指導微調和 RLAIF 訓練。我們還推出了一個包含九個任務和 25 個數據集的廣泛基準，其中包括金融領域的幻覺。我們的 FinTral 模型採用直接偏好優化進行訓練，並應用先進的工具和檢索方法，被稱為 FinTral-DPO-T&R，展現出卓越的零-shot性能。它在所有任務中均優於 ChatGPT-3.5，並在九個任務中的五個中超越了 GPT-4，標誌著人工智慧驅動金融技術的重大進步。我們還展示了 FinTral 在不同金融情境下實時分析和決策方面具有出色潛力。

FiT：靈活視覺Transformer用於擴散模型
FiT: Flexible Vision Transformer for Diffusion Model

Feb 19

ByZeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai

自然是無限解析度的。在這個現實情境中，現有的擴散模型，如擴散Transformer，在處理超出其訓練領域的圖像解析度時常常面臨挑戰。為了克服這個限制，我們提出了彈性視覺Transformer（FiT），這是一種專門設計用於生成具有無限制解析度和長寬比的圖像的Transformer架構。與將圖像視為靜態解析度網格的傳統方法不同，FiT將圖像概念化為動態大小的標記序列。這種觀點使得一種靈活的訓練策略成為可能，能夠在訓練和推斷階段輕鬆適應各種長寬比，從而促進解析度泛化，消除由圖像裁剪引起的偏見。通過精心調整的網絡結構和集成了無需訓練的外推技術，FiT在解析度外推生成方面展現出卓越的靈活性。全面的實驗證明了FiT在廣泛範圍的解析度上的卓越性能，展示了其在訓練解析度分佈範圍內外的有效性。存儲庫位於https://github.com/whlzy/FiT。

AnyGPT: 具有離散序列建模的統一多模態LLM
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

Feb 19

ByJun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu

我們介紹了 AnyGPT，一種任意多模式語言模型，利用離散表示統一處理各種模態，包括語音、文本、圖像和音樂。AnyGPT 可以穩定訓練，而無需對當前大型語言模型（LLM）架構或訓練範式進行任何修改。相反，它完全依賴於數據層預處理，促進了新模態的無縫整合到LLMs中，類似於新語言的融入。我們為多模態對齊預訓練構建了一個多模態文本中心數據集。利用生成模型，我們合成了第一個大規模任意多模式指令數據集。它包含108k個多輪對話樣本，這些樣本巧妙地交織了各種模態，從而使模型能夠處理任意組合的多模態輸入和輸出。實驗結果表明，AnyGPT 能夠促進任意多模式對話，同時在所有模態上實現與專門模型相當的性能，證明了離散表示能夠有效且方便地統一語言模型中的多個模態。演示請參見 https://junzhan2000.github.io/AnyGPT.github.io/

推測性串流：無需輔助模型的快速LLM推論
Speculative Streaming: Fast LLM Inference without Auxiliary Models

Feb 16

ByNikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi

推測解碼是一種顯著的技術，可加速基於輔助草稿模型預測的大型目標語言模型的推論。儘管在特定應用設置中非常有效，但通常需要微調草稿和目標模型以達到高接受率。隨著下游任務數量的增加，這些草稿模型為推斷系統增加了顯著的複雜性。我們提出了一種名為「推測串流」的單模型推測解碼方法，通過將起草融入目標模型，將微調目標從下一個令牌預測改為未來 n-gram 預測的目標。推測串流在各種任務中（如摘要、結構化查詢和意義表示）加快了解碼速度，速度提高了 1.8-3.1倍，同時不會犧牲生成質量。此外，推測串流具有參數效率。它實現了與 Medusa-style 結構相當/更高的加速，同時使用了約 10000倍少的額外參數，非常適合資源受限設備。

OneBit：朝向極低位元大型語言模型
OneBit: Towards Extremely Low-bit Large Language Models

Feb 17

ByYuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che

模型量化使用低位寬值來表示模型的權重矩陣，這是一種有前途的方法，可以減少部署高度期待的LLM時的存儲和計算開銷。然而，現有的量化方法在位寬極度降低時會遭受嚴重的性能下降，因此專注於利用4位元或8位元值來量化模型。本文大膽地將LLM的權重矩陣量化為1位元，為LLM的極低位寬部署鋪平了道路。為了實現這一目標，我們引入了一個名為OneBit的1位元量化感知訓練（QAT）框架，包括一種新穎的1位元參數表示方法，以更好地量化LLM，以及一種基於矩陣分解的有效參數初始化方法，以提高QAT框架的收斂速度。充足的實驗結果表明，OneBit在僅使用1位元權重矩陣時實現了良好的性能（至少達到非量化性能的83%），並具有穩健的訓練過程。

CoLLaVO：蠟筆大型語言與視覺模型
CoLLaVO: Crayon Large Language and Vision mOdel

Feb 17

ByByung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

大型語言模型（LLMs）和指示調整的顯著成功推動了視覺語言模型（VLMs）朝向多功能通用模型的演進。然而，目前的VLMs是否真正具有優質的物件級圖像理解能力，即從“圖像中有哪些物件？”或“哪個物件對應到指定的邊界框？”這一問題仍未被探討。我們的研究發現，目前的VLMs的圖像理解能力與它們在視覺語言（VL）任務的零樣本表現密切相關。這表明，將基本的圖像理解置於優先位置對於VLMs在VL任務中表現出色至關重要。為了增強物件級圖像理解，我們提出了Crayon大型語言和視覺模型（CoLLaVO），該模型將指示調整與蠟筆提示相結合，作為一種基於全景色彩地圖的新視覺提示調整方案。此外，我們提出了雙重QLoRA的學習策略，以在視覺指示調整過程中保留物件級圖像理解，從而在零樣本情況下在眾多VL基準上實現了顯著的飛躍。

通過語言模型預測控制，從人類反饋中學習更快速的學習
Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Feb 18

ByJacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Montserrat Gonzalez Arenas, Maria Attarian, Maria Bauza, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Kelly Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil Joshi, Ben Jyenis, Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Ken Oslund, Dushyant Rao, Allen Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, Brian Ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada

大型語言模型（LLMs）已被證明具有廣泛的能力，例如從語言命令中編寫機器人代碼，使非專家能夠指導機器人行為、根據反饋進行修改，或組合它們以執行新任務。然而，這些能力（由上下文學習驅動）僅限於短期交互，其中用戶的反饋僅在符合LLM上下文大小的範圍內才保持相關，並且在較長的交互過程中可能被遺忘。在這項工作中，我們研究了對機器人代碼編寫LLMs進行微調，以記住它們的上下文交互並改善它們的可教性，即它們如何有效地適應人類輸入（通過用戶認為任務成功之前的平均更正次數來衡量）。我們的關鍵觀察是，當人機交互被制定為部分可觀察馬爾可夫決策過程（其中人類語言輸入為觀察，機器人代碼輸出為行動）時，訓練LLM完成先前交互可以被視為訓練轉換動態模型，該模型可以與經典機器人技術（如模型預測控制（MPC））結合，以發現成功的更短路徑。這導致了語言模型預測控制（LMPC），一個框架，對PaLM 2進行微調，以提高其在5個機器人實體上的78個任務中的可教性，將未見過的任務的非專家教學成功率提高了26.9%，同時將人類更正的平均次數從2.4減少到1.9。實驗表明，LMPC還產生了強大的元學習器，將在未見過的機器人實體和API上學習新任務的成功率提高了31.5%。請參閱視頻、代碼和演示：https://robot-teaching.github.io/。

LongAgent：透過多智能體協作將語言模型擴展至128k上下文
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

Feb 18

ByJun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang

大型語言模型（LLMs）展現了在理解語言和執行複雜推理任務方面令人印象深刻的表現。然而，具有長上下文窗口的LLMs以其昂貴的訓練成本和高推理延遲而聞名。即使是最先進的模型，如GPT-4和Claude2，在處理超過100k標記的輸入時也常常出現錯誤，這稱為中間迷失的現象。在本文中，我們提出了LongAgent，一種基於多智能體協作的方法，將LLMs（例如LLaMA）擴展到128K上下文，並展示了在長文本處理方面相對於GPT-4的潛在優勢。在LongAgent中，一位領導者負責理解用戶意圖並指導團隊成員從文件中獲取信息。由於成員的幻覺，領導者從數十到數百名成員的回應中獲取準確信息並不是一件簡單的事情。為了解決這個問題，我們開發了一種成員間通信機制，通過信息共享來解決由幻覺引起的回應衝突。我們的實驗結果表明，LongAgent為長文本處理提供了一個有前途的替代方案。使用LLaMA-7B實例化的智能體團隊在128k長文本檢索、多跳問答等任務中相對於GPT-4實現了顯著改進。

重新格式化對齊
Reformatted Alignment

Feb 19

ByRun-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu

Fine-tuning 資料的品質對於調整大型語言模型（LLMs）與人類價值觀之間的一致性至關重要。目前改善資料品質的方法要麼耗時耗力，要麼容易出現因LLM幻覺而導致的事實錯誤。本文探討如何提升現有指示資料的品質，以更好地與人類價值觀保持一致，並介紹了一種名為ReAlign的簡單有效方法，該方法將指示資料的回應重新格式化為更符合預先確定標準和匯總證據的格式。這種方法最小化了人類標註、幻覺和擴展困難，與現有的對齊技術保持正交。在實驗中，ReAlign 顯著提升了LLMs的一般對齊能力、數學推理、事實性和可讀性。令人鼓舞的是，在不引入任何額外資料或高級訓練技術的情況下，僅通過重新格式化回應，LLaMA-2-13B在GSM8K上的數學推理能力從46.77%提高到56.63%的準確度。此外，僅使用 5% 的 ReAlign 資料就使 Alpaca 資料集測量的一般對齊能力提升了 67%。這項工作凸顯了對LLMs的科學和機械解釋能力進行進一步研究的必要性。我們已經將相關的代碼和資料公開，以支持未來研究，網址為 https://github.com/GAIR-NLP/ReAlign。

GLoRe：通過全局和局部的改進來提升LLM推理的時間、地點和方式
GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Feb 13

ByAlex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Railneau

最先進的語言模型在數學、科學或編碼任務上展現出令人印象深刻的推理精煉能力。然而，最近的研究表明，即使是最佳模型在沒有外部反饋的情況下，也很難確定何時以及在哪裡進行精煉。基於結果的獎勵模型（ORMs）被訓練來預測最終答案的正確性，指示何時進行精煉，為確定何時進行精煉提供了一個便利的解決方案。基於過程的獎勵模型（PRMs）被訓練來預測中間步驟的正確性，然後可用於指示何處進行精煉。但是它們的訓練成本很高，需要大量人工標註。在本文中，我們提出了逐步ORMs（SORMs），它們僅在合成數據上訓練，以近似預期未來獎勵的最佳策略或 V^{star}。更具體地說，SORMs 被訓練來預測在多次採樣當前策略時（而不僅像ORMs那樣只採樣一次）最終答案的正確性。我們的實驗表明，與ORMs相比，SORMs能更準確地檢測不正確的推理步驟，從而在進行精煉時提高下游準確性。然後，我們訓練全局精煉模型，該模型僅將問題和初步解決方案作為輸入，並預測出一個更正確的解決方案，以及局部精煉模型，它們還將指示第一個推理錯誤位置的評論作為輸入。我們通過重複使用用於訓練SORM的數據來合成為這兩種模型生成訓練數據。我們發現將全局和局部精煉結合起來，使用ORM作為重新排序器，明顯優於單獨使用其中任何一種，以及三個樣本基準中的最佳表現。通過這種策略，我們可以將已經使用RL進行微調的LLaMA-2 13B模型在GSM8K上的準確性（貪婪採樣時）從53%提高到65%。

DiLightNet：針對基於擴散的圖像生成的精細照明控制
DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

Feb 19

ByChong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong

本文提出了一種新穎的方法，用於在以文本驅動的擴散式圖像生成過程中實現精細的照明控制。儘管現有的擴散模型已經能夠在任何照明條件下生成圖像，但在沒有額外指導的情況下，這些模型往往會將圖像內容和照明進行相關性。此外，文本提示缺乏描述詳細照明設置所需的表達能力。為了在圖像生成過程中為內容創作者提供對照明的精細控制，我們在文本提示中增加了詳細的照明信息，以輻射提示的形式呈現，即在目標照明下使用具有均質標準材料的場景幾何的可視化。然而，生成輻射提示所需的場景幾何是未知的。我們的關鍵觀察是我們只需要引導擴散過程，因此並不需要確切的輻射提示；我們只需要將擴散模型指向正確的方向。基於這一觀察，我們介紹了一種三階段方法來控制圖像生成過程中的照明。在第一階段，我們利用標準預訓練的擴散模型在未受控制的照明下生成臨時圖像。接下來，在第二階段，通過將目標照明傳遞給一個經過改進的擴散模型（名為DiLightNet），使用從臨時圖像推斷出的前景對象的粗略形狀計算的輻射提示，來重新合成並精煉生成圖像中的前景對象。為了保留紋理細節，我們將輻射提示與臨時合成圖像的神經編碼相乘，然後將其傳遞給DiLightNet。最後，在第三階段，我們重新合成背景，使其與前景對象上的照明保持一致。我們在各種文本提示和照明條件下展示並驗證了我們的照明控制擴散模型。

二值不透明度網格：捕捉網格為基礎的視角合成的精細幾何細節
Binary Opacity Grids: Capturing Fine Geometric Detail for Mesh-Based View Synthesis

Feb 19

ByChristian Reiser, Stephan Garbin, Pratul P. Srinivasan, Dor Verbin, Richard Szeliski, Ben Mildenhall, Jonathan T. Barron, Peter Hedman, Andreas Geiger

儘管基於表面的視角合成演算法因其低計算需求而具吸引力，但往往難以重現細小結構。相較之下，那些將場景幾何建模為體積密度場的更昂貴方法（例如 NeRF）在重建精細幾何細節方面表現出色。然而，密度場通常以「模糊」方式表示幾何，這妨礙了對表面的精確定位。在這項工作中，我們修改密度場以鼓勵其朝向表面收斂，同時不損害其重建細小結構的能力。首先，我們採用離散不透明度網格表示法，而非連續密度場，使不透明度值能在表面處零到一間不連續過渡。其次，我們進行反鋸齒處理，每像素投射多條射線，從而模擬遮蔽邊界和次像素結構，而無需使用半透明的體素。第三，我們最小化不透明度值的二元熵，透過鼓勵不透明度值在訓練結束時向二元化收斂，有助於提取表面幾何。最後，我們發展了基於融合的網格化策略，隨後進行網格簡化和外觀模型擬合。我們模型生成的緊湊網格能夠在移動設備上實時渲染，並且在視角合成質量方面相比現有基於網格的方法實現了顯著提升。

Vision-Flan：在視覺指導調整中擴展人工標記任務
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

Feb 18

ByZhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang

儘管視覺語言模型（VLMs）作為多功能視覺助手具有卓越的能力，但現有的VLM框架中仍存在兩個重大挑戰：（1）在預訓練和視覺指導微調中缺乏任務多樣性，以及（2）在GPT-4合成指導數據中存在標註錯誤和偏見。這兩個挑戰導致問題，如泛化能力差、幻覺和災難性遺忘。為應對這些挑戰，我們構建了Vision-Flan，迄今為止最多樣化的公開可用視覺指導微調數據集，包括187個多樣化任務和1,664,261個實例，來源於學術數據集，每個任務都附帶專家撰寫的指導。此外，我們提出了一個兩階段指導微調框架，其中VLMs首先在Vision-Flan上進行微調，然後在GPT-4合成數據上進一步微調。我們發現這種兩階段微調框架顯著優於傳統的單階段視覺指導微調框架，並在廣泛的多模態評估基準上實現了最先進的性能。最後，我們進行深入分析以了解視覺指導微調，我們的研究發現：（1）GPT-4合成數據並未顯著增強VLMs的能力，而是調節模型對人類首選格式的反應；（2）少量（例如1,000個）的GPT-4合成數據可以有效地使VLM的反應與人類偏好保持一致；（3）視覺指導微調主要有助於大型語言模型（LLMs）理解視覺特徵。

推動自回歸模型在容量和可擴展性上進行3D形狀生成
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability

Feb 19

ByXuelin Qian, Yu Wang, Simian Luo, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue, Bo Zhao, Tiejun Huang, Yunsheng Wu, Yanwei Fu

自回歸模型在二維影像生成方面取得了令人印象深刻的成果，通過對網格空間中的聯合分布進行建模。在本文中，我們將自回歸模型擴展到三維領域，通過同時提高自回歸模型的容量和可擴展性，來尋求更強大的三維形狀生成能力。首先，我們利用一組公開可用的三維數據集來促進大規模模型的訓練。該數據集包含約 900,000 個物體的全面收集，具有網格、點、體素、渲染圖像和文本標題的多種屬性。這個多標記數據集被稱為 Objaverse-Mix，使我們的模型能夠從各種物體變化中學習。然而，直接應用三維自回歸遇到體素網格的高計算需求和沿網格維度的自回歸順序模糊等關鍵挑戰，導致三維形狀的質量較差。因此，我們提出了一個名為 Argus3D 的新框架，以提高容量。具體而言，我們的方法引入了基於潛在向量的離散表示學習，而不是基於體素網格，這不僅降低了計算成本，還通過以更易處理的順序學習聯合分布來保留基本幾何細節。條件生成的容量可以通過將各種條件輸入簡單地連接到潛在向量中來實現，例如點雲、類別、圖像和文本。此外，由於我們模型架構的簡單性，我們自然地將我們的方法擴展到一個具有驚人 36 億參數的更大模型，進一步提高了多功能三維生成的質量。對四個生成任務的大量實驗表明，Argus3D 能夠在多個類別中合成多樣且忠實的形狀，實現了卓越的性能。

AI研究論文每日精選

每日精選AI研究論文及翻譯