每日精選AI研究論文及翻譯
在大型文本數據庫上對大型語言模型(LLMs)進行預訓練現在是一種標準範式。在將這些LLMs用於許多下游應用時,通常會額外將新知識(例如,時效性新聞或私有領域知識)融入預訓練模型中,可以通過基於RAG的提示或微調來實現。然而,模型獲取此類新知識的最佳方法仍然是一個懸而未決的問題。在本文中,我們提出了檢索增強微調(RAFT),這是一種訓練方法,可以提高模型在“開放書籍”領域設置中回答問題的能力。在RAFT中,給定一個問題和一組檢索到的文檔,我們訓練模型忽略那些對回答問題沒有幫助的文檔,我們稱之為干擾文檔。RAFT通過引用相關文檔中對回答問題有幫助的正確序列來實現這一點。這與RAFT的思維鏈式回應相結合,有助於提高模型的推理能力。在特定領域的RAG中,RAFT在PubMed、HotpotQA和Gorilla數據集上持續改善模型的性能,提供了一種用於改進預訓練LLMs到領域內RAG的後訓練配方。RAFT的代碼和演示在github.com/ShishirPatil/gorilla上開源。
在科學研究及其應用中,科學文獻分析至關重要,因為它使研究人員能夠建立在他人工作的基礎上。然而,科學知識的快速增長導致學術文章數量大幅增加,使深入文獻分析變得越來越具挑戰性和耗時。大型語言模型(LLMs)的出現提供了應對這一挑戰的新途徑。LLMs以其擅長總結文本的能力而聞名,被視為改善科學文獻分析的潛在工具。然而,現有的LLMs存在其局限性。科學文獻通常包含各種多模態元素,如分子結構、表格和圖表,這些對以文本為中心的LLMs來說很難理解和分析。這個問題指出了迫切需要新解決方案的需求,這些解決方案能夠充分理解和分析科學文獻中的多模態內容。為了滿足這一需求,我們提出了Uni-SMART(通用科學多模態分析和研究Transformer),這是一個專為深入理解多模態科學文獻而設計的創新模型。通過在幾個領域進行嚴格的定量評估,Uni-SMART展示了優於領先的以文本為中心的LLMs的性能。此外,我們的探索延伸到實際應用,包括專利侵權檢測和對圖表的細緻分析。這些應用不僅突顯了Uni-SMART的適應性,還展示了它改變我們與科學文獻互動方式的潛力。
長格式影片理解在計算機視覺中是一項重大挑戰,需要一個能夠推理長多模式序列的模型。受人類對長格式影片理解的認知過程啟發,我們強調互動推理和規劃,而非處理冗長視覺輸入的能力。我們引入一個新穎的基於代理的系統,VideoAgent,採用大型語言模型作為中央代理,迭代識別和編譯關鍵信息以回答問題,並以視覺語言基礎模型作為工具來翻譯和檢索視覺信息。在具有挑戰性的EgoSchema和NExT-QA基準測試中,VideoAgent實現了54.1%和71.3%的零-shot準確率,平均僅使用8.4和8.2幀。這些結果顯示我們方法相對於當前最先進方法具有卓越的效果和效率,凸顯了基於代理的方法在推進長格式影片理解方面的潛力。
大型語言模型的對齊通常由模型提供者執行,以添加或控制在各種使用案例和情境中普遍理解的行為。相較之下,在本文中,我們提出了一種方法和架構,讓應用程式開發人員調整模型以符合其特定價值觀、社會規範、法律和其他規定,並在情境中協調潛在衝突的需求。我們介紹了這種對齊工作室架構的三個主要組件:框架師、指導員和審計員,它們共同協作以控制語言模型的行為。我們以一個實例說明這種方法,即將公司內部企業聊天機器人對齊到其業務行為準則。
本文介紹了一種改進的推測解碼方法,旨在增強服務大型語言模型的效率。我們的方法充分利用了兩種已建立的技術的優勢:經典的雙模型推測解碼方法和較新的單模型方法Medusa。受Medusa的啟發,我們的方法採用了單模型策略進行推測解碼。然而,我們的方法通過採用單一、輕量級的草稿頭部,具有循環依賴設計,本質上類似於經典推測解碼中使用的小型草稿模型,但不涉及完整Transformer架構的複雜性。由於循環依賴,我們可以使用束搜索快速過濾掉草稿頭中的不需要的候選項。該方法結合了單模型設計的簡單性,避免了在Medusa中僅用於推斷的創建數據依賴樹注意結構的需求。我們在幾個流行的開源語言模型上實證了所提出方法的有效性,並對採用此方法涉及的權衡進行了全面分析。
基於擴散的音頻與音樂生成模型通常通過構建音頻的圖像表示(例如mel-頻譜圖)來生成音樂,然後使用相位重建模型或聲碼器將其轉換為音頻。然而,典型的聲碼器產生的是低分辨率的單聲道音頻(例如16-24 kHz),這限制了它們的效果。我們提出了MusicHiFi - 一種高效的高保真立體聲聲碼器。我們的方法採用了三個生成對抗網絡(GANs)的級聯,將低分辨率的mel-頻譜圖轉換為音頻,通過帶寬擴展對音頻進行上採樣以獲得高分辨率音頻,並將其升級為立體聲音頻。與以往的工作相比,我們提出了:1)統一的基於GAN的生成器和鑑別器架構以及培訓程序,適用於我們級聯的每個階段;2)一個新的快速、接近下採樣兼容的帶寬擴展模塊;3)一個新的快速下混兼容的單聲道到立體聲上混器,確保輸出中單聲道內容的保留。我們使用客觀和主觀聆聽測試來評估我們的方法,發現我們的方法在音頻質量、空間定位控制以及推理速度方面均優於過去的工作。聲音示例可在https://MusicHiFi.github.io/web/找到。
從單視圖圖像重建詳細的3D物體仍然是一項具有挑戰性的任務,這是因為可用信息有限。在本文中,我們介紹了FDGaussian,這是一種新穎的單圖像3D重建的兩階段框架。最近的方法通常利用預先訓練的2D擴散模型從輸入圖像生成合理的新視圖,但它們遇到多視圖不一致或幾何保真度不足的問題。為了克服這些挑戰,我們提出了一種正交平面分解機制,從2D輸入中提取3D幾何特徵,從而實現一致的多視圖圖像生成。此外,我們進一步加速了最先進的高斯濺射,並引入了對焦注意力機制,以融合來自不同視角的圖像。我們展示了FDGaussian生成的圖像在不同視角之間具有高一致性,並在質量和量化方面重建高質量的3D物體。更多範例可在我們的網站https://qjfeng.net/FDGaussian/找到。
過去在輕量級模型開發方面的努力主要集中在卷積神經網絡(CNN)和基於Transformer的設計,但仍面臨持續挑戰。CNN擅長於局部特徵提取,但會降低解析度,而Transformer具有全局範圍,但會增加計算需求O(N^2)。準確性和效率之間的這種持續權衡仍然是一個重要障礙。最近,狀態空間模型(SSMs),如Mamba,在語言建模和計算機視覺等各種任務中展現出優異的性能和競爭力,同時將全局信息提取的時間複雜度降低到O(N)。受此啟發,本研究提議探索視覺狀態空間模型在輕量級模型設計中的潛力,並引入一種名為EfficientVMamba的新型高效模型變體。具體而言,我們的EfficientVMamba通過高效的跳躍採樣集成了基於atrous的選擇性掃描方法,構成了旨在利用全局和局部表徵特徵的構建塊。此外,我們研究了SSM塊和卷積之間的整合,並引入了一個高效的視覺狀態空間塊,結合了額外的卷積分支,進一步提升了模型性能。實驗結果表明,EfficientVMamba降低了計算複雜度,同時在各種視覺任務中取得了有競爭力的結果。例如,我們的EfficientVMamba-S具有1.3G FLOPs,在ImageNet上將Vim-Ti的1.5G FLOPs的準確率大幅提高了5.6%。代碼可在以下網址找到:https://github.com/TerryPei/EfficientVMamba。
受到預先訓練的2D擴散模型日益增加的可用性鼓舞,透過利用得分蒸餾採樣(Score Distillation Sampling,SDS)的影像生成3D技術正在取得顯著進展。大多數現有方法結合從2D擴散模型進行新視角提升,通常以參考影像作為條件,同時在參考視角應用硬L2影像監督。然而,過度依賴影像容易破壞2D擴散模型的歸納知識,導致頻繁生成平坦或扭曲的3D影像。在這項研究中,我們從新的角度重新檢視影像生成3D,提出Isotropic3D,一種僅以影像CLIP嵌入作為輸入的影像生成3D流程。Isotropic3D允許優化相對於方位角是等向的,僅依靠SDS損失。我們框架的核心在於兩階段擴散模型微調。首先,我們通過將其文本編碼器替換為影像編碼器,微調文本生成3D擴散模型,使其初步獲得影像對影像的能力。其次,我們使用我們的明確多視圖注意力(Explicit Multi-view Attention,EMA)進行微調,將多視圖影像與無噪聲的參考影像結合作為明確條件。在整個過程中,CLIP嵌入被發送到擴散模型,而參考影像在微調後被丟棄。因此,憑藉單個影像CLIP嵌入,Isotropic3D能夠生成多視圖相互一致的影像,以及一個具有更對稱整潔內容、比例協調的幾何、豐富彩色紋理和較少扭曲的3D模型,相較於現有的影像生成3D方法,仍然在很大程度上保持與參考影像的相似性。該項目頁面位於https://isotropic3d.github.io/。代碼和模型可在https://github.com/pkunliu/Isotropic3D找到。
儘管文本轉3D和圖像轉3D生成任務受到了相當大的關注,但在它們之間有一個重要但尚未被充分探索的領域,即可控文本轉3D生成,這是我們在這項工作中主要關注的。為了應對這個任務,1)我們引入了多視圖控制網絡(MVControl),這是一種新穎的神經網絡架構,旨在通過集成額外的輸入條件(如邊緣、深度、法線和塗抹地圖)來增強現有的預訓練多視圖擴散模型。我們的創新在於引入一個條件模塊,通過從輸入條件圖像和相機姿勢計算出的局部和全局嵌入來控制基礎擴散模型。一旦訓練完成,MVControl能夠為基於優化的3D生成提供3D擴散指導。2)我們提出了一種高效的多階段3D生成流程,利用最近大型重建模型和分數蒸餾算法的優勢。在我們的MVControl架構基礎上,我們採用了一種獨特的混合擴散指導方法來引導優化過程。為了追求效率,我們採用了3D高斯函數作為我們的表示,而不是常用的隱式表示。我們還開創了SuGaR的使用,這是一種將高斯函數綁定到網格三角形面的混合表示方法。這種方法緩解了3D高斯函數中幾何形狀不佳的問題,並實現了對網格上的細粒度幾何形狀的直接雕塑。廣泛的實驗表明,我們的方法實現了強大的泛化能力,並實現了高質量3D內容的可控生成。
實時高精度光流估計在各種應用中至關重要,包括機器人定位和地圖繪製、物體追蹤以及計算機視覺中的活動識別。儘管最近基於學習的光流方法取得了高精度,但通常伴隨著沉重的計算成本。本文提出了一種名為NeuFlow的高效光流架構,旨在解決高精度和計算成本問題。該架構採用全局到局部的方案。根據提取自不同空間分辨率的輸入圖像特徵,我們採用全局匹配來估計1/16分辨率上的初始光流,捕捉大位移,然後在1/8分辨率上使用輕量級CNN層進行更好的精度調整。我們在Jetson Orin Nano和RTX 2080上評估我們的方法,以展示在不同計算平台上的效率改進。與幾種最先進的方法相比,我們實現了顯著的10倍至80倍加速,同時保持可比的精度。我們的方法在邊緣計算平台上實現約30 FPS,這在部署複雜的計算機視覺任務(如SLAM)到像無人機等小型機器人上具有重大突破。完整的訓練和評估代碼可在https://github.com/neufieldrobotics/NeuFlow 上找到。