每日精選AI研究論文及翻譯
本文介紹了 SaulLM-54B 和 SaulLM-141B 兩個針對法律領域量身定制的大型語言模型(LLMs)。這些模型分別具有 540 億和 1410 億參數的架構,基於 Mixtral 架構。SaulLM-54B 和 SaulLM-141B 的開發受到大規模領域適應的指導,分為三個策略:(1)利用持續預訓練,包括超過 5400 億法律標記的基本語料庫,(2)實施專門的法律指令遵循協議,以及(3)將模型輸出與法律解釋中的人類偏好對齊。在第二和第三步中整合合成生成的數據增強了模型在解釋和處理法律文本方面的能力,有效地達到了最先進的性能,並在 LegalBench-Instruct 上表現優於先前的開源模型。本研究探討了在這一規模上涉及的特定領域適應中的權衡,提供了可能有助於未來使用強解碼器模型進行領域適應的研究見解。在 SaulLM-7B 的基礎上,本研究改進了方法,以產生一個更適合法律任務的LLM。我們在 SaulLM-54B 和 SaulLM-141B 的基礍上釋出了基本、指令和對齊版本,並採用 MIT 許可證,以促進重複使用和協作研究。
重大抑鬱症(MDD)是一種普遍的心理健康狀態,影響全球三億人口。本研究提出了一種新穎的基於BiLSTM的三模態模型級融合架構,用於從臨床訪談錄音中對抑鬱進行二元分類。所提出的架構融合了梅爾頻率倒頻譜係數、面部表情單元,並使用基於雙樣本學習的GPT-4模型來處理文本數據。這是首個將大型語言模型融入多模態架構以執行此任務的研究。它在DAIC-WOZ AVEC 2016挑戰賽交叉驗證分割和留一主題交叉驗證分割上取得了令人印象深刻的結果,超越了所有基準模型和多個最先進模型。在留一主題交叉驗證測試中,它實現了91.01%的準確率,85.95%的F1分數,80%的精確度和92.86%的召回率。
大型語言模型(LLMs)展現出在各種任務上的卓越能力,然而它們的發展主要集中在像英語和中文這樣的高資源語言上,使得低資源語言得不到應有的支持。為了解決這種不均衡情況,我們介紹 SeaLLMs 3,這是 SeaLLMs 模型系列的最新版本,專為東南亞語言量身打造。這個地區以其豐富的語言多樣性而聞名,卻缺乏足夠的語言技術支持。SeaLLMs 3 的目標是彌合這一差距,覆蓋該地區使用的包括英語、中文、印尼語、越南語、泰語、菲律賓語、馬來語、緬甸語、高棉語、老撾語、泰米爾語和爪哇語在內的全面語言範疇。通過利用高效的語言增強技術和特別構建的指導調整數據集,SeaLLMs 3 顯著降低了訓練成本,同時保持高性能和多功能性。我們的模型在世界知識、數學推理、翻譯和指令跟隨等任務中表現出色,實現了與同等大小模型相當的最先進性能。此外,我們優先考慮了安全性和可靠性,同時解決了一般和文化特定考量,並納入了減少幻覺的機制。這項工作強調了包容性人工智能的重要性,顯示先進的LLM能力可以造福被忽視的語言和文化社區。
影片擴散模型在各種影片生成應用中取得了顯著進展。然而,為了長影片生成任務訓練模型需要大量的計算和數據資源,這對於發展長影片擴散模型構成了挑戰。本文探討了一種直接且無需訓練的方法,用於擴展現有的短影片擴散模型(例如在16幀影片上預先訓練)以實現一致的長影片生成(例如128幀)。我們的初步觀察發現,直接應用短影片擴散模型生成長影片可能導致嚴重的影片質量降低。進一步的研究顯示,這種降質主要是由於長影片中高頻組件的失真所致,其特徵是空間高頻組件減少,時間高頻組件增加。受此啟發,我們提出了一種名為FreeLong的新解決方案,用於在去噪過程中平衡長影片特徵的頻率分佈。FreeLong將全局影片特徵的低頻組件(涵蓋整個影片序列)與局部影片特徵的高頻組件(專注於較短的幀子序列)相融合。這種方法在保持全局一致性的同時,還從局部影片中納入多樣且高質量的時空細節,增強了長影片生成的一致性和保真度。我們在多個基礎影片擴散模型上評估了FreeLong,觀察到了顯著的改進。此外,我們的方法支持連貫的多提示生成,確保視覺連貫性和場景之間的無縫過渡。
基於視覺的機器人策略學習將視覺輸入映射到動作,需要對多樣視覺任務進行全面理解,超越單一任務需求,如分類或分割。受此啟發,我們引入Theia,這是一個為機器人學習設計的視覺基礎模型,它提煉了多個在不同視覺任務上訓練的現成視覺基礎模型。Theia豐富的視覺表示編碼了多樣的視覺知識,增強了下游機器人學習。廣泛的實驗表明,Theia在使用更少的訓練數據和更小的模型尺寸的情況下,優於其教師模型和先前的機器人學習模型。此外,我們量化了預訓練視覺表示的質量,並假設特徵規範分佈中的較高熵將提高機器人學習性能。代碼和模型可在https://github.com/bdaiinstitute/theia找到。
資訊尋求和整合是一項複雜的認知任務,耗費大量時間和精力。受到大型語言模型顯著進展的啟發,最近的研究嘗試通過結合大型語言模型和搜索引擎來解決這個任務。然而,由於三個挑戰,這些方法仍然無法獲得令人滿意的性能:(1) 複雜的請求往往無法被搜索引擎準確和完整地檢索一次,(2) 要整合的相應信息分散在多個網頁上,並伴隨著大量噪音,(3) 大量內容豐富的網頁可能很快就會超過大型語言模型的最大上下文長度。受到人類解決這些問題時的認知過程的啟發,我們引入MindSearch來模擬人類在網絡信息尋求和整合中的思維,這可以通過一個簡單而有效的基於大型語言模型的多代理框架來實現。WebPlanner將多步信息尋求的人類思維建模為一個動態圖構建過程:它將用戶查詢分解為圖中的原子子問題節點,並根據WebSearcher的搜索結果逐步擴展圖。WebSearcher負責每個子問題,它通過搜索引擎執行分層信息檢索並為WebPlanner收集有價值的信息。MindSearch的多代理設計使整個框架能夠在3分鐘內並行地從規模更大的網頁(例如超過300個)中尋求和整合信息,相當於人類努力3小時的價值。MindSearch在深度和廣度方面顯著提高了回應質量,無論是在閉集還是開集的問答問題上。此外,基於InternLM2.5-7B的MindSearch的回應比ChatGPT-Web和Perplexity.ai應用更受人類青睞,這表明MindSearch已經能夠為專有AI搜索引擎提供具有競爭力的解決方案。
近期大型語言模型(LLMs)的進步增加了對全面基準的需求,以評估它們作為類人代理的能力。現有的基準雖然有用,但通常專注於特定應用場景,強調任務完成,但未能解析驅動這些結果的基本技能。這種缺乏細微度使得深入識別失敗來源變得困難。此外,建立這些環境需要相當大的努力,而在互動任務中有時會出現不可靠性和再現性問題。為了應對這些限制,我們引入了 Massive Multitask Agent Understanding(MMAU)基準,其中包括全面的離線任務,消除了對複雜環境設置的需求。它評估模型在五個領域中,包括工具使用、有向無環圖(DAG)問答、數據科學和機器學習編碼、比賽級編程和數學,並涵蓋五個基本能力:理解、推理、規劃、解決問題和自我校正。MMAU總共包含20個精心設計的任務,涵蓋超過3K個不同提示,為評估LLM代理的優勢和限制提供了全面的框架。通過在MMAU上測試18個代表性模型,我們提供了深入而富有洞察力的分析。最終,MMAU不僅揭示了LLM代理的能力和限制,還增強了其性能的可解釋性。MMAU的數據集和評估腳本已發布在 https://github.com/apple/axlearn/docs/research/mmau。
對比式語言-圖像預訓練(CLIP)擅長於在不同領域和模態之間抽象出開放世界的表示,已成為各種視覺和多模式任務的基礎。然而,最近的研究揭示了CLIP存在嚴重的視覺缺陷,例如幾乎無法區分方向、數量、顏色、結構等。這些視覺缺陷也限制了建立在CLIP基礎上的多模式大型語言模型(MLLMs)的感知能力。主要原因可能是用於訓練CLIP的圖像-文字對固有地存在偏見,這是由於文字的獨特性和圖像的多樣性不足所致。在這項工作中,我們提出了一種簡單的後訓練方法,用於CLIP模型,通過自監督擴散過程在很大程度上克服其視覺缺陷。我們引入DIVA,它使用擴散模型作為CLIP的視覺助手。具體來說,DIVA利用從文字到圖像擴散模型的生成式反饋來優化CLIP表示,僅使用圖像(沒有對應的文字)。我們展示DIVA在具有挑戰性的MMVP-VLM基準測試中提高了CLIP的性能,該基準測試在很大程度上評估了細粒度視覺能力(例如3-7%),並增強了MLLMs和視覺模型在多模式理解和分割任務上的性能。對29個圖像分類和檢索基準進行了廣泛評估,確認我們的框架保留了CLIP強大的零樣本能力。代碼將可在 https://github.com/baaivision/DIVA 上獲得。
視覺媒體(圖像和影片)自然包含大量信息冗餘,因此提供了在處理中提高效率的絕佳機會。儘管基於視覺轉換器(Vision Transformer,ViT)的模型能夠有效擴展到大數據範疇,但它們未能充分利用這種固有的冗餘性,導致更高的計算成本。專家混合(Mixture of Experts,MoE)網絡展示了可擴展性,同時保持相同的推理時間成本,但它們帶有更大的參數占用量。我們提出了嵌套專家混合(Mixture of Nested Experts,MoNE),它利用專家的嵌套結構,其中個別專家位於一條遞增的計算-準確性曲線上。在給定計算預算的情況下,MoNE 學會動態地按優先順序選擇令牌,因此冗餘令牌通過更便宜的嵌套專家進行處理。通過這個框架,我們實現了與基準模型相當的性能,同時將推理時間計算量減少了一倍以上。我們在標準圖像和視頻數據集(ImageNet-21K、Kinetics400 和 Something-Something-v2)上驗證了我們的方法。我們進一步突出了 MoNE 的適應性,展示了它在視頻上僅使用單個訓練模型即能在不同推理時間計算預算下保持強大性能的能力。
對於數學推理任務,有效訓練語言模型(LMs)需要高質量的監督式微調數據。除了從人類專家獲取標註外,一個常見的替代方法是從更大更強大的LMs中取樣。然而,這種知識蒸餾方法可能成本高昂且不穩定,特別是在依賴像GPT-4這樣的封閉源、專有LMs時,其行為常常難以預測。在這項工作中,我們展示了通過自我訓練可以增強小規模LMs的推理能力,這是一種模型從自身輸出中學習的過程。我們還表明,傳統的自我訓練可以透過一種稱為直接偏好優化(DPO)的偏好學習算法進一步增強。通過將DPO整合到自我訓練中,我們利用偏好數據來引導LMs朝向更準確和多樣化的思維鏈推理。我們在不同基礎模型上評估了我們的方法在各種數學推理任務中的效果。我們的實驗表明,這種方法不僅提高了LMs的推理性能,而且相較於依賴大型專有LMs,還提供了一種更具成本效益和可擴展性的解決方案。
最近的3D大型重建模型通常採用兩階段過程,首先通過多視角擴散模型生成多視角影像,然後利用前饋模型將影像重建為3D內容。然而,多視角擴散模型通常會產生質量低且不一致的影像,對最終3D重建的質量產生不利影響。為解決這個問題,我們提出了一個統一的3D生成框架,稱為Cycle3D,它在多步驟擴散過程中循環利用2D基於擴散的生成模組和前饋3D重建模組。具體而言,2D擴散模型用於生成高質量紋理,而重建模型則確保多視角一致性。此外,2D擴散模型可以進一步控制生成的內容,並為未見視角注入參考視角信息,從而在去噪過程中增強3D生成的多樣性和紋理一致性。大量實驗證明,與最先進的基準方法相比,我們的方法在創建具有高質量和一致性的3D內容方面具有卓越能力。
想像觀察到有人挠胳膊;要理解原因,需要額外的背景資料。然而,如果附近發現一隻蚊子,立即就能提供對於這人不適的合理解釋,因此減輕了進一步資訊的需求。這個例子說明了微妙的視覺線索如何挑戰我們的認知能力,展示了解讀視覺情境的複雜性。為了研究這些能力,我們提出了「視覺謎題」,這是一個旨在測試視覺和語言模型對需要常識和世界知識的視覺謎題的基準。這個基準包括 400 個視覺謎題,每個都有一個由各種文本到圖像模型創建的獨特圖像、問題、基本答案、文本提示和歸因。人類評估顯示現有模型明顯落後於人類表現,人類表現準確率為 82\%,Gemini-Pro-1.5 領先,準確率為 40\%。我們的基準配備了自動評估任務,以使評估可擴展。這些發現強調了「視覺謎題」作為一個有價值的資源,可增強視覺和語言模型在解讀複雜視覺情境方面的能力。
3D 多模式問答(MQA)在場景理解中扮演著關鍵角色,使智能代理能夠在 3D 環境中理解周圍環境。儘管現有研究主要集中在室內家庭任務和室外道路自動駕駛任務上,但對於城市級場景理解任務的探索有限。此外,由於缺乏城市級空間語義信息和人-環境交互信息,現有研究在理解城市場景方面面臨挑戰。為應對這些挑戰,我們從數據集和方法的角度研究 3D MQA。從數據集角度出發,我們引入了一個名為 City-3DQA 的新穎 3D MQA 數據集,用於城市級場景理解,這是第一個在城市中結合場景語義和人-環境交互任務的數據集。從方法角度出發,我們提出了一種名為場景圖增強的城市級理解方法(Sg-CityU),利用場景圖引入空間語義。我們報告了一個新的基準,我們提出的 Sg-CityU 在 City-3DQA 的不同設置中實現了 63.94% 和 63.76% 的準確率。與室內 3D MQA 方法和使用先進的大型語言模型(LLMs)進行零樣本測試相比,Sg-CityU 在魯棒性和泛化性能方面展現了最先進的表現。
古典阿拉伯語代表了一個重要的時代,包括阿拉伯文化、哲學和科學文學的黃金時期。對於將這些文學作品翻譯成不同語言以豐富知識傳播在各個社群中的重要性有廣泛的共識,大型語言模型(LLMs)和翻譯系統的出現提供了有望實現這一目標的工具。然而,我們發現古典阿拉伯語的翻譯數據集稀缺,通常在範圍和主題上受限,阻礙了高質量翻譯系統的發展。為此,我們提出了ATHAR數據集,包括了6.6萬個高質量的古典阿拉伯語到英語的翻譯樣本,涵蓋了科學、文化和哲學等廣泛範疇。此外,我們評估了當前最先進的LLMs在不同設置下的性能,得出結論指出目前系統中需要這樣的數據集。我們的研究結果突顯了模型如何可以從微調或將此數據集納入其預訓練流程中受益。該數據集可在HuggingFace Data Hub上公開獲取,網址為https://huggingface.co/datasets/mohamed-khalil/ATHAR。
大型語言模型(LLMs)在許多領域迅速超越人類知識。傳統上改進這些模型通常依賴昂貴的人類數據,但最近的自我獎勵機制(Yuan等,2024年)表明,LLMs可以通過評判自己的回應來改進,而不是依賴人類標註者。然而,現有方法主要集中在改進模型回應而非判斷能力上,導致在迭代訓練期間迅速飽和。為了解決這個問題,我們引入了一個新穎的元獎勵步驟到自我改進過程中,模型評判自己的判斷並利用該反饋來完善其判斷技能。令人驚訝的是,這種無監督方法提高了模型判斷和遵循指示的能力,如在AlpacaEval 2上,Llama-3-8B-Instruct的勝率從22.9%提高到39.4%,在Arena-Hard上從20.6%提高到29.1%。這些結果強烈暗示了無需人類監督即可自我改進模型的潛力。
生成模型,如擴散模型(DMs)、變分自編碼器(VAEs)和生成對抗網絡(GANs),能夠生成具有幾乎與真實照片和藝術品難以區分的真實性水平的圖像。儘管這種能力對許多行業都有益,但識別合成圖像的困難使在線媒體平台容易受到冒充和虛假信息的威脅。為了支持防禦方法的發展,我們引入了ImagiNet,這是一個用於合成圖像檢測的高分辨率和平衡數據集,旨在減輕現有資源中的潛在偏見。它包含20萬個示例,涵蓋四個內容類別:照片、繪畫、人臉和未分類。合成圖像是使用開源和專有生成器生成的,而相同內容類型的真實對應則是從公共數據集中收集的。ImagiNet的結構允許建立一個雙軌評估系統:i)分類為真實或合成,ii)識別生成模型。為了建立基準,我們使用自監督對比目標(SelfCon)訓練了一個ResNet-50模型,分別用於每個軌道。該模型在已建立的基準測試中展示出最先進的性能和高推理速度,實現了高達0.99的AUC和在86%至95%之間的平衡準確度,即使在涉及壓縮和調整大小的社交網絡條件下也是如此。我們的數據和代碼可在https://github.com/delyan-boychev/imaginet 上獲得。
情感分析是自然語言處理(NLP)領域中被廣泛研究的一個範疇,由於自動化解決方案的出現,它引起了相當大的興趣。儘管如此,由於語言的固有複雜性和情感的主觀性,這項任務仍然具有挑戰性。對於立陶宛語等少有研究和資源的語言來說,情況更加困難。我們對現有的立陶宛語NLP研究進行了回顧,發現傳統機器學習方法和分類算法對於這一任務的效果有限。在這項工作中,我們處理了從多個領域收集並清理的立陶宛語五星級在線評論的情感分析。我們首次將Transformer模型應用於這一任務,探索了預訓練的多語言大型語言模型(LLMs)的能力,特別是專注於BERT和T5模型的微調。鑒於任務的困難性,經過微調的模型表現相當出色,特別是當情感本身不太模糊時:最受歡迎的一星和五星評論的測試識別準確率分別為80.74%和89.61%。它們明顯優於當前商業最先進的通用LLM GPT-4。我們將我們微調的LLMs公開分享在線。
傳統上,為個人創建逼真的頭像通常需要進行大量捕捉工作,使用複雜且昂貴的工作室設備,如LightStage系統。儘管最近在神經表示方面取得了進展,使得可以從快速手機掃描生成逼真且可動的3D頭像,但這些頭像在捕捉時的燈光效果已固定,缺乏面部細節,並在耳後等區域存在缺失。因此,與工作室捕捉的頭像相比,它們在質量上存在差距。在本文中,我們提出了一種方法,通過從短暫的單眼手機掃描生成類似工作室照明的紋理貼圖,以彌合這一差距。我們通過使用StyleGAN2的W^+空間對手機紋理貼圖進行參數化,實現幾乎完美的重建。然後,通過使用一小組工作室捕捉的紋理作為對抗訓練信號,在W^+參數化空間中對StyleGAN2進行微調。為了進一步增強面部細節的逼真度和準確性,我們通過精心設計的擴散模型對StyleGAN2的輸出進行超分辨率處理,該模型受到手機捕捉紋理貼圖的圖像梯度引導。一旦訓練完成,我們的方法在從普通單眼智能手機視頻生成類似工作室的面部紋理貼圖方面表現出色。展示了其能力,我們展示了從單眼手機掃描生成逼真、均勻照明、完整頭像的過程。{項目頁面可在此處找到:http://shahrukhathar.github.io/2024/07/22/Bridging.html}
我們提出了一種新方法,用於獨立於角色形態和骨骼結構的運動數據集的周期性結構和語義的理解。與現有方法使用過於稀疏的高維潛在不同,我們提出了一個包含多個閉合曲線的相位流形,每個曲線對應一個潛在振幅。通過我們提出的向量量化周期自編碼器,我們學習了一個共享的相位流形,適用於多個角色,如人類和狗,而無需任何監督。這是通過利用離散結構和淺網絡作為瓶頸來實現的,從而將語義相似的運動聚類到流形的同一曲線中,並且同一組件內的運動通過相位變量在時間上對齊。結合改進的運動匹配框架,我們展示了流形在幾個應用中的時間和語義對齊能力,包括運動檢索、轉移和風格化。本文的代碼和預先訓練模型可在 https://peizhuoli.github.io/walkthedog 上獲得。
領域通用性是深度學習模型的一個關鍵方面,因為它決定了模型在來自未知領域的數據上表現良好的能力。然而,有關深度學習模型在視覺語言任務中的領域通用性的研究仍然有限,主要是因為缺乏必要的數據集。為應對這些挑戰,我們提出了VolDoGer:用於領域泛化的視覺語言數據集,這是一個專門設計用於解決三個視覺語言任務的數據集:圖像標題生成、視覺問答和視覺蘊涵。我們通過將基於LLM的數據標註技術擴展到視覺語言任務,從而減輕了招募人類標註者的負擔,構建了VolDoGer。我們通過VolDoGer評估了從微調模型到最近的多模式大型語言模型等各種模型的領域通用性。
本文介紹了TAPTRv2,這是一種基於TAPTR的基於Transformer的方法,用於解決追蹤任意點(TAP)任務。TAPTR借鑒了DEtection TRansformer(DETR)的設計,將每個追蹤點定義為一個點查詢,從而可以利用DETR類算法中研究良好的操作。TAPTRv2通過解決一個關於其依賴成本體積的關鍵問題來改進TAPTR,這會污染點查詢的內容特徵,並對能見度預測和成本體積計算產生負面影響。在TAPTRv2中,我們提出了一種新的基於注意力的位置更新(APU)操作,並使用鍵感知變形注意力來實現。對於每個查詢,此操作使用鍵感知注意權重來結合它們對應的可變形採樣位置,以預測新的查詢位置。這種設計基於一個觀察結果,即局部注意力本質上與成本體積相同,兩者都是通過查詢與其周圍特徵之間的點積運算來計算的。通過引入這個新操作,TAPTRv2不僅消除了成本體積計算的額外負擔,還帶來了顯著的性能改進。TAPTRv2超越了TAPTR,在許多具有挑戰性的數據集上實現了最先進的性能,展示了其優越性。