每日精選AI研究論文及翻譯
科學文獻理解對於提取目標信息並獲取洞察至關重要,從而顯著推動科學發現。儘管大型語言模型(LLMs)取得了顯著成功,但它們在科學文獻理解方面面臨挑戰,主要是由於(1)缺乏科學知識和(2)對專業科學任務的陌生感。 為了開發一個專門從事科學文獻理解的LLM,我們提出了一種混合策略,該策略整合了持續預訓練(CPT)和監督微調(SFT),以同時注入科學領域知識並增強對領域特定任務的指示遵循能力。在這個過程中,我們確定了兩個關鍵挑戰:(1)構建高質量的CPT語料庫,和(2)生成多樣的SFT指令。我們通過一個細緻的流程來應對這些挑戰,包括PDF文本提取、解析內容錯誤校正、質量過濾和合成指令創建。應用這一策略,我們提出了一系列LLMs:SciLitLLM,專門從事科學文獻理解。這些模型在科學文獻理解基準測試中展現出有希望的表現。 我們的貢獻有三個方面:(1)我們提出了一個有效的框架,將CPT和SFT整合在一起,以適應LLMs對科學文獻理解的需求,同時也可以輕鬆適應其他領域。(2)我們提出了一種基於LLM的合成方法,用於生成多樣且高質量的科學指令,從而產生一個新的指令集--SciLitIns--用於在少數科學領域進行監督微調。(3)SciLitLLM在科學文獻理解基準測試中實現了有希望的性能改進。
最近在文本到圖像個性化方面取得的進展已經實現了高質量且可控的圖像合成,以符合用戶提供的概念。然而,現有方法仍然難以在保持身份保留和文本對齊之間取得平衡。我們的方法基於一個事實,即生成與提示對齊的圖像需要對提示進行精確的語義理解,這涉及準確處理在CLIP文本編碼器中新概念與其周圍上下文標記之間的交互作用。為了應對這一問題,我們的目標是將新概念嵌入到文本編碼器的輸入嵌入空間中,從而實現與現有標記的無縫集成。我們引入了上下文正則化(CoRe),通過對提示中的上下文標記進行正則化,增強了新概念文本嵌入的學習。這是基於一個洞察,即只有當正確學習了新概念的文本嵌入時,才能實現文本編碼器對上下文標記的適當輸出向量。CoRe可以應用於任意提示,而無需生成相應的圖像,從而提高了學習文本嵌入的泛化能力。此外,CoRe還可以作為一種測試時間優化技術,進一步增強特定提示的生成效果。全面的實驗表明,我們的方法在身份保留和文本對齊方面優於幾種基線方法。代碼將公開提供。
最近對大型多模型(LMMs)的評估已探索它們在各個領域的能力,但僅有少數基準特別關注城市環境。此外,現有的城市基準僅限於對LMMs進行基本的區域級城市任務評估,僅從單一視角進行,導致對LMMs在城市環境中能力的評估不完整。為了解決這些問題,我們提出了UrBench,這是一個設計用於評估複雜多視角城市場景中LMMs的全面基準。UrBench包含了11.6K個精心策劃的問題,涵蓋了區域級和角色級的4個任務維度:地理定位、場景推理、場景理解和物體理解,共計14種任務類型。在構建UrBench時,我們利用現有數據集的數據,並額外從11個城市收集數據,使用跨視圖檢測匹配方法創建新的標註。通過這些圖像和標註,我們然後整合基於LMM、基於規則和基於人類的方法來構建大規模高質量問題。我們對21個LMMs的評估顯示,當前的LMMs在城市環境中在幾個方面表現不佳。即使表現最佳的GPT-4o在大多數任務中也遠遠落後於人類,從簡單的任務如計數到複雜的任務如方向、定位和物體屬性識別,平均表現差距為17.4%。我們的基準還顯示,LMMs在不同的城市視圖下表現出不一致的行為,特別是在理解跨視圖關係方面。UrBench數據集和基準結果將在https://opendatalab.github.io/UrBench/上公開提供。
衛星至街景合成旨在從對應的衛星視圖圖像生成逼真的街景圖像。儘管穩定擴散模型在各種圖像生成應用中表現出卓越性能,但它們依賴於類似視圖輸入以控制生成的結構或紋理,限制了它們應用於具有挑戰性的跨視圖合成任務。在這項工作中,我們提出CrossViewDiff,一種用於衛星至街景視圖合成的跨視圖擴散模型。為應對視圖之間的巨大差異帶來的挑戰,我們設計了衛星場景結構估計和跨視圖紋理映射模塊,以構建街景圖像合成的結構和紋理控制。我們進一步設計了一個跨視圖控制引導的去噪過程,通過增強的跨視圖注意模塊將上述控制因素納入其中。為了更全面地評估合成結果,我們另外設計了一種基於GPT的評分方法,作為標準評估指標的補充。我們還探討了不同數據來源(例如文本、地圖、建築高度和多時期衛星圖像)對此任務的影響。在三個公共跨視圖數據集上的結果顯示,CrossViewDiff在標準和基於GPT的評估指標上均優於當前最先進的方法,生成具有更真實結構和紋理的高質量街景全景,涵蓋鄉村、郊區和城市場景。此工作的代碼和模型將在https://opendatalab.github.io/CrossViewDiff/上發布。
在非洲的情境中,高資源語言模型往往表現不佳,因為當地急需高效、易取得且具地方相關性的模型,即使在計算和數據方面存在顯著限制。本文介紹了InkubaLM,一個具有 0.4 十億參數的小型語言模型,其在機器翻譯、問答、AfriMMLU 和 AfriXnli 任務上實現了與參數數量遠大且訓練數據更廣泛的模型相媲美的性能。值得注意的是,InkubaLM 在情感分析方面勝過許多更大的模型,並在多種語言中展現出卓越的一致性。這項工作代表了挑戰傳統範式的重要進展,即有效的語言模型必須依賴豐富的資源。我們的模型和數據集公開可用,以鼓勵對低資源語言進行研究和開發。我们的模型和数据集公开可用\url{https://huggingface.co/lelapa}。
擴散Transformer模型(DiTs)已將網絡架構從傳統的UNets轉換為Transformer,在圖像生成方面展現出卓越的能力。儘管DiTs已被廣泛應用於高清晰度視頻生成任務,但其龐大的參數規模阻礙了在邊緣設備上的推斷。向量量化(VQ)可以將模型權重分解為一個碼本和分配,實現極端權重量化並顯著減少內存使用。本文提出了VQ4DiT,這是一種快速的用於DiTs的後訓練向量量化方法。我們發現傳統的VQ方法僅校準了碼本而沒有校準分配。這導致權重子向量被錯誤地分配給相同的分配,為碼本提供不一致的梯度,並導致次優異的結果。為了應對這一挑戰,VQ4DiT根據歐氏距離為每個權重子向量計算候選分配集,並基於加權平均值重建子向量。然後,使用零數據和塊狀校準方法,從該集中高效地選擇最佳分配,同時校準碼本。VQ4DiT在單個NVIDIA A100 GPU上對DiT XL/2模型進行量化,時間從20分鐘到5小時不等,具體取決於不同的量化設置。實驗表明,VQ4DiT在模型大小和性能折衷方面建立了新的最先進水平,將權重量化為2位精度,同時保持可接受的圖像生成質量。
VoxCeleb 語者識別挑戰(VoxSRC)是一系列從2019年至2023年每年舉辦的挑戰和研討會。這些挑戰主要評估語者識別和日誌記錄任務,涵蓋不同設定,包括:封閉和開放式訓練數據;以及監督式、自監督式和半監督式訓練用於領域適應。這些挑戰還為每個任務和設定提供了公開可用的訓練和評估數據集,每年釋出新的測試集。本文對這些挑戰進行了回顧,內容包括:它們所探索的內容;挑戰參與者開發的方法及其演變過程;以及語者驗證和日誌記錄領域的當前狀態。我們記錄了在共同評估數據集上挑戰的五個版本中性能的進展,並詳細分析了每年的特別焦點如何影響參與者的表現。本文旨在為希望瞭解語者識別和日誌記錄領域的研究人員提供概述,同時也針對希望從 VoxSRC 挑戰的成功中受益並避免錯誤的挑戰組織者。最後,我們討論了該領域目前的優勢和開放性挑戰。項目頁面:https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
多向量密集模型,如 ColBERT,在資訊檢索中已被證明極為有效。ColBERT 的後期交互作用評分近似於交叉編碼器中所見的聯合查詢-文檔注意力,同時保持推論效率接近傳統密集檢索模型,這要歸功於其雙編碼器架構以及最近在索引和搜索方面的優化。在本文中,我們介紹了對 ColBERT 模型架構和訓練流程的幾項改進,利用在更成熟的單向量嵌入模型範式中取得成功的技術,特別是適用於異構多語言數據的技術。我們的新模型 Jina-ColBERT-v2 在各種英語和多語言檢索任務中展現出強大的性能,同時與先前模型相比,還將存儲需求降低了多達 50%。
文件摘要是將文本縮短為簡潔且資訊豐富的摘要的任務。本文介紹了一個新的數據集,旨在將多篇科學文章總結為一篇調查的部分。我們的貢獻包括:(1) SurveySum,一個新的數據集,解決了領域特定摘要工具的差距;(2) 兩個特定的流程,用於將科學文章總結為調查的部分;以及(3) 使用多個指標評估這些流程,以比較它們的性能。我們的結果突顯了高質量檢索階段的重要性,以及不同配置對生成摘要質量的影響。
圖像在記錄地球生物多樣性方面越來越重要,為生物學領域的科學發現提供了新的加速機會,特別是隨著大視覺語言模型(VLMs)的出現。我們探討預訓練的VLMs是否可以幫助科學家回答各種與生物相關的問題,而無需進行任何額外的微調。本文評估了12個最先進的VLMs在生物學領域的效果,使用一個新的數據集VLM4Bio,包含469K個問答對,涉及三組生物圖像:魚類、鳥類和蝴蝶,涵蓋五個與生物相關的任務。我們還探討了應用提示技術和對VLMs性能的推理幻覺測試的影響,為使用圖像回答與生物相關問題方面的當前最先進VLMs的能力帶來新的見解。本文報告的所有分析的代碼和數據集可在https://github.com/sammarfy/VLM4Bio 找到。
檢測和歸因於氣候變化的溫度上升對於了解全球暖化並引導適應策略至關重要。區分人為引起的氣候信號與自然變異的複雜性挑戰了傳統的檢測和歸因(D&A)方法,這些方法旨在識別氣候響應變數中的特定「指紋」。深度學習為辨識龐大空間數據集中的這些複雜模式提供了潛力。然而,缺乏標準協議阻礙了跨研究的一致比較。我們介紹了ClimDetect,這是一個標準化數據集,包含超過816,000個每日氣候快照,旨在提高識別氣候變化信號的模型準確性。ClimDetect整合了過去研究中使用的各種輸入和目標變數,確保可比較性和一致性。我們還探討了在這一背景下對氣候數據應用視覺轉換器(ViT)的可能性,這是一種新穎且現代化的方法。我們的開放數據和代碼可作為通過改進模型評估來推進氣候科學的基準。ClimDetect可通過Huggingface數據集存儲庫公開訪問,網址為:https://huggingface.co/datasets/ClimDetect/ClimDetect。
本文介紹了一種名為CURLoRA的新方法,用於在大型語言模型(LLMs)上進行微調,該方法利用CUR矩陣分解在低秩適應(LoRA)的背景下。我們的方法解決了LLM微調中的兩個關鍵挑戰:在持續學習期間減輕災難性遺忘,並減少可訓練參數的數量。我們對CUR分解過程進行了獨特修改,利用反轉概率進行列和行的選擇,作為一種隱式正則化,並將U矩陣初始化為零矩陣,僅進行微調。通過對多個數據集進行實驗,我們證明了CURLoRA在減輕災難性遺忘方面優於標準LoRA。它在各任務之間保持模型穩定性和性能,同時顯著減少可訓練參數的數量。我們的結果表明,與LoRA相比,在持續微調時,尤其是在數據有限的情況下,CURLoRA實現了非常好且穩定的任務準確性,同時保持基本模型的困惑度分數不變。
隨著人工智慧領域的進展,輔助技術在各行業中被廣泛應用。醫療保健行業也不例外,許多研究正在進行以開發醫療專業人員使用的輔助工具。自動診斷系統是其中一種有益的工具,可協助執行多項任務,包括收集病人信息、分析檢驗結果和診斷病人。然而,在大多數研究中,開發能提供差異診斷的系統的概念大多被忽視。在本研究中,我們提出了一種基於變壓器的方法,根據病人的年齡、性別、病史和症狀提供差異診斷。我們使用了DDXPlus數據集,該數據集根據49種疾病類型為病人提供差異診斷信息。首先,我們提出了一種方法來處理數據集中的表格狀病人數據,並將其轉換為病人報告,以使其適合我們的研究。此外,我們引入了兩個數據修改模塊來使訓練數據多樣化,從而提高模型的韌性。我們將此任務視為多標籤分類問題,並使用四個變壓器模型進行了廣泛實驗。所有模型在留出測試集上均取得了令人期待的結果,F1分數均超過了97%。此外,我們設計了額外的行為測試,以更廣泛地了解這些模型。特別是,在我們的一個測試案例中,我們在一位醫生的協助下準備了一個包含100個樣本的自定義測試集。在自定義集上的結果顯示,我們提出的數據修改模塊提高了模型的泛化能力。我們希望我們的研究結果能為未來的研究人員提供寶貴的見解,並激勵他們開發可靠的自動差異診斷系統。
Transformer架構已經在生物信息學領域引起了革命,推動了對生物分子性質的理解和預測的進展。幾乎所有大規模生物序列Transformer的研究都集中在單一領域(單組學)上,通常是核苷酸或肽段。這些模型在每個領域的下游任務中取得了令人難以置信的成功,在肽段序列和結構建模方面尤其取得了顯著的突破。然而,這些單組學模型自然無法對多組學任務進行建模,其中最具生物學重要性的之一是核苷酸-肽段相互作用。 我們提出了我們的工作,訓練了第一批多組學核苷酸-肽段基礎模型。我們展示了這些多組學模型(MOMs)可以學習各種單組學分佈之間的聯合表示,這些表示與分子生物學的中心法則具有自發一致性,儘管只是在未標記的生物序列上進行了訓練。我們進一步證明,MOMs可以進行微調,以在肽段-核苷酸相互作用任務上取得最先進的結果,即預測給定寡核苷酸和肽段之間結合作用的吉布斯自由能變化(ΔG),以及由於寡核苷酸序列中的突變對這種結合作用的影響(ΔΔG)。 值得注意的是,我們展示了多組學生物序列Transformer在沒有任何先前結構訓練的情況下自發地學習到有用的結構信息,這使我們能夠預測哪些肽段殘基在肽段-核苷酸結合作用中起著最重要的作用。最後,我們提供證據表明,多組學生物序列模型與在單組學分佈上進行訓練的基礎模型並不相上下,這表明在構建這些模型時採用了更廣泛或基礎的方法。
參數高效微調(PEFT)方法已經變得流行並使大型語言模型(LLMs)的使用民主化。最近的研究顯示,一小部分權重顯著影響性能。基於這一觀察,我們引入了一種新的PEFT方法,稱為注入高斯噪聲以微調顯著權重(GIFT-SW)。我們的方法僅更新顯著列,同時在非顯著列中注入高斯噪聲。為了識別這些列,我們開發了一種廣義敏感度度量,擴展並統一了先前研究中的度量。對LLaMA模型的實驗表明,GIFT-SW在相同的計算預算下優於完全微調和現代PEFT方法。此外,GIFT-SW提供了實際優勢,可以在保持完整精度的顯著權重的情況下,恢復經過混合精度量化處理的模型的性能。
透過壓縮多樣敘述,語言模型進一步超越僅僅記憶,透過捕捉可推廣的因果關係而達到智能。然而,由於訓練數據多樣性不足,它們存在著局部的「表示差距」,限制了其在現實世界中的實用性,尤其是在需要嚴格遵循規則的任務中。依賴大量人工標註的傳統對齊方法效率低下且不可擴展。最近的自對齊技術也存在不足,因為它們通常依賴基於自選擇的提示和基於記憶的學習。為解決這些問題,我們引入了迭代圖對齊(IGA),一種無需標註的基於規則的對齊算法。教師模型(VLM)採用迭代圖提示(IGP)來創建邏輯圖和參考答案。學生模型(LLM)通過嘗試將其回應與這些參考對齊來識別局部知識差距,並與輔助模型合作生成多樣答案。然後利用這些對齊的回應進行迭代監督微調(SFT)。我們在五個基於規則的場景中進行的評估顯示了IGP的有效性,在Claude Sonnet 3.5中取得了73.12%的對齊改進,而Llama3-8B-Instruct則取得了86.20%的改進,優於Claude Sonnet 3.5在基於規則的對齊方面。