每日精選AI研究論文及翻譯
本文介紹了醫學SAM 2(MedSAM-2),這是一個先進的分割模型,利用SAM 2框架處理2D和3D醫學影像分割任務。通過將醫學影像視為視頻的理念,MedSAM-2不僅適用於3D醫學影像,還開啟了新的單提示分割功能。這使用戶只需針對一個特定影像對象提供提示,之後模型就可以自主地在所有後續影像中分割相同類型的對象,而不受影像之間時間關係的影響。我們在各種醫學影像模態下評估了MedSAM-2,包括腹部器官、視神經盤、腦腫瘤、甲狀腺結節和皮膚病變,並將其與傳統和交互式分割設置中的最先進模型進行了比較。我們的研究結果表明,MedSAM-2不僅在性能上超越了現有模型,而且在各種醫學影像分割任務中表現出更優越的泛化能力。我們的代碼將在以下鏈接發布:https://github.com/MedicineToken/Medical-SAM2
大规模的自监督预训练为一种基础模型处理多种不同视觉任务铺平了道路。大多数预训练方法一次训练一个特定大小的模型。然而,在现实场景中,各种计算或存储约束需要大量努力开发一系列不同大小的模型以部署。因此,在本研究中,我们提出了一种新颖的三支自监督训练框架,称为POA(一次预训练适用于所有),以解决上述问题。我们的方法将一种创新的弹性学生支路引入到现代自蒸馏范式中。在每个预训练步骤中,我们从原始学生中随机抽样一个子网络形成弹性学生,并以自蒸馏方式训练所有支路。一旦预训练完成,POA允许提取出不同大小的预训练模型用于下游任务。值得注意的是,弹性学生促进了多个不同大小模型的同时预训练,同时也作为各种大小模型的额外集成,以增强表示学习。广泛的实验,包括k最近邻、线性探测评估以及对多个下游任务的评估,展示了我们的POA的有效性和优势。它使用ViT、Swin Transformer和ResNet骨干网络实现了最先进的性能,通过单次预训练会产生大约一百个不同大小的模型。代码可在以下链接找到:https://github.com/Qichuzyy/POA。
實體鏈接(EL)和關係提取(RE)是自然語言處理中的基本任務,在各種應用中扮演著重要角色。本文提出了一種名為ReLiK的Retriever-Reader架構,用於EL和RE,其中,給定一個輸入文本,檢索器模組負責識別可能出現在文本中的候選實體或關係。隨後,閱讀器模組的任務是辨別相關的檢索實體或關係,並確立它們與相應文本範圍的對齊。值得注意的是,我們提出了一種創新的輸入表示,將候選實體或關係與文本一起納入,使得能夠在單次前向傳遞中鏈接實體或提取關係,並充分利用預訓練語言模型的情境化能力,與之前的Retriever-Reader方法相比,後者需要對每個候選進行前向傳遞。我們的EL和RE公式在領域內外基準測試中實現了最先進的性能,同時使用學術預算訓練,並與競爭對手相比,推理速度最多提高了40倍。最後,我們展示了如何無縫地使用我們的架構進行信息提取(cIE),即EL + RE,並通過使用共享的閱讀器同時提取實體和關係,創立了一個新的技術水平。
針對一個3D網格,我們的目標是合成對應於任意文本描述的3D紋理。目前用於從採樣視圖生成和組合紋理的方法通常會導致明顯的接縫或過度平滑。為了應對這些問題,我們提出了TexGen,這是一個新穎的多視圖採樣和重採樣框架,用於紋理生成,利用了一個預先訓練的文本到圖像擴散模型。為了實現視圖一致的採樣,首先我們在RGB空間中維護一個由去噪步驟參數化的紋理映射,並在每個擴散模型的採樣步驟之後更新,逐步減少視圖差異。利用一種基於注意力的多視圖採樣策略,來在視圖之間廣播外觀信息。為了保留紋理細節,我們開發了一種噪聲重採樣技術,有助於估計噪聲,生成用於後續去噪步驟的輸入,根據文本提示和當前紋理映射的指導。通過大量的定性和定量評估,我們展示了我們提出的方法為具有高度視圖一致性和豐富外觀細節的多樣3D物體產生顯著更好的紋理質量,勝過目前的最先進方法。此外,我們提出的紋理生成技術還可以應用於紋理編輯,同時保留原始身份。更多實驗結果可在https://dong-huo.github.io/TexGen/查看。
聯合處理音訊與語言的多模型在音訊理解方面具有巨大潛力,並且在音樂領域中越來越受到採用。這些模型允許用戶通過文字查詢並獲取有關特定音訊輸入的信息,因此有潛力通過基於語言的界面實現各種音樂理解任務。然而,對它們進行評估存在相當大的挑戰,目前如何有效評估它們對音樂相關輸入的正確解釋能力仍不清楚。基於這一動機,我們引入了MuChoMusic,這是一個專注於音訊的多模式語言模型中音樂理解評估的基準。MuChoMusic包含1,187個多選問題,所有問題均由人類標註者驗證,涵蓋了來自兩個公開音樂數據集的644首音樂曲目,並涵蓋了各種流派。基準中的問題旨在評估跨越幾個維度的知識和推理能力,這些維度涵蓋了基本音樂概念及其與文化和功能背景的關係。通過基準所提供的全面分析,我們評估了五個開源模型並識別了幾個問題,包括對語言模態的過度依賴,指出需要更好的多模式整合。數據和代碼均已開源。
生成式大型語言模型(LLM)在上下文學習方面的能力已經引發了大量研究,探討如何最佳提示模型進行各種自然語言處理任務。本文專注於機器翻譯(MT),這是一個已被證明可以從上下文翻譯示例中受益的任務。然而,目前尚未有系統性研究發表關於如何最佳選擇示例,並且有關基於相似性選擇是否優於隨機選擇的效用的報告結果不一。我們提供了一項研究,涵蓋多個LLM和多個上下文示例檢索策略,並比較多語句嵌入。我們涵蓋了多種語言方向,代表不同程度的語言資源(英語到法語、德語、斯瓦希里語和沃洛夫語)。與先前發表的結果相反,我們發現句子嵌入相似性可以改善機器翻譯,特別是對於資源較少的語言方向,並討論選擇池多樣性和質量之間的平衡。我們還強調了基於LLM的機器翻譯評估可能存在的問題,並建議一種更適當的評估協議,將COMET指標適應到LLM的評估中。代碼和輸出可在https://github.com/ArmelRandy/ICL-MT 免費獲得。
我們介紹了 RelBench,這是一個用於利用圖神經網絡解決關聯式數據庫中預測任務的公共基準。RelBench提供了跨越不同領域和規模的數據庫和任務,旨在成為未來研究的基礎基礎設施。我們使用RelBench進行了對關聯式深度學習(RDL)(Fey等,2024年)的第一次全面研究,該研究將圖神經網絡預測模型與(深度)表格模型結合起來,從原始表格中提取初始實體級表示。端到端學習的RDL模型充分利用了主外鍵鏈中編碼的預測信號,標誌著從主導範式手動特徵工程結合表格模型的重大轉變。為了徹底評估RDL與這個先前的黃金標準,我們進行了一項深入的用戶研究,其中一位經驗豐富的數據科學家為每個任務手動工程化特徵。在這項研究中,RDL學習到了更好的模型,同時將人類工作量減少了一個數量級以上。這展示了深度學習在解決關聯式數據庫中的預測任務方面的威力,為通過RelBench實現的許多新研究機會打開了大門。
語言模型(LM)表示中編碼了哪些潛在特徵? 最近有關訓練稀疏自編碼器(SAEs)以解開LM表示中可解釋特徵的研究表現出顯著的潛力。然而,評估這些SAEs的質量是困難的,因為我們缺乏一個可解釋特徵的真實收集,我們期望良好的SAEs能夠恢復。因此,我們建議通過在訓練在國際象棋和奧賽羅(Othello)對話記錄上的LMs的情況下工作,來衡量可解釋字典學習的進展。這些設置具有自然的可解釋特徵集合,例如“F3上有一個騎士”,我們將其利用為SAE質量的監督指標。為了引導可解釋字典學習的進展,我們引入了一種新的SAE訓練技術,即p-退火,它提高了在先前的無監督指標以及我們的新指標上的性能。