每日精選AI研究論文及翻譯
在大型語言模型(LLMs)中,情境學習(ICL)已經成為一種強大的新學習範式。然而,其基本機制仍不太清楚。特別是,將其映射到「標準」機器學習框架是具有挑戰性的,該框架使用訓練集 S 找到某個假設類別中最適合的函數 f(x)。在這裡,我們通過展示情境學習所學習的函數通常具有非常簡單的結構來解決這個問題:它們對應於只有查詢 x 和從訓練集計算出的單一「任務向量」的變壓器LLM。因此,ICL可以被視為將 S 壓縮為單一任務向量 theta(S),然後使用此任務向量調節變壓器以產生輸出。我們通過一系列模型和任務的全面實驗來支持上述主張。
公開可用的視覺基礎模型(VFMs)的範圍正在迅速擴大,例如CLIP和Segment Anything Model(SAM)。VFMs具有獨特的能力,源於它們的預訓練目標。例如,CLIP在語義理解方面表現出色,而SAM專注於分割的空間理解。在這項工作中,我們介紹了一個簡單的方法,可以有效地將VFMs合併成一個統一的模型,吸收它們的專業知識。我們提出的方法整合了多任務學習、持續學習技術和師生蒸餾。與從頭開始進行傳統多任務訓練相比,這種策略需要的計算成本顯著較少。此外,它只需要最初用於訓練單個模型的預訓練數據集的一小部分。通過將我們的方法應用於SAM和CLIP,我們得到了SAM-CLIP:一個統一的模型,將SAM和CLIP的優勢融合為一個單一的骨幹,使其適用於邊緣設備應用。我們展示了SAM-CLIP學習到了更豐富的視覺表示,具備定位和語義特徵,適用於各種視覺任務。與SAM和CLIP相比,SAM-CLIP在幾個頭部探測任務上取得了改進的性能。我們進一步展示,SAM-CLIP不僅保留了其前身模型的基本優勢,還引入了協同功能,尤其是在零樣本語義分割方面,SAM-CLIP在5個基準測試中取得了新的最先進結果。在Pascal-VOC和COCO-Stuff數據集上,它的性能優於先前專門設計用於此任務的模型,分別提高了+6.8%和+5.9%的平均IoU。
幻覺是懸掛在快速演進的多模式大型語言模型(MLLMs)上的一個巨大陰影,指生成的文本與圖像內容不一致的現象。為了減輕幻覺,現有研究主要採用一種指導調整方式,需要使用特定數據對模型進行重新訓練。在本文中,我們開創了一條不同的道路,引入了一種名為「啄木鳥」的無需訓練的方法。就像啄木鳥修復樹木一樣,它可以挑出並糾正生成文本中的幻覺。具體而言,啄木鳥包括五個階段:關鍵概念提取、問題制定、視覺知識驗證、視覺主張生成和幻覺糾正。啄木鳥以事後矯正的方式實施,可以輕鬆應用於不同的MLLMs,同時通過訪問五個階段的中間輸出來實現可解釋性。我們從定量和定性兩方面評估了啄木鳥,展示了這種新範式的巨大潛力。在POPE基準測試中,我們的方法在準確性方面相對於基準MiniGPT-4/mPLUG-Owl分別獲得了30.66%/24.33%的改進。源代碼已發布在https://github.com/BradyFU/Woodpecker。
近期大部分關於利用大型語言模型(LLMs)如GPT-3進行機器翻譯(MT)的研究,著重於選擇少量樣本進行提示。在這項研究中,我們試圖透過對高質量、領域內示範的干擾,更好地理解示範屬性在上下文學習翻譯中的作用。我們發現對源-目標映射進行非對稱干擾會產生截然不同的結果。我們展示了對源端進行干擾對結果影響微乎其微,而對目標進行干擾則會顯著降低翻譯質量,這表明輸出文本分佈提供了最重要的學習信號,用於上下文學習翻譯。我們提出了一種名為Zero-Shot-Context的方法,自動在零提示中添加這個信號。我們證明它提升了GPT-3的零提示翻譯性能,甚至使其與少提示翻譯相競爭。
本文介紹了Recognize Anything Plus Model~(RAM++),這是一個具有強大開放式辨識能力的基礎影像識別模型,通過將語義概念注入影像標記訓練框架中。先前的方法要麼是受限於有限語義的影像標記模型,要麼是在多標記識別中性能不佳的視覺語言模型,交互作用較淺。相比之下,RAM++在基於影像-標記-文本三元組的統一細粒度交互框架中集成了影像-文本對齊和影像標記。這種設計使RAM++不僅在識別預定類別方面表現出色,還顯著增強了對開放式類別的識別能力。此外,RAM++採用大型語言模型~(LLMs) 生成多樣的視覺標記描述,開創了將LLM知識整合到影像標記訓練中的方法。這種方法賦予RAM++在推斷期間整合視覺描述概念以進行開放式識別的能力。對全面的影像識別基準進行的評估表明,RAM++在大多數方面均超越現有的基礎影像識別模型的最新技術水平(SOTA)。具體而言,對於預定義的常用標記類別,RAM++在OpenImages和ImageNet上分別展示了10.2 mAP和15.4 mAP的優勢,超過了CLIP。對於超出預定義的開放式類別,RAM++在OpenImages上分別比CLIP和RAM提高了5 mAP和6.4 mAP。對於多樣的人-物互動短語,RAM++在HICO基準上實現了7.8 mAP和4.7 mAP的改進。代碼、數據集和預訓練模型可在https://github.com/xinyu1205/recognize-anything 上找到。
我們研究了最先進模型在回答資訊檢索的約束滿足查詢(例如“聖地牙哥的冰淇淋店列表”)方面的能力。過去,這類查詢被認為只能通過網絡搜索或知識庫來解決。近年來,大型語言模型(LLMs)展示了在此任務中初步出現的能力。然而,許多當前的檢索基準要麼已飽和,要麼未測量約束滿足。受到關於LLMs事實不正確和幻覺的不斷增加的擔憂的驅使,我們提出了KITAB,這是一個用於測量語言模型約束滿足能力的新數據集。KITAB包含來自600多位作者和13,000多個查詢的與書籍相關的數據,並提供了一種相關的動態數據收集和約束驗證方法,以獲取其他作者的類似測試數據。我們對GPT4和GPT3.5進行了擴展實驗,對信息流行度、約束類型和上下文可用性等維度上的常見失敗模式進行了表徵和解耦。結果顯示,在缺乏上下文的情況下,模型在與無關信息、事實錯誤和不完整性相關的方面表現出嚴重限制,其中許多在信息流行度降低時加劇。雖然上下文可用性能夠減輕無關信息,但對於滿足約束並不有幫助,這識別了約束滿足的基本障礙。我們開源我們的貢獻,以促進未來模型改善約束滿足能力的進一步研究。
Transformer架構對許多人工智慧模型至關重要,但在長距離語言建模方面仍面臨挑戰。雖然已經設計了幾種特定的Transformer架構來應對長距離相依性的問題,但現有方法如Transformer-XL存在著高比例的無效記憶問題。在本研究中,我們提出了一種即插即用的策略,稱為無需訓練的記憶選擇(TRAMS),根據一個簡單的指標選擇參與注意力計算的標記。這種策略使我們能夠保留那些可能與當前查詢具有高注意力分數的標記,並忽略其他標記。我們在單詞級基準(WikiText-103)和字符級基準(enwik8)上測試了我們的方法,結果表明在不進行額外訓練或添加額外參數的情況下實現了改進。
道德基礎理論(MFT)是一種心理評估工具,將人類的道德推理分解為五個因素,包括關懷/傷害、自由/壓迫和神聖/墮落(Graham等人,2009年)。人們在做出道德決定時,會根據文化背景和政治意識形態的不同,對這些維度賦予不同的重要性。由於大型語言模型(LLMs)是在從互聯網收集的數據集上進行訓練的,因此它們可能反映了這些文集中存在的偏見。本文使用MFT作為一個透鏡,分析瞭流行的LLMs是否對特定一組道德價值觀產生了偏見。我們分析已知的LLMs,發現它們展現了特定的道德基礎,並展示了這些基礎如何與人類的道德基礎和政治立場相關。我們還測量這些偏見的一致性,或者它們是否在模型被提示的上下文中強烈變化。最後,我們展示了我們可以對抗地選擇提示,鼓勵模型展現特定一組道德基礎,並且這可能影響模型在下游任務中的行為。這些發現有助於說明LLMs假定特定道德立場可能帶來的潛在風險和意外後果。