每日精選AI研究論文及翻譯
我們提出了LENS,透過利用大型語言模型(LLMs)的強大功能,提出了一種模塊化方法來應對計算機視覺問題。我們的系統使用語言模型來推理一組獨立且高度描述性的視覺模塊的輸出,這些模塊提供有關圖像的詳盡信息。我們在純計算機視覺設置中評估了這種方法,如零次和少次物體識別,以及視覺和語言問題。LENS可以應用於任何現成的LLM,我們發現具有LENS的LLMs表現出色,即使沒有進行任何多模態訓練,也能與更大更複雜的系統競爭。我們在https://github.com/ContextualAI/lens 開源我們的代碼並提供互動演示。
生成式人工智慧和大型語言模型在增強計算教育方面具有巨大潛力,可為入門程式設計提供下一代教育技術。最近的研究已探討這些模型在與程式設計教育相關的不同情境中的應用;然而,這些研究存在一些限制,因為它們通常考慮的是已經過時的模型,或僅涉及特定情境。因此,缺乏對最先進模型在全面一套程式設計教育情境中進行基準測試的系統性研究。在我們的研究中,我們系統性評估了兩個模型,ChatGPT(基於GPT-3.5)和GPT-4,並將它們的表現與人類導師進行比較,涵蓋各種情境。我們使用五個入門級Python程式設計問題和來自線上平台的真實有錯誤的程式,並使用專家標註來評估表現。我們的結果顯示,GPT-4明顯優於ChatGPT(基於GPT-3.5),並在幾個情境中接近人類導師的表現。這些結果還突顯了GPT-4仍然存在困難的情境,為改進這些模型表現的技術提供了令人振奮的未來方向。
基因組(DNA)序列編碼了大量有關基因調控和蛋白質合成的信息。類似於自然語言模型,研究人員提出了基因組學中的基礎模型,以從未標記的基因組數據中學習可泛化的特徵,然後對下游任務進行微調,例如識別調節元素。由於注意力的二次擴展,先前基於Transformer的基因組模型使用512至4k個標記作為上下文(<0.001%的人類基因組),顯著限制了對DNA中長距離相互作用的建模。此外,這些方法依賴於分詞器來聚合有意義的DNA單元,失去了單核苷酸分辨率,細微的基因變異可能通過單核苷酸多態性(SNPs)完全改變蛋白質功能。最近,基於隱式卷積的大型語言模型Hyena顯示出與注意力相匹配的質量,同時允許更長的上下文長度和更低的時間複雜度。利用Hyena的新的長距離能力,我們提出了HyenaDNA,一個在人類參考基因組上預訓練的基因組基礎模型,單核苷酸級別的上下文長度可達100萬個標記,比先前基於密集注意力的模型增加了多達500倍。HyenaDNA在序列長度上呈次二次擴展(訓練速度比Transformer快160倍),使用單核苷酸標記,在每個層中具有完整的全局上下文。我們探索更長上下文所帶來的益處,包括在基因組學中首次使用上下文學習,以便簡單地適應新任務而無需更新預訓練模型權重。在Nucleotide Transformer的微調基準測試中,HyenaDNA在17個數據集中有12個達到了最先進水平(SotA),使用的參數和預訓練數據量相比少了數個數量級。在GenomicBenchmarks上,HyenaDNA平均在8個數據集上超越SotA,準確率提高了9個百分點。
指令調整可以發揮大型語言模型(LLM)與人類互動的卓越能力。此外,最近的指令遵循數據集包括圖像作為視覺輸入,為基於圖像的指令收集回應。然而,視覺指令調整模型無法很好地理解圖像中的文本細節。本研究通過添加文本豐富的圖像(例如電影海報、書籍封面等)來增強當前的視覺指令調整流程。具體而言,我們首先使用公開可用的OCR工具從LAION數據集的422K文本豐富圖像中收集結果。此外,我們使用識別的文本和圖像標題提示僅文本的GPT-4生成16K對話,每個對話包含文本豐富圖像的問答對。通過將我們收集的數據與先前的多模式指令遵循數據結合,我們的模型LLaVAR在基於文本的VQA數據集上顯著提高了LLaVA模型的能力(最多提高20%的準確性),同時在ScienceQA上實現了91.42%的準確性。基於GPT-4的指令遵循評估還展示了我們的模型在自然圖像和文本豐富圖像上的改進。通過定性分析,LLaVAR基於結合文本和圖像的最新現實世界在線內容,展示了與人類互動(例如推理、寫作和闡釋)技能的潛力。我們將我們的代碼/數據/模型公開提供在https://llavar.github.io/。
大型語言模型(LLMs)可能無法公平地代表多元化的全球社會議題觀點。本文中,我們開發了一個量化框架來評估模型生成的回應與誰的意見更相似。我們首先建立了一個數據集GlobalOpinionQA,其中包含了來自跨國調查的問題和答案,旨在捕捉不同國家對全球議題的多元意見。接著,我們定義了一個指標,量化了LLM生成的調查回應與人類回應之間的相似度,並以國家為條件。利用我們的框架,我們對一個訓練為有益、誠實和無害的LLM進行了三個實驗,並使用Constitutional AI。默認情況下,LLM的回應往往更類似於某些人口的意見,例如來自美國、歐洲和南美洲的人口,突顯了偏見的潛在性。當我們提示模型考慮特定國家的觀點時,回應會轉變為更接近被提示人口的意見,但可能反映出有害的文化刻板印象。當我們將GlobalOpinionQA問題翻譯成目標語言時,模型的回應不一定會變得最接近該語言使用者的意見。我們釋出我們的數據集供他人使用和擴展。我們的數據位於https://huggingface.co/datasets/Anthropic/llm_global_opinions。我們還提供了一個互動式可視化工具,位於https://llmglobalvalues.anthropic.com。
最近,去噪擴散模型在生成任務中展現出令人印象深刻的成果。通過從龐大的訓練圖像集合中學習強大的先驗知識,這些模型能夠逐步將完全噪聲的影像進行一系列小的去噪步驟,轉變為清晰的自然影像,看似非常適合單張影像去噪。然而,有效地應用去噪擴散模型來消除現實噪聲比看起來更具挑戰性,因為它們的制定基於加性白色高斯噪聲,與現實世界影像中的噪聲不同。在這項研究中,我們提出了SVNR,一種新穎的去噪擴散形式,假設了更現實的、空間變異的噪聲模型。SVNR使得能夠將帶有噪聲的輸入影像作為去噪擴散過程的起點,同時也將其作為條件之一。為此,我們調整了擴散過程,使每個像素都能擁有自己的時間嵌入,並提出了支持空間變化時間映射的訓練和推斷方案。我們的形式化還考慮了存在於條件影像和沿著修改後的擴散過程的樣本之間的相關性。在我們的實驗中,我們展示了我們的方法相對於強大的擴散模型基線以及最先進的單張影像去噪方法的優勢。
自動檢測和分析失敗執行的能力對於具有可解釋性和強韌性的機器人系統至關重要。最近,大型語言模型(LLMs)已在文本輸入上展示出強大的常識推理能力。為了利用LLM的能量來解釋機器人失敗,我們提出了一個名為REFLECT的框架,將多感官數據轉換為機器人過去經驗的分層摘要,並使用漸進式失敗解釋算法向LLM發出查詢。根據解釋,失敗修正計劃者生成一個可執行計劃,使機器人能夠糾正失敗並完成任務。為了系統地評估這個框架,我們創建了RoboFail數據集,並展示了我們基於LLM的框架能夠生成有助於成功糾正計劃的信息豐富的失敗解釋。項目網站:https://roboreflect.github.io/
大型語言模型(LLMs)展現了出色的能力,適用於廣泛的應用領域,然而準確性仍然是一個主要的增長領域,特別是在生物醫學等使命關鍵領域。一種有效的方法來校準LLM回應的信心水平對於自動檢測錯誤並促進人機協同驗證至關重要。校準信號的一個重要來源來自專家指定的程序監督,這通常成本較低,但也有其局限性,如噪音和覆蓋範圍。在本文中,我們介紹了一個帕累托最優自我監督框架,可以利用可用的程序監督系統地校準LLM回應,為每個回應生成風險分數,而無需進行額外的手動工作。通過學習一個協調模型來對齊LLM輸出與其他可用的監督來源,該模型將為更不確定的LLM回應分配較高的風險分數,並促進錯誤更正。在生物醫學和一般領域的標準關係提取任務上的實驗顯示了這種方法的潛力,我們提出的風險分數與LLMs的實際錯誤率高度相關。對於最不確定的測試實例,基於我們提出的風險分數的動態提示導致現成的LLMs的顯著準確性改善,將GPT-3的結果提升到最先進的弱監督和GPT-4的結果超越具有挑戰性的評估數據集上的最先進監督結果。
近期的端到端自動語音識別(ASR)系統通常使用基於Transformer的聲學編碼器,以高幀率生成嵌入。然而,這種設計對於長語音信號來說效率低下,因為自注意力的二次計算。為了解決這個問題,我們提出了一種新方法,稱為相鄰標記合併(A-ToMe),逐步結合具有高相似性分數的鍵值之間的相鄰標記。通過這種方式,總時間步驟可以減少,並加速編碼器和聯合網絡的推理。在LibriSpeech上的實驗表明,我們的方法可以減少57%的標記,並在GPU上將推理速度提高了70%,而不會明顯損失準確性。此外,我們還展示了A-ToMe也是減少長篇ASR中標記的有效解決方案,其中輸入語音包含多個發話。