每日精選AI研究論文及翻譯
在這項工作中,我們開發並釋出 Llama 2,這是一系列預訓練和微調的大型語言模型(LLMs),規模從 70 億到 700 億參數不等。我們的微調LLMs,名為Llama 2-Chat,經過優化以應用於對話使用案例。我們的模型在我們測試的大多數基準測試中優於開源聊天模型,根據我們的人工評估,就幫助性和安全性而言,可能是對閉源模型的合適替代品。我們提供了對於微調和安全改進Llama 2-Chat方法的詳細描述,以便讓社群能夠在我們的工作基礎上進行擴展並促進LLMs的負責任發展。
GPT-3.5和GPT-4是兩個最廣泛使用的大型語言模型(LLM)服務。然而,這些模型何時以及如何隨時間更新是不透明的。在這裡,我們評估了GPT-3.5和GPT-4的2023年3月和6月版本在四個不同任務上的表現:1)解決數學問題,2)回答敏感/危險問題,3)生成代碼和4)視覺推理。我們發現,無論是GPT-3.5還是GPT-4的性能和行為都可能隨時間大不相同。例如,GPT-4(2023年3月)在識別質數方面表現非常出色(準確率97.6%),但GPT-4(2023年6月)對同樣的問題表現非常糟糕(準確率2.4%)。有趣的是,GPT-3.5(2023年6月)在這個任務中比GPT-3.5(2023年3月)要好得多。GPT-4在6月份回答敏感問題的意願較3月份較低,而在代碼生成方面,無論是GPT-4還是GPT-3.5在6月份的格式錯誤都比3月份多。總的來說,我們的研究結果顯示,同一個LLM服務的行為在相對短的時間內可能會發生顯著變化,突顯了對LLM質量進行持續監控的必要性。
電路分析是一種有潛力用於理解語言模型內部機制的技術。然而,現有的分析是在遠離最先進技術水平的小型模型中進行的。為了應對這一挑戰,我們提出了在70B Chinchilla模型中進行電路分析的案例研究,旨在測試電路分析的可擴展性。具體來說,我們研究了多項選擇題回答,並調查了Chinchilla在知道正確答案文本的情況下識別正確答案標籤的能力。 我們發現現有的技術,如logit歸因、注意力模式可視化和激活補丁,在Chinchilla上自然地擴展,使我們能夠識別和分類一小組“輸出節點”(注意力頭和MLP)。 我們進一步研究了“正確字母”類別的注意力頭,旨在理解它們特徵的語義,結果參差不齊。對於普通的多項選擇問題答案,我們在處理多項選擇問題的答案標籤時,明顯壓縮了注意力頭的查詢、鍵和值子空間,而且沒有性能損失,並且我們展示了查詢和鍵子空間在某種程度上代表“列舉中的第N個項目”特徵。然而,當我們試圖使用這個解釋來理解在包括隨機答案標籤的更一般分佈上的頭部行為時,我們發現這只是部分解釋,這表明我們還有更多關於“正確字母”頭在多項選擇問答中運作的知識需要學習。
像 CLIP 這樣的影像-文字對比模型對於各種下游應用非常有用,包括零樣本分類、影像-文字檢索和遷移學習。然而,這些經過對比訓練的視覺-語言模型在諸如 Winoground 之類的組合視覺-語言任務上通常表現不佳,其性能相當於隨機機會。在我們的論文中,我們解決了這個問題,並提出了一種名為 SDS-CLIP 的範例高效輕量方法,以提升 CLIP 的組合視覺-語言推理能力。我們方法的核心思想是使用可微分的影像參數化來從大型文本到影像生成模型(如 Stable-Diffusion)中進行蒸餾目標,這些模型在組合視覺-語言推理任務上相對較好。在具有挑戰性的 Winoground 組合推理基準測試中,我們的方法將不同 CLIP 模型的絕對視覺-語言性能提高了多達 7%,而在 ARO 資料集上,我們的方法將視覺-語言性能提高了多達 3%。通過將視覺-語言推理引入 CLIP 的副產品,我們還發現零樣本性能在各種下游資料集上略有提升。我們的方法強調了精心設計的從生成模型中提取的蒸餾目標可以用來擴展現有的影像-文字對比模型,從而提升其組合視覺-語言推理能力。
從單視圖 RGB-D 輸入進行的 3D 重建取得了顯著進展。MCC 是目前在這個領域的最先進方法,通過將視覺 Transformer 與大規模訓練結合,取得了前所未有的成功。然而,我們確定了 MCC 的兩個關鍵限制:1) Transformer 解碼器在處理大量查詢點時效率低下;2) 3D 表示在恢復高保真細節方面遇到困難。在本文中,我們提出了一種名為 NU-MCC 的新方法來解決這些限制。NU-MCC 包括兩個關鍵創新:一個鄰域解碼器和一個排斥無符號距離函數(Repulsive UDF)。首先,我們的鄰域解碼器引入中心點作為輸入視覺特徵的有效代理,使每個查詢點僅關注一個小鄰域。這種設計不僅能夠實現更快的推理速度,還能夠利用更精細的視覺特徵來改善 3D 紋理的恢復。其次,我們的排斥 UDF 是 MCC 中使用的佔用場的一種新穎替代方案,顯著提高了 3D 物體重建的質量。與標準 UDF 不完整的結果相比,我們提出的排斥 UDF 能夠實現更完整的表面重建。實驗結果表明,NU-MCC 能夠學習到強大的 3D 表示,顯著推動了單視圖 3D 重建的技術水平。特別是,在 CO3D-v2 數據集上,它在 F1 分數方面比 MCC 表現提高了 9.7%,運行速度更快了 5 倍以上。
我們介紹了 Biomaker CA:一個使用元胞自動機 (CA) 的生物製造者計畫。 在 Biomaker CA 中,形態發生學是一個首要考量,小種子需要在缺乏營養的環境中生長成植物狀的生物體,最終以變異繁殖,使生態系能夠長期存活。我們透過在 2D 網格中使用 CA 規則來模擬複雜的生態系,並通過 Python JAX 框架在 GPU 上並行化所有計算。我們展示了這個計畫如何允許多種不同類型的環境和「物理」法則,以及不同的模型架構和變異策略。我們進一步分析了一些配置,展示了植物代理如何生長、存活、繁殖和進化,形成穩定和不穩定的生態系。然後,我們展示了如何通過端對端元進化或更為精確和高效的方法,稱為 Petri 碟元進化,來使模型在惡劣環境中存活。最後,我們展示了如何進行互動進化,用戶可以互動地決定如何進化植物模型,然後將其部署在更大的環境中。我們在以下網址以開源形式提供 Biomaker CA:https://tinyurl.com/2x8yu34s。