每日精選AI研究論文及翻譯
本文介紹了指令遵循分數(Instruction Following Score, IFS),一個用於檢測語言模型遵循指令能力的指標。該指標具有雙重目的。首先,IFS可用於區分基礎模型和指導模型。我們對公開可用的基礎模型和指導模型進行基準測試,並顯示格式良好的回應與部分和完整句子的比率可以是區分這兩個模型類別的有效衡量標準。其次,該指標可用作指導微調的提前停止標準。我們計算了7B和13B LLaMA模型的監督微調(Supervised Fine-Tuning, SFT)的IFS,顯示模型在訓練過程中相對早期學會遵循指令,進一步的微調可能導致基礎模型語義的變化。作為語義變化的一個例子,我們展示了模型預測的客觀性,這是由輔助指標ObjecQA定義的。我們發現,在這種特定情況下,當IFS趨於平穩時,語義變化最為劇烈。我們希望將指導微調分解為IFS和語義因素能夠開啟更好可控的指導微調新趨勢,並為設計查詢基礎模型的最小指導界面開啟可能性。
傳統上,供應鏈運營涉及各種複雜的決策問題。在過去幾十年裡,供應鏈極大地受益於計算技術的進步,從手動處理過渡到自動化和成本效益優化。然而,企業運營者仍然需要花費大量精力來解釋和解讀優化結果以便與利益相關者溝通。受到最近大型語言模型(LLMs)技術的推動,我們研究這種顛覆性技術如何幫助橋接供應鏈自動化與人類理解和信任之間的差距。我們設計了一個框架,該框架接受純文本查詢作為輸入,並輸出有關基礑優化結果的見解。我們的框架並未放棄最先進的組合優化技術,而是利用它來定量回答假設情境(例如,如果我們對於特定需求使用供應商B而不是供應商A,成本將如何變化?)。重要的是,我們的設計不需要將專有數據傳送給LLMs,這在某些情況下可能涉及隱私問題。我們在微軟雲供應鏈內的真實伺服器放置情境中展示了我們框架的有效性。在此過程中,我們開發了一個通用的評估基準,可用於評估LLM輸出在其他情境中的準確性。
像GPT-4這樣的大型語言模型在訓練於大量文本數據時,展現出跨通用任務的新興能力,例如基本算術,即使這些任務並未被非監督式的下一個標記預測目標明確編碼。本研究探討了如何從隨機初始化開始訓練的小型Transformer可以有效地學習算術運算,例如加法、乘法和像平方根這樣的基本函數,並使用下一個標記預測目標。我們首先證明傳統的訓練數據對於算術學習並不是最有效的,而簡單的格式更改可以顯著提高準確性。這導致了作為訓練數據規模函數的尖銳相變,有些情況下可以通過與低秩矩陣補全的聯繫來解釋。在之前的工作基礎上,我們接著訓練了包含中間步驟結果的思維鏈式數據。即使在完全沒有預訓練的情況下,這種方法顯著且同時提高了準確性、樣本複雜度和收斂速度。我們還研究了訓練過程中算術和文本數據之間的相互作用,並檢驗了少量提示、預訓練和模型規模的影響。此外,我們討論了長度泛化挑戰。我們的工作突顯了高質量、有教育意義的數據的重要性,該數據考慮了快速引出算術能力所需的下一個單詞預測目標的特定特徵。
在圖像-文字配對上調整大型語言模型(LLM)已經實現了前所未有的視覺-語言多模能力。然而,它們的視覺-語言對齊僅建立在圖像層面上,缺乏區域層級的對齊限制了它們對細粒度多模理解的進展。本文提出在感興趣區域上進行指導調整。關鍵設計是將邊界框重新定義為空間指導的格式。由空間指導提取的視覺特徵的交錯序列和語言嵌入被輸入到LLM中,並在指導調整格式中的轉換區域-文字數據上進行訓練。我們的區域層級視覺-語言模型,稱為GPT4RoI,帶來了超越圖像層面理解的全新對話和互動體驗。 (1)可控性:用戶可以通過語言和空間指導與我們的模型互動,靈活調整問題的細節水平。(2)容量:我們的模型不僅支持單區域空間指導,還支持多區域。這解鎖了更多區域層級多模容量,如詳細區域標題和複雜區域推理。(3)組成:任何現成的物體檢測器都可以成為空間指導提供者,以從我們的模型中挖掘信息豐富的物體屬性,如顏色、形狀、材料、動作、與其他物體的關係等。代碼、數據和演示可在https://github.com/jshilong/GPT4RoI 找到。
許多人因技術不對稱而被迫使用他們識字水平較低的語言瀏覽網頁。這些使用第二語言(L2)書寫的用戶通常會出現大量受其母語(L1)影響的錯誤。我們提出了一種方法來挖掘音素混淆(L1和L2之間可能混淆的聲音對)的對。這些混淆然後被輸入到一個生成模型(雙音素模型)中,用於合成產生受損的L2文本。通過人類評估,我們展示了雙音素模型生成了看似合理的損壞,這些損壞在不同的L1之間有所不同,並且在網頁上有廣泛的覆蓋範圍。我們還使用我們的技術(Phonetically Noised GLUE的FunGLUE)損壞了流行的語言理解基準SuperGLUE,並展示了當前最先進的語言理解模型表現不佳。我們還引入了一個新的音素預測預訓練任務,有助於字節模型恢復接近SuperGLUE的性能。最後,我們還發布了FunGLUE基準,以促進對音素響應語言模型的進一步研究。據我們所知,FunGLUE是第一個在文本中引入L1-L2交互作用的基準。
基於基礎模型的出現,大型語言和視覺模型被整合以獲得視覺字幕、對話、問答等多模式能力。儘管現有的多模式模型展現了令人印象深刻的視覺理解和推理能力,但由於高質量指導調整數據的稀缺性,它們的極限仍然大部分未被探索。為了拓展多模式能力的極限,我們提出了視覺指導調整(SVIT),通過構建包括160萬對對話問答(QA)和160萬對複雜推理QA以及106,000個詳細圖像描述的320萬視覺指導調整數據集。除了數量之外,所提出的數據集還具有高質量和豐富多樣性的特點,這是通過使用GPT-4提示豐富的圖像手動標註來生成的。我們在實驗中驗證,通過在SVIT上訓練多模式模型可以顯著提高視覺感知、推理和規劃等多模式性能。
最近的研究已經從實證的角度分析了上下文學習,並顯示在合成線性回歸任務上訓練的Transformer可以學會實現脊回歸(ridge regression),這是在具備足夠容量的情況下的貝葉斯最優預測器[Aky\"urek等人,2023],而具有線性自注意力(linear self-attention)且沒有MLP層的單層Transformer將學習實現最小二乘線性回歸目標的一步梯度下降(GD)[von Oswald等人,2022]。然而,這些觀察背後的理論仍然理解不足。我們在理論上研究了具有單層線性自注意力的Transformer,在合成有噪音的線性回歸數據上進行訓練。首先,我們在數學上證明,當协变量來自標準高斯分佈時,最小化預訓練損失的單層Transformer將實現最小二乘線性回歸目標的一步GD。然後,我們發現改變协变量和權重向量的分佈為非各向同性高斯分佈對學到的算法有很大影響:預訓練損失的全局最小化者現在實現了預處理GD的一步。然而,如果僅改變響應的分佈,則對學到的算法影響不大:即使響應來自更一般的非線性函數族,預訓練損失的全局最小化者仍然實現了最小二乘線性回歸目標的一步GD。
在視覺機器人操作中,模仿學習為何讓泛化變得困難?這個問題一開始很難著手處理,但從機器人的角度來看,環境通常可以分解為可數的變化因素,例如照明條件或攝影機的位置。從經驗上看,對某些因素的泛化比其他因素更具挑戰性,但現有的研究對於每個因素對泛化差距的貢獻程度幾乎沒有提供明確的信息。為了回答這個問題,我們研究了模擬環境中和真實機器人上的語言條件操作任務中的模仿學習策略,以量化對不同(組合的)因素進行泛化的困難程度。我們還設計了一個新的模擬基準測試,包含19個任務和11個變化因素,以便更有控制地評估泛化能力。從我們的研究中,我們確定了一個基於泛化困難程度的因素排序,這個排序在模擬環境和我們的真實機器人設置中是一致的。
先進的人工智慧模型為人類帶來巨大好處的潛力,但社會需要主動管理相應的風險。在本文中,我們專注於所謂的「前沿人工智慧」模型:高度能力的基礎模型,可能具有足以對公共安全構成嚴重風險的危險能力。前沿人工智慧模型帶來獨特的監管挑戰:危險能力可能出乎意料地出現;很難堅固地防止已部署的模型被誤用;以及,難以阻止模型的能力廣泛擴散。為應對這些挑戰,至少需要三個用於監管前沿模型的基礎:(1)標準制定流程,以確定前沿人工智慧開發者的適當要求;(2)註冊和報告要求,為監管機構提供對前沿人工智慧開發過程的透明度;以及(3)機制,以確保遵守前沿人工智慧模型的安全標準,包括開發和部署。行業自我監管是重要的第一步。然而,需要更廣泛的社會討論和政府干預來建立標準並確保遵守這些標準。我們考慮了幾種選項,包括賦予監管機構執法權力和前沿人工智慧模型的許可制度。最後,我們提出了一套初始的安全標準。這些標準包括進行部署前的風險評估;對模型行為進行外部審查;使用風險評估來指導部署決策;以及監控並回應有關模型能力和部署後使用的新信息。我們希望這次討論有助於更廣泛的對話,探討如何平衡公共安全風險和從人工智慧開發前沿的創新帶來的好處。