每日精選AI研究論文及翻譯
知識蒸餾(KD)被廣泛用於壓縮教師模型,以降低推論成本和記憶體佔用,透過訓練較小的學生模型。然而,目前針對自回歸序列模型的KD方法存在著訓練期間觀察到的輸出序列與學生在推論期間生成的序列之間的分佈不匹配問題。為解決此問題,我們引入了廣義知識蒸餾(GKD)。GKD不僅僅依賴於一組固定的輸出序列,而是訓練學生模型在其自行生成的輸出序列上,並利用來自教師對這些序列的反饋。與監督式KD方法不同,GKD還提供了在學生缺乏表達能力以模仿教師分佈時使用替代損失函數的靈活性。此外,GKD促進了將蒸餾與RL微調(RLHF)無縫集成。我們展示了GKD在自動回歸語言模型的摘要、翻譯和算術推理任務以及任務不可知的指導調整方面的蒸餾效果。
最近,檢索增強語言模型(LMs)受到了廣泛關注。然而,通常檢索器並未與LM的本機組件一起進行訓練,而是添加到已預先訓練的LM中,這限制了LM和檢索器相互適應的能力。在這項工作中,我們提出了檢索預訓練Transformer(RPT),這是一種從頭開始聯合訓練檢索增強LM的架構和訓練程序,用於對長文本進行建模任務。在長文檔中給定最近生成的文本片段後,LM計算查詢表示,然後用於檢索文檔中較早的片段,這些片段可能位於數萬個標記之前。從檢索的片段中提取的信息被融入LM表示中,以預測下一個目標片段。我們通過語義目標訓練檢索器組件,目標是檢索增加下一個片段概率的片段,根據參考LM。我們在四個長範圍語言建模任務上評估了RPT,涵蓋了書籍、代碼和數學寫作,並展示了RPT相對於強基準線在整體上提高了檢索質量和隨後困惑度。
隨著大型語言模型(LLMs)的崛起及其在各個領域的普遍應用,對語言模型在實際數據上的行為進行評估變得至關重要。例如,一家部署面向客戶的聊天機器人的公司必須確保模型不會用粗言穢語回應客戶的請求。目前的評估方法是使用小型、特定領域的數據集,並帶有人工標籤。這些評估集通常從狹窄且簡化的分佈中抽樣,並且數據源可能會不知不覺地洩漏到訓練集中,這可能導致誤導性的評估。為了避免這些缺點,我們提出了一個自監督評估框架,通過分析語言模型對輸入文本變換的敏感性或不變性來進行評估LLMs。自監督評估可以直接監控LLM在野外收集的數據集或在模型部署期間實時流式傳輸的行為。我們展示了自監督評估策略,用於測量閉書知識、有毒性和長距離上下文依賴性,以及對語法結構和標記化錯誤的敏感性。當與類似的人工標記基準進行比較時,我們發現自監督評估和人工監督評估之間存在較強的相關性。自監督範式補充了依賴標記數據的當前評估策略。
在這份研究中,我們重新審視了深度學習中最基本的組件,即多層感知器(MLP),並研究其在視覺任務上的性能極限。對MLP的實證洞察對多個原因至關重要。首先,鑑於近來流行的「少歸納偏差更好」的論述,這是由於變壓器超越了卷積模型,自然而然地探索這一假設的極限。為此,MLP提供了一個理想的測試平臺,因為它完全不受任何歸納偏差的影響。其次,由於其數學上的簡單性,MLP幾乎是深度學習理論文獻中的主要角色,它作為一個代理人來解釋觀察到的更複雜架構的實證現象。令人驚訝的是,在文獻中很難找到有關MLP的實驗數據,尤其是當與大規模預訓練協議相結合時。實踐與理論之間的這種差異令人擔憂:MLP是否反映了實際模型展示的實證進展?或者理論家需要重新思考MLP作為代理人的角色?我們對這兩個方面提供了見解。我們展示了MLP的性能隨規模的擴大而顯著提高(在CIFAR10上為93%,在CIFAR100上為79%,在TinyImageNet上為69%),突顯了缺乏歸納偏差確實可以得到補償。我們觀察到,MLP忠實地模仿了其現代對應物的行為,然而在學習環境中,一些組件表現出更強或意外的行為。由於其固有的計算效率,大規模預訓練實驗對學術研究人員變得更加可行。我們的所有實驗都在單個GPU上運行。
我們介紹了開放詞彙的3D實例分割任務。傳統的3D實例分割方法主要依賴現有的3D標註數據集,這些數據集僅限於一組封閉的物體類別。這對於現實應用是一個重要的限制,因為在這些應用中,人們可能需要根據與各種物體相關的新穎、開放詞彙的查詢來執行任務。最近,出現了開放詞彙的3D場景理解方法,以解決這個問題,通過學習每個場景中每個點的可查詢特徵。儘管這種表示形式可以直接用於執行語義分割,但現有方法在識別物體實例方面存在限制。在這項工作中,我們解決了這個限制,提出了OpenMask3D,這是一種用於開放詞彙3D實例分割的零樣本方法。通過預測的類別無關3D實例遮罩,我們的模型通過基於CLIP的圖像嵌入的多視圖融合來聚合每個遮罩的特徵。我們在ScanNet200數據集上進行實驗和消融研究,評估了OpenMask3D的性能,並提供了關於開放詞彙3D實例分割任務的見解。我們展示了我們的方法在長尾分佈上優於其他開放詞彙對應方法。此外,OpenMask3D超越了封閉詞彙方法的限制,並且能夠基於描述物體屬性的自由形式查詢來分割物體實例,例如語義、幾何、可負擔性和材料特性。
自然語言(NL)反饋包含了豐富的用戶體驗信息。現有研究主要關注於實例級別方法,其中反饋用於完善特定示例,忽略了其在系統範圍應用上的潛力。本文提出了一個通用框架,用於開啟 NL 反饋的系統級應用。我們展示了如何利用反饋來形式化人在迴圈過程中的系統級設計決策,以便生成更好的模型。具體而言,這是通過:(i)任務的度量設計;和(ii)語言模型提示設計以完善模型回應。我們進行了兩個案例研究,以改進搜索查詢生成和對話回應生成,展示了系統級反饋的有效性。我們表明系統級反饋和實例級反饋的結合帶來進一步的收益,而人類編寫的實例級反饋比 GPT-3.5 編寫的反饋產生更具基礎性的改進,突顯了人類反饋在構建系統時的重要性。
神經場在視圖合成和場景重建方面取得了令人印象深刻的進展。然而,由於幾何和紋理信息的隱式編碼,編輯這些神經場仍然具有挑戰性。在本文中,我們提出了一個新穎的框架DreamEditor,使用者可以通過文本提示對神經場進行受控編輯。通過將場景表示為基於網格的神經場,DreamEditor允許在特定區域內進行局部編輯。DreamEditor利用預訓練的文本到圖像擴散模型的文本編碼器,根據文本提示的語義自動識別要編輯的區域。隨後,DreamEditor通過分數蒸餾取樣對編輯區域進行優化,並將其幾何和紋理與文本提示對齊。大量實驗表明,DreamEditor能夠根據給定的文本提示準確編輯現實場景的神經場,同時確保無關區域的一致性。DreamEditor生成高度逼真的紋理和幾何,明顯超越先前的作品在定量和定性評估方面。