每日精選AI研究論文及翻譯
本研究分析了使用標準淺層前饋網絡來模擬原始Transformer模型中注意機制行為的有效性,該模型是用於序列到序列任務的最先進架構。我們將Transformer中注意機制的關鍵元素替換為簡單的前饋網絡,通過知識蒸餾使用原始組件進行訓練。我們在IWSLT2017數據集上進行的實驗顯示這些“無注意Transformer”具有與原始架構相匹敵的性能。通過嚴格的消融研究,並嘗試不同替換網絡類型和大小,我們提供支持我們方法可行性的見解。這不僅揭示了淺層前饋網絡在模擬注意機制方面的適應性,還強調了它們簡化序列到序列任務的複雜架構的潛力。
通過從2D擴散模型中提煉的先前知識,生成模型在3D物體合成方面取得了顯著進展。然而,在現有的3D合成框架中,仍存在多視角幾何不一致和生成速度緩慢的挑戰。這可以歸因於兩個因素:首先,在優化中幾何先驗知識不足,其次是傳統3D生成方法中幾何和紋理之間的糾纏問題。為此,我們引入MetaDreammer,一種利用豐富的2D和3D先前知識的兩階段優化方法。在第一階段,我們強調優化幾何表示,以確保3D物體的多視角一致性和準確性。在第二階段,我們專注於微調幾何和優化紋理,從而實現更精細的3D物體。通過分別在兩個階段利用2D和3D先前知識,我們有效地減輕了幾何和紋理之間的相互依賴性。MetaDreamer為每個階段確立清晰的優化目標,從而在3D生成過程中節省了大量時間。最終,MetaDreamer可以根據文本提示在20分鐘內生成高質量的3D物體,據我們所知,這是最高效的文本到3D生成方法。此外,我們將圖像控制引入到過程中,增強了3D生成的可控性。大量實證證據證實,我們的方法不僅高效,而且實現了處於當前最先進3D生成技術前沿的質量水平。
在這份研究中,我們展示了文本到圖像生成模型可以被「反轉」,以完全自動化的方式評估它們自身的文本-圖像理解能力。 我們的方法名為自我評估(SelfEval),利用生成模型計算給定文本提示時真實圖像的可能性,使生成模型直接應用於區分任務。 利用自我評估,我們重新運用為評估多模態文本-圖像區分模型而創建的標準數據集,以細緻的方式評估生成模型:評估它們在屬性綁定、顏色識別、計數、形狀識別、空間理解等方面的表現。 據我們所知,自我評估是第一個自動化指標,對於測量文本忠實度在多個模型和基準測試中與黃金標準人類評估具有高度一致性。 此外,自我評估使我們能夠評估生成模型在具有挑戰性的任務上,例如Winoground圖像得分,在這些任務中它們展現出與區分模型競爭性的表現。 我們還展示了標準自動化指標(如CLIP-score)在評估DrawBench等基準測試中測量文本忠實度時存在嚴重缺陷,以及自我評估如何避開這些問題。 我們希望自我評估能夠為擴散模型提供方便且可靠的自動化評估。
儘管視覺轉換器(ViTs)具有可擴展的性能,但密集的計算成本(訓練和推理)削弱了它們在工業應用中的地位。後訓練量化(PTQ)是一種方法,通過使用微小數據集調整ViTs並以低位格式運行,很好地解決了成本問題,但不幸的是在低位情況下會帶來更多性能下降。在本文中,我們介紹了I&S-ViT,這是一種新方法,以全面且穩定的方式調節ViTs的PTQ。I&S-ViT首先識別了ViTs PTQ中的兩個問題:(1)對於後Softmax激活的主流log2量化器存在量化效率問題;(2)對於後LayerNorm激活的粗粒度量化粒度中存在崎嶇且放大的損失地形。然後,I&S-ViT通過引入以下內容來解決這些問題:(1)一種新型的shift-uniform-log2量化器(SULQ),它結合了一個位移機制,然後是均勻量化,以實現包容性的域表示和準確的分佈逼近;(2)一種三階段平滑優化策略(SOS),它融合了通道和層量化的優勢,以實現穩定的學習。對各種視覺任務的全面評估驗證了I&S-ViT在現有ViTs PTQ方法中的優越性,特別是在低位情況下。例如,I&S-ViT將3位ViT-B的性能提升了令人印象深刻的50.68%。
大型語言模型(LLMs)展示了在推理和決策能力方面的巨大改進,能夠與用戶進行自然對話。許多最近的研究旨在通過外部工具來增強基於LLM的助手,使它們能夠訪問私人或最新信息並代表用戶執行操作。為了更好地衡量這些助手的性能,本文介紹了ToolTalk,這是一個基於對話指定的包含複雜用戶意圖並需要多步工具使用的基準測試。ToolTalk 包含了28個工具,分為7個插件,並包括每個工具的完整模擬實現,從而實現對依賴執行反饋的助手進行完全自動化評估。ToolTalk 還強調了那些對外部世界產生影響的工具,而不僅僅是用於參考或搜索信息的工具。我們在 ToolTalk 上評估了 GPT-3.5 和 GPT-4,其成功率分別為26%和50%。我們對錯誤進行了分析,發現了三個主要類別,並提出了一些未來改進的方向。我們在 https://github.com/microsoft/ToolTalk 上發布了 ToolTalk。
當今的機器人政策在面對對新環境的泛化挑戰時表現不佳。人類的糾正反饋是一種至關重要的指導形式,以實現這種泛化。然而,適應並從線上人類糾正中學習是一項非常困難的工作:機器人不僅需要隨著時間記住人類的反饋,以便在新環境中檢索正確的信息並降低干預率,還需要能夠對可能是關於高層人類偏好的任意糾正或是有關技能參數的低層調整做出反應。在這項工作中,我們提出了基於大型語言模型(LLM)的線上糾正蒸餾和檢索(DROC)系統,該系統能夠回應任意形式的語言反饋,從糾正中提煉出可泛化的知識,並根據文本和視覺相似性檢索相關的過去經驗,以提高在新環境中的表現。DROC 能夠回應一系列線上語言糾正,解決高層任務計劃和低層技能基元中的失敗。我們展示了 DROC 能夠有效地從一系列線上糾正中提煉出相關信息,並在具有新任務或物件實例的環境中檢索該知識。DROC 通過僅使用一半所需的糾正數量在第一輪中表現優於其他直接通過LLM生成機器人代碼的技術,並在兩次迭代後幾乎不需要進行任何糾正。我們在 https://sites.google.com/stanford.edu/droc 上展示了更多結果、視頻、提示和代碼。