每日精選AI研究論文及翻譯
科學知識主要存儲在書籍和科學期刊中,通常以 PDF 格式存在。然而,PDF 格式會導致語義信息的損失,特別是對於數學表達式。我們提出了Nougat(學術文檔的神經光學理解),這是一個視覺Transformer模型,用於執行光學字符識別(OCR)任務,將科學文檔處理為一種標記語言,並展示了我們的模型在一個新的科學文檔數據集上的有效性。所提出的方法提供了一個有望解決在數字時代增強科學知識可訪問性的方案,通過搭建人類可讀文檔和機器可讀文本之間的橋樑。我們釋放模型和代碼,以加速未來科學文本識別工作的進展。
大型語言模型(LLMs)已經革新了自然語言處理任務。然而,它們的實際部署受到其龐大的內存和計算需求的阻礙。儘管最近的後訓練量化(PTQ)方法在減少內存佔用和提高LLM的計算效率方面是有效的,但它們手工設計量化參數,這導致性能低下並無法應對極低位元量化。為了應對這個問題,我們引入了一種全方位校準量化(OmniQuant)技術,適用於LLMs,在各種量化設置中實現良好性能,同時通過有效優化各種量化參數來保持PTQ的計算效率。OmniQuant包括兩個創新組件,包括可學習的權重截斷(LWC)和可學習的等效轉換(LET)。LWC通過優化截斷閾值調節權重的極端值。與此同時,LET通過可學習的等效轉換將量化的挑戰從激活轉移到權重,以應對激活的異常值。OmniQuant在可微分框架中運作,使用塊狀誤差最小化,可以高效地優化權重僅和權重-激活量化的量化過程。例如,大小為7-70B的LLaMA-2模型系列可以在單個A100-40G GPU上使用128個樣本在1-16小時內使用OmniQuant進行處理。廣泛的實驗驗證了OmniQuant在各種量化配置(如W4A4、W6A6、W4A16、W3A16和W2A16)中的優越性能。此外,OmniQuant在指令調整模型中展現了有效性,在實際設備上提高了推理速度和減少了內存佔用。代碼和模型可在https://github.com/OpenGVLab/OmniQuant 找到。
軟體開發在推動創新和效率方面在現代社會中扮演著至關重要的角色。為了滿足這個充滿活力的領域的需求,迫切需要一個有效的軟體開發助手。然而,現有的大型語言模型,如ChatGPT,存在著訓練數據和模型權重等方面的可及性有限的問題。雖然其他大型開源模型,如LLaMA,顯示出一定的潛力,但它們仍然在理解人類意圖方面存在困難。在本文中,我們提出了SoTaNa,一個開源軟體開發助手。SoTaNa利用ChatGPT生成基於指令的高質量軟體工程領域數據,並採用一種參數高效的微調方法來增強開源基礎模型LLaMA。我們評估了在回答Stack Overflow問題方面的效果,並展示了其能力。此外,我們討論了它在代碼摘要和生成方面的能力,以及生成數據量變化對模型性能的影響。值得注意的是,SoTaNa可以在單個GPU上運行,使更廣泛的研究人員可以使用。我們的代碼、模型權重和數據可在https://github.com/DeepSoftwareAnalytics/SoTaNa 找到。
視覺Transformer在各種視覺識別任務中取得了令人印象深刻的準確性。不幸的是,它們的準確性通常伴隨著高計算成本。這在視頻識別中尤為嚴重,因為模型通常會在幀或時間段中重複應用。在這項工作中,我們利用相鄰輸入之間的時間冗余來降低Transformer在視頻處理中的成本。我們描述了一種方法,用於識別並重新處理那些隨時間發生顯著變化的標記。我們提出的模型系列,稱為Eventful Transformers,可以從現有的Transformers轉換(通常無需重新訓練),並在運行時提供對計算成本的自適應控制。我們在大規模數據集上對視頻物體檢測(ImageNet VID)和動作識別(EPIC-Kitchens 100)進行了評估。我們的方法實現了顯著的計算節省(節省了2-4倍的計算成本),僅導致輕微的準確性降低。
本文提出了一種新穎的神經隱式輻射表示法,用於從一小組非結構化的物體照片中進行自由視角燈光重塑,這些照片是由一個移動的點光源照亮,視角位置與之不同。我們將形狀表示為由多層感知器建模的符號距離函數。與先前可重塑的隱式神經表示法不同,我們沒有將不同的反射成分分離,而是通過第二個多層感知器在每個點上模擬局部和全局反射,除了密度特徵、當前位置、法線(從符號距離函數獲得)、視角方向和光源位置外,還考慮陰影和高光提示,以幫助網絡模擬相應的高頻光傳輸效應。這些提示僅作為建議提供,我們讓網絡決定如何將其納入最終的燈光重塑結果。我們在展示具有各種形狀、材料特性和全局照明光傳輸的合成和真實場景上展示並驗證了我們的神經隱式表示法。