每日精選AI研究論文及翻譯
傳統的光學字符識別系統(OCR-1.0)由於對人工光學字符智能處理需求的增長,越來越難滿足人們的使用需求。本文將所有人工光學信號(例如純文本、數學/分子公式、表格、圖表、樂譜,甚至幾何形狀)統稱為「字符」,並提出了通用OCR理論以及一個出色的模型,即GOT,以推動OCR-2.0的到來。GOT擁有580M個參數,是一個統一、優雅且端到端的模型,包括高壓縮編碼器和長上下文解碼器。作為一個OCR-2.0模型,GOT可以應對各種OCR任務下的所有上述「字符」。在輸入端,該模型支持常用的場景和文檔風格的圖像,包括切片和整頁風格。在輸出端,GOT可以通過簡單提示生成純文本或格式化結果(markdown/tikz/smiles/kern)。此外,該模型還具有互動式OCR功能,即區域級別識別,可由坐標或顏色引導。此外,我們還將動態分辨率和多頁面OCR技術應用於GOT,以提高實用性。在實驗中,我們提供充分的結果來證明我們模型的優越性。
我們介紹了OLMoE,這是一個充分開放且最先進的語言模型,利用稀疏的專家混合(MoE)。OLMoE-1B-7B具有70億(B)參數,但每個輸入標記僅使用10億參數。我們對其進行了5000億標記的預訓練,並進一步適應以創建OLMoE-1B-7B-Instruct。我們的模型在具有相似活躍參數的所有可用模型中表現優異,甚至超越了諸如Llama2-13B-Chat和DeepSeekMoE-16B等更大的模型。我們展示了有關MoE訓練的各種實驗,分析了我們模型中的路由,顯示高度專業化,並開源我們工作的所有方面:模型權重、訓練數據、代碼和日誌。
我們介紹了Kvasir-VQA,這是從HyperKvasir和Kvasir-Instrument數據集延伸而來的擴展數據集,增加了問答標註,以促進在胃腸道(GI)診斷中進行高級機器學習任務。該數據集包含6,500張帶有標註的圖像,涵蓋各種GI道路狀況和外科器械,支持多種問題類型,包括是/否、選擇、位置和數量計算。該數據集旨在應用於圖像說明、視覺問答(VQA)、基於文本生成合成醫學圖像、對象檢測和分類等領域。我們的實驗表明了該數據集在訓練三個選定任務的模型方面的有效性,展示了在醫學圖像分析和診斷中的重要應用。我們還為每個任務提供了評估指標,突出了我們數據集的可用性和多功能性。該數據集及相關資料可在https://datasets.simula.no/kvasir-vqa獲得。
大型語言模型(LLMs)在處理長文本任務時面臨重大挑戰,因為它們在預訓練期間的有效上下文窗口大小有限,這限制了它們對延長序列的泛化能力。同時,通過後期預訓練來擴展LLMs中的上下文窗口是非常耗資源的。為了應對這一問題,我們引入了**LongRecipe**,這是一種有效的訓練策略,用於擴展LLMs的上下文窗口,包括有影響力的標記分析、位置索引轉換和訓練優化策略。它模擬長序列輸入,同時保持訓練效率,顯著提高模型對長距離依賴的理解。對三種類型的LLMs進行的實驗表明,LongRecipe能夠利用長序列,同時只需目標上下文窗口大小的30%,並且與完整序列訓練相比,減少了超過85%的計算訓練資源。此外,LongRecipe還保留了原始LLMs在一般任務中的能力。最終,*我們可以將開源LLMs的有效上下文窗口從8k擴展到128k,僅使用一個具有80G內存的單個GPU進行一天的專用訓練,即可實現接近GPT-4的性能。*我們的代碼已發布在[鏈接](https://github.com/zhiyuanhubj/LongRecipe)。
儘管在靜態圖像的單眼深度估計方面取得了顯著進展,但在開放世界中估計視頻深度仍然具有挑戰性,因為開放世界的視頻在內容、運動、攝像機運動和長度上極為多樣。我們提出了DepthCrafter,一種創新方法,用於為開放世界視頻生成具有精細細節的時間一致的長深度序列,而無需任何額外信息,如攝像機姿勢或光流。DepthCrafter通過從預先訓練的圖像到視頻擴散模型訓練視頻到深度模型,通過我們精心設計的三階段訓練策略,以編譯的配對視頻深度數據集實現對開放世界視頻的泛化能力。我們的訓練方法使模型能夠一次生成具有可變長度的深度序列,最多達到110幀,並從現實和合成數據集中獲取精確的深度細節和豐富的內容多樣性。我們還提出了一種通過分段估計和無縫拼接處理極長視頻的推理策略。在多個數據集上的全面評估顯示,DepthCrafter在零樣本設置下實現了開放世界視頻深度估計的最先進性能。此外,DepthCrafter促進了各種下游應用,包括基於深度的視覺效果和有條件的視頻生成。
現代擴散模型,特別是利用基於Transformer的UNet進行去噪的模型,大量依賴自注意力操作來管理複雜的空間關係,從而實現令人印象深刻的生成性能。然而,這種現有範式在生成高分辨率視覺內容方面面臨著重大挑戰,因為它與空間標記數量的關係呈二次時間和記憶體複雜度。為了解決這一限制,本文旨在提出一種新型的線性注意力機制作為替代方案。具體而言,我們從具有線性複雜度的最近引入的模型,如Mamba、Mamba2和閘控線性注意力,開始我們的探索,並確定兩個關鍵特徵 - 注意力歸一化和非因果推斷 - 這些特徵增強了高分辨率視覺生成性能。基於這些見解,我們引入了一種通用的線性注意力範式,它作為廣泛流行的線性標記混合器的低秩近似。為了節省訓練成本並更好地利用預訓練模型,我們初始化我們的模型並從預訓練的StableDiffusion (SD) 中提煉知識。我們發現,提煉的模型,稱為LinFusion,在僅經過適度訓練後實現了與原始SD相當或更優的性能,同時顯著降低了時間和記憶體複雜度。對SD-v1.5、SD-v2.1和SD-XL的大量實驗表明,LinFusion 提供了令人滿意的零-shot跨解析度生成性能,生成高分辨率圖像,如16K分辨率。此外,它與預訓練的SD組件高度兼容,如ControlNet和IP-Adapter,無需進行適應努力。代碼可在 https://github.com/Huage001/LinFusion 找到。
本文探討了擴展基於擴散的修正流Transformer進行文本轉音樂生成的簡單方法,稱為FluxMusic。通常,除了在先進的Flux模型設計中進行設計外,我們將其轉換為mel-spectrum的潛在VAE空間。這涉及首先對雙文本-音樂流應用一系列獨立的注意力,然後堆疊單個音樂流以進行去噪片段預測。我們使用多個預訓練文本編碼器來充分捕捉標題語義信息以及推理靈活性。在此過程中,粗糙的文本信息與時間步驟嵌入一起用於調製機制,細緻的文本細節則與音樂片段序列串聯作為輸入。通過深入研究,我們證明,使用經過優化的架構進行修正流訓練明顯優於已建立的擴散方法,這一事實得到各種自動指標和人類偏好評估的證明。我們的實驗數據、代碼和模型權重已公開提供,網址為:https://github.com/feizc/FluxMusic。
最近大規模視訊語言模型的進展顯示了實時規劃和詳細互動的顯著潛力。然而,它們高計算需求和標註數據稀缺限制了對學術研究人員的實用性。在這項工作中,我們介紹了VideoLLaMB,一個新穎的框架,利用橋接層內的時間記憶標記,允許對整個視訊序列進行編碼,同時保留歷史視覺數據,有效地保持語義連貫性,增強模型在各種任務中的性能。這種方法包括遞歸記憶標記和SceneTilling算法,將視訊分段為獨立的語義單元,以保持語義完整性。根據實證,VideoLLaMB在三個VideoQA基準測試中明顯優於現有的視訊語言模型,相對競爭對手提升了5.5個百分點,而在自我中心規劃方面提升了2.06個百分點。在MVBench的全面結果顯示,VideoLLaMB-7B的表現明顯優於先前的相同LLM 7B模型。值得注意的是,即使視訊長度增加至8倍,它仍像PLLaVA一樣保持穩健的性能。此外,在我們專門的Needle in a Video Haystack(NIAVH)基準測試中的幀檢索結果進一步驗證了VideoLLaMB在準確識別長視訊中特定幀的能力。我們的SceneTilling算法還能直接生成流式視訊字幕,無需額外訓練。在效率方面,訓練16幀的VideoLLaMB,在單個Nvidia A100 GPU上支持320幀,具有線性GPU內存擴展,確保高性能和成本效益,從而為學術和實際應用中的長視訊語言模型奠定了新基礎。
我們介紹了擴散策略策略優化(DPPO),這是一個算法框架,包括了微調基於擴散的策略(例如擴散策略)在連續控制和機器人學習任務中的最佳實踐,使用了來自強化學習(RL)的策略梯度(PG)方法。PG方法在訓練RL策略時普遍存在,使用其他策略參數化;然而,據推測對於基於擴散的策略來說,它們可能效率較低。令人驚訝的是,我們展示了DPPO在常見基準測試中相對於其他RL方法以及對其他策略參數化的PG微調,實現了最強的整體性能和效率。通過實驗研究,我們發現DPPO利用RL微調和擴散參數化之間獨特的協同作用,實現了結構化和在流形上的探索,穩定的訓練以及強大的策略韌性。我們進一步展示了DPPO在各種現實情境中的優勢,包括使用像素觀察進行模擬機器人任務,以及通過將在模擬中訓練的策略零樣本部署到機器人硬件上,在長時間跨度、多階段操作任務中。網站代碼:diffusion-ppo.github.io
透過強大的生成模型和大規模互聯網數據的應用,在文本到視頻生成方面取得了顯著進展。然而,在精確控制生成視頻中的個別概念方面仍存在重大挑戰,例如特定角色的動作和外觀以及視點的移動。在這項工作中,我們提出了一種新的範式,該範式分別生成每個概念的3D表示,然後與大型語言模型(LLM)和2D擴散模型的先驗結合。具體而言,根據輸入的文本提示,我們的方案包括三個階段:1)我們利用LLM作為導演,首先將復雜的查詢分解為幾個子提示,這些子提示指示視頻中的個別概念(例如場景、物體、動作),然後讓LLM調用預先訓練的專家模型來獲取相應的概念的3D表示。2)為了組合這些表示,我們提示多模態LLM生成對象的軌跡的尺度和坐標的粗略指導。3)為了使生成的幀符合自然圖像分佈,我們進一步利用2D擴散先驗,並使用得分蒸餾抽樣來優化組合。大量實驗表明,我們的方法可以從文本生成高保真度的視頻,具有多樣的運動和對每個概念的靈活控制。項目頁面:https://aka.ms/c3v。
變分自編碼器(VAE)將影片壓縮為潛在表示,是潛在影片擴散模型(LVDMs)中至關重要的前置組件。在保持相同重建品質的情況下,VAE對影片的壓縮越充分,LVDMs的效率就越高。然而,大多數LVDMs使用2D影像VAE,其對影片的壓縮僅在空間維度,而往往忽略了時間維度。如何在VAE中對影片進行時間壓縮,以獲得更簡潔的潛在表示,同時保證準確的重建,這方面的研究很少。為了填補這一空白,我們提出了一種全方位壓縮VAE,名為OD-VAE,可以在時間和空間上壓縮影片。儘管OD-VAE更充分的壓縮為影片重建帶來了巨大挑戰,但通過我們的精心設計,仍然可以實現高重建準確度。為了在影片重建品質和壓縮速度之間取得更好的平衡,我們介紹並分析了四種OD-VAE的變體。此外,設計了一種新型尾部初始化方法,以更有效地訓練OD-VAE,並提出了一種新型推理策略,使OD-VAE能夠處理長度任意的影片並限制GPU內存。對影片重建和基於LVDM的影片生成進行的全面實驗證明了我們提出方法的有效性和效率。
語言模型在生成回應時如何利用提供的上下文資訊?我們能否推斷特定生成的陳述是否實際根據上下文,是誤解還是捏造的?為了幫助回答這些問題,我們引入了上下文歸因的問題:找出導致模型生成特定陳述的上下文部分(如果有的話)。然後,我們提出了ContextCite,一種簡單且可擴展的方法,用於上下文歸因,可應用於任何現有的語言模型之上。最後,我們通過三個應用展示了ContextCite 的效用:(1)幫助驗證生成的陳述、(2)通過修剪上下文來改善回應質量、(3)檢測攻擊。我們在 https://github.com/MadryLab/context-cite 提供了 ContextCite 的程式碼。
文字到圖像擴散模型已成為一個強大的框架,用於根據文本提示生成高質量圖像。它們的成功推動了生產級擴散模型的快速發展,這些模型不斷增大,已包含數十億個參數。因此,最先進的文字到圖像模型在實踐中變得越來越不易訪問,尤其是在資源有限的環境中。事後訓練量化(PTQ)通過將預訓練模型權重壓縮為低位表示來應對這個問題。最近的擴散量化技術主要依賴於均勻標量量化,為壓縮為4位的模型提供了不錯的性能。本研究表明,更多功能的向量量化(VQ)可能實現大規模文字到圖像擴散模型的更高壓縮率。具體而言,我們將基於向量的PTQ方法定制為最近的十億級文字到圖像模型(SDXL和SDXL-Turbo),並展示了將具有20億參數的擴散模型壓縮為約3位,使用VQ展現出與先前4位壓縮技術相似的圖像質量和文本對齊。
先前許多人工智慧研究都專注於開發單一模型,以最大化其智能和能力,主要目標是提升特定任務的表現。相較之下,本文探討一種替代方法:採用工作流程整合模型、資料來源和管道以解決複雜多樣任務的協作人工智慧系統。我們介紹了基於LLM的框架GenAgent,能自動生成複雜工作流程,相較於單一模型具有更大的靈活性和可擴展性。GenAgent的核心創新在於以程式碼表示工作流程,並透過協作代理逐步構建工作流程。我們在ComfyUI平台上實現了GenAgent並提出了一個新的基準OpenComfy。結果表明,GenAgent在執行層和任務層評估中均優於基準方法,顯示其能夠生成具有卓越效能和穩定性的複雜工作流程。
本文探討具有廣泛內容生成的高解析度視頻外描。我們指出現有方法在嘗試大範圍外描視頻時所面臨的常見問題:生成低質量內容和 GPU 記憶體所施加的限制。為應對這些挑戰,我們提出了一種基於擴散的方法,稱為Follow-Your-Canvas。它建立在兩個核心設計之上。首先,我們不採用“單次拍攝”外描的常見做法,而是將任務分佈在空間窗口上並無縫地合併它們。這使我們能夠在不受 GPU 記憶體限制的情況下外描任何大小和解析度的視頻。其次,源視頻及其相對位置關係被注入到每個窗口的生成過程中。這使得每個窗口內生成的空間佈局與源視頻協調一致。結合這兩個設計,我們能夠生成具有豐富內容的高解析度外描視頻,同時保持空間和時間一致性。Follow-Your-Canvas在大規模視頻外描方面表現出色,例如,從512X512到1152X2048(9倍),同時產生高質量和美觀的結果。它在各種解析度和比例設置下均取得最佳的定量結果。代碼已在https://github.com/mayuelala/FollowYourCanvas 上發布。
基於語音的抑鬱症檢測對於自動檢測來說存在著重大挑戰,這是由於其在不同個體間呈現獨特表現且數據稀缺。為應對這些挑戰,我們引入了DAAMAudioCNNLSTM和DAAMAudioTransformer兩種參數高效且可解釋的模型,用於音頻特徵提取和抑鬱症檢測。DAAMAudioCNNLSTM採用了一種新穎的CNN-LSTM框架,並搭配多頭密度自適應注意機制(DAAM),動態聚焦於資訊豐富的語音片段。DAAMAudioTransformer則利用變壓器編碼器取代CNN-LSTM架構,同時整合了相同的DAAM模組,以增強注意力和可解釋性。這些方法不僅提高了檢測的穩健性和可解釋性,還實現了最先進的性能:在DAIC-WOZ數據集上,DAAMAudioCNNLSTM的F1宏平均分數為0.702,而DAAMAudioTransformer的F1宏平均分數為0.72,且在訓練/驗證過程中無需依賴如前期方法中的元音位置和說話者信息等補充信息。這兩種模型在利用語音信號進行抑鬱症檢測方面的重要可解釋性和效率,代表了邁向更可靠、臨床實用的診斷工具的一大飛躍,為語音和心理健康護理的發展帶來了希望。為了促進該領域的進一步研究,我們將我們的代碼公開發布。
混合檢索已成為一種有效策略,用於彌補不同匹配範式的限制,尤其是在跨領域情境下,檢索質量的顯著改善已被觀察到。然而,現有研究主要集中在有限的一組檢索方法上,在專門以英語為唯一語言的通用領域數據集上進行評估。在這項研究中,我們研究了在法語法律領域中一系列知名檢索模型的混合檢索效能,評估了零-shot和領域內情境。我們的研究結果顯示,在零-shot情境中,融合不同通用領域模型相對於使用獨立模型,無論融合方法如何,都能持續增強性能。令人驚訝的是,當模型在領域內進行訓練時,我們發現融合通常會相對於使用最佳單一系統而降低性能,除非使用經過精心調整權重的分數進行融合。這些新穎見解等,擴展了先前研究結果在新的領域和語言中的應用範圍,並有助於更深入地理解非英語專業領域中的混合檢索。
本文介紹了MERIT數據集,這是一個多模態(文本+圖像+版面)的完全標記數據集,用於學校報告的背景下。MERIT數據集包含超過400個標籤和33,000個樣本,是訓練在要求高的視覺豐富文檔理解(VrDU)任務中的模型的寶貴資源。由於其性質(學生成績報告),MERIT數據集可能以受控方式包含偏見,使其成為評估語言模型(LLMs)誘發偏見的寶貴工具。本文概述了數據集的生成流程,並突出了其在文本、視覺、版面和偏見領域的主要特徵。為了展示數據集的實用性,我們提出了一個基準測試,使用標記分類模型,顯示該數據集對於即時最佳模型來說是一個重大挑戰,這些模型將極大受益於在預訓練階段包含來自MERIT數據集的樣本。
由於語言模型(LM)被廣泛應用於個性化溝通場景(例如發送電子郵件、撰寫社交媒體帖子)並賦予一定程度的代理權,確保它們遵循上下文隱私規範變得日益重要。然而,由於隱私敏感案例的上下文和長尾特性,以及缺乏捕捉現實應用場景的評估方法,量化LM的隱私規範意識和LM介入溝通中新興隱私風險具有挑戰性。為應對這些挑戰,我們提出了PrivacyLens,一個新穎的框架,旨在將隱私敏感種子擴展為表達豐富的短篇故事,進而擴展為代理軌跡,實現對LM代理行為中隱私洩露的多級評估。我們在PrivacyLens中具體化了一組基於隱私文獻和眾包種子的隱私規範。利用這個數據集,我們揭示了LM在回答深入問題和在代理設置中執行用戶指令時的實際行為之間的差異。像GPT-4和Llama-3-70B這樣的最先進LM,在25.68%和38.69%的情況下會洩露敏感信息,即使在提示使用隱私增強指令時也是如此。我們還通過將每個種子擴展為多個軌跡來展示PrivacyLens的動態性,以紅隊方式測試LM的隱私洩露風險。數據集和代碼可在https://github.com/SALT-NLP/PrivacyLens 上找到。