每日精選AI研究論文及翻譯
影像擴散模型已被改編用於真實世界的視頻超分辨率,以應對基於GAN的方法中過度平滑的問題。然而,這些模型在保持時間一致性方面遇到困難,因為它們是在靜態圖像上訓練的,限制了它們有效捕捉時間動態的能力。將文本到視頻(T2V)模型整合到視頻超分辨率中以改善時間建模是直接的。然而,仍然存在兩個關鍵挑戰:在真實世界情境中複雜退化引入的異常,以及由於強大的T2V模型(例如CogVideoX-5B)的強生成能力而導致的妥協的保真度。為了增強恢復視頻的時空質量,我們提出了一種新方法,即STARS(用於真實世界視頻超分辨率的T2V模型的時空增強),利用T2V模型進行真實世界視頻超分辨率,實現逼真的空間細節和穩健的時間一致性。具體而言,我們在全局注意塊之前引入了局部信息增強模塊(LIEM),以豐富局部細節並減輕退化異常。此外,我們提出了一個動態頻率(DF)損失來加強保真度,引導模型在不同擴散步驟中專注於不同的頻率成分。大量實驗表明,STARS在合成和真實世界數據集上均優於最先進的方法。
o1 模型在複雜推理中的卓越表現表明,測試時計算的擴展可以進一步發揮模型的潛力,實現強大的系統二思維。然而,目前對於測試時計算擴展仍缺乏全面的調查。我們將測試時計算的概念追溯到系統一模型。在系統一模型中,測試時計算通過參數更新、輸入修改、表示編輯和輸出校準來應對分佈變化,並通過提升魯棒性和泛化性來改善。在系統二模型中,它通過重複取樣、自我校正和樹搜索來增強模型的推理能力,以解決複雜問題。我們根據從系統一到系統二思維的趨勢組織了這份調查,突出了測試時計算在從系統一模型到弱系統二模型,再到強系統二模型的過渡中的關鍵作用。同時,我們也指出了一些可能的未來方向。
最前沿的大型語言模型(LLMs)展示了在解決複雜數學問題方面的優異表現,採用分治流程並輔以上下文學習(ICL)示例。然而,它們在ICL示例中存在兩個關鍵問題,即粒度不匹配和隨之而來的負面影響噪音問題,限制了其改進潛力。具體而言,LLMs能夠進行分割過程,但在征服步驟中的不準確推理方面大多失敗,同時,在問題粒度的ICL示例中,有時缺乏特定具有挑戰性的推理步驟所需的相關步驟。此外,這種斷裂可能由於其不相關性而阻礙正確推理。因此,我們專注於提高每個步驟內的推理質量,並提出BoostStep。BoostStep對檢索和推理之間的步驟粒度進行了調整,並使用一種新穎的“首次嘗試”策略為每個推理步驟提供高度相關的ICL示例。BoostStep提供比粗糙的問題粒度策略更相關的示例,逐步增強模型在每個步驟內的推理質量。BoostStep是一種通用且強大的推理增強方法,不僅提高獨立推理性能,還與蒙特卡羅樹搜索方法(MCTS)無縫集成,以改進候選生成和決策過程。定量上,它在各種數學基準測試中將GPT-4o和Qwen2.5-Math-72B的性能分別提高了3.6%和2.0%,與MCTS結合後提高了7.5%。
與影片LLM的實時互動引入了一種新的人機交互範式,模型不僅理解用戶意圖,還在持續處理即時流式影片的同時作出回應。與離線影片LLM不同,後者在回答問題之前會分析整個影片,實時互動需要三項能力:1)感知:實時影片監控和互動捕捉。2)決策:在適當情況下提出主動互動。3)反應:與用戶進行持續互動。然而,所需能力之間存在固有的衝突。決策和反應需要相反的感知尺度和粒度,而自回歸解碼會在反應期間阻礙實時感知和決策。為了在一個和諧的系統中統一這些相互衝突的能力,我們提出了Dispider,一個能夠解開感知、決策和反應的系統。Dispider具有輕量級主動式流式影片處理模塊,可追蹤影片流並識別最佳互動時機。一旦觸發互動,異步互動模塊提供詳細回應,同時處理模塊繼續監控影片。我們的解開式和異步設計確保及時、情境準確和計算效率高的回應,使Dispider成為長時間影片流的活躍實時互動的理想選擇。實驗表明,Dispider不僅在傳統影片問答任務中保持較強性能,還明顯優於以往的在線模型在流式場景回應中,從而驗證了我們架構的有效性。代碼和模型已在https://github.com/Mark12Ding/Dispider 上發布。
隨著大型語言模型(LLMs)的演進,它們提供個性化和上下文感知回應的能力,為改善使用者體驗帶來轉變性潛力。然而,現有的個性化方法通常僅依賴使用者歷史來增強提示,這限制了它們在生成定制輸出方面的效果,特別是在具有稀疏數據的冷啟動情況下。為了解決這些限制,我們提出了基於個性化圖檢索增強生成(PGraphRAG)的框架,該框架利用以使用者為中心的知識圖來豐富個性化。通過將結構化的使用者知識直接整合到檢索過程中,並用使用者相關上下文來增強提示,PGraphRAG提升了上下文理解和輸出質量。我們還介紹了基於個性化圖的文本生成基準,旨在評估在使用者歷史稀疏或不可用的現實世界環境中的個性化文本生成任務。實驗結果顯示,PGraphRAG在各種任務上顯著優於最先進的個性化方法,展示了基於圖檢索用於個性化的獨特優勢。
文字轉視頻生成模型已取得顯著進展,使得在娛樂、廣告和教育等領域有各種應用。然而,生成包含透明度的 RGBA 視頻仍然是一個挑戰,這是由於數據集有限以及現有模型的適應困難所致。Alpha 通道對於視覺效果(VFX)至關重要,它允許像煙霧和反射這樣的透明元素無縫融入場景中。我們介紹了 TransPixar,這是一種擴展預訓練視頻模型以生成 RGBA 的方法,同時保留原始的 RGB 功能。TransPixar 利用擴散變壓器(DiT)架構,結合了特定於 alpha 的標記,並使用 LoRA 為基礎的微調,以高一致性地共同生成 RGB 和 alpha 通道。通過優化注意機制,TransPixar 保留了原始 RGB 模型的優勢,並實現了盡管訓練數據有限,RGB 和 alpha 通道之間的良好對齊。我們的方法有效生成多樣且一致的 RGBA 視頻,推動了 VFX 和互動內容創作的可能性。
低精度訓練被認為是降低訓練和下游推理成本的有效策略。先前對精度的縮放定律主要集中在整數量化上,較少關注浮點數量化的要素,因此無法很好地適應在這種情況下的LLM損失。相比之下,雖然浮點數量化訓練在生產中更常見,但對此的研究相對較為淺薄。本文深入探討了浮點數量化目標、指數位、尾數位以及浮點數量化訓練中縮放因子的計算粒度對LLM模型性能的影響。我們提出了一個準確的浮點數量化統一縮放定律,同時為社區提供了寶貴建議:(1) 指數位對模型性能的貢獻略高於尾數位。我們為不同位數提供了最佳的指數-尾數位比例,可供硬體製造商未來參考;(2) 我們發現在低精度LLM訓練中形成了臨界數據大小。訓練數據過多超過臨界數據大小將反過來降低LLM性能;(3) 最佳浮點數量化精度與計算能力成正比,但在廣泛的計算能力範圍內,我們估計最佳的性價比精度介於4-8位之間。
我們考慮了圖像到視頻(I2V)生成的任務,這涉及根據文本描述將靜態圖像轉換為逼真的視頻序列。儘管最近的進展產生了逼真的輸出,但它們經常在多對象情況下難以創建具有準確和一致對象運動的視頻。為了解決這些限制,我們提出了一種兩階段的組合框架,將I2V生成分解為:(i)明確的中間表示生成階段,然後是(ii)在此表示條件下的視頻生成階段。我們的關鍵創新是引入基於遮罩的運動軌跡作為中間表示,捕捉語義對象信息和運動,實現運動和語義的表達豐富而緊湊的表示。為了在第二階段中融入學習到的表示,我們利用對象級注意力目標。具體來說,我們考慮了一個空間、每對象、遮罩交叉注意力目標,將對象特定提示集成到相應的潛在空間區域中,以及一個遮罩的時空自注意力目標,確保每個對象的幀間一致性。我們在具有多對象和高運動情景的具有挑戰性的基準測試中評估了我們的方法,並在實驗中證明了所提出的方法在時間連貫性、運動逼真度和文本提示忠實度方面取得了最先進的結果。此外,我們引入了一個新的具有挑戰性的基準測試 \benchmark,用於單對象和多對象I2V生成,並展示了我們的方法在這個基準測試中的優越性。項目頁面位於 https://guyyariv.github.io/TTM/。
我們對METAGENE-1進行預訓練,這是一個擁有70億參數的自回歸Transformer模型,我們稱之為一個微生物基礎模型,使用一個包含超過1.5萬億個鹼基對的多樣化微生物基因組DNA和RNA序列的新語料庫。這個數據集來自大量人類污水樣本,使用深度微生物基因組(次世代)测序方法處理和测序。與專注於單個基因組或特定物種的精心編輯集合的基因組模型不同,METAGENE-1的目標是捕獲存在於這個污水中的基因組信息的完整分佈,以協助與疫情監測和病原體檢測相關的任務。我們對我們的數據集進行字節對編碼(BPE)標記化,針對微生物基因組序列進行定制,然後對我們的模型進行預訓練。在本文中,我們首先詳細介紹預訓練數據集、標記化策略和模型架構,突出考慮因素和設計選擇,以實現對微生物基因組數據的有效建模。然後,我們展示了在我們的微生物基因組數據集上對該模型進行預訓練的結果,提供有關我們損失、系統指標和預訓練過程中的訓練穩定性的細節。最後,我們展示了METAGENE-1的性能,該模型在一組基因組基準測試和專注於人體病原體檢測和基因組序列嵌入的新評估上取得了最先進的結果,展示了它在疫情監測、生物監視和早期檢測新興健康威脅方面的潛力。
自動紅隊測試已成為揭示大型語言模型(LLMs)中漏洞的重要方法。然而,大多數現有方法專注於孤立的安全缺陷,限制了它們適應動態防禦並有效揭示複雜漏洞的能力。為應對這一挑戰,我們提出了Auto-RT,一個強化學習框架,通過惡意查詢自動探索和優化複雜攻擊策略,有效揭示安全漏洞。具體而言,我們引入了兩個關鍵機制來減少探索複雜性並改進策略優化:1)提前終止探索,通過專注於高潛攻擊策略來加速探索;和2)具有中間降級模型的漸進式獎勵跟踪算法,動態地將搜索軌跡細化為成功利用漏洞。在多種LLMs上進行的大量實驗表明,通過顯著提高探索效率並自動優化攻擊策略,Auto-RT檢測到更廣泛的漏洞範圍,實現了更快的檢測速度,成功率比現有方法高出16.63%。
在影片生成中,4D影片控制至關重要,因為它使得使用複雜的鏡頭技術成為可能,例如多攝影機拍攝和達利變焦,這些技術目前無法被現有方法支援。直接訓練影片擴散變換器(DiT)以控制4D內容需要昂貴的多視角影片。受到單眼動態新視角合成(MDVS)的啟發,該方法優化4D表示並根據不同的4D元素(如相機姿勢和物體運動編輯)渲染影片,我們引入了虛擬4D高斯場到影片生成中。具體來說,我們提出了一個新穎的框架,通過密集的3D點跟踪構建虛擬4D高斯場,並對所有影片幀渲染高斯場。然後,我們微調預訓練的DiT,以生成遵循渲染影片指導的影片,被稱為GS-DiT。為了加速GS-DiT的訓練,我們還提出了一種高效的密集3D點跟踪(D3D-PT)方法,用於虛擬4D高斯場的構建。我們的D3D-PT在準確性上優於當前最先進的稀疏3D點跟踪方法SpatialTracker,並將推理速度加速了兩個數量級。在推理階段,GS-DiT能夠生成具有相同動態內容的影片,同時遵循不同的相機參數,解決了當前影片生成模型的一個重要限制。GS-DiT展示了強大的泛化能力,將高斯飛濺的4D可控性擴展到超越僅相機姿勢的影片生成,通過操縱高斯場和相機內部參數,支持高級的電影效果,使其成為創意影片製作的強大工具。演示可在https://wkbian.github.io/Projects/GS-DiT/ 上找到。
在擴散去噪範式內的單目深度估計展現了令人印象深刻的泛化能力,但卻面臨著低推論速度的問題。最近的方法採用單步驟確定性範式以提高推論效率,同時保持可比擬的表現。然而,它們忽略了生成和判別特徵之間的差距,導致次優異的結果。在這項工作中,我們提出了DepthMaster,一個單步驟擴散模型,旨在為判別式深度估計任務調整生成特徵。首先,為了減輕生成特徵引入的對紋理細節的過度擬合,我們提出了一個特徵對齊模組,該模組整合高質量的語義特徵以增強去噪網絡的表示能力。其次,為了應對單步確定性框架中缺乏細緻細節的問題,我們提出了一個傅立葉增強模組,以自適應方式平衡低頻結構和高頻細節。我們採用兩階段訓練策略,充分發揮這兩個模組的潛力。在第一階段,我們專注於通過特徵對齊模組學習全局場景結構,而在第二階段,我們利用傅立葉增強模組來提高視覺質量。通過這些努力,我們的模型在泛化和細節保留方面實現了最先進的表現,在各種數據集上優於其他基於擴散的方法。我們的項目頁面位於https://indu1ge.github.io/DepthMaster_page。
在複雜的推理和決策任務中,過程級獎勵模型(PRMs)對於每個中間步驟在推理過程中扮演重要角色至關重要。由於語言模型在推理過程中容易出現各種類型的錯誤,因此需要PRMs具備細緻的能力,以檢測現實場景中各種隱含錯誤類型。然而,目前的基準主要集中在步驟的正確性上,未能系統性評估PRMs的性能。為彌補這一差距,我們引入了PRMBench,這是一個專門設計用於評估PRMs細粒度錯誤檢測能力的過程級基準。PRMBench包含6,216個精心設計的問題和83,456個步驟級標籤,評估模型在多個維度上的表現,包括簡單性、合理性和靈敏度。在我們對15個模型的實驗中,涵蓋了開源PRMs和作為評論模型的封閉源大型語言模型,我們揭示了目前PRMs存在的重大弱點。這些發現突顯了過程級評估中固有的挑戰,並強調了未來研究的重要方向。我們希望PRMBench能成為推動PRM評估和發展研究的堅固基準。
對於分析大型語言模型(LLMs)的理解、推理和功能調用能力,有效評估多跳工具使用至關重要。然而,由於缺乏可靠的評估數據集,進展受到阻礙。為解決這一問題,我們提出了ToolHop,這是一個包含995個用戶查詢和3,912個相關工具的數據集,專門設計用於嚴格評估多跳工具使用。ToolHop通過一種新穎的查詢驅動的數據構建方法,包括工具創建、文檔精煉和代碼生成,確保了多樣的查詢、有意義的相互依賴、本地可執行的工具、詳細的反饋以及可驗證的答案。我們評估了14個LLMs,涵蓋五個模型系列(即LLaMA3.1、Qwen2.5、Gemini1.5、Claude3.5和GPT),揭示了處理多跳工具使用情景時的重大挑戰。領先的模型GPT-4o實現了49.04%的準確率,突顯了改進空間的重要性。進一步分析揭示了不同系列的工具使用策略變化,提供了可操作的見解,以指導更有效方法的開發。代碼和數據可在https://huggingface.co/bytedance-research/ToolHop找到。
我們提出 Samba ASR,這是首個採用全新 Mamba 架構作為編碼器和解碼器的最先進自動語音識別(ASR)模型,建立在狀態空間模型(SSMs)的基礎上。與基於Transformer的ASR模型不同,後者依賴自注意機制來捕捉依賴關係,Samba ASR通過高效的狀態空間動態有效地建模本地和全局時間依賴關係,實現了顯著的性能提升。通過解決Transformer的限制,如輸入長度的二次擴展和難以處理長距離依賴性,Samba ASR實現了優越的準確性和效率。 實驗結果表明,Samba ASR在各種標準基準測試中優於現有的基於Transformer的開源ASR模型,確立了其作為ASR新的最先進技術的地位。對基準數據集的廣泛評估顯示,在字錯誤率(WER)方面取得了顯著改善,即使在資源有限的情況下,性能也具競爭力。此外,Mamba架構的計算效率和參數優化使Samba ASR成為多樣ASR任務的可擴展和堅固解決方案。 我們的貢獻包括: - 一種新的Samba ASR架構,展示了SSMs在語音序列處理中優於基於Transformer模型的優越性。 - 對公共基準測試的全面評估,展示了最先進的性能。 - 對計算效率、對噪聲的穩健性和序列泛化的分析。這項工作突顯了Mamba SSM作為高效準確ASR的無Transformer替代方案的可行性。通過利用狀態空間建模的進展,Samba ASR為ASR性能和未來研究設立了新的基準。
本文提出了一個強大的框架,通過將多個特定身份(ID)照片與視頻擴散Transformer相結合,稱為Ingredients,來定制視頻創作。一般來說,我們的方法包括三個主要模塊:(i) 一個面部提取器,從全局和局部角度捕獲每個人類ID的多功能和精確的面部特徵;(ii) 一個多尺度投影器,將面部嵌入映射到視頻擴散Transformer中圖像查詢的上下文空間;(iii) 一個ID路由器,動態地將多個ID嵌入組合並分配到相應的時空區域。通過精心策劃的文本-視頻數據集和多階段訓練協議,Ingredients在將自定義照片轉換為動態和個性化視頻內容方面展現出卓越性能。定性評估突顯了所提出方法的優勢,將其定位為在基於Transformer的架構中,相對於現有方法,更有效的生成視頻控制工具的重大進步。數據、代碼和模型權重可在以下鏈接公開獲取:https://github.com/feizc/Ingredients。
設計結構化視覺元素,如簡報投影片,對溝通需求至關重要,需要具備內容創作和視覺規劃技能。在這項研究中,我們解決了自然語言(NL)指令生成簡報投影片的自動化生成挑戰。我們首先介紹了SlidesBench基準測試,這是第一個用於簡報生成的基準測試,包含來自10個領域的310個投影片組合中衍生的7,000個訓練和585個測試示例。SlidesBench支持評估,既可以是(i)基於參考的,以測量與目標投影片的相似度,也可以是(ii)無參考的,以單獨測量生成的投影片的設計質量。我們使用各種模型對端到端圖像生成和程式生成方法進行基準測試,發現程式化方法可以生成具有較高質量的用戶可交互格式的投影片。基於程式生成的成功,我們創建了AutoPresent,這是一個基於8B Llama的模型,使用7,000對指令與用於投影片生成的程式碼進行訓練,並取得了與封閉源模型GPT-4o相當的結果。我們進一步探索了迭代設計優化,其中模型被要求自我優化其輸出,我們發現這個過程可以提高投影片的質量。我們希望我們的工作能為未來生成結構化視覺元素的工作奠定基礎。
視覺語言模型(VLMs)的快速發展要求嚴格和可靠的評估。然而,目前的視覺問答(VQA)基準常常依賴於開放式問題,這使得由於自然語言回答的變異性,準確評估變得困難。為了解決這個問題,我們引入了AutoConverter,這是一個主動式框架,可以自動將這些開放式問題轉換為多選題格式,從而實現客觀評估,同時減少了昂貴的問題創建過程。我們的實驗表明,AutoConverter能夠生成正確且具有挑戰性的多選題,VLMs對這些問題的準確性與人類創建的問題相比保持一致或更低。使用AutoConverter,我們構建了VMCBench,這是一個基於將20個現有的VQA數據集轉換為統一的多選題格式而創建的基準,共計9,018個問題。我們在VMCBench上全面評估了33個最先進的VLMs,為可擴展、一致和可重現的VLM評估設定了新標準。
本文提出了一個名為ProTracker的新型框架,用於在影片中對任意點進行堅固且準確的長期密集追蹤。我們方法的關鍵思想是將概率積分納入其中,以精煉來自光流和語義特徵的多個預測,實現對短期和長期追蹤的堅固支持。具體來說,我們以概率方式整合光流估計,通過最大化每個預測的可能性,生成平滑且準確的軌跡。為了有效地重新定位由於遮擋而消失和重新出現的具有挑戰性的點,我們進一步將長期特徵對應納入我們的光流預測中,以進行連續軌跡生成。大量實驗表明,ProTracker在無監督和自監督方法中實現了最先進的性能,甚至在幾個基準測試中勝過監督方法。我們的程式碼和模型將在發表後公開提供。