每日精選AI研究論文及翻譯
Sora揭示了擴散變換器(DiT)架構在單場景視頻生成中的巨大潛力。然而,更具挑戰性且應用更廣泛的多場景視頻生成任務仍相對未被充分探索。為填補這一空白,我們提出了Mask^2DiT,這是一種新穎的方法,能在視頻片段與其對應的文本註釋之間建立細粒度的一對一對齊。具體而言,我們在DiT架構的每個注意力層引入對稱二值掩碼,確保每個文本註釋僅應用於其相應的視頻片段,同時保持視覺標記間的時序一致性。這種注意力機制實現了精確的片段級文本到視覺對齊,使DiT架構能有效處理固定場景數的視頻生成任務。為了進一步賦予DiT架構基於現有場景生成額外場景的能力,我們整合了片段級條件掩碼,該掩碼使每個新生成的片段都基於先前的視頻片段,從而實現自回歸場景擴展。定性和定量實驗均證實,Mask^2DiT在保持跨片段視覺一致性的同時,確保了每個片段與其對應文本描述的語義對齊。我們的項目頁面為https://tianhao-qi.github.io/Mask2DiTProject。
在本報告中,我們介紹了Qwen2.5-Omni,這是一個端到端的多模態模型,旨在感知包括文本、圖像、音頻和視頻在內的多種模態,同時以流式方式生成文本和自然語音回應。為了實現多模態信息輸入的流式處理,音頻和視覺編碼器均採用了分塊處理的方法。為了同步視頻輸入與音頻的時間戳,我們以交錯的方式組織音頻和視頻,並提出了一種新穎的位置嵌入方法,稱為TMRoPE(時間對齊的多模態RoPE)。為了同時生成文本和語音並避免兩種模態之間的干擾,我們提出了Thinker-Talker架構。在此框架中,Thinker作為一個大型語言模型負責文本生成,而Talker則是一個雙軌自回歸模型,直接利用Thinker的隱藏表示來生成音頻標記作為輸出。Thinker和Talker模型均設計為端到端的方式進行訓練和推理。為了以流式方式解碼音頻標記,我們引入了一個滑動窗口的DiT,限制其感受野,旨在減少初始包延遲。Qwen2.5-Omni與同規模的Qwen2.5-VL相當,並優於Qwen2-Audio。此外,Qwen2.5-Omni在多模態基準測試如Omni-Bench上達到了最先進的性能。值得注意的是,Qwen2.5-Omni在端到端語音指令跟隨方面的性能與其在文本輸入上的能力相當,這在MMLU和GSM8K等基準測試中得到了證明。至於語音生成,Qwen2.5-Omni的流式Talker在魯棒性和自然度方面優於大多數現有的流式和非流式替代方案。
本報告介紹了Wan,這是一套全面且開放的視頻基礎模型套件,旨在突破視頻生成的界限。基於主流的擴散變換器範式,Wan通過一系列創新實現了生成能力的顯著提升,包括我們新穎的VAE、可擴展的預訓練策略、大規模數據策展以及自動化評估指標。這些貢獻共同增強了模型的性能和多功能性。具體而言,Wan具有四個關鍵特徵:領先性能:Wan的14B模型在包含數十億圖像和視頻的龐大數據集上訓練,展示了視頻生成在數據和模型規模方面的擴展規律。它在多個內部和外部基準測試中始終優於現有的開源模型以及最先進的商業解決方案,展現出明顯且顯著的性能優勢。全面性:Wan提供了兩個能力強大的模型,即1.3B和14B參數,分別針對效率和效果。它還涵蓋了多個下游應用,包括圖像到視頻、指令引導的視頻編輯和個人視頻生成,涵蓋多達八項任務。消費級效率:1.3B模型展示了卓越的資源效率,僅需8.19 GB的顯存,使其兼容廣泛的消費級GPU。開放性:我們開源了Wan的整個系列,包括源代碼和所有模型,旨在促進視頻生成社區的發展。這種開放性旨在顯著擴展行業中視頻製作的創意可能性,並為學術界提供高質量的視頻基礎模型。所有代碼和模型均可通過https://github.com/Wan-Video/Wan2.1獲取。
我們推出Gemma 3,這是Gemma系列輕量級開源模型的多模態新增成員,其規模涵蓋10億至270億參數。此版本引入了視覺理解能力、更廣泛的語言覆蓋以及更長的上下文處理能力——至少可達128K個token。我們還調整了模型架構,以減少在處理長上下文時容易急劇增長的KV快取記憶體需求。這通過提高局部注意力層相對於全局注意力層的比例,並保持局部注意力的跨度短暫來實現。Gemma 3模型採用蒸餾法訓練,無論是預訓練版本還是指令微調版本,均展現出超越Gemma 2的卓越性能。特別值得一提的是,我們新穎的後訓練配方顯著提升了數學運算、對話、指令遵循及多語言能力,使得Gemma3-4B-IT在基準測試中可與Gemma2-27B-IT匹敵,而Gemma3-27B-IT則可與Gemini-1.5-Pro相媲美。我們將所有模型向社區開放。
儘管近期在多樣化機器人數據集上訓練的視覺-語言-動作模型展現出在有限領域數據下具備良好的泛化能力,但其依賴於緊湊的動作頭部來預測離散或連續動作,這限制了對異質動作空間的適應性。我們提出了Dita,這是一個可擴展的框架,利用Transformer架構通過統一的多模態擴散過程直接對連續動作序列進行去噪。與先前通過淺層網絡基於融合嵌入進行去噪的方法不同,Dita採用了上下文條件化——實現了去噪動作與來自歷史觀察的原始視覺標記之間的細粒度對齊。這一設計明確地建模了動作增量與環境細微差別。通過將擴散動作去噪器與Transformer的可擴展性相結合,Dita有效地整合了跨實體數據集,涵蓋了多樣的相機視角、觀察場景、任務和動作空間。這種協同作用增強了對各種變異的魯棒性,並促進了長時程任務的成功執行。在廣泛的基準測試中,Dita在模擬環境中展示了頂尖或可比的性能。值得注意的是,Dita通過僅使用第三人稱相機輸入的10次微調,實現了對環境變異和複雜長時程任務的強健現實世界適應。該架構為通用機器人策略學習建立了一個多功能、輕量級且開源的基線。項目頁面:https://robodita.github.io。
我們推出開放深度搜索(Open Deep Search, ODS),旨在縮小專有搜索AI解決方案(如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview)與其開源對應方案之間日益擴大的差距。ODS的主要創新在於,通過能夠明智使用網絡搜索工具來回答查詢的推理代理,增強了最新開源大型語言模型(LLMs)的推理能力。具體而言,ODS由兩個與用戶選擇的基礎LLM協同工作的組件組成:開放搜索工具(Open Search Tool)和開放推理代理(Open Reasoning Agent)。開放推理代理解釋給定的任務,並通過協調一系列動作(包括調用工具,其中之一便是開放搜索工具)來完成任務。開放搜索工具是一種新穎的網絡搜索工具,其性能超越專有對應方案。結合強大的開源推理LLMs,如DeepSeek-R1,ODS在兩個基準測試(SimpleQA和FRAMES)上幾乎匹配並有時超越現有的最先進基線。例如,在FRAMES評估基準上,ODS將最近發布的GPT-4o Search Preview的最佳現有基線準確率提高了9.7%。ODS是一個通用框架,可無縫增強任何LLMs(例如,在SimpleQA上達到82.4%、在FRAMES上達到30.1%的DeepSeek-R1)的搜索和推理能力,以實現最先進的性能:在SimpleQA上達到88.3%,在FRAMES上達到75.3%。
多步驟空間推理涉及對多個連續步驟中的空間關係進行理解與推理,這對於應對複雜的現實世界應用(如機器人操作、自主導航和自動化組裝)至關重要。為評估當前多模態大型語言模型(MLLMs)是否具備這一基本能力,我們引入了LEGO-Puzzles,這是一個可擴展的基準測試,旨在通過基於樂高的任務來評估MLLMs的空間理解與序列推理能力。LEGO-Puzzles包含1,100個精心策劃的視覺問答(VQA)樣本,涵蓋11種不同的任務,從基本的空間理解到複雜的多步驟推理。基於LEGO-Puzzles,我們對最先進的MLLMs進行了全面評估,並發現其在空間推理能力上存在顯著局限:即使是最強大的MLLMs也只能回答約一半的測試案例,而人類參與者的準確率超過90%。除了VQA任務外,我們還評估了MLLMs根據組裝示意圖生成樂高圖像的能力。實驗結果顯示,僅有Gemini-2.0-Flash和GPT-4o展現了有限的指令遵循能力,而其他MLLMs要麼複製輸入圖像,要麼生成完全無關的輸出。總體而言,LEGO-Puzzles揭示了現有MLLMs在空間理解與序列推理能力上的關鍵不足,並強調了在多模態空間推理領域進一步發展的必要性。
近期大型多模态模型的進展,已在數位領域展現出卓越的通用能力,然而將這些能力轉化至如機器人等實體代理上仍面臨重大挑戰。本報告介紹了一款專為機器人設計、基於Gemini 2.0架構的新型AI模型家族。我們推出Gemini Robotics,這是一款先進的視覺-語言-動作(VLA)通用模型,能夠直接控制機器人。Gemini Robotics執行流暢且反應迅速的動作,以應對多種複雜的操作任務,同時對物體類型和位置的變化具有魯棒性,能夠處理未見過的環境,並遵循多樣化的開放詞彙指令。我們展示,通過額外的微調,Gemini Robotics可專精於新能力,包括解決長期視野、高度靈巧的任務,從僅100次示範中學習新的短期任務,以及適應完全新穎的機器人形態。這一切之所以可能,是因為Gemini Robotics建立在Gemini Robotics-ER模型之上,這是我們在本工作中介紹的第二款模型。Gemini Robotics-ER(具身推理)將Gemini的多模態推理能力擴展至物理世界,增強了空間與時間的理解。這使得與機器人相關的能力得以實現,包括物體檢測、指向、軌跡與抓取預測,以及多視角對應與3D邊界框預測。我們展示了這一新穎組合如何支持多種機器人應用。同時,我們也討論並解決了與這類新型機器人基礎模型相關的重要安全考量。Gemini Robotics家族的出現,標誌著開發通用機器人、實現AI在物理世界潛力的重要一步。
無分類器指導(Classifier-Free Guidance, CFG)是訓練條件擴散模型的一項基礎技術。基於CFG的訓練通常採用單一網絡來同時學習條件與無條件的噪聲預測,並對條件輸入施加較小的dropout率。然而,我們觀察到,在訓練中聯合學習無條件噪聲時,由於帶寬受限,導致無條件情況下的先驗效果不佳。更重要的是,這些低質量的無條件噪聲預測嚴重影響了條件生成的質量。受到多數基於CFG的條件模型通過微調具有更好無條件生成能力的基礎模型來訓練的啟發,我們首先展示,僅需將CFG中的無條件噪聲替換為基礎模型預測的噪聲,即可顯著提升條件生成的效果。此外,我們還證明,用於無條件噪聲替換的擴散模型不必與微調模型所基於的模型相同。我們通過一系列基於CFG的條件模型,包括Zero-1-to-3、Versatile Diffusion、DiT、DynamiCrafter和InstructPix2Pix,在圖像與視頻生成任務中實驗驗證了這一主張。
生成模型與判別模型之間的協同效應日益受到關注。雖然判別式的對比語言-圖像預訓練(CLIP)在高層語義理解上表現出色,但在感知細粒度視覺細節方面卻存在困難。通常,為了增強表徵能力,生成模型會將CLIP的視覺特徵作為重建的條件。然而,其背後的原理仍未得到充分探索。在本研究中,我們通過實證發現,視覺上完美的生成並不總是表徵增強的最佳選擇。關鍵在於有效地從生成模型中提取細粒度知識,同時抑制不相關信息。為探討關鍵因素,我們深入研究了三個方面:(1) 條件機制:我們發現,即使少量的局部標記也能大幅降低重建難度,導致訓練崩潰。因此,我們得出結論,僅使用全局視覺標記作為條件是最有效的策略。(2) 去噪配置:我們觀察到端到端訓練會引入額外信息。為解決這一問題,我們提出了一種兩階段訓練策略,以優先學習有用的視覺知識。此外,我們證明輕量級去噪器可以帶來顯著的改進。(3) 生成範式:我們探索了連續和離散去噪器,均取得了理想結果,驗證了我們方法的通用性。通過這些深入探索,我們最終提出了一種名為GenHancer的有效方法,該方法在MMVP-VLM基準測試中持續超越先前技術,例如在OpenAICLIP上提升了6.0%。增強後的CLIP可進一步插入多模態大語言模型中,以提升視覺中心的性能。所有模型和代碼均已公開。
近期,諸如Flux和Ideogram 2.0等尖端文本到圖像生成模型在句子層面的視覺文本渲染上取得了顯著進展。本文聚焦於更具挑戰性的文章層面視覺文本渲染場景,並探討了一項新穎任務:基於用戶提供的文章層面描述性提示和超密集佈局,生成高質量的商業內容,包括信息圖表和幻燈片。這一任務面臨的根本挑戰有兩方面:顯著增長的上下文長度以及高質量商業內容數據的稀缺性。 與以往大多數研究僅關注有限數量的子區域和句子層面提示不同,確保在商業內容中精確遵循包含數十甚至數百個子區域的超密集佈局,其難度要大得多。我們做出了兩項關鍵技術貢獻:(i) 構建了可擴展的高質量商業內容數據集,即Infographics-650K,通過實施分層檢索增強的信息圖生成方案,配備了超密集佈局和提示;(ii) 一種佈局引導的交叉注意力機制,該機制根據超密集佈局將數十個區域性提示注入到一組裁剪區域的潛在空間中,並在推理過程中利用佈局條件CFG靈活地細化每個子區域。 我們展示了與Flux和SD3等先前SOTA系統相比,在BizEval提示集上我們系統的強勁表現。此外,我們進行了全面的消融實驗,以驗證每個組件的有效性。我們希望構建的Infographics-650K和BizEval能夠激勵更廣泛的社區推動商業內容生成的進步。
我們推出LogQuant,這是一項針對大型語言模型(LLM)推理中KV Cache的突破性2位元量化技術,在保持卓越性能的同時,實現了顯著的記憶體節省。先前的方法要么假設後續的token更為重要,要么嘗試基於早期的注意力模式來預測重要token。然而,這兩種方法都可能導致性能瓶頸或頻繁的預測錯誤。 LogQuant採用了不同的策略。通過應用基於對數的過濾機制,它選擇性地壓縮整個上下文中的KV Cache,在相同甚至更少的記憶體佔用下,實現了比現有方法更好的性能。在基準測試中,它將吞吐量提高了25%,並在不增加記憶體消耗的情況下,將批次大小提升了60%。對於數學和代碼完成等具有挑戰性的任務,LogQuant在相同的壓縮比下,將準確率提高了40%至200%,超越了同類技術。LogQuant無縫集成於流行的推理框架,如Python的transformers庫。實現可於https://github.com/Concyclics/LogQuantKV獲取。
我們提出了MCTS-RAG,這是一種新穎的方法,通過利用檢索增強生成(RAG)來提供相關上下文,並結合蒙特卡羅樹搜索(MCTS)來精煉推理路徑,從而增強小型語言模型在知識密集型任務中的推理能力。MCTS-RAG通過迭代的決策過程動態整合檢索與推理。與標準的RAG方法(通常獨立於推理進行信息檢索,從而導致知識整合不理想)或傳統的MCTS推理(僅依賴內部模型知識而無外部事實)不同,MCTS-RAG將結構化推理與自適應檢索相結合。這種整合方法增強了決策能力,減少了幻覺,並確保了更高的事實準確性和回答一致性。在多個推理和知識密集型數據集(如ComplexWebQA、GPQA和FoolMeTwice)上的實驗結果表明,我們的方法使小型語言模型能夠通過有效擴展推理時的計算資源,達到與GPT-4o等前沿大型語言模型相當的性能,為小型模型的推理樹立了新標準。
擴散模型在視頻生成領域取得了顯著進展。然而,其迭代去噪的特性需要大量推理步驟來生成視頻,這既緩慢又計算成本高昂。本文首先詳細分析了現有擴散蒸餾方法中的挑戰,並提出了一種新穎的高效方法——AccVideo,通過合成數據集減少推理步驟以加速視頻擴散模型。我們利用預訓練的視頻擴散模型生成多條有效的去噪軌跡作為我們的合成數據集,這在蒸餾過程中消除了無用數據點的使用。基於合成數據集,我們設計了一種基於軌跡的少步指導方法,利用去噪軌跡中的關鍵數據點來學習噪聲到視頻的映射,從而實現更少步驟的視頻生成。此外,由於合成數據集捕捉了每個擴散時間步的數據分佈,我們引入了一種對抗訓練策略,使學生模型的輸出分佈與我們的合成數據集對齊,從而提高視頻質量。大量實驗表明,與教師模型相比,我們的模型在生成速度上實現了8.5倍的提升,同時保持了相當的性能。與之前的加速方法相比,我們的方法能夠生成更高質量和分辨率的視頻,即5秒鐘、720x1280、24幀每秒。
從系統1到系統2推理的轉變,在大型語言模型(LLMs)中標誌著通過深思熟慮、迭代思考來處理複雜任務的重大進步。然而,這種進步往往以效率為代價,因為模型傾向於過度思考,生成冗餘的推理步驟,而輸出質量的提升卻不成比例。長到短(L2S)推理作為應對這一挑戰的有前景的解決方案應運而生,旨在平衡推理深度與實際效率。儘管現有方法,如監督微調(SFT)、強化學習(RL)和提示工程,已顯示出潛力,但它們要么計算成本高昂,要么不穩定。相比之下,模型合併提供了一種經濟高效且穩健的替代方案,通過整合系統1模型的快速思考能力與系統2模型的有條不紊的推理。在本研究中,我們對L2S推理的模型合併進行了全面的實證研究,探索了多種方法,包括基於任務向量的、基於SVD的以及基於激活信息的合併。我們的實驗表明,模型合併可以將平均回應長度減少高達55%,同時保持甚至提升基準性能。我們還通過對1.5B/7B/14B/32B模型的廣泛評估,發現了模型規模與合併效果之間的強烈相關性。此外,我們研究了合併模型自我批判和自我修正的能力,以及其根據任務複雜度自適應調整回應長度的特性。我們的研究結果強調,模型合併作為L2S推理的一種高效且有效的範式,提供了一個解決過度思考問題的實用方案,同時保持了系統2推理的穩健性。本工作可在Github上找到:https://github.com/hahahawu/Long-to-Short-via-Model-Merging。
近期,大型多模态模型(LMMs)在自动驾驶系统(ADS)中的应用展现了显著潜力。然而,其直接应用于ADS仍面临诸多挑战,如对交通知识的误解、复杂的道路条件以及车辆状态的多样性。为应对这些挑战,我们提出采用知识编辑技术,该技术能够在不进行完整重新训练的情况下,对模型行为进行针对性调整。同时,我们引入了ADS-Edit,这是一个专为ADS设计的多模态知识编辑数据集,涵盖了多种现实场景、多样化的数据类型以及全面的评估指标。我们进行了详尽的实验,并得出了若干有趣的结论。我们期望本工作能推动知识编辑技术在自动驾驶领域的进一步应用与发展。相关代码与数据已发布于https://github.com/zjunlp/EasyEdit。
過程監督獎勵模型作為一種細粒度的功能,能夠為模型回應提供詳細的逐步反饋,從而有效選擇複雜任務的推理路徑。儘管其具有優勢,但對過程獎勵模型(PRMs)的評估仍較少探索,特別是在多模態領域。為填補這一空白,本文首先將當前視覺大語言模型(VLLMs)作為兩類獎勵模型進行基準測試:輸出獎勵模型(ORMs)和過程獎勵模型(PRMs),在多個視覺語言基準上的測試表明,無論是ORM還是PRM在所有任務中均未表現出持續的優勢,且性能更優的VLLMs並不一定帶來更好的獎勵性能。為進一步推進評估,我們引入了ViLBench,這是一個需要密集過程獎勵信號的視覺語言基準。值得注意的是,OpenAI的GPT-4o結合思維鏈(CoT)僅達到27.3%的準確率,顯示出該基準對當前VLLMs的挑戰性。最後,我們初步展示了一條彌合通用VLLMs與獎勵模型之間差距的有前景路徑——通過使用增強型樹搜索算法收集73.6K視覺語言過程獎勵數據,我們的3B模型在ViLBench上選擇OpenAI o1的生成結果時,相比標準CoT平均提升了3.3%,與未訓練的對比模型相比最高提升了2.5%。我們在https://ucsc-vlaa.github.io/ViLBench上公開了實現,包括代碼、模型和數據。
電腦視覺模型已被證實會在多種資料集和任務中展現並放大偏見。現有的分類模型偏見量化方法主要聚焦於資料集分佈和模型在子群體上的表現,而忽略了模型的內部運作機制。我們提出了注意力交並比(Attention-IoU)指標及其相關評分,該方法利用注意力圖來揭示模型內部表徵中的偏見,並識別可能導致這些偏見的圖像特徵。首先,我們在合成的Waterbirds資料集上驗證了Attention-IoU,證明該指標能準確測量模型偏見。接著,我們分析了CelebA資料集,發現Attention-IoU能揭示超出準確率差異之外的相關性。通過以“男性”這一受保護屬性為例,我們探討了CelebA中偏見表現的不同方式。最後,通過對訓練集進行子採樣以改變屬性相關性,我們展示了Attention-IoU能夠揭示資料集標籤中未出現的潛在混淆變量。
在許多機器人與虛擬/擴增實境應用中,快速的相機運動會導致高度運動模糊,使得現有的相機姿態估計方法失效。本研究提出了一種新穎的框架,將運動模糊視為運動估計的豐富線索,而非將其視為不希望的干擾。我們的方法通過從單張運動模糊圖像直接預測密集的運動流場和單目深度圖來實現。隨後,在小運動假設下,通過求解線性最小二乘問題來恢復瞬時相機速度。本質上,我們的方法產生了一種類似IMU的測量值,能夠穩健地捕捉快速且劇烈的相機運動。為了訓練我們的模型,我們構建了一個大規模數據集,其中包含基於ScanNet++v2生成的逼真合成運動模糊,並通過使用我們完全可微分的管道在真實數據上進行端到端訓練來進一步精煉模型。在真實世界基準上的廣泛評估表明,我們的方法在角速度和平移速度估計上達到了最先進的水平,超越了如MASt3R和COLMAP等現有方法。
知識蒸餾可以成為一種成本效益高的技術,用於在大型語言模型中提煉知識,前提是教師模型的輸出logits能夠被預先計算並緩存。然而,將此技術成功應用於預訓練階段仍屬未充分探索的領域。在本研究中,我們證明了諸如緩存Top-K概率等直觀的稀疏知識蒸餾方法,雖然易於理解,但會向學生模型提供教師概率分佈的偏差估計,導致性能與校準效果欠佳。我們提出了一種基於重要性採樣的方法——`隨機採樣知識蒸餾`,該方法提供無偏估計,在期望上保持梯度不變,且只需存儲顯著稀疏的logits。與基於交叉熵的訓練相比,我們的方法在僅增加少量額外開銷(<10%)的情況下,能夠加速學生模型的訓練,同時在從300M到3B的不同模型規模範圍內,保持與完整蒸餾相媲美的競爭性能。
近期,自回归模型和扩散模型的进展在生成包含简短场景文字的图像方面取得了显著成效。然而,对于当前生成模型而言,在图像中生成连贯的长篇文字(如幻灯片或文档中的段落)仍是一个重大挑战。我们首次提出了专门针对长文本图像生成的研究,填补了现有文本到图像系统通常仅能处理简短短语或单句的关键空白。通过对最先进的自回归生成模型进行全面分析,我们发现图像分词器是影响文本生成质量的关键瓶颈。为此,我们引入了一种新颖的、专注于文本的二进制分词器,该分词器经过优化,能够捕捉详细的场景文字特征。利用这一分词器,我们开发了\模型名称,这是一个多模态自回归模型,在生成高质量长文本图像方面表现出前所未有的保真度。我们的模型提供了强大的可控性,允许用户自定义文本属性,如字体样式、大小、颜色和对齐方式。大量实验表明,\模型名称~在准确、一致且灵活地生成长文本方面显著优于SD3.5 Large~sd3和GPT4o~gpt4o与DALL-E 3~dalle3的组合。除了技术成就外,\模型名称~还为创新应用(如交错文档和PowerPoint生成)开辟了令人兴奋的新机遇,确立了长文本图像生成的新前沿。
強化學習(RL)是大語言模型(LLM)後訓練中的關鍵組成部分。然而,現有的用於後訓練的同策略算法本質上與經驗回放緩衝區的使用不相容,而這些緩衝區可以通過分佈式的異策略參與者進行可擴展的填充,以隨著計算資源的增加來增強探索。我們提出通過異步軌跡平衡(TBA)高效地獲得回放緩衝區的這一優勢,這是一個大規模可擴展的LLM RL系統。與現有方法相比,TBA將更大比例的計算資源用於搜索,持續生成異策略數據以填充中央回放緩衝區。訓練節點同時根據獎勵或最近性從該緩衝區中採樣數據,並使用軌跡平衡(TB)來更新策略,這是一種為GFlowNets引入的追求多樣性的RL目標。TBA提供了三個關鍵優勢:(1)解耦的訓練和搜索,將訓練的實際時間加速4倍或更多;(2)通過大規模異策略採樣提高多樣性;(3)在稀疏獎勵設置下進行可擴展的搜索。在數學推理、偏好調優和自動紅隊測試(多樣且具代表性的後訓練任務)中,TBA在速度和性能上均優於強基準模型。
類別層級的3D/6D姿態估計是實現全面3D場景理解的關鍵步驟,這將為機器人和具身人工智慧領域帶來廣泛的應用。近期研究探索了從分析-合成角度處理多種2D和3D任務的神經網格模型。儘管這些方法在部分遮擋和領域轉移的魯棒性上有了顯著提升,但它們嚴重依賴於3D註釋進行部分對比學習,這限制了它們僅適用於少數類別,並阻礙了高效擴展。在本研究中,我們提出了DINeMo,這是一種無需3D註釋即可訓練的新型神經網格模型,它利用大型視覺基礎模型獲得的偽對應關係。我們採用了一種雙向偽對應生成方法,該方法結合局部外觀特徵和全局上下文信息來產生偽對應。在汽車數據集上的實驗結果表明,我們的DINeMo在零樣本和少樣本3D姿態估計上大幅超越先前方法,將與全監督方法的差距縮小了67.3%。此外,DINeMo在訓練過程中整合更多未標註圖像時,展現出有效且高效的擴展能力,這凸顯了其相較於依賴3D註釋的監督學習方法的優勢。我們的項目頁面可訪問:https://analysis-by-synthesis.github.io/DINeMo/。
估計影片中的運動是一個關鍵的電腦視覺問題,具有許多下游應用,包括可控影片生成和機器人技術。目前的解決方案主要使用合成數據進行訓練,或需要調整特定情境的啟發式方法,這從根本上限制了這些模型在現實世界中的能力。儘管最近在大規模自監督學習從影片中取得了進展,但利用這些表示進行運動估計仍然相對未被充分探索。在本研究中,我們開發了Opt-CWM,這是一種從預訓練的下一幀預測模型中進行流動和遮擋估計的自監督技術。Opt-CWM通過學習優化反事實探針來從基礎影片模型中提取運動信息,避免了在訓練無限制影片輸入時使用固定啟發式方法的需求。我們在無需標記數據的情況下,在真實世界影片的運動估計上達到了最先進的性能。
基於分數或擴散模型生成高品質的表格數據,其表現超越了基於GAN和VAE的模型。然而,這些方法需要大量的訓練時間。本文介紹了RecTable,它採用了在文本到圖像生成和文本到視頻生成等領域中應用的修正流建模。RecTable具有簡單的架構,僅由幾個堆疊的門控線性單元塊組成。此外,我們的訓練策略也相當簡潔,結合了混合型噪聲分佈和對數正態時間步分佈。實驗結果顯示,RecTable在與多種最先進的擴散和基於分數的模型相比時,展現了競爭力的性能,同時大幅減少了所需的訓練時間。我們的代碼可在https://github.com/fmp453/rectable 獲取。
文件結構分析,亦稱文件佈局分析,對於理解文件的物理佈局與邏輯結構至關重要,服務於信息檢索、文件摘要、知識提取等領域。層次化文件結構分析(HDSA)特別旨在恢復使用具有層次化架構的創作軟件創建的文件之層次結構。以往的研究主要遵循兩種途徑:一種專注於孤立地解決HDSA的特定子任務,如表格檢測或閱讀順序預測;另一種則採用統一框架,利用多個分支或模塊,每個模塊設計用於處理不同的任務。在本研究中,我們提出了一種針對HDSA的統一關係預測方法,名為UniHDSA,該方法將各種HDSA子任務視為關係預測問題,並將關係預測標籤整合到一個統一的標籤空間中。這使得單一的關係預測模塊能夠同時處理多個任務,無論是在頁面級別還是文件級別的結構分析中。為了驗證UniHDSA的有效性,我們開發了一個基於Transformer架構的多模態端到端系統。大量的實驗結果表明,我們的方法在層次化文件結構分析基準Comp-HRDoc上達到了最先進的性能,並在大規模文件佈局分析數據集DocLayNet上取得了競爭力的成績,有效展示了我們方法在所有子任務上的優越性。Comp-HRDoc基準和UniHDSA的配置已公開於https://github.com/microsoft/CompHRDoc。
在計算病理學中,乳腺癌生存預測面臨著一個顯著的挑戰,即腫瘤異質性。例如,同一腫瘤在病理圖像中的不同區域可能展現出截然不同的形態學和分子特徵。這使得從全切片圖像(WSIs)中提取真正反映腫瘤侵襲潛力和可能生存結果的代表性特徵變得困難。本文介紹了PathoHR,一種新穎的乳腺癌生存預測流程,它能夠增強任何尺寸的病理圖像,從而實現更有效的特徵學習。我們的方法包括:(1)引入即插即用的高分辨率視覺Transformer(ViT)來增強WSI的局部表示,實現更細緻和全面的特徵提取;(2)系統評估多種先進的相似性度量,用於比較從WSI中提取的特徵,優化表示學習過程,以更好地捕捉腫瘤特徵;(3)展示遵循所提出流程增強後的較小圖像塊,能夠達到與原始較大圖像塊相當或更優的預測準確性,同時顯著降低計算開銷。實驗結果證實,PathoHR提供了一種將增強圖像分辨率與優化特徵學習相結合的潛在途徑,推動了計算病理學的發展,為更準確和高效的乳腺癌生存預測提供了有前景的方向。代碼將在https://github.com/AIGeeksGroup/PathoHR上提供。
傳統上,寫作助手(如Grammarly、Microsoft Copilot)通過運用句法和語義的變化來描述圖像元素,從而生成多樣的圖像標題。然而,人類撰寫的標題則優先考慮在視覺描述的同時,利用語用線索傳達核心訊息。為了增強語用多樣性,探索與視覺內容相結合的替代訊息傳達方式至關重要。為應對這一挑戰,我們提出了RONA,這是一種針對多模態大型語言模型(MLLM)的新穎提示策略,它利用連貫關係作為變化的軸心。我們證明,與多個領域的MLLM基線相比,RONA生成的標題在整體多樣性和與真實情況的對齊方面表現更佳。我們的代碼可在以下網址獲取:https://github.com/aashish2000/RONA。