每日精選AI研究論文及翻譯
長上下文自迴歸建模在語言生成領域取得了顯著進展,但視頻生成仍難以充分利用延長的時間上下文。為探究長上下文視頻建模,我們引入了幀自迴歸(Frame AutoRegressive, FAR),作為視頻自迴歸建模的強力基準。正如語言模型學習詞元間的因果依賴(即Token AR),FAR模型則建模連續幀間的時序因果依賴,相比Token AR和視頻擴散變換器,實現了更好的收斂性。基於FAR,我們觀察到長上下文視覺建模面臨視覺冗餘的挑戰。現有的RoPE缺乏對遠程上下文的有效時間衰減,且難以良好外推至長視頻序列。此外,訓練長視頻計算成本高昂,因為視覺詞元的增長速度遠快於語言詞元。為解決這些問題,我們提出平衡局部性與長程依賴性。我們引入了FlexRoPE,這是一種測試時技術,為RoPE添加靈活的時間衰減,使其能夠外推至16倍長的視覺上下文。進一步,我們提出了長短期上下文建模,其中高分辨率的短期上下文窗口確保了細粒度的時間一致性,而無限制的長期上下文窗口則使用更少的詞元編碼長程信息。通過這種方法,我們能夠在可管理的詞元上下文長度下訓練長視頻序列。我們展示了FAR在短視頻和長視頻生成中均達到了最先進的性能,為視頻自迴歸建模提供了一個簡單而有效的基準。
高分辨率視覺細節感知對於日常任務至關重要。然而,由於處理更大圖像的二次成本,當前的視覺預訓練仍局限於低分辨率(例如378 x 378像素)。我們引入了PS3,將CLIP風格的視覺預訓練擴展到4K分辨率,並保持近乎恆定的成本。PS3不再對全局圖像表示進行對比學習,而是通過選擇性處理局部區域並將其與局部詳細描述進行對比來進行預訓練,從而實現高分辨率表示學習,並大幅減少計算開銷。預訓練後的PS3能夠以低分辨率編碼全局圖像,並根據顯著性或與文本提示的相關性選擇性處理局部高分辨率區域。當將PS3應用於多模態大語言模型(MLLM)時,生成的模型名為VILA-HD,與未進行高分辨率視覺預訓練的基線模型(如AnyRes和S^2)相比,顯著提升了高分辨率視覺感知能力,同時使用的token數量最多減少了4.3倍。PS3還解鎖了VILA-HD的吸引人擴展特性,包括免費提升分辨率以及增加測試時計算量以獲得更好性能。與現有技術相比,VILA-HD在多個基準測試中超越了之前的MLLM(如NVILA和Qwen2-VL),並且比最新的token修剪方法更高效。最後,我們發現當前的基準測試並不需要4K分辨率感知,這促使我們提出了4KPro,這是一個新的4K分辨率圖像問答基準測試,VILA-HD在該測試中超越了所有之前的MLLM,包括對GPT-4o的14.5%提升,以及對Qwen2-VL的3.2%提升和2.96倍加速。
我們提出了一種針對預訓練流模型的推理時縮放方法。近年來,推理時縮放在大型語言模型和擴散模型中獲得了顯著關注,通過利用額外的計算資源來提升樣本質量或更好地使輸出與用戶偏好對齊。對於擴散模型而言,由於中間去噪步驟的隨機性,粒子採樣使得縮放更加高效。相反,儘管流模型作為擴散模型的替代方案已廣受歡迎——在最先進的圖像和視頻生成模型中提供了更快的生成速度和高質量輸出——但由於其確定性的生成過程,用於擴散模型的高效推理時縮放方法無法直接應用。為了實現流模型的高效推理時縮放,我們提出了三個關鍵思想:1)基於SDE的生成,使流模型中的粒子採樣成為可能;2)插值轉換,擴大搜索空間並增強樣本多樣性;3)滾動預算強制(RBF),一種跨時間步自適應分配計算資源以最大化預算利用率的方法。我們的實驗表明,基於SDE的生成,特別是基於方差保持(VP)插值的生成,提升了流模型中粒子採樣方法在推理時縮放中的性能。此外,我們證明了RBF與VP-SDE結合達到了最佳性能,超越了所有先前的推理時縮放方法。
大型多模态模型(LMMs)的幻觉问题,即提供看似正确实则错误的回答,限制了其可靠性和适用性。本文旨在研究LMMs在视频模态中的幻觉问题,相较于静态模态如图像和文本,视频模态更具动态性和挑战性。基于此动机,我们首先提出了一个名为HAVEN的综合基准,用于评估LMMs在视频理解任务中的幻觉。该基准从三个维度构建,即幻觉成因、幻觉方面和问题格式,共生成6K个问题。随后,我们通过16个LMMs在提出的基准上的实验,定量研究了影响幻觉的7个关键因素,如视频时长、模型规模和模型推理等。此外,受OpenAI o1等近期思维模型的启发,我们提出了一种视频思维模型,通过监督推理微调(SRFT)和直接偏好优化(TDPO)来缓解LMMs的幻觉问题——其中SRFT增强推理能力,而TDPO减少思维过程中的幻觉。大量实验和分析证明了该方法的有效性。值得注意的是,它在幻觉评估中的准确率比基线提高了7.65%,并将偏差分数降低了4.5%。代码和数据公开于https://github.com/Hongcheng-Gao/HAVEN。
預訓練視覺基礎模型(VFMs)為廣泛的應用提供了強大的視覺表徵能力。本文中,我們以多模態方式持續預訓練現有的VFMs,使其能夠輕鬆處理不同尺寸的視覺輸入,並生成與語言表徵更為一致的視覺表徵,無論其原始預訓練過程如何。為此,我們引入了CoMP,這是一個精心設計的多模態預訓練流程。CoMP採用持續旋轉位置嵌入來支持原生分辨率的持續預訓練,並通過語言原型在視覺與文本特徵之間引入對齊損失,以實現多模態表徵的對齊。通過三階段訓練,我們的VFMs在多模態理解以及其他下游任務(如分類和分割)中均取得了顯著提升。值得注意的是,CoMP-SigLIP在配備0.5B大語言模型的情況下,於ChartQA和DocVQA上分別取得了66.7和75.9的分數,同時在凍結塊評估下保持了ImageNet-1K上87.4%的準確率和ADE20K上49.5的mIoU。
近期,大型語言模型(LLMs)如OpenAI-o1和DeepSeek-R1的進展,展示了測試時擴展的有效性,其中延長的推理過程顯著提升了模型性能。儘管如此,當前模型在處理長文本和強化學習(RL)訓練效率方面仍存在限制。為解決這些問題,我們提出了一種簡單而有效的測試時擴展方法——多輪思考。該方法通過利用前幾輪的答案作為後續輪次的提示,迭代地精煉模型推理。在多個模型(包括QwQ-32B和DeepSeek-R1)上的廣泛實驗,一致顯示了在AIME 2024、MATH-500、GPQA-diamond和LiveCodeBench等多個基準上的性能提升。例如,QwQ-32B在AIME 2024數據集上的準確率從80.3%(第一輪)提升至82.1%(第二輪),而DeepSeek-R1也從79.7%提升至82.0%。這些結果證實,多輪思考是一種廣泛適用且直接的方法,能夠穩定提升模型性能,凸顯了其在未來測試時擴展技術發展中的潛力。關鍵提示:{原始問題提示} 助手的前一輪答案是:<答案> {上一輪答案} </答案>,請重新回答。
隨著人工智慧生成內容(AIGC)技術的快速發展,合成圖像在日常生活中日益普遍,這為真實性評估與檢測帶來了新的挑戰。儘管現有方法在評估圖像真實性和定位偽造方面頗具成效,但這些方法往往缺乏人類可解釋性,且未能完全應對合成數據日益增長的複雜性。為應對這些挑戰,我們推出了FakeVLM,這是一款專為通用合成圖像及深度偽造檢測任務設計的大型多模態模型。FakeVLM不僅在區分真實與偽造圖像方面表現卓越,還能提供清晰、自然的語言解釋來描述圖像偽造痕跡,從而增強了可解釋性。此外,我們還推出了FakeClue,這是一個包含超過10萬張圖像的綜合數據集,涵蓋七個類別,並以自然語言標註了細粒度的偽造線索。FakeVLM在性能上可與專家模型相媲美,同時無需額外的分類器,使其成為合成數據檢測的強大解決方案。在多個數據集上的廣泛評估證實了FakeVLM在真實性分類和偽造痕跡解釋任務中的優越性,為合成圖像檢測樹立了新標杆。數據集和代碼將發佈於:https://github.com/opendatalab/FakeVLM。
文件問答(DocQA)是一項非常常見的任務。現有方法使用大型語言模型(LLMs)或大型視覺語言模型(LVLMs)以及檢索增強生成(RAG)通常優先考慮單一模態的信息,未能有效整合文本和視覺線索。這些方法在處理複雜的多模態推理時表現不佳,限制了其在現實世界文件中的性能。我們提出了MDocAgent(一種用於文件理解的多模態多代理框架),這是一種新穎的RAG和多代理框架,利用文本和圖像。我們的系統採用了五個專門的代理:一個通用代理、一個關鍵代理、一個文本代理、一個圖像代理和一個總結代理。這些代理進行多模態上下文檢索,結合各自的見解以實現對文件內容的更全面理解。這種協作方法使系統能夠從文本和視覺組件中綜合信息,從而提高問答的準確性。在MMLongBench、LongDocURL等五個基準上的初步實驗展示了我們MDocAgent的有效性,與當前最先進的方法相比,平均提高了12.1%。這項工作有助於開發更強大和全面的DocQA系統,能夠處理包含豐富文本和視覺信息的現實世界文件的複雜性。我們的數據和代碼可在https://github.com/aiming-lab/MDocAgent獲取。
大型語言模型(LLMs)在推理方面展現了顯著的能力,這在OpenAI-o1和DeepSeek-R1的成功中得到了體現。然而,將推理與外部搜索過程整合仍然具有挑戰性,特別是對於需要多次檢索步驟的複雜多跳問題。我們提出了ReSearch,這是一個新穎的框架,通過強化學習訓練LLMs進行搜索推理,而無需使用任何關於推理步驟的監督數據。我們的方法將搜索操作視為推理鏈的組成部分,其中何時以及如何執行搜索由基於文本的思考引導,而搜索結果隨後會影響進一步的推理。我們在Qwen2.5-7B(-Instruct)和Qwen2.5-32B(-Instruct)模型上訓練ReSearch,並進行了廣泛的實驗。儘管僅在一個數據集上進行訓練,我們的模型在各種基準測試中展現了強大的泛化能力。分析表明,ReSearch在強化學習過程中自然地激發了反思和自我修正等高級推理能力。
組合圖像檢索(Composed Image Retrieval, CIR)是一項旨在基於多模態查詢檢索圖像的複雜任務。典型的訓練數據由包含參考圖像、期望修改的文字描述以及目標圖像的三元組構成,這些數據的獲取既昂貴又耗時。CIR數據集的稀缺性催生了利用合成三元組或依賴於無處不在的網絡爬取圖像-標題對的零樣本方法。然而,這些方法存在顯著限制:合成三元組面臨規模有限、多樣性不足以及修改文本不自然的問題,而圖像-標題對由於缺乏三元組數據,阻礙了多模態查詢的聯合嵌入學習。此外,現有方法在處理需要視覺與語言模態深度融合和理解的複雜細膩修改文本時表現欠佳。我們提出了CoLLM,一個一站式框架,有效解決了這些限制。我們的方法從圖像-標題對中即時生成三元組,實現了無需人工標註的監督訓練。我們利用大型語言模型(LLMs)生成參考圖像與修改文本的聯合嵌入,促進了更深層次的多模態融合。此外,我們引入了多文本CIR(MTCIR),一個包含340萬樣本的大規模數據集,並改進了現有的CIR基準(CIRR和Fashion-IQ)以提升評估的可靠性。實驗結果表明,CoLLM在多個CIR基準和設置中達到了最先進的性能。MTCIR取得了競爭力的結果,性能提升最高達15%。我們改進的基準為CIR模型提供了更可靠的評估指標,推動了這一重要領域的發展。
在本篇論文中,我們提出了LSRNA,這是一種新穎的框架,旨在利用擴散模型實現更高解析度(超過1K)的圖像生成,其核心在於直接在潛在空間中進行超解析度處理。現有的擴散模型在超越其訓練解析度時往往會遇到困難,導致結構扭曲或內容重複。基於參考的方法通過上採樣低解析度參考圖像來引導更高解析度的生成,從而解決這些問題。然而,這些方法面臨著重大挑戰:在潛在空間中進行上採樣常常會導致流形偏差,從而降低輸出質量。另一方面,在RGB空間中進行上採樣則容易產生過於平滑的輸出。為了克服這些限制,LSRNA結合了潛在空間超解析度(LSR)以實現流形對齊,以及區域性噪聲添加(RNA)以增強高頻細節。我們的大量實驗表明,整合LSRNA在多種解析度和指標上均優於最先進的基於參考的方法,同時展示了潛在空間上採樣在保持細節和銳度方面的關鍵作用。相關代碼已公開於https://github.com/3587jjh/LSRNA。
知識發現與收集是智力密集型的任務,傳統上需要大量人力投入以確保高質量的輸出。近期研究探索了多代理框架,通過從互聯網檢索和綜合信息來自動生成維基百科風格的文章。然而,這些方法主要專注於純文本生成,忽視了多模態內容在提升信息量和吸引力方面的重要性。在本研究中,我們介紹了WikiAutoGen,這是一種用於自動生成多模態維基百科風格文章的新穎系統。與先前方法不同,WikiAutoGen不僅檢索並整合相關文本,還包括圖像,從而豐富了生成內容的深度和視覺吸引力。為了進一步提高事實準確性和全面性,我們提出了一種多視角自我反思機制,該機制從多個角度批判性地評估檢索到的內容,以增強其可靠性、廣度和連貫性等。此外,我們引入了WikiSeek,這是一個包含維基百科文章的基準,這些文章的主題配備了文本和圖像表示,旨在評估更具挑戰性主題上的多模態知識生成。實驗結果顯示,在我們的WikiSeek基準上,WikiAutoGen比之前的方法提升了8%-29%,生成了更準確、連貫且視覺豐富的維基百科風格文章。我們在https://wikiautogen.github.io/上展示了一些生成示例。
現有的視頻生成基礎模型主要專注於文本到視頻的任務,在細粒度視頻內容創作方面提供的控制能力有限。儘管基於適配器的方法(如ControlNet)能夠以最小的微調實現額外的控制,但在整合多種條件時仍面臨挑戰,包括:獨立訓練的適配器之間的分支衝突、參數冗餘導致計算成本增加,以及與全面微調相比性能欠佳。為解決這些挑戰,我們引入了FullDiT,這是一個用於視頻生成的統一基礎模型,通過統一的全注意力機制無縫整合多種條件。通過將多任務條件融合為統一的序列表示,並利用全自注意力的長上下文學習能力來捕捉條件動態,FullDiT減少了參數開銷,避免了條件衝突,並展現了可擴展性和湧現能力。我們進一步引入了FullBench用於多任務視頻生成的評估。實驗表明,FullDiT取得了最先進的成果,凸顯了全注意力在複雜多任務視頻生成中的有效性。
從單一視角圖像生成高品質的360度人頭視圖,對於實現可訪問的沉浸式遠程呈現應用和可擴展的個性化內容創作至關重要。儘管現有的全頭部生成尖端方法僅限於建模逼真的人類頭部,而最新的基於擴散技術的風格全知頭部合成方法只能生成正面視圖,且在視圖一致性方面存在困難,這阻礙了它們轉化為真正的3D模型以從任意角度渲染。我們提出了一種新穎的方法,能夠生成完全一致的360度頭部視圖,適用於人類、風格化以及擬人化形態,包括眼鏡和帽子等配飾。我們的方法基於DiffPortrait3D框架,結合了自定義的ControlNet用於後腦細節生成,以及雙重外觀模塊以確保全局前後一致性。通過在連續視圖序列上進行訓練並整合後參考圖像,我們的方法實現了穩健、局部連續的視圖合成。我們的模型可用於生成高品質的神經輻射場(NeRFs),用於實時、自由視點的渲染,在極具挑戰性的輸入肖像的物體合成和360度頭部生成方面,超越了現有最先進的方法。
利用3D資產進行場景生成面臨著複雜的挑戰,這既需要高層次的語義理解,也需具備低層次的幾何推理能力。雖然多模態大型語言模型(MLLMs)在語義任務上表現卓越,但其在3D場景生成中的應用卻因對3D幾何基礎的有限掌握而受限。本文探討了如何在物件放置任務中最佳地運用MLLMs。為此,我們提出了一個新穎的框架——FirePlace,該框架將現有的MLLMs應用於:(1) 3D幾何推理及從3D場景中提取相關幾何細節,(2) 基於提取的低層次幾何構建並解決幾何約束,(3) 篩選出符合常識的最終放置方案。通過將幾何推理與MLLMs對現實世界的理解相結合,我們的方法能夠提出既滿足幾何約束又符合高層次語義常識考量的物件放置方案。實驗結果表明,這些能力使我們的方法在具有複雜幾何結構的場景中更有效地放置物件,超越了先前工作的質量。
創建真實世界物體的物理數位孿生體在機器人技術、內容創作和擴展現實(XR)領域具有巨大潛力。本文介紹了PhysTwin,這是一種新穎的框架,利用互動中動態物體的稀疏視頻來生成照片級逼真且物理上真實、可實時互動的虛擬複製品。我們的方法圍繞兩個關鍵組件展開:(1) 一種物理信息表示法,結合了用於真實物理模擬的彈簧-質量模型、用於幾何的生成形狀模型以及用於渲染的高斯散點;(2) 一種新穎的多階段、基於優化的逆向建模框架,該框架從視頻中重建完整幾何、推斷密集物理屬性並複製逼真外觀。我們的方法將逆向物理框架與視覺感知線索相結合,即使在部分遮擋和視角有限的情況下也能實現高保真重建。PhysTwin支持建模各種可變形物體,包括繩索、填充玩具、布料和快遞包裹。實驗表明,PhysTwin在重建、渲染、未來預測以及新穎互動下的模擬方面優於競爭方法。我們進一步展示了其在互動實時模擬和基於模型的機器人運動規劃中的應用。
微調使大型語言模型(LLMs)能夠適應特定領域,但往往會削弱其先前建立的安全對齊。為減輕微調過程中模型安全性的退化,我們引入了前瞻調優(LookAhead Tuning),該方法包含兩種簡單、低資源且有效的數據驅動方法,通過預覽部分答案前綴來修改訓練數據。這兩種方法均旨在通過最小化對初始詞元分佈的擾動,來保護模型的內在安全機制。全面的實驗表明,前瞻調優在保持模型安全性的同時,並未犧牲在下游任務上的穩健性能。我們的研究結果將前瞻調優定位為一種可靠且高效的解決方案,用於實現LLMs的安全有效適應。代碼已發佈於https://github.com/zjunlp/LookAheadTuning。
现代大型语言模型(LLMs)在高效更新方面面临挑战,因为每个新的预训练模型版本都需要重复昂贵的对齐过程。这一挑战同样适用于领域或语言特定的模型,在这些模型中,针对新发布的基础模型,必须重新进行专门数据的微调。本文探讨了模型版本间微调更新的迁移问题。具体而言,我们从源模型版本中提取差异向量,该向量代表了微调带来的权重变化,并将其应用于不同目标版本的基础模型。通过对多个开源权重模型版本的实证评估,我们展示了迁移差异向量能够显著提升目标基础模型的性能,通常能达到与其微调版本相当的水平。例如,重用Llama 3.0 8B的微调更新,在GPQA任务上使基础Llama 3.1 8B的准确率绝对提升了10.7%,无需额外训练即超越了Llama 3.1 8B Instruct。在多语言模型开发场景中,我们证明了这种方法无需重新训练即可显著提升目标语言任务的性能,与Llama 3.1 8B Instruct相比,在Global MMLU上对马达加斯加语和土耳其语分别实现了4.7%和15.5%的绝对提升。我们的控制实验表明,当源模型和目标模型在参数空间中线性连接时,微调迁移最为有效。此外,我们展示了微调迁移为进一步微调提供了更强且计算效率更高的起点。最后,我们提出了一种迭代的“回收再微调”方法,用于持续模型开发,既提高了效率又增强了效果。我们的研究结果表明,微调迁移是一种可行的策略,能够在保持模型性能的同时降低训练成本。
我們提出了一種新穎的方法,僅需少量圖像即可重建具有逼真動畫的個性化3D人體化身。由於體型、姿勢和衣物類型存在巨大差異,現有方法大多需要在推理時進行長達數小時的逐個主體優化,這限制了其實際應用。與此不同,我們從上千名著裝人體中學習了一種通用先驗,從而實現即時前饋生成和零樣本泛化。具體而言,我們並未使用共享的蒙皮權重來綁定化身,而是聯合推斷個性化的化身形狀、蒙皮權重及姿勢依賴的形變,這有效提升了整體幾何保真度並減少了形變偽影。此外,為規範化姿勢變化並解決標準形狀與蒙皮權重之間的耦合模糊性,我們設計了一種3D標準化過程,以生成像素對齊的初始條件,這有助於重建細粒度的幾何細節。隨後,我們提出了一種多幀特徵聚合方法,以穩健地減少標準化過程中引入的偽影,並融合出保留個人特徵的合理化身。最終,我們在一個大規模捕捉數據集上以端到端框架訓練模型,該數據集包含多樣化的人體主體及其高質量3D掃描配對。大量實驗表明,我們的方法比現有技術生成了更真實的重建與動畫,並且能直接泛化至隨意拍攝的手機照片輸入。項目頁面與代碼可在https://github.com/rongakowang/FRESA獲取。
具有長上下文窗口的大型語言模型(LLMs)能夠實現強大的應用,但代價是存儲鍵和值狀態(KV-Cache)的高內存消耗。最近的研究嘗試將多層的KV-Cache合併為共享表示,然而這些方法要么需要昂貴的預訓練,要么依賴於層間高每詞餘弦相似度的假設,而這在實踐中通常不成立。我們發現,主導奇異向量在多層KV-Cache中表現出顯著的對齊性。利用這一洞察,我們提出了xKV,這是一種簡單的訓練後方法,對分組層的KV-Cache應用奇異值分解(SVD)。xKV將多層的KV-Cache整合到一個共享的低秩子空間中,顯著減小了KV-Cache的大小。通過在RULER長上下文基準上對廣泛使用的LLMs(如Llama-3.1和Qwen2.5)進行廣泛評估,xKV實現了比最先進的層間技術高達6.8倍的壓縮率,同時將準確率提高了2.7%。此外,xKV與新興的多頭潛在注意力(MLA,如DeepSeek-Coder-V2)兼容,在編碼任務上實現了顯著的3倍壓縮率,且無性能下降。這些結果凸顯了xKV在解決長上下文LLM推理內存瓶頸方面的強大能力和多功能性。我們的代碼公開於:https://github.com/abdelfattah-lab/xKV。
在連續單純形中的流匹配已成為DNA序列設計的一種有前景的策略,但在擴展到肽和蛋白質生成所需的高維單純形時面臨挑戰。我們引入了Gumbel-Softmax流匹配和分數匹配,這是一個基於新型Gumbel-Softmax插值(具有時間依賴性溫度)的單純形生成框架。利用這一插值,我們通過推導出一個參數化的速度場來實現Gumbel-Softmax流匹配,該速度場將從平滑的分類分佈傳輸到集中在單純形單個頂點的分佈。我們還提出了Gumbel-Softmax分數匹配,該方法學習回歸概率密度的梯度。我們的框架支持高質量、多樣化的生成,並能高效擴展到更高維的單純形。為了實現無訓練的引導,我們提出了直通引導流(STGFlow),這是一種基於分類器的引導方法,利用直通估計器將無條件速度場引導至單純形的最優頂點。STGFlow能夠使用在乾淨序列上預訓練的分類器進行高效的推理時引導,並可與任何離散流方法結合使用。這些組件共同構成了一個用於可控從頭序列生成的強大框架。我們在條件性DNA啟動子設計、僅基於序列的蛋白質生成以及用於罕見疾病治療的靶向結合肽設計中展示了最先進的性能。
在熱紅外影像中檢測和追蹤多架無人機(UAV)由於低對比度、環境噪聲以及目標尺寸小等問題,本質上具有挑戰性。本文提供了一種直接的方法來應對熱紅外影像中的多無人機追蹤,利用了檢測與追蹤領域的最新進展。我們並未依賴於YOLOv5與DeepSORT的組合,而是提出了一個基於YOLOv12和BoT-SORT的追蹤框架,並通過定制的訓練與推理策略進行了增強。我們按照第四屆反無人機挑戰賽的指標評估了我們的方法,並展示了具有競爭力的性能。值得注意的是,我們在未使用對比度增強或時間信息融合來豐富無人機特徵的情況下,取得了優異的結果,這凸顯了我們的方法作為多無人機追蹤任務的“強基準”地位。我們提供了實現細節、深入的實驗分析以及潛在改進的討論。代碼可在https://github.com/wish44165/YOLOv12-BoT-SORT-ReID 獲取。
具身決策對於在現實環境中運作的人工智慧代理至關重要。儘管視覺語言模型(VLMs)已在此能力上取得進展,它們在處理複雜決策時仍面臨挑戰,特別是在需要深入理解人類需求和價值觀的人本情境中。本研究系統性地評估了開源VLMs在多模態人本決策任務上的表現。我們發現,僅接收文本描述的大型語言模型(LLMs)意外地超越了處理實際圖像的相似規模VLM,這表明視覺對齊可能限制了VLM的能力。為應對這一挑戰,我們提出了一種新穎的純文本訓練方法,利用合成文本數據強化VLMs的語言組件,並將所學能力轉移至多模態推理,從而無需昂貴的圖文配對數據。此外,我們展示了VLMs通過自我改進可實現顯著的性能提升,利用其LLM對應模型生成的訓練數據,而非依賴如GPT-4等更大的教師模型。我們的研究成果為提升VLMs的人本決策能力建立了一種更高效且可擴展的方法,為通過自我改進機制優化VLMs開闢了新途徑。
地球觀測(EO)基礎模型的進展,已釋放了利用大規模衛星數據從太空學習通用表徵的潛力,這對我們星球至關重要的廣泛下游應用大有裨益。然而,現有大多數努力仍局限於固定光譜傳感器,僅聚焦於地球表面,且忽視了影像之外有價值的元數據。在本研究中,我們朝著下一代EO基礎模型邁進,提出了三大關鍵組成部分:1)Copernicus-Pretrain,一個大規模預訓練數據集,整合了來自所有主要哥白尼哨兵任務的1870萬張對齊圖像,覆蓋從地球表面到大氣層的範圍;2)Copernicus-FM,一個統一的基礎模型,能夠通過擴展的動態超網絡和靈活的元數據編碼,處理任何光譜或非光譜傳感器模態;以及3)Copernicus-Bench,一個系統化的評估基準,包含從預處理到針對每項哨兵任務的專業應用共15個層次化的下游任務。我們的數據集、模型和基準極大地提升了EO基礎模型的可擴展性、多功能性及多模態適應能力,同時也為連接EO、天氣和氣候研究開闢了新的機遇。代碼、數據集和模型可在https://github.com/zhu-xlab/Copernicus-FM獲取。
理解人類行為需要對行為動作進行測量。由於其複雜性,行為最好映射到一個豐富的語義結構中,例如語言。最近發展的多模態大型語言模型(MLLMs)在廣泛的行為理解任務中展現出巨大潛力。在本研究中,我們專注於評估並改進MLLMs以執行動作識別。我們將EPIC-KITCHENS-100,這一最大且最具挑戰性的第一人稱動作數據集,重新格式化為視頻多選問答形式(EPIC-KITCHENS-100-MQA)。我們發現,當我們採樣困難的錯誤答案作為干擾項時,領先的MLLMs在識別正確動作方面表現不佳。我們提出了一系列方法,顯著提升了MLLMs的動作識別能力,在EPIC-KITCHENS-100驗證集上達到了最先進水平,並在EPIC-KITCHENS-100-MQA上以21個百分點的準確率優勢超越了GPT-4o。最後,我們展示了在其他動作相關視頻基準測試(如EgoSchema、PerceptionTest、LongVideoBench、VideoMME和MVBench)上的改進,表明MLLMs在處理複雜動作任務方面具有廣闊前景。代碼和模型可在以下網址獲取:https://github.com/AdaptiveMotorControlLab/LLaVAction。
我們提出了Any6D,這是一個無需模型的六維物體姿態估計框架,僅需單張RGB-D錨點圖像即可估算新場景中未知物體的六維姿態和尺寸。與依賴於紋理化3D模型或多視角的現有方法不同,Any6D利用聯合物體對齊過程來增強2D-3D對齊和度量尺度估計,從而提高姿態精度。我們的方法整合了渲染-比較策略,以生成並優化姿態假設,使其在遮擋、非重疊視角、多樣光照條件及大跨環境變化的場景中展現出強健性能。我們在五個具有挑戰性的數據集上評估了該方法:REAL275、Toyota-Light、HO3D、YCBINEOAT和LM-O,結果顯示其在顯著超越新物體姿態估計領域最新技術方面具有顯著效果。項目頁面:https://taeyeop.com/any6d
視覺語言模型(VLMs)在3D場景理解方面展現出巨大潛力,但主要應用於室內空間或自動駕駛領域,專注於分割等低層次任務。本研究通過利用多視角航拍影像的3D重建,將其應用擴展至城市規模環境。我們提出了OpenCity3D,一種針對高層次任務的方法,如人口密度估計、建築年代分類、房價預測、犯罪率評估及噪音污染評價。我們的研究結果凸顯了OpenCity3D在零樣本和少樣本學習上的卓越能力,展示了其對新情境的適應性。此研究為語言驅動的城市分析建立了新範式,促進了其在規劃、政策制定及環境監測中的應用。詳見我們的項目頁面:opencity3d.github.io。
近年來,AI模型在描述和回答現實世界圖像相關問題的能力上取得了顯著進展。同時,它們在使用音頻輸入與用戶進行實時對話方面也取得了進步。這引發了一個問題:我們是否已經達到了一個階段,即連接攝像頭和麥克風的AI模型能夠就攝像頭前實時展開的場景和事件與用戶進行對話?這一直是AI領域的一個長期目標,也是現實世界AI助手和人形機器人在日常情境中與人類互動的先決條件。在本研究中,我們引入了一個新的數據集和基準——高通互動視頻數據集(IVD),它使我們能夠評估現有模型在多大程度上支持這些能力,以及通過微調能在多大程度上培養這些能力。該數據集基於一個簡單的問答設置,用戶提出問題,系統必須根據攝像頭和音頻輸入實時回答。我們展示了現有模型在此任務上遠遠落後於人類表現,並找出了性能差距的主要來源。然而,我們也表明,對於許多所需的感知技能,在此類數據上進行微調可以顯著縮小這一差距。
利用大型教師模型指導小型學生模型的訓練,已成為高效學習的主流範式。然而,教師與學生語言模型之間的詞彙不匹配問題,在語言建模中帶來了顯著挑戰,導致分化的標記序列和輸出分佈。為克服這些限制,我們提出了詞彙無關的教師指導語言建模(VocAgnoLM),這是一種新穎的方法,通過兩種關鍵策略彌合詞彙不匹配造成的差距:(1) 標記級詞彙對齊,在不相容的詞彙間對齊標記序列;(2) 教師指導損失,利用教師模型的損失來有效指導學生訓練。我們展示了在語言建模中的有效性,使用不同詞彙的7B教師模型來指導1B學生模型。值得注意的是,在與TinyLlama僅共享約6%詞彙的Qwen2.5-Math-Instruct教師模型上,VocAgnoLM相比於單純的持續預訓練,性能提升了46%。此外,我們證明VocAgnoLM能持續受益於更強的教師模型,為語言建模中的詞彙不匹配問題提供了穩健的解決方案。
雖然動態卷積(DY-Conv)通過結合多個平行權重與注意力機制實現了自適應權重選擇,展現出優異的性能,但這些權重的頻率響應往往呈現高度相似性,導致參數成本高昂而適應性有限。在本研究中,我們提出了頻率動態卷積(FDConv),這是一種新穎的方法,通過在傅立葉域中學習固定的參數預算來緩解這些限制。FDConv將這一預算劃分為基於頻率的組,各組具有不相交的傅立葉索引,從而能夠在不增加參數成本的情況下構建頻率多樣化的權重。為了進一步增強適應性,我們提出了核空間調製(KSM)和頻帶調製(FBM)。KSM在空間層面上動態調整每個濾波器的頻率響應,而FBM則在頻域中將權重分解為不同的頻帶,並根據局部內容對其進行動態調製。在物體檢測、分割和分類上的大量實驗驗證了FDConv的有效性。我們證明,當應用於ResNet-50時,FDConv僅增加+3.6M參數即可實現卓越性能,超越了需要大幅增加參數預算的先前方法(例如,CondConv +90M,KW +76.5M)。此外,FDConv無縫整合到多種架構中,包括ConvNeXt和Swin-Transformer,為現代視覺任務提供了一種靈活且高效的解決方案。代碼已公開於https://github.com/Linwei-Chen/FDConv。
我們提出了一種無需訓練的開放詞彙語義分割方法,該方法利用視覺與語言模型(VLMs)。我們的方法通過標籤傳播來增強VLMs的初始逐塊預測,該過程結合了塊與塊之間的關係來聯合優化預測結果。由於VLMs主要針對跨模態對齊進行優化,而非模態內相似性,因此我們採用了一個視覺模型(VM),該模型被觀察到能更好地捕捉這些關係。我們通過在像素級別應用標籤傳播作為精煉步驟,來解決基於塊的編碼器固有的分辨率限制,從而顯著提高了類別邊界附近的分割精度。我們的方法名為LPOSS+,它在整個圖像上進行推理,避免了基於窗口的處理,從而捕捉到全圖像的上下文交互。LPOSS+在多樣化的數據集上,在無需訓練的方法中達到了最先進的性能。代碼:https://github.com/vladan-stojnic/LPOSS
時空推理在理解現實世界環境中至關重要,應用於多個領域,如自動駕駛和體育分析。近期進展通過引入大規模數據提升了視覺-語言模型(VLMs)的空間推理能力,但這些模型在分析運動物體的運動學元素(如行進距離和速度)方面仍存在困難。為彌補這一差距,我們構建了一個涉及運動學指令調優的時空推理數據集和基準測試,分別稱為STKit和STKit-Bench。它們包含帶有3D註釋的真實世界視頻,詳細描述了物體運動動態:行進距離、速度、運動方向、物體間距離比較以及相對運動方向。為了進一步將此類數據構建擴展到無3D標籤的視頻,我們提出了一種自動化流程,利用4D重建在真實世界尺度上生成偽標籤。基於我們為時空推理提供的運動學指令調優數據,我們推出了ST-VLM,這是一款專為時空推理增強的VLM,其在STKit-Bench上展現出卓越性能。此外,我們展示了ST-VLM在多樣領域和任務中的強健泛化能力,在其他時空基準測試(如ActivityNet、TVQA+)上超越基線模型。最終,通過將學習到的時空推理與現有能力相結合,ST-VLM實現了複雜的多步推理。項目頁面:https://ikodoh.github.io/ST-VLM。
理解場景的幾何與語義特性在自主導航中至關重要,尤其是在無人機(UAV)導航的情況下,這項任務尤具挑戰性。此類資訊可通過估計周圍環境的深度與語義分割圖來獲取,而為了在自主導航中實際應用,這一過程必須盡可能接近即時完成。本文中,我們利用空中機器人上的單目相機來預測低空非結構化環境中的深度與語義圖。我們提出了一種聯合深度學習架構,能夠準確且迅速地執行這兩項任務,並在MidAir與Aeroscapes基準數據集上驗證了其有效性。我們的聯合架構在執行任務時,展現出與其他單一及聯合架構方法相當或更優的競爭力,同時在單個NVIDIA Quadro P5000 GPU上實現了20.2 FPS的快速預測,且具有較低的記憶體佔用。所有用於訓練與預測的代碼均可在此連結找到:https://github.com/Malga-Vision/Co-SemDepth。