每日精選AI研究論文及翻譯
近期在視頻生成領域的進展已實現了令人印象深刻的動作真實感,然而這些技術往往忽略了角色驅動的敘事,這對於自動化電影和動畫生成至關重要。我們引入了「說話角色」這一更為真實的任務,旨在直接從語音和文本生成說話角色的動畫。與「說話頭部」不同,「說話角色」致力於生成一個或多個角色的完整肖像,超越面部區域。在本論文中,我們提出了MoCha,這是首個生成說話角色的系統。為了確保視頻與語音的精確同步,我們提出了一種語音-視頻窗口注意力機制,有效對齊語音和視頻標記。針對大規模語音標註視頻數據集的稀缺問題,我們引入了一種聯合訓練策略,利用語音標註和文本標註的視頻數據,顯著提升了對多樣化角色動作的泛化能力。我們還設計了帶有角色標籤的結構化提示模板,首次實現了多角色對話的輪流對話——使AI生成的角色能夠進行上下文感知的對話,並保持電影般的連貫性。廣泛的定性和定量評估,包括人類偏好研究和基準比較,表明MoCha為AI生成的電影敘事樹立了新標準,在真實感、表現力、可控性和泛化能力方面均達到了卓越水平。
本文探討了複雜視覺文本生成(CVTG)任務,該任務專注於在視覺圖像的不同區域內生成分佈複雜的文本內容。在CVTG中,圖像生成模型常常會呈現扭曲、模糊的視覺文本,或遺漏部分視覺文本。為應對這些挑戰,我們提出了TextCrafter,一種新穎的多視覺文本渲染方法。TextCrafter採用漸進策略,將複雜的視覺文本分解為不同的組成部分,同時確保文本內容與其視覺載體之間的穩健對齊。此外,它還引入了令牌聚焦增強機制,以在生成過程中提升視覺文本的顯著性。TextCrafter有效解決了CVTG任務中的關鍵挑戰,如文本混淆、遺漏和模糊等問題。此外,我們還提出了一個新的基準數據集CVTG-2K,專門用於嚴格評估生成模型在CVTG任務上的表現。大量實驗表明,我們的方法超越了現有的最先進技術。
我們推出了Open-Reasoner-Zero,這是首個專注於可擴展性、簡潔性和易用性的大規模推理導向強化學習訓練的開源實現。通過大量實驗,我們證明了一種極簡的方法——使用GAE(λ=1,γ=1)的基礎PPO算法及直接的基於規則的獎勵機制,無需任何KL正則化,便足以在響應長度和基準性能上實現規模化提升,這一現象與DeepSeek-R1-Zero中觀察到的相似。採用與DeepSeek-R1-Zero-Qwen-32B相同的基礎模型,我們的實現在AIME2024、MATH500及GPQA Diamond基準測試中均取得了優異成績,同時展現出顯著的效率——僅需DeepSeek-R1-Zero流程十分之一的訓練步數。秉承開源精神,我們公開了源代碼、參數設置、訓練數據及多種規模的模型權重。
随着预训练时代对计算规模(数据和参数)的热情逐渐消退,测试时扩展(Test-Time Scaling, TTS),亦称“测试时计算”,已成为一个显著的研究焦点。近期研究表明,TTS能够进一步激发大型语言模型(LLMs)的解题能力,不仅在数学和编程等专门推理任务上取得重大突破,也在开放式问答等通用任务中表现卓越。然而,尽管该领域近期研究激增,仍亟需一份全面综述以提供系统性理解。为填补这一空白,我们提出了一个统一的多维度框架,围绕TTS研究的四个核心维度构建:扩展什么、如何扩展、在何处扩展以及扩展效果如何。基于此分类体系,我们对方法、应用场景及评估方面进行了广泛回顾,并呈现了一种有序的分解,凸显了各项技术在更广阔TTS领域中的独特功能角色。通过这一分析,我们提炼了迄今为止TTS的主要发展轨迹,并提供了实际部署的实用指南。此外,我们识别了若干开放挑战,并对未来研究方向提出了见解,包括进一步扩展、澄清技术功能本质、推广至更多任务以及更多归因分析。
大型推理模型(LRMs)通過學習推理顯著提升了大型語言模型(LLMs)的推理能力,在複雜任務解決中展現出優異性能。然而,其深思熟慮的推理過程導致了令牌使用、記憶體消耗及推理時間上的低效。因此,本調查專門針對LRMs設計的高效推理方法進行了回顧,重點在於緩解令牌低效問題的同時保持推理質量。首先,我們引入了一種分類法,將近期方法歸納為兩大類:(a) 顯式緊湊的思維鏈(CoT),該方法在保持顯式推理結構的同時減少令牌使用;(b) 隱式潛在的CoT,它將推理步驟編碼於隱藏表示中而非顯式令牌。同時,我們探討了這些方法的優缺點。接著,我們從性能與效率兩個維度對現有方法進行了實證分析。此外,我們提出了該領域面臨的開放性挑戰,包括以人為本的可控推理、推理可解釋性與效率之間的權衡、確保高效推理的安全性,以及高效推理的更廣泛應用。另外,我們強調了通過模型融合、新架構及代理路由器等技術提升LRMs推理效率的關鍵見解。我們希望這項工作能成為一份寶貴指南,助力研究人員克服這一充滿活力領域中的挑戰。
合成多樣且物理合理的人類-場景交互(HSI)對於計算機動畫和具身人工智慧至關重要。儘管取得了令人鼓舞的進展,但現有方法主要集中於開發獨立的控制器,每個控制器專注於特定的交互任務。這極大地限制了處理多種需要整合多種技能的複雜HSI任務的能力,例如在攜帶物體時坐下。為解決這一問題,我們提出了TokenHSI,這是一種基於Transformer的單一統一策略,能夠實現多技能統一和靈活適應。關鍵見解是將人形本體感覺建模為一個獨立的共享令牌,並通過掩碼機制將其與不同的任務令牌結合。這種統一策略促進了跨技能的有效知識共享,從而支持多任務訓練。此外,我們的策略架構支持可變長度輸入,使學習到的技能能夠靈活適應新場景。通過訓練額外的任務令牌生成器,我們不僅可以修改交互目標的幾何形狀,還能協調多種技能以應對複雜任務。實驗表明,我們的方法在各種HSI任務中顯著提升了多功能性、適應性和可擴展性。網站:https://liangpan99.github.io/TokenHSI/
訓練視覺-語言模型(VLMs)通常需要大規模、高質量的圖像-文本對,但收集或合成此類數據成本高昂。相比之下,文本數據豐富且成本低廉,這促使我們思考:能否僅從文本中合成高質量的多模態訓練數據?為解決這一問題,我們提出了一個跨整合的三階段多模態數據合成框架,該框架生成了兩個數據集:Unicorn-1.2M 和 Unicorn-471K-Instruction。在第一階段:多樣化字幕數據合成中,我們通過使用大型語言模型(LLMs)擴展稀疏的字幕種子,構建了120萬個語義多樣的高質量字幕。在第二階段:指令微調數據生成中,我們進一步將47.1萬個字幕處理成多輪指令微調任務,以支持複雜推理。最後,在第三階段:模態表示轉換中,這些文本字幕表示被轉化為視覺表示,從而生成多樣的合成圖像表示。這一三階段過程使我們能夠構建用於預訓練的Unicorn-1.2M和用於指令微調的Unicorn-471K-Instruction,而無需依賴真實圖像。通過在保持數據質量和多樣性的同時消除對真實圖像的依賴,我們的框架為VLMs訓練提供了一種成本效益高且可擴展的解決方案。代碼可在https://github.com/Yu-xm/Unicorn.git獲取。
在複雜的開放世界環境中運作的具身智能體,行動前的推理與潛在結果的想像(即世界模型)至關重要。然而,先前的研究要么僅在端到端智能體中融入其中一種能力,要么將多個專用模型整合到智能體系統中,這限制了策略的學習效率和泛化能力。因此,本文首次嘗試在端到端的通用策略中協同推理與想像,稱為RIG。為了以端到端的方式訓練RIG,我們構建了一個數據管道,逐步整合並豐富從現有智能體收集的軌跡中的想像與推理內容。推理與下一幀圖像生成的聯合學習,明確建模了推理、行動與環境動態之間的內在關聯,從而展現出相比以往工作超過17倍的樣本效率提升和泛化能力。在推理過程中,RIG首先推理下一個行動,生成潛在行動,然後預測行動結果,這為智能體提供了在採取實際行動前基於想像進行審視和自我修正的機會。實驗結果表明,推理與想像的協同不僅提升了通用策略的魯棒性、泛化能力和互操作性,還能夠通過測試時的擴展來增強整體性能。
具有可驗證獎勵的強化學習(RLVR)在數學推理和編程任務中已展現出顯著成果,這些任務通常具備結構化的參考答案。然而,其在更廣泛領域的適用性仍待深入探索。本研究探討了將RLVR擴展至醫學、化學、心理學及經濟學等多樣化領域的可能性。我們觀察到,當存在客觀參考答案時,不同大型語言模型(LLMs)在二元判斷上表現出高度一致性,這對大規模標註訓練領域特定獎勵模型的必要性提出了挑戰。為解決處理非結構化參考答案時二元獎勵的局限性,我們進一步將基於模型的軟評分融入RLVR,以提升其靈活性。實驗表明,蒸餾生成的獎勵模型能作為有效的跨領域驗證器,為RL提供可靠的獎勵信號,而無需領域特定的標註。通過使用多種RL算法針對我們的獎勵模型微調一個基礎的7B模型,我們獲得的策略在自由形式答案設置下,跨領域大幅超越了如Qwen2.5-72B-Instruct和DeepSeek-R1-Distill-Qwen-32B等最先進的開源對齊LLMs。這也增強了RLVR的魯棒性和可擴展性,凸顯了其在面對噪聲或弱標籤的現實世界應用中的潛力。
基於文本提示或圖像的視頻生成與編輯技術已取得顯著進展。然而,僅憑文本精確控制全局佈局與幾何細節,以及通過圖像實現運動控制與局部修改,仍面臨挑戰。本文旨在實現基於草圖的空間與運動控制視頻生成,並支持對真實或合成視頻進行細粒度編輯。基於DiT視頻生成模型,我們提出了一種內存高效的控制結構,其中包含草圖控制塊,用於預測跳過DiT塊的殘差特徵。草圖可繪製於一或兩個關鍵幀(任意時間點)上,便於交互。為將此類時間稀疏的草圖條件傳播至所有幀,我們提出了一種幀間注意力機制,以分析關鍵幀與每幀視頻之間的關係。針對基於草圖的視頻編輯,我們設計了一個額外的視頻插入模塊,確保新編輯內容與原視頻的空間特徵及動態運動之間的一致性。在推理過程中,我們採用潛在融合技術,精確保留未編輯區域。大量實驗表明,我們的SketchVideo在可控視頻生成與編輯方面表現卓越。
推理增強的大型語言模型(LLMs)在生成最終答案之前,會明確地生成中間推理步驟,這有助於模型在複雜問題解決中表現出色。本文中,我們展示了這一新興的生成框架為更精細地控制模型行為提供了獨特機會。我們提出了「思維干預」這一新範式,旨在通過策略性地插入或修改特定的思維標記,來明確引導LLMs的內部推理過程。我們在多項任務上進行了全面評估,包括IFEval上的指令遵循、SEP上的指令層次結構理解,以及XSTest和SORRY-Bench上的安全對齊。結果表明,思維干預顯著優於基線提示方法,在指令遵循場景中實現了高達6.7%的準確率提升,在指令層次結構推理上提升了15.4%,並在使用開源DeepSeek R1模型處理不安全提示時,拒絕率提高了40.0%。總體而言,我們的工作為控制推理型LLMs開闢了一條充滿前景的新研究路徑。
我們提出了一種新穎的方法來生成複雜輸出,該方法在文本到SQL任務中顯著提高了準確性。我們的方法利用執行結果從多個候選查詢中選擇語義最一致的那個,使得更小、更具成本效益的模型能夠超越計算密集型的推理方法,如o1、o3-mini和DeepSeek R1,同時將推理成本降低多達30倍。該方法無縫集成於現有模型,為實現最先進的SQL生成提供了一條實用且可擴展的途徑。
獲得一個能夠在幾秒鐘內從文本提示生成高質量3D網格的模型是非常理想的。雖然最近的嘗試已經將預訓練的文本到圖像擴散模型(如Stable Diffusion, SD)改編為3D表示(例如Triplane)的生成器,但由於缺乏足夠的高質量3D訓練數據,它們往往質量不佳。為了解決數據短缺的問題,我們提出了一種新的訓練方案,稱為漸進渲染蒸餾(Progressive Rendering Distillation, PRD),通過蒸餾多視角擴散模型並將SD改編為原生3D生成器,消除了對3D地面真值的需求。在每次訓練迭代中,PRD使用U-Net從隨機噪聲中逐步去噪潛在變量幾步,並在每一步將去噪後的潛在變量解碼為3D輸出。多視角擴散模型,包括MVDream和RichDreamer,與SD聯合使用,通過分數蒸餾將文本一致的紋理和幾何信息蒸餾到3D輸出中。由於PRD支持無需3D地面真值的訓練,我們可以輕鬆擴展訓練數據,並提高具有創意概念的挑戰性文本提示的生成質量。同時,PRD可以在幾步之內加速生成模型的推理速度。通過PRD,我們訓練了一個Triplane生成器,名為TriplaneTurbo,它僅增加了2.5%的可訓練參數來適應SD進行Triplane生成。TriplaneTurbo在效率和質量上都優於之前的文本到3D生成器。具體來說,它可以在1.2秒內生成高質量的3D網格,並且對挑戰性文本輸入具有良好的泛化能力。代碼可在https://github.com/theEricMa/TriplaneTurbo獲取。
電信詐騙的檢測面臨重大挑戰,主要源於缺乏整合音頻信號與推理導向文本分析的高質量多模態訓練數據。為填補這一空白,我們推出了TeleAntiFraud-28k,這是首個專為自動化電信詐騙分析設計的開源音頻-文本慢思考數據集。我們的數據集通過三種策略構建:(1) 使用自動語音識別(ASR)轉錄的通話錄音(原始音頻已匿名化)生成隱私保護的文本真實樣本,並通過文本轉語音(TTS)模型再生確保與現實世界的一致性;(2) 基於大型語言模型(LLM)的自指導採樣對真實ASR輸出進行語義增強,以擴展場景覆蓋範圍;(3) 多智能體對抗合成,通過預定義的通信場景和詐騙類型模擬新興詐騙手法。生成的數據集包含28,511個經過嚴格處理的語音-文本對,並附有詳細的詐騙推理註釋。數據集劃分為三個任務:場景分類、詐騙檢測、詐騙類型分類。此外,我們構建了TeleAntiFraud-Bench,這是一個標準化的評估基準,包含從數據集中按比例採樣的實例,以促進對電信詐騙檢測任務模型性能的系統測試。我們還貢獻了一個基於混合真實/合成數據訓練的生產優化監督微調(SFT)模型,並開源了數據處理框架,以支持社區驅動的數據集擴展。這項工作為多模態反詐騙研究建立了基礎框架,同時解決了數據隱私和場景多樣性方面的關鍵挑戰。項目將發佈於https://github.com/JimmyMa99/TeleAntiFraud。
動作模型對於使自主代理能夠執行複雜任務至關重要。然而,由於代理環境的多樣性以及代理數據的複雜性,訓練大型動作模型仍然具有挑戰性。儘管興趣日益增長,現有基礎設施對可擴展、代理專屬的微調支持有限。我們提出了ActionStudio,這是一個專為大型動作模型設計的輕量級且可擴展的數據與訓練框架。ActionStudio通過標準化格式統一了異構的代理軌跡,支持包括LoRA、完整微調和分佈式設置在內的多樣化訓練範式,並整合了強大的預處理與驗證工具。我們在公開和現實的產業基準上驗證了其有效性,展示了強大的性能和實際的可擴展性。我們在https://github.com/SalesforceAIResearch/xLAM開源了代碼和數據,以促進社區的研究。
近年來,大型語言模型(LLMs)在各種人工智慧問題上展現了卓越的能力。然而,即使在提供了詳細的規劃任務定義的情況下,它們仍無法可靠地進行規劃。嘗試提升其規劃能力的各種方法,如思維鏈提示、微調和顯式“推理”,仍然會產生錯誤的計劃,並且通常無法推廣到更大的任務。在本文中,我們展示了如何利用LLMs生成正確的計劃,即使是對於分佈外且規模不斷增大的任務。對於給定的規劃領域,我們要求LLM生成多個領域依賴的啟發式函數,這些函數以Python代碼的形式呈現,並在一組訓練任務上通過貪婪最佳優先搜索進行評估,從而選擇最強的一個。由此產生的LLM生成的啟發式函數解決了比經典規劃領域中現有最先進的領域無關啟發式函數更多的未見測試任務。它們甚至與最強的領域依賴規劃學習算法相媲美。這些發現尤其引人注目,因為我們的概念驗證實現基於未經優化的Python規劃器,而所有基線都建立在高度優化的C++代碼之上。在某些領域中,LLM生成的啟發式函數擴展的狀態數比基線更少,這表明它們不僅計算效率高,有時甚至比最先進的啟發式函數更具信息量。總體而言,我們的結果表明,採樣一組規劃啟發式函數程序可以顯著提升LLMs的規劃能力。
本研究聚焦於開放領域的4D虛擬化身生成,旨在從任意風格的肖像圖像中創建4D虛擬化身。我們選取參數化三平面作為中間的4D表示,並提出了一種結合生成對抗網絡(GANs)與擴散模型的實用訓練範式。這一設計源於我們觀察到,4D GANs在無監督條件下擅長於橋接圖像與三平面,但通常難以處理多樣化的數據分佈。一個強大的2D擴散先驗模型應運而生,協助GAN將其專業能力跨域遷移。這兩種技術的協同作用,促成了多領域圖像-三平面數據集的構建,從而推動了通用4D虛擬化身生成器的開發。大量實驗表明,我們的模型AvatarArtist能夠生成高質量的4D虛擬化身,並對各種源圖像領域展現出極強的魯棒性。為促進未來研究,我們將公開代碼、數據及模型。
DUSt3R的最新進展使得利用Transformer網絡架構和大規模3D數據集的直接監督,能夠對靜態場景的密集點雲和相機參數進行穩健估計。相比之下,現有4D數據集的規模和多樣性有限,這成為了訓練高度泛化性4D模型的主要瓶頸。這一限制促使傳統的4D方法在可擴展的動態視頻數據上對3D模型進行微調,並引入如光流和深度等額外的幾何先驗。在本研究中,我們採取了一條相反的路徑,提出了Easi3R,這是一種簡單而高效的無訓練4D重建方法。我們的方法在推理過程中應用注意力適應,消除了從頭開始預訓練或網絡微調的需求。我們發現,DUSt3R中的注意力層本質上編碼了豐富的相機和物體運動信息。通過仔細解構這些注意力圖,我們實現了精確的動態區域分割、相機姿態估計以及4D密集點雲圖重建。在真實世界動態視頻上的廣泛實驗表明,我們輕量級的注意力適應方法顯著優於先前在大量動態數據集上訓練或微調的最先進方法。我們的代碼已公開供研究使用,詳見https://easi3r.github.io/。
在3D內容創作領域,通過AI模型實現最佳網格拓撲結構一直是3D藝術家們追求的目標。先前的方法,如MeshGPT,已探索了通過網格自迴歸技術生成即用型3D物體。雖然這些方法產生了視覺上令人印象深刻的結果,但由於其在自迴歸過程中依賴於逐個標記的預測,導致了幾個顯著的限制。這些限制包括極慢的生成速度和無法控制的網格面數。本文中,我們介紹了MeshCraft,這是一個用於高效且可控網格生成的新框架,它利用連續空間擴散來生成離散的三角形面。具體而言,MeshCraft由兩個核心組件構成:1)一個基於變換器的VAE,它將原始網格編碼為連續的面級標記並將其解碼回原始網格;2)一個基於流的擴散變換器,該變換器以面數為條件,能夠生成具有預定義面數的高質量3D網格。通過利用擴散模型同時生成整個網格拓撲結構,MeshCraft在顯著快於自迴歸方法的速度下實現了高保真網格生成。具體來說,MeshCraft能在僅3.2秒內生成一個800面的網格(比現有基線快35倍)。大量實驗表明,MeshCraft在ShapeNet數據集上的質量和數量評估中均優於最先進的技術,並在Objaverse數據集上展示了卓越的性能。此外,它與現有的條件指導策略無縫集成,展示了其潛力,能夠減輕藝術家在網格創建中耗時的手動工作。
大多數3D物體生成器專注於美學品質,往往忽視了應用中必要的物理約束。其中一個約束是3D物體應具備自支撐能力,即在重力作用下保持平衡。先前生成穩定3D物體的方法使用可微物理模擬器在測試時優化幾何形狀,這種方法速度慢、不穩定且容易陷入局部最優。受對齊生成模型與外部反饋的文獻啟發,我們提出了直接模擬優化(DSO)框架,利用(不可微)模擬器的反饋來提高3D生成器直接輸出穩定3D物體的可能性。我們構建了一個包含從物理模擬器獲得的穩定性評分的3D物體數據集。然後,我們可以使用穩定性評分作為對齊指標,通過直接偏好優化(DPO)或我們引入的新目標——直接獎勵優化(DRO),來微調3D生成器,無需成對偏好即可對齊擴散模型。實驗表明,使用DPO或DRO目標微調的前饋生成器,比測試時優化更快且更有可能生成穩定物體。值得注意的是,DSO框架即使在沒有任何用於訓練的真實3D物體的情況下也能工作,允許3D生成器通過自動收集其自身輸出的模擬反饋來自我改進。
多模態大型語言模型(MLLMs)的興起旨在應對視覺問答(VQA)的挑戰,引發了對這些模型進行客觀評估的新研究焦點。現有的評估方法因需耗費大量人力設計視覺圖像的問答對而面臨限制,這從根本上制約了評估的規模和範圍。儘管自動化的MLLM-as-judge方法嘗試通過自動評估來減少人力負擔,但它們往往會引入偏差。為解決這些問題,我們提出了一種無監督的同行評審MLLM評估框架。該框架僅利用圖像數據,使模型能夠自動生成問題並對其他模型的答案進行同行評審,有效減輕了對人力負擔的依賴。此外,我們引入了視覺語言評分系統來緩解偏差問題,該系統專注於三個方面:(i) 回答的正確性;(ii) 視覺理解與推理;以及(iii) 圖像與文本的相關性。實驗結果表明,UPME在MMstar數據集上與人類評估的皮爾遜相關性達到0.944,在ScienceQA數據集上達到0.814,這表明我們的框架與人類設計的基準和內在的人類偏好高度一致。
大型語言模型的數學問題解決能力已成為研究焦點,利用自我生成的推理路徑作為精煉和增強這些模型的一種有前景方法,引起了越來越多的關注。這些路徑捕捉了逐步的邏輯過程,同時僅需正確答案作為監督。自我訓練方法在推理任務中已被證明是有效的,同時消除了對外部模型和手動註釋的需求。然而,如何優化使用自我生成的數據進行模型訓練仍是一個未解決的挑戰。在本研究中,我們提出了基於熵的自適應加權自我訓練(EAST),這是一種旨在在自我訓練過程中優先處理不確定數據的自適應加權策略。具體而言,EAST採用了一個具有可調參數的映射函數,該參數控制加權的銳度,為模型表現出更大不確定性的數據分配更高的權重。這種方法引導模型專注於更具信息量和挑戰性的示例,從而增強其推理能力。我們在GSM8K和MATH基準上評估了我們的方法。實驗結果顯示,雖然基礎方法在MATH上幾乎沒有改進(0%),但EAST相比於基礎模型實現了約1%的提升。在GSM8K上,EAST相比於基礎方法進一步獲得了1-2%的性能提升。
近期大型視覺語言模型(VLMs)的興起,催生了多種評估此類模型的基準。然而,我們觀察到,現有的評估方法大多存在缺陷:它們要么要求模型從預設選項中選擇答案,犧牲了開放性;要么依賴於評判模型來評估回答,導致評估結果主觀且不可靠。此外,我們注意到韓語環境下缺乏針對VLMs的基準測試,而這作為與常見的英語基準相區分的獨立指標是必要的,因為生成式語言模型的表現會因使用語言的不同而顯著差異。因此,我們推出了KOFFVQA,一個專為評估VLMs設計的韓語通用自由形式視覺問答基準。該基準包含275個精心設計的問題,每個問題均配有一幅圖像及涵蓋VLM性能十個不同方面的評分標準。通過預先確定的評分規則,評判模型能夠對每個回答進行評分,從而解決了評估不可靠的問題。以客觀方式定義評估標準,即便是小型開源模型也能可靠地在我們的基準上進行評估。除了在基準上評估大量現有VLMs外,我們還通過實驗驗證了使用預設評分標準進行評估的方法,其可靠性遠超現有方法。我們的評估代碼已公開於https://github.com/maum-ai/KOFFVQA。
在過去的二十年中,進化多目標優化(EMO)取得了顯著的進展。然而,隨著問題規模和複雜性的增加,傳統的EMO算法由於並行性和可擴展性不足而面臨顯著的性能限制。雖然大多數工作都集中在算法設計以應對這些挑戰,但對硬件加速的關注卻很少,這使得EMO算法與先進計算設備(如GPU)之間存在明顯的差距。為了彌補這一差距,我們提出通過張量化方法在GPU上並行化EMO算法。通過採用張量化,EMO算法的數據結構和操作被轉換為簡潔的張量表示,從而無縫地實現GPU計算的自動利用。我們通過將其應用於三個具有代表性的EMO算法:NSGA-III、MOEA/D和HypE,展示了我們方法的有效性。為了全面評估我們的方法,我們引入了一個使用GPU加速物理引擎的多目標機器人控制基準。我們的實驗表明,與基於CPU的對應算法相比,張量化EMO算法實現了高達1113倍的加速,同時保持了解決方案的質量,並有效地將種群規模擴展到數十萬。此外,張量化EMO算法高效地處理了複雜的多目標機器人控制任務,產生了具有多樣行為的高質量解決方案。源代碼可在https://github.com/EMI-Group/evomo獲取。
預訓練的視頻大型語言模型(Video LLMs)展現出卓越的推理能力,然而將這些模型適應於涉及額外模態或數據類型(例如音頻或3D信息)的新任務仍然具有挑戰性。在本文中,我們提出了PAVE,這是一個靈活的框架,用於將預訓練的Video LLMs適應於帶有側信道信號的下游任務,如音頻、3D線索或多視角視頻。PAVE引入了輕量級的適配器,稱為“補丁”,這些適配器在基礎模型上添加少量參數和操作,而不改變其架構或預訓練權重。通過這種方式,PAVE能夠有效地使預訓練的基礎模型適應多樣的下游任務,包括音視頻問答、3D推理、多視角視頻識別以及高幀率視頻理解。在這些任務中,PAVE顯著提升了基礎模型的性能,超越了特定任務的最先進模型,同時僅增加了約0.1%的額外FLOPs和參數成本。此外,PAVE支持多任務學習,並在不同Video LLMs之間具有良好的泛化能力。我們的代碼可在https://github.com/dragonlzm/PAVE獲取。
參數高效微調(PEFT)方法近年來因大規模預訓練模型的廣泛可用性而受到顯著關注。這些方法能夠以最小的計算成本快速適應下游任務。然而,像LoRA這樣的流行微調方法在超參數選擇或長時間訓練方案方面表現出有限的魯棒性,阻礙了其開箱即用的最佳性能。相比之下,如ETHER等有界方法提供了更高的魯棒性,但僅限於極低秩的適應和固定強度的轉換,降低了其適應表達能力。在本研究中,我們提出了一種新穎的微調方法——解耦低秩適應(DeLoRA),該方法對可學習的低秩矩陣進行歸一化和縮放。通過限制轉換的距離,DeLoRA有效地將角度學習與適應強度解耦,在不影響性能的情況下增強了魯棒性。通過在主題驅動圖像生成、自然語言理解和指令微調上的評估,我們展示了DeLoRA在性能上匹配或超越了競爭的PEFT方法,同時表現出更強的魯棒性。代碼可在https://github.com/ExplainableML/DeLoRA獲取。
伴隨語言的肢體動作在非語言交流中扮演著至關重要的角色。本文提出了一種新的框架,用於在自然場景下理解伴隨語言的肢體動作。具體而言,我們提出了三個新任務和基準,以評估模型理解動作-文本-語音關聯的能力:(i) 基於動作的檢索,(ii) 動作詞語識別,以及 (iii) 使用動作的主動說話者檢測。我們提出了一種新方法,通過學習三模態的語音-文本-視頻-動作表示來解決這些任務。通過結合全局短語對比損失和局部動作-詞語耦合損失,我們展示了可以從自然場景的視頻中以弱監督的方式學習到強大的動作表示。我們學習到的表示在所有三個任務中都優於先前的方法,包括大型視覺-語言模型(VLMs)。進一步的分析表明,語音和文本模態捕捉到了不同的動作相關信號,這凸顯了學習共享的三模態嵌入空間的優勢。數據集、模型和代碼可在以下網址獲取:https://www.robots.ox.ac.uk/~vgg/research/jegal