每日精選AI研究論文及翻譯
現代參數高效微調(PEFT)方法,如低秩適應(LoRA),降低了定制大型語言模型(LLMs)的成本,但仍需針對每個下游數據集進行單獨的優化運行。我們引入了拖放式LLMs(\textit{DnD}),這是一種提示條件參數生成器,通過將少量未標記的任務提示直接映射到LoRA權重更新,從而消除了每任務訓練的需求。一個輕量級文本編碼器將每個提示批次蒸餾成條件嵌入,然後通過級聯的超卷積解碼器轉換為完整的LoRA矩陣集。一旦在多樣化的提示-檢查點對集合中進行訓練,DnD能在幾秒內生成任務特定參數,實現:i) 相比全微調降低高達12,000倍的成本,ii) 在未見的常識推理、數學、編碼和多模態基準測試中,平均性能提升高達30%,iii) 儘管從未見過目標數據或標籤,仍能實現穩健的跨域泛化。我們的結果表明,提示條件參數生成是基於梯度適應快速專用化LLMs的可行替代方案。我們的項目可在https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}查看。
檢索增強生成(RAG)系統已徹底革新了資訊檢索與問答領域,但傳統的基於文本的分塊方法在處理複雜文件結構、跨頁表格、嵌入式圖表以及跨頁邊界的上下文依賴性時面臨挑戰。我們提出了一種新穎的多模態文件分塊方法,該方法利用大型多模態模型(LMMs)批量處理PDF文件,同時保持語義連貫性和結構完整性。我們的方法以可配置的頁面批次處理文件,並保留跨批次上下文,從而能夠準確處理跨多頁的表格、嵌入式視覺元素以及程序性內容。我們在一個精心策劃的PDF文件數據集上評估了我們的方法,該數據集包含手動設計的查詢,結果顯示分塊質量和下游RAG性能均有所提升。與傳統的普通RAG系統相比,我們基於視覺引導的方法實現了更高的準確性,定性分析顯示其在文件結構和語義連貫性的保留上表現更優。
在視覺生成領域,注意力機制的二次方複雜性導致了高記憶體與計算成本,尤其是在高解析度圖像或多幀視頻生成所需的較長符號序列中。為解決此問題,先前的研究已探索了諸如稀疏化與量化等技術。然而,這些技術在低密度與減少位元寬度下面臨顯著挑戰。通過系統性分析,我們發現核心難題源自視覺注意力模式的分散與不規則特性。因此,我們提出了一種替代策略:*重組*注意力模式以緩解這些挑戰,而非引入專門的稀疏化與量化設計來適應此類模式。受視覺特徵提取的局部聚合特性啟發,我們設計了一種新穎的**模式感知符號重排序(PARO)**技術,該技術將多樣的注意力模式統一為硬體友好的塊狀模式。此統一顯著簡化並增強了稀疏化與量化。我們評估了各種設計選擇的性能效率權衡,並最終確定了一種針對統一模式量身定制的方法。我們的方法,**PAROAttention**,在顯著降低密度(約20%-30%)與位元寬度(**INT8/INT4**)的情況下,實現了無損指標的視頻與圖像生成,並獲得了與全精度(FP)基線幾乎相同的結果,同時實現了**1.9倍**至**2.7倍**的端到端延遲加速。
基於擴散模型與可控視頻生成技術的最新進展,已實現了高質量且時間連貫的視頻合成,為沉浸式互動遊戲體驗奠定了基礎。然而,現有方法在動態性、通用性、長期一致性及效率方面仍存在局限,這限制了多樣化遊戲視頻的創作能力。為彌補這些不足,我們提出了Hunyuan-GameCraft,這是一個專為遊戲環境中高動態互動視頻生成而設計的新穎框架。為實現細粒度的動作控制,我們將標準鍵盤與鼠標輸入統一映射至共享的攝像機表示空間,從而促進不同攝像機與移動操作間的平滑過渡。進一步,我們提出了一種混合歷史條件訓練策略,該策略在自回歸地延展視頻序列的同時,保留了遊戲場景信息。此外,為提升推理效率與可玩性,我們通過模型蒸餾技術降低了計算開銷,同時保持了長時間序列的一致性,使其能夠適應複雜互動環境中的實時部署需求。該模型在涵蓋超過100款AAA級遊戲、總計逾百萬條遊戲錄像的大規模數據集上進行訓練,確保了廣泛的覆蓋面與多樣性,隨後在精心標註的合成數據集上進行微調,以提升精確度與控制力。精心策劃的遊戲場景數據顯著提升了視覺保真度、真實感及動作可控性。大量實驗表明,Hunyuan-GameCraft在互動遊戲視頻生成的逼真度與可玩性方面均顯著超越現有模型,推動了該領域的進步。
在动态环境中协调多个具身代理仍然是人工智能领域的一个核心挑战,这既需要感知驱动的推理,也需要可扩展的合作策略。尽管最近的研究已利用大型语言模型(LLMs)进行多代理规划,但少数研究开始探索视觉语言模型(VLMs)在视觉推理中的应用。然而,这些基于VLM的方法在支持多样化具身类型方面仍显不足。在本研究中,我们引入了VIKI-Bench,这是首个专为具身多代理合作设计的层次化基准测试,包含三个结构化层次:代理激活、任务规划和轨迹感知。VIKI-Bench涵盖了多样化的机器人具身形式、多视角视觉观察以及结构化监督信号,以评估基于视觉输入的推理能力。为了展示VIKI-Bench的实用性,我们提出了VIKI-R,一个两阶段框架,该框架首先使用思维链标注的示范对预训练的视觉语言模型(VLM)进行微调,随后在多层次奖励信号下进行强化学习。我们的大量实验表明,VIKI-R在所有任务层次上均显著优于基线方法。此外,我们还展示了强化学习能够促进异构代理之间出现组合式合作模式。VIKI-Bench与VIKI-R共同为推进具身AI系统中的多代理、视觉驱动合作提供了一个统一的测试平台与方法。
尖端文本轉語音(TTS)系統在單語環境中已實現高度自然性,然而,由於當前框架中文化細微差異的存在,合成具有正確多語言口音(尤其是印度語言)及上下文相關情感的語音仍面臨挑戰。本文介紹了一種新的TTS架構,該架構整合了口音並保留音譯,同時採用多尺度情感建模,特別針對印地語和印度英語口音進行了優化。我們的方法通過整合一種語言特定的音素對齊混合編碼器-解碼器架構,以及基於母語者語料庫訓練的文化敏感情感嵌入層,並結合了動態口音代碼轉換與殘差向量量化,對Parler-TTS模型進行了擴展。定量測試顯示,口音準確性提升了23.7%(單詞錯誤率從15.4%降至11.8%),且母語聽眾的情感識別準確率達85.3%,超越了METTS和VECL-TTS基準。該系統的新穎之處在於能夠實時代碼混合——生成如“Namaste,讓我們談談<印地語短語>”這樣的語句,在無縫切換口音的同時保持情感一致性。200名用戶的主觀評價顯示,文化正確性的平均意見得分(MOS)為4.2/5,顯著優於現有多語言系統(p<0.01)。本研究通過展示可擴展的口音-情感解耦,使跨語言合成更加可行,並直接應用於南亞教育科技和無障礙軟件中。
三維全景合成是一項前景廣闊卻又充滿挑戰的任務,它要求生成的環視內容具備高質量且多樣化的視覺外觀與幾何結構。現有方法利用預訓練的二維基礎模型所提供的豐富圖像先驗,以應對三維全景數據稀缺的問題,但三維全景與二維單視圖之間的不兼容性限制了這些方法的效能。在本研究中,我們展示了通過對二維基礎模型中的算子應用多平面同步技術,能夠無縫地將其能力擴展至環視領域。基於這一設計,我們進一步引入了DreamCube,這是一個用於三維全景生成的多平面RGB-D擴散模型,它最大限度地重用了二維基礎模型的先驗知識,以實現多樣化的外觀與精確的幾何結構,同時保持多視圖一致性。大量實驗證明了我們的方法在全景圖像生成、全景深度估計以及三維場景生成中的有效性。
在本报告中,我们介绍了Hunyuan3D 2.5,这是一套强大的3D扩散模型,旨在生成高保真且细节丰富的纹理化3D资产。Hunyuan3D 2.5沿用了其前身Hunyuan3D 2.0的两阶段流程,同时在形状和纹理生成方面展现了显著进步。在形状生成方面,我们引入了一个新的形状基础模型——LATTICE,该模型通过扩展高质量数据集、模型规模和计算资源进行训练。我们最大的模型达到了100亿参数,能够生成锐利且细节丰富的3D形状,同时保持网格表面干净平滑,显著缩小了生成与手工制作3D形状之间的差距。在纹理生成方面,我们通过从Hunyuan3D 2.0 Paint模型扩展而来的新型多视角架构,升级了基于物理的渲染(PBR)。我们的广泛评估表明,Hunyuan3D 2.5在形状和端到端纹理生成方面均显著优于以往的方法。
視覺語言模型(VLMs)在多模態理解方面表現卓越,但其僅限於文本的解碼方式迫使它們將視覺推理轉化為語言表達,這限制了在需要視覺想像力的任務上的表現。近期研究嘗試訓練VLMs生成顯式圖像,但繁重的圖像生成預訓練往往削弱了其推理能力。受人類利用心理意象——即內部構建和操作視覺線索——進行推理的方式啟發,我們探討了VLMs是否能夠通過交織的多模態軌跡進行推理,而無需生成顯式圖像。為此,我們提出了一種名為“幻象”(Mirage)的機器心理意象框架,該框架在VLM解碼過程中加入了潛在視覺標記,與普通文本並行。具體而言,當模型選擇“視覺思考”時,它會將其隱藏狀態重構為下一個標記,從而繼續多模態軌跡,而無需生成像素級圖像。我們首先通過從真實圖像嵌入中蒸餾來監督潛在標記,隨後轉向僅文本監督,使潛在軌跡與任務目標緊密對齊。後續的強化學習階段進一步增強了多模態推理能力。在多樣化基準測試上的實驗表明,Mirage在不生成顯式圖像的情況下,釋放了更強大的多模態推理能力。
統一圖像理解與生成已成為多模態人工智慧中一個極具前景的範式。儘管近期取得進展,此類統一模型的最佳架構設計仍是一個開放性挑戰。在本研究中,我們首先分析了針對理解與生成任務的專用專家模型以及現有統一模型的模態對齊行為。我們的分析揭示了一個關鍵觀察:理解任務受益於網絡深度中逐步增強的模態對齊,這有助於構建語義信息以實現更好的理解;相比之下,生成任務呈現出不同的趨勢:模態對齊在淺層增加,但在深層減少以恢復空間細節。這些不同的對齊模式在完全共享的Transformer骨幹中產生了根本性衝突,其中統一的表示流通常導致兩個任務的性能折衷。基於這一發現,我們提出了UniFork,一種新穎的Y形架構,它在淺層共享跨任務表示學習,而在深層採用任務專用分支以避免任務干擾。這一設計有效地平衡了共享學習與任務專用化。通過大量消融實驗,我們證明UniFork始終優於傳統的完全共享Transformer架構,並實現了與專用模型相當或更優的性能。
3D AI生成内容(AIGC)是一个充满激情的领域,它极大地加速了游戏、电影和设计中3D模型的创建。尽管已经开发出多个颠覆性的模型,彻底改变了3D生成的方式,但由于在收集、处理和训练3D模型过程中涉及的复杂性,该领域仍然主要局限于研究人员、开发者和设计师。为了应对这些挑战,我们在本教程中引入Hunyuan3D 2.1作为案例研究。本教程提供了一个全面的、逐步的指南,涵盖如何使用Hunyuan3D 2.1处理3D数据、训练3D生成模型以及评估其性能。Hunyuan3D 2.1是一个用于生成高分辨率、带纹理3D资产的先进系统,由两个核心组件组成:用于形状生成的Hunyuan3D-DiT和用于纹理合成的Hunyuan3D-Paint。我们将探索整个工作流程,包括数据准备、模型架构、训练策略、评估指标和部署。通过本教程的学习,您将掌握微调或开发适用于游戏、虚拟现实和工业设计应用的强大3D生成模型的知识。
現代多模態大型語言模型(MLLMs)能夠對長達一小時的視頻進行推理,但其鍵值(KV)緩存隨時間線性增長——迅速超出手機、AR眼鏡和邊緣機器人的固定記憶體容量。先前的壓縮方案要么假設整個視頻和用戶查詢可離線獲取,要么必須先構建完整的緩存,因此記憶體仍隨流長度擴展。InfiniPot-V是首個無需訓練、與查詢無關的框架,它為流媒體視頻理解實施了嚴格的、與長度無關的記憶體上限。在視頻編碼過程中,它監控緩存,一旦達到用戶設定的閾值,便運行輕量級壓縮過程,該過程(i)通過時間軸冗餘(TaR)度量移除時間上冗餘的令牌,以及(ii)通過值範數(VaN)排名保留語義上重要的令牌。在四個開源MLLM和四個長視頻及兩個流媒體視頻基準測試中,InfiniPot-V將GPU峰值記憶體減少高達94%,維持實時生成,並匹配或超越全緩存準確率——即使在多輪對話中也是如此。通過在不重新訓練或了解查詢的情況下消除KV緩存瓶頸,InfiniPot-V為設備端流媒體視頻助手彌合了差距。
視覺-語言-行動(VLA)模型相較於傳統的機器人模仿學習,其一大承諾在於利用大型視覺-語言模型(VLM)的廣泛泛化能力,來生成多功能、通用的機器人策略。然而,目前對VLA的評估仍顯不足。傳統的模仿學習基準因缺乏語言指令而不適用。新興的VLA基準雖然納入了語言,但往往評估任務有限,且並未深入探討VLM預訓練對下游機器人策略泛化能力的實際貢獻。同時,許多研究依賴於不同機構獨立設計的真實世界機器人設置,這為重現性和可訪問性設置了障礙。為填補這一空白,我們引入了一個統一的探測套件,包含跨語言指令、視覺和物體等10個子類別的50個基於模擬的任務。我們系統地評估了多種最先進的VLA架構在此套件上的表現,以理解其泛化能力。我們的結果表明,雖然VLM骨幹賦予了VLA強大的感知理解和高層次規劃能力(我們稱之為良好意圖),但這並不能可靠地轉化為精確的運動執行:面對分佈外觀測時,策略往往展現出連貫的意圖,但在行動執行上卻頻頻失誤。此外,對行動數據進行微調可能會削弱原始VLM的通用推理能力。我們發布了我們的任務套件和評估代碼,旨在作為未來VLA的標準化基準,並推動縮小感知到行動差距的研究。更多信息,包括源代碼,可在https://ai4ce.github.io/INT-ACT/找到。
理想的交通模擬器應能重現自駕系統在實際部署中所經歷的長期點對點行程。先前的研究模型與基準測試主要集中於場景中初始代理的閉環運動模擬,這對長期模擬而言存在問題。隨著自駕車輛進入新區域,代理會不斷進出場景。我們提出了InfGen,這是一個統一的下一令牌預測模型,能夠交替進行閉環運動模擬與場景生成。InfGen能自動在閉環運動模擬與場景生成模式間切換,從而實現穩定的長期滾動模擬。在短期(9秒)交通模擬中,InfGen表現出頂尖水平,而在長期(30秒)模擬中,其性能顯著超越所有其他方法。InfGen的程式碼與模型將於https://orangesodahub.github.io/InfGen發布。
結合預訓練的專家模型為可擴展的多模態推理提供了巨大潛力,但由於輸入模態的多樣性和任務複雜性不斷增加,構建一個統一的框架仍然具有挑戰性。例如,醫學診斷需要對結構化的臨床表格進行精確推理,而金融預測則依賴於解讀基於圖表的數據以做出明智的預測。為應對這一挑戰,我們引入了MEXA,這是一個無需訓練的框架,能夠根據模態和任務感知對多個專家模型進行聚合,從而實現跨多樣且不同領域的有效多模態推理。MEXA根據輸入模態和任務特定的推理需求(即技能)動態選擇專家模型。每個專家模型專注於一個模態任務對,並生成可解釋的文本推理輸出。MEXA隨後使用大型推理模型(LRM)對這些輸出進行聚合和推理,以產生最終答案。這種模塊化設計允許在不增加訓練開銷的情況下,跨多樣領域進行靈活且透明的多模態推理。我們在多樣的多模態基準上廣泛評估了我們的方法,包括視頻推理、音頻推理、3D理解和醫學問答。MEXA在強大多模態基線上的性能提升一致,凸顯了我們專家驅動的選擇和聚合在多樣多模態推理任務中的有效性和廣泛適用性。
在現實世界場景中,如政治觀點摘要,生成無偏見的摘要仍然是大型語言模型(LLMs)的一個關鍵應用。然而,現有的評估框架依賴於傳統指標來衡量關鍵屬性,如覆蓋率和忠實度,而沒有驗證其適用性,且改進摘要生成器的努力仍處於初期階段。我們通過以下方式解決這些問題:(1)識別用於衡量觀點摘要質量的可靠指標,(2)研究基於LLM的方法在零樣本推理之外的有效性。具體而言,我們利用人工註釋構建了一個用於基準測試指標可靠性的測試集,並顯示傳統指標相較於基於語言模型的指標表現不佳,後者被證明是強大的評估工具。使用這些指標,我們展示了基於重排序的方法取得了強勁的結果,並且通過使用合成生成和重排序標記的數據進行偏好調優進一步提升了性能。我們的研究成果旨在為觀點摘要方法的可靠評估和開發做出貢獻。
生成模型输出水印技术已成为追踪其来源的一种前景广阔的方法。尽管自回归图像生成模型及其潜在滥用引起了广泛关注,但此前尚无研究尝试在标记级别对其输出进行水印处理。本研究首次通过将语言模型水印技术调整应用于此场景,提出了一种创新方法。我们识别出一个关键挑战:缺乏反向循环一致性(RCC),即重新标记生成的图像标记会显著改变标记序列,从而有效抹除水印。为解决此问题,并增强我们的方法对常见图像变换、神经压缩及移除攻击的鲁棒性,我们引入了(i)一种定制化的标记器-去标记器微调程序,以提升RCC,以及(ii)一个互补的水印同步层。实验证明,我们的方法能够实现可靠且鲁棒的水印检测,并提供理论依据的p值。
語言模型反演旨在僅依賴語言模型輸出來恢復隱藏的提示。此能力對語言模型部署中的安全性和問責性具有重要意義,例如從受API保護的語言模型的系統消息中洩露私人信息。我們提出了一種新方法——基於對數概率序列的提示反演(PILS),該方法通過在多個生成步驟中從模型的下一個詞彙概率中提取線索來恢復隱藏提示。我們的方法基於一個關鍵洞察:語言模型的向量值輸出佔據了一個低維子空間。這使我們能夠使用線性映射無損壓縮多個生成步驟中的完整下一個詞彙概率分佈,從而利用更多輸出信息進行反演。與之前最先進的隱藏提示恢復方法相比,我們的方法取得了顯著提升,在測試集上實現了2至3.5倍的精確恢復率提升,其中一個案例將恢復率從17%提高到了60%。我們的方法還展現出驚人的泛化能力;例如,一個在16個生成步驟上訓練的反演器,在測試時將步驟數增加到32時,提示恢復率提高了5至27個百分點。此外,我們展示了我們的方法在更具挑戰性的隱藏系統消息恢復任務上的強大性能。我們還分析了逐字重複在提示恢復中的作用,並提出了一種新的基於對數概率的反演器跨家族模型遷移方法。我們的研究結果表明,下一個詞彙概率作為反演攻擊的攻擊面,其脆弱性遠超以往認知。