每日精選AI研究論文及翻譯
大型语言模型(LLMs)已展现出作为通用模型的卓越多功能性。然而,其广泛适用性伴随着高昂的计算开销,特别是在自回归解码过程中,每一步都需要进行一次前向传播。在特定领域场景下,通用能力并非必需,且可被效率所替代。本研究中,我们采用了一种新颖的领域适应视角,通过调整词汇表以适应目标领域,从而降低延迟和计算成本。我们提出了AdaptiVocab,一种端到端的词汇适应方法,旨在提升LLMs在低资源领域中的效率。AdaptiVocab可应用于任何分词器和架构,通过用领域特定的n-gram词汇替换原有词汇,减少输入处理和输出生成所需的词汇量。AdaptiVocab采用现有嵌入的指数加权组合来初始化新的n-词汇嵌入,并实施轻量级的微调阶段,该阶段可在单一GPU上高效完成。我们评估了两个7B规模的LLMs在三个细分领域中的表现,考量了效率、生成质量及最终任务性能。结果表明,AdaptiVocab在不影响性能的前提下,减少了超过25%的词汇使用量。
基於人類反饋的強化學習(RLHF)對於使大型語言模型與人類偏好保持一致至關重要。儘管近期研究主要集中在算法改進上,但提示數據構建的重要性卻被忽視。本文通過探討RLHF性能擴展中的數據驅動瓶頸,特別是獎勵欺騙和響應多樣性下降,來填補這一空白。我們引入了一種混合獎勵系統,結合了推理任務驗證器(RTV)和生成式獎勵模型(GenRM),以減輕獎勵欺騙。我們還提出了一種新穎的提示選擇方法——Pre-PPO,以保持響應多樣性並提升學習效果。此外,我們發現,在RLHF訓練早期優先處理數學和編碼任務能顯著提高性能。在兩種模型規模上的實驗驗證了我們方法的有效性和可擴展性。結果表明,RTV對獎勵欺騙的抵抗力最強,其次是基於真實數據的GenRM,然後是基於SFT Best-of-N響應的GenRM。我們的策略能夠快速捕捉細微的任務特定區別,從而大幅提升整體RLHF性能。這項工作強調了精心構建數據的重要性,並提供了克服RLHF性能障礙的實用方法。
近期的大型推理模型(LRMs),如DeepSeek-R1和OpenAI o1,通过扩展推理过程中的思维链(CoT)长度,展现了显著的性能提升。然而,一个日益凸显的问题是,这些模型倾向于生成过长的推理轨迹,其中往往充斥着冗余内容(例如重复的定义)、对简单问题的过度分析,以及对较难任务的多条推理路径的浅层探索。这种低效性在训练、推理以及实际部署(例如在基于代理的系统中)中引入了重大挑战,其中token经济性至关重要。在本综述中,我们全面概述了旨在提高LRMs推理效率的最新努力,特别关注这一新范式中出现的独特挑战。我们识别了低效性的常见模式,审视了从预训练到推理的LRM生命周期中提出的方法,并讨论了未来研究的有前景方向。为了支持持续发展,我们还维护了一个实时GitHub仓库,跟踪该领域的最新进展。我们希望本综述能为进一步探索奠定基础,并激发这一快速演进领域的创新。
序列推薦(SeqRec)旨在通過捕捉用戶歷史互動中的序列模式來預測下一個項目,在許多現實世界的推薦系統中扮演著至關重要的角色。然而,現有方法主要採用直接前向計算範式,其中序列編碼器的最終隱藏狀態作為用戶表示。我們認為,由於其有限的計算深度,這種推理範式難以建模用戶偏好的複雜演變特性,並且對長尾項目的理解不夠細緻,導致性能欠佳。為解決這一問題,我們提出了ReaRec,這是首個用於推薦系統的推理時計算框架,通過隱式的多步推理來增強用戶表示。具體而言,ReaRec自回歸地將序列的最後隱藏狀態輸入序列推薦器,同時引入特殊的推理位置嵌入,以將原始項目編碼空間與多步推理空間解耦。此外,我們提出了兩種輕量級的基於推理的學習方法,集成推理學習(ERL)和漸進推理學習(PRL),以進一步有效挖掘ReaRec的推理潛力。在五個公開的真實世界數據集和不同的SeqRec架構上進行的大量實驗證明了我們提出的ReaRec的通用性和有效性。值得注意的是,事後分析表明,ReaRec顯著提升了多個序列推薦骨幹的性能上限,提升幅度約為30\%-50\%。因此,我們相信這項工作可以為序列推薦的推理時計算開闢一條新的、有前景的研究方向。
多模态大语言模型(MLLMs)因其能够处理多样化的输入数据类型并在各种应用中生成连贯、上下文相关的输出而获得了显著关注。尽管监督微调(SFT)一直是增强MLLM在任务特定优化中能力的主要方法,但它在培养关键的泛化推理能力方面往往表现不足。虽然强化学习(RL)在克服这些局限性方面具有巨大潜力,但它面临两个重大挑战:(1)其在多模态任务中的泛化能力在很大程度上尚未被探索,(2)其训练约束,包括持续的Kullback-Leibler散度或钳制策略,常常导致次优的瓶颈。为了解决这些挑战,我们提出了OThink-MR1,这是一种具备深刻理解和推理能力的先进MLLM,适用于多模态任务。具体而言,我们引入了带有动态Kullback-Leibler策略的组相对策略优化(GRPO-D),显著提升了强化学习(RL)的性能。对于Qwen2-VL-2B-Instruct,GRPO-D在两个适应数据集上的同任务评估中,相对于SFT实现了超过5.72%的相对提升,相对于GRPO实现了超过13.59%的相对提升。此外,GRPO-D展示了卓越的跨任务泛化能力,在跨任务评估中,相对于SFT平均实现了超过61.63%的相对提升。这些结果表明,使用GRPO-D在一个多模态任务上训练的MLLM可以有效地迁移到另一个任务,凸显了我们提出的OThink-MR1模型在泛化推理能力方面的优越性。
我們介紹了ORIGEN,這是首個在跨多個物體和多樣類別的文本到圖像生成中實現3D方向定位的零樣本方法。以往關於圖像生成中空間定位的研究主要集中在2D定位上,缺乏對3D方向的控制。為解決這一問題,我們提出了一種基於獎勵引導的採樣方法,利用預訓練的判別模型進行3D方向估計,並結合一步式文本到圖像生成流模型。雖然基於梯度上升的優化是獎勵引導的自然選擇,但它難以保持圖像的真實感。因此,我們採用了基於朗之萬動力學的採樣方法,該方法通過簡單地注入隨機噪聲來擴展梯度上升——僅需增加一行代碼。此外,我們引入了基於獎勵函數的自適應時間重縮放,以加速收斂。實驗結果表明,ORIGEN在定量指標和用戶研究中均優於基於訓練和測試時引導的方法。
近期,語音驅動的三維說話頭像生成技術在唇形同步方面取得了顯著進展。然而,現有模型在捕捉不同語音特徵與相應唇部動作之間的感知對齊方面仍存在困難。在本研究中,我們提出三個標準——時間同步性、唇部可讀性和表現力——對於實現感知上精確的唇部動作至關重要。基於我們假設存在一個理想的表示空間來滿足這三個標準,我們引入了一種語音-網格同步表示,該表示捕捉了語音信號與三維面部網格之間的細微對應關係。我們發現,所學習的表示展現出理想的特性,並將其作為感知損失函數嵌入現有模型中,以更好地將唇部動作與給定語音對齊。此外,我們利用這一表示作為感知度量,並引入了另外兩個基於物理的唇形同步度量,以評估生成的三維說話頭像在多大程度上符合這三個標準。實驗表明,使用我們的感知損失函數訓練三維說話頭像生成模型,顯著提升了感知精確唇形同步的所有三個方面。代碼和數據集可在https://perceptual-3d-talking-head.github.io/獲取。
我們提出了Free4D,這是一個新穎的免調參框架,用於從單一圖像生成4D場景。現有方法要么專注於物體層面的生成,使得場景層面的生成難以實現,要么依賴於大規模多視角視頻數據集進行昂貴的訓練,由於4D場景數據的稀缺性,其泛化能力有限。相比之下,我們的關鍵洞察是從預訓練的基礎模型中提煉出一致的4D場景表示,這提供了效率和可泛化性等顯著優勢。1) 為實現這一點,我們首先使用圖像到視頻擴散模型對輸入圖像進行動畫處理,隨後進行4D幾何結構初始化。2) 為了將這一粗略結構轉化為時空一致的多視角視頻,我們設計了一種自適應引導機制,結合點引導去噪策略以確保空間一致性,以及一種新穎的潛在替換策略以保證時間連貫性。3) 為了將這些生成的觀測提升為一致的4D表示,我們提出了一種基於調製的細化方法,以減輕不一致性,同時充分利用生成的信息。最終的4D表示支持實時、可控的渲染,標誌著基於單一圖像的4D場景生成技術的重大進步。
視覺Transformer(ViTs)在多種電腦視覺任務中展現了卓越的性能和可擴展性。為了將單尺度ViTs應用於影像分割,現有方法採用卷積適配器來生成多尺度特徵,使用像素解碼器融合這些特徵,並利用Transformer解碼器基於融合特徵進行預測。本文中,我們展示了這些任務特定組件引入的歸納偏置,實際上可以通過足夠大的模型和廣泛的預訓練,由ViT自身學習得到。基於這些發現,我們提出了僅含編碼器的遮罩Transformer(EoMT),它重新利用純粹的ViT架構來執行影像分割。通過大規模模型和預訓練,EoMT獲得了與使用任務特定組件的最新模型相當的分割精度。同時,得益於其架構的簡潔性,EoMT顯著快於這些方法,例如,使用ViT-L時速度可提升至4倍。在各種模型規模下,EoMT展示了分割精度與預測速度之間的最佳平衡,表明計算資源更應投入於擴展ViT本身,而非增加架構複雜性。代碼:https://www.tue-mps.org/eomt/。
在多維度擴展時,摘要精煉面臨挑戰。本文介紹了ReFeed,一個強大的摘要精煉流程,通過對反饋進行反思推理來增強多個維度。為實現這一目標,我們發布了SumFeed-CoT,這是一個大規模基於Long-CoT的數據集,專為訓練具有反思推理能力的輕量級模型而優化。我們的實驗揭示了維度數量、反饋暴露和推理策略如何影響精煉性能,強調了反思推理和同時處理多個反饋對於緩解維度間權衡的重要性。此外,ReFeed對噪聲反饋和反饋順序具有魯棒性。最後,我們的研究結果強調,創建具有適當目標和指南的數據是有效推理的基本支柱。數據集和模型將被公開。
近年來,多視角或4D視頻生成已成為一個重要的研究課題。然而,現有的4D生成方法仍面臨根本性限制,因為它們主要依賴於利用多個視頻擴散模型進行額外訓練,或是在有限的真實世界4D數據和巨大計算成本下,對完整的4D擴散模型進行計算密集型的訓練。為應對這些挑戰,我們在此提出了一種無需訓練的4D視頻生成方法,該方法利用現成的視頻擴散模型從單一輸入視頻生成多視角視頻。我們的方法包含兩個關鍵步驟:(1) 通過將時空採樣網格中的邊緣幀指定為關鍵幀,我們首先使用視頻擴散模型合成這些幀,並利用基於深度的變形技術進行引導。這種方法確保了生成幀之間的結構一致性,保持了空間和時間的連貫性。(2) 接著,我們使用視頻擴散模型對剩餘幀進行插值,構建一個完全填充且時間上連貫的採樣網格,同時保持空間和時間的一致性。通過這種方法,我們將單一視頻沿著新的相機軌跡擴展為多視角視頻,同時保持時空一致性。我們的方法無需訓練,並充分利用了現成的視頻擴散模型,為多視角視頻生成提供了一種實用且有效的解決方案。
移動物體分割是實現高層次視覺場景理解的關鍵任務,並具有眾多下游應用。人類能夠輕鬆地在視頻中分割移動物體。以往的研究主要依賴於光流來提供運動線索;然而,這種方法由於部分運動、複雜變形、運動模糊和背景干擾等挑戰,往往導致不完美的預測。我們提出了一種新穎的移動物體分割方法,該方法結合了長程軌跡運動線索與基於DINO的語義特徵,並利用SAM2通過迭代提示策略進行像素級掩碼密集化。我們的模型採用時空軌跡注意力和運動-語義解耦嵌入,以優先考慮運動,同時整合語義支持。在多樣化數據集上的廣泛測試展示了最先進的性能,在具有挑戰性的場景和多物體的細粒度分割中表現出色。我們的代碼可在https://motion-seg.github.io/獲取。
我們推出PHYSICS,這是一個針對大學層級物理問題解決的全面性基準測試。它包含1297道專家註解的問題,涵蓋六個核心領域:經典力學、量子力學、熱力學與統計力學、電磁學、原子物理學以及光學。每道問題都需要高階的物理知識與數學推理能力。我們開發了一套穩健的自動化評估系統,以實現精確且可靠的驗證。我們對領先的基礎模型進行評估,發現了顯著的局限性。即便是最先進的o3-mini模型,其準確率也僅達到59.9%,這凸顯了在解決高階科學問題上的重大挑戰。透過全面的錯誤分析、多樣化提示策略的探索,以及基於檢索增強生成(RAG)的知識擴充,我們識別出關鍵的改進領域,為未來的進步奠定了基礎。
部分受到低精度训练和量化相关性的驱动,大型语言模型(LLMs)中的大规模激活现象近来成为了一个备受关注的话题。然而,现有分析的范围有限,且跨架构的普适性尚不明确。本文通过分析包括基于GLU和非基于GLU架构在内的广泛LLMs中的大规模激活,帮助填补了部分空白。我们的发现挑战了先前的一些假设,其中最重要的是:(1) 并非所有大规模激活都是有害的,即抑制它们不会导致困惑度爆炸或下游任务性能崩溃;(2) 提出的缓解策略如注意力KV偏置是模型特定的,在某些情况下无效。因此,我们探索了新颖的混合缓解策略;特别是将目标方差重缩放(TVR)与注意力KV偏置或动态Tanh(DyT)结合,在我们研究的场景中成功平衡了对大规模激活的缓解与下游模型性能的保持。我们的代码可在以下网址获取:https://github.com/bluorion-com/refine_massive_activations。
隨著從二維圖像生成高保真三維模型的需求日益增長,現有方法在精確再現細粒度幾何細節方面仍面臨重大挑戰,這主要受限於領域差距和RGB圖像固有的模糊性。為解決這些問題,我們提出了Hi3DGen,這是一個通過法線橋接從圖像生成高保真三維幾何的新框架。Hi3DGen包含三個關鍵組件:(1) 一個圖像到法線的估計器,它通過噪聲注入和雙流訓練解耦低高頻圖像模式,以實現可泛化、穩定且銳利的估計;(2) 一種法線到幾何的學習方法,利用法線正則化的潛在擴散學習來提升三維幾何生成的保真度;(3) 一個三維數據合成管道,構建高質量數據集以支持訓練。大量實驗證明了我們框架在生成豐富幾何細節方面的有效性和優越性,在保真度上超越了現有最先進的方法。我們的工作通過利用法線圖作為中間表示,為從圖像生成高保真三維幾何提供了新的方向。
在本論文中,我們提出了一種基於生物力學精確骨架模型,從單一圖像重建三維人體的方法。為實現這一目標,我們訓練了一個以圖像為輸入並估計模型參數的Transformer模型。由於此任務缺乏訓練數據,我們構建了一個流程來為單張圖像生成偽真值模型參數,並實施了一種迭代精煉這些偽標籤的訓練程序。與當前最先進的三維人體網格恢復方法相比,我們的模型在標準基準測試中展現了競爭力,同時在極端三維姿態和視角設置下顯著超越它們。此外,我們指出,先前的重建方法經常違反關節角度限制,導致不自然的旋轉。相比之下,我們的方法利用了生物力學上合理的自由度,從而做出更為真實的關節旋轉估計。我們在多個人體姿態估計基準上驗證了我們的方法。我們將代碼、模型及數據公開於:https://isshikihugh.github.io/HSMR/。
創建具有任意拓撲結構的高保真3D網格,包括開放表面和複雜內部結構,仍然是一個重大挑戰。現有的隱式場方法通常需要耗時且會降低細節的封閉轉換,而其他方法則難以處理高分辨率。本文介紹了SparseFlex,一種新穎的稀疏結構等值面表示方法,能夠直接從渲染損失中實現高達1024^3分辨率的可微分網格重建。SparseFlex結合了Flexicubes的精度與稀疏體素結構,將計算集中在表面鄰近區域,並高效處理開放表面。關鍵在於,我們引入了一種視錐感知的分段體素訓練策略,該策略在渲染時僅激活相關體素,顯著降低了內存消耗,並實現了高分辨率訓練。這也首次允許僅通過渲染監督來重建網格內部結構。基於此,我們展示了一個完整的形狀建模流程,通過訓練變分自編碼器(VAE)和校正流變換器來生成高質量的3D形狀。我們的實驗顯示了最先進的重建精度,與之前的方法相比,Chamfer Distance減少了約82%,F-score提高了約88%,並展示了生成具有任意拓撲結構的高分辨率、細節豐富的3D形狀的能力。通過實現基於渲染損失的高分辨率、可微分網格重建與生成,SparseFlex在3D形狀表示與建模領域顯著推動了技術前沿。
多模态大型語言模型(MLLMs)已展現出令人印象深刻的二維圖像/視頻理解能力。然而,目前尚無公開標準化的基準來評估MLLMs在理解四維物體(即隨時間演變的三維物體)方面的能力。本文介紹了4D-Bench,這是首個用於評估MLLMs在四維物體理解能力的基準,包含四維物體問答(4D object QA)和四維物體描述(4D object captioning)任務。4D-Bench提供了多樣類別的四維物體、高質量註釋,以及需要多視角時空理解的任務,這與現有的基於二維圖像/視頻的基準不同。通過4D-Bench,我們評估了多種開源和閉源的MLLMs。四維物體描述實驗的結果表明,MLLMs在時間理解方面普遍弱於外觀理解,值得注意的是,開源模型在外觀理解上接近閉源模型的表現,但在時間理解上則存在較大的性能差距。四維物體問答實驗得出了令人驚訝的發現:即使是簡單的單一物體視頻,MLLMs的表現也較差,最先進的GPT-4o僅達到63%的準確率,而人類基準為91%。這些發現凸顯了四維物體理解方面的巨大差距,以及MLLMs需要進一步改進的必要性。
開發可靠的AI系統以協助人類臨床醫生進行多模態醫療診斷,一直是研究人員的重要目標。近年來,多模態大型語言模型(MLLMs)在多個領域中獲得了顯著關注並取得了成功。憑藉其強大的推理能力以及根據用戶指令執行多樣化任務的能力,這些模型在提升醫療診斷方面展現出巨大潛力。然而,直接將MLLMs應用於醫療領域仍面臨挑戰。它們對視覺輸入的細緻感知能力不足,限制了其進行定量圖像分析的能力,而這對醫療診斷至關重要。此外,MLLMs在推理過程中常出現幻覺和不一致,而臨床診斷必須嚴格遵循既定標準。為應對這些挑戰,我們提出了MedAgent-Pro,這是一個基於證據的推理代理系統,旨在實現可靠、可解釋且精確的醫療診斷。該系統通過分層工作流程實現:在任務層面,基於知識的推理根據檢索到的臨床標準為特定疾病生成可靠的診斷計劃;而在案例層面,多個工具代理處理多模態輸入,根據計劃分析不同指標,並基於定量和定性證據提供最終診斷。在2D和3D醫療診斷任務上的全面實驗證明了MedAgent-Pro的優越性和有效性,而案例研究進一步凸顯了其可靠性和可解釋性。代碼可在https://github.com/jinlab-imvr/MedAgent-Pro獲取。
傳統的圖像分類需要預先定義一組語義類別。相比之下,大型多模態模型(LMMs)能夠繞過這一要求,直接使用自然語言對圖像進行分類(例如,回答提示「圖像中的主要物體是什麼?」)。儘管具備這一顯著能力,現有大多數關於LMM分類性能的研究卻出人意料地局限於封閉世界的設定,通常假設存在一組預先定義的類別。在本研究中,我們通過在真正的開放世界設定中全面評估LMM的分類性能來填補這一空白。我們首先形式化了這一任務,並引入了一個評估協議,定義了多種指標來評估預測類別與真實類別之間的一致性。隨後,我們在10個基準上評估了13個模型,涵蓋了原型、非原型、細粒度以及極細粒度的類別,展示了LMM在此任務中面臨的挑戰。基於所提出的指標進行的進一步分析揭示了LMM所犯錯誤的類型,突出了與粒度和細粒度能力相關的挑戰,並展示了如何通過定制的提示和推理來緩解這些問題。
AI在軟體工程領域的應用近期取得了顯著進展,已成為生成式AI中的一個重要成功案例。然而,在自動化軟體工程充分發揮其潛力之前,仍有許多挑戰亟待解決。我們應能實現高度的自動化,讓人類專注於決定要構建什麼以及如何平衡複雜的取捨,而將大部分例行開發工作交由自動化處理。要達到這種自動化水平,需要學術界和產業界投入大量的研究和工程努力。本文旨在從三個方面探討這一目標的進展。首先,我們提供了一個結構化的分類法,涵蓋AI在軟體工程中的具體任務,強調除了代碼生成和補全之外,軟體工程中還有許多其他任務。其次,我們概述了限制當前方法的幾個關鍵瓶頸。最後,我們提供了一份帶有觀點的列表,列出了在這些瓶頸上取得進展的潛在研究方向,希望能激發這一快速成熟領域的未來研究。
四維計算機斷層掃描(4D CT)重建對於捕捉動態解剖變化至關重要,但傳統的相位分箱工作流程存在固有侷限。現有方法通過呼吸門控設備將時間分辨率離散化為固定相位,導致運動對齊誤差並限制了臨床實用性。本文提出X^2-Gaussian,這是一種新穎框架,通過將動態輻射高斯潑濺與自監督呼吸運動學習相結合,實現了連續時間的4D-CT重建。我們的方法通過時空編碼-解碼架構建模解剖動態,預測時變高斯變形,從而消除相位離散化。為擺脫對外部門控設備的依賴,我們引入了一種生理驅動的週期一致性損失,通過可微分優化直接從投影中學習患者特定的呼吸週期。大量實驗證明了其最先進的性能,相較傳統方法實現了9.93 dB的PSNR提升,並比先前的高斯潑濺技術提高了2.25 dB。通過將連續運動建模與無硬件週期學習相統一,X^2-Gaussian推動了動態臨床成像中高保真4D CT重建的發展。項目網站:https://x2-gaussian.github.io/。
意圖,通常明確制定並規劃,作為認知框架用於推理和問題解決。本文在大語言模型(LLMs)中引入了「意圖驅動對話」(Speaking with Intent, SWI)的概念,其中明確生成的意圖封裝了模型的潛在意圖,並提供高層次的規劃以指導後續的分析與溝通。通過模擬人類思維中的深思熟慮與目的性,SWI被假設能夠增強LLMs的推理能力與生成質量。在數學推理基準上的大量實驗一致證明了意圖驅動對話相較於基線(即無明確意圖的生成)的優越性。此外,SWI在答案觸發提示方法如「思維鏈」(Chain-of-Thought)和「計劃與解決」(Plan-and-Solve)上表現更佳,並與強力方法ARR(分析、檢索與推理)保持競爭力。同時,SWI在推理密集型的問答(QA)和文本摘要基準上的有效性和泛化能力也得到了鞏固,其中SWI為基線生成帶來了持續的改進。在文本摘要中,SWI生成的摘要展現出更高的準確性、簡潔性和事實正確性,且幻覺更少。此外,人工評估驗證了SWI產生意圖的連貫性、有效性和可解釋性。這項概念驗證研究為利用認知概念增強LLMs的推理能力開闢了一條新途徑。