每日精選AI研究論文及翻譯
低秩适应(LoRA)在大型预训练模型的参数高效微调方面取得了显著进展。LoRA通过添加两个较小矩阵的乘积来增强模型的预训练权重,这两个矩阵共同构成一个低秩矩阵更新。最近的研究表明,这两个矩阵之间的尺度差异常常导致训练动态不稳定,从而影响性能表现。本文提出SingLoRA,它通过将权重更新重新表述为单个低秩矩阵与其转置的分解来实现低秩适应。这一简洁设计从根本上消除了矩阵间的尺度冲突,确保了优化的稳定性,并大致将参数数量减半。我们在无限宽度神经网络框架下分析了SingLoRA,证明其通过构造保证了稳定的特征学习。多项任务的广泛实验验证了这些优势。在常识推理任务中,使用SingLoRA对LLama 7B在MNLI数据集上进行微调,准确率达到91.3%,超越了LoRA(89.1%)和LoRA+(90.2%),同时仅使用了它们60%的参数预算。在图像生成任务中,使用SingLoRA微调Stable Diffusion显著提升了DreamBooth上的图像保真度,DINO相似度得分达到0.151,而DoRA和LoRA的得分分别为0.148和0.143。
大型語言模型(LLMs)已展現出令人印象深刻的推理能力,尤其是在明確的思維鏈(CoT)推理指導下,這種推理能夠將中間步驟以語言形式表達出來。雖然CoT提升了模型的可解釋性和準確性,但其對自然語言推理的依賴限制了模型的表達帶寬。潛在推理則通過在模型的連續隱藏狀態中完全進行多步推理來解決這一瓶頸,從而消除了對標記級監督的需求。為了推動潛在推理研究的發展,本綜述提供了對這一新興領域的全面概述。我們首先探討了神經網絡層作為推理計算基礎的基礎性作用,強調了分層表示如何支持複雜的轉換。接著,我們探索了多種潛在推理方法,包括基於激活的遞歸、隱藏狀態傳播,以及壓縮或內化顯式推理軌跡的微調策略。最後,我們討論了高級範式,如通過掩碼擴散模型實現的無限深度潛在推理,這些模型能夠實現全局一致且可逆的推理過程。通過統一這些視角,我們旨在澄清潛在推理的概念圖景,並為LLM認知前沿的研究指明未來方向。相關的GitHub倉庫收集了最新的論文和代碼庫,可訪問:https://github.com/multimodal-art-projection/LatentCoT-Horizon/。
創建具有明確、可編輯部件結構的3D資產對於推進互動應用至關重要,然而大多數生成方法僅能產出單一形狀,限制了其實用性。我們提出了OmniPart,這是一個新穎的部件感知3D物體生成框架,旨在實現組件間的高度語義解耦,同時保持堅固的結構凝聚力。OmniPart獨特地將這一複雜任務解耦為兩個協同階段:(1) 一個自迴歸結構規劃模塊生成可控、可變長度的3D部件邊界框序列,關鍵在於靈活的2D部件掩碼引導,允許直觀控制部件分解,無需直接對應或語義標籤;(2) 一個空間條件化的修正流模型,高效地從預訓練的整體3D生成器改編,在規劃的佈局內同時且一致地合成所有3D部件。我們的方法支持用戶定義的部件粒度、精確定位,並能實現多樣化的下游應用。大量實驗表明,OmniPart達到了最先進的性能,為更可解釋、可編輯和多功能化的3D內容鋪平了道路。
基於大型語言模型(LLM)的網路代理近期取得了顯著進展,但這些進展大多發生在閉源系統中,進一步拉大了與開源替代方案之間的差距。這一進展受到兩個關鍵挑戰的阻礙:首先,過於專注於單步任務,忽視了多步網路互動的複雜性;其次,對LLM網路代理進行後續訓練所需的高昂計算成本。為解決這些問題,我們首次提出了針對LLM網路代理後續訓練的計算資源分配的統計基礎研究。我們的方法採用了一個兩階段管道,首先通過監督微調(SFT)訓練一個Llama 3.1 8B學生模型來模仿Llama 3.3 70B教師模型,隨後進行策略內強化學習。我們發現這一過程對超參數選擇極為敏感,使得全面搜索變得不切實際。為了避免他人進行昂貴的試錯,我們採樣了1,370種配置,並使用自舉法來估計有效的超參數。我們的結果顯示,在WorkArena和MiniWob++上,結合SFT與策略內RL的方法始終優於單獨使用任一方法。此外,這一策略僅需55%的計算資源即可在MiniWob++上達到純SFT的峰值性能,有效推進了計算性能的帕累托前沿,並且是唯一能夠縮小與閉源模型差距的策略。
在現實世界環境中,視覺與語言導航(Vision-and-Language Navigation, VLN)要求智能體能夠處理連續的視覺流,並基於語言指令以低延遲生成動作。儘管基於視頻的大型語言模型(Video-LLMs)推動了最近的進展,但當前基於Video-LLM的VLN方法往往需要在細粒度視覺理解、長期上下文建模和計算效率之間進行權衡。我們提出了StreamVLN,這是一個流式VLN框架,採用了一種混合的慢-快上下文建模策略,以支持對交織的視覺、語言和動作輸入進行多模態推理。快速流動的對話上下文通過活動對話的滑動窗口促進響應式動作生成,而慢速更新的記憶上下文則利用3D感知的令牌剪枝策略壓縮歷史視覺狀態。通過這種慢-快設計,StreamVLN實現了高效的多輪對話,通過重用KV緩存,支持長視頻流,並保持有限的上下文大小和推理成本。在VLN-CE基準測試上的實驗展示了最先進的性能,並確保了在實際部署中的穩定低延遲、魯棒性和效率。項目頁面為:https://streamvln.github.io/{https://streamvln.github.io/}。
將自然語言數學陳述轉譯為可執行的正式程式碼,是自動化定理證明中的一項基本挑戰。儘管先前的研究主要集中在生成與編譯的成功率上,但對於批評階段——即評估生成的形式化是否真正捕捉到原問題的語意意圖——卻鮮少關注。本文中,我們介紹了CriticLean,一個新穎的批評引導強化學習框架,將批評的角色從被動驗證者提升為主動學習組件。具體而言,首先,我們提出了CriticLeanGPT,通過監督式微調與強化學習進行訓練,以嚴格評估Lean 4形式化的語意忠實度。接著,我們引入了CriticLeanBench,一個旨在衡量模型區分語意正確與錯誤形式化能力的基準,並展示了我們訓練的CriticLeanGPT模型能夠顯著超越強大的開源與閉源基線。基於CriticLean框架,我們構建了FineLeanCorpus,一個包含超過285K問題的數據集,展現了豐富的領域多樣性、廣泛的難度覆蓋範圍以及基於人類評估的高正確性。總體而言,我們的研究結果強調了優化批評階段對於產生可靠形式化的重要性,並希望我們的CriticLean能為未來形式數學推理的進展提供寶貴的洞見。
大型語言模型(LLMs)在邏輯和算法推理方面表現卓越,但其情感智能(EQ)仍遠遠落後於其認知能力。儘管基於可驗證獎勵的強化學習(RLVR)在其他領域取得了進展,但其在對話中的應用——尤其是針對情感智能的應用——仍未被充分探索。在本研究中,我們引入了RLVER,這是首個端到端的強化學習框架,利用來自模擬用戶的可驗證情感獎勵來培養LLMs的高階共情能力。在此框架內,自我一致的情感模擬用戶參與對話展開,並在對話過程中生成確定性的情感分數,作為引導LLM學習的獎勵信號。通過使用PPO對公開可用的Qwen2.5-7B-Instruct模型進行微調,其Sentient-Benchmark分數從13.3提升至79.2,同時在很大程度上保留了數學和編程能力。大量實驗表明:(i)RLVER持續提升了多種對話能力;(ii)思考型與非思考型模型呈現出不同的趨勢——思考型模型在共情和洞察力方面表現優異,而非思考型模型則更傾向於行動;(iii)GRPO通常帶來穩定的增益,而PPO則能將某些能力推向更高的天花板;(iv)更具挑戰性的環境並不一定更好——適度的環境反而能產生更強的結果。我們的結果表明,RLVER是實現情感智能且具備廣泛能力的語言代理的實用途徑。
近期在開放領域的視頻生成技術已取得顯著進展,然而醫學視頻生成領域仍大多未被深入探索。醫學視頻在臨床培訓、教育和模擬等應用中至關重要,不僅要求高視覺逼真度,還需嚴格的醫學準確性。然而,現有模型在應用於醫學提示時,常生成不真實或錯誤的內容,這主要歸因於缺乏針對醫學領域的大規模、高質量數據集。為填補這一空白,我們推出了MedVideoCap-55K,這是首個大規模、多樣化且富含字幕的醫學視頻生成數據集。它包含超過55,000個精心挑選的片段,涵蓋現實世界的醫學場景,為訓練通用醫學視頻生成模型提供了堅實基礎。基於此數據集,我們開發了MedGen,其在開源模型中表現領先,並在多個基準測試中與商業系統在視覺質量和醫學準確性上不相上下。我們希望我們的數據集和模型能成為寶貴資源,並助力推動醫學視頻生成領域的進一步研究。我們的代碼和數據可在https://github.com/FreedomIntelligence/MedGen獲取。
圖形用戶界面(GUI)代理能夠自主跨平台(如Linux)操作,通過與視覺元素互動來完成任務。具體而言,用戶指令被分解為一系列動作提案,每個提案對應於與GUI的一次交互。每次動作後,代理會觀察更新後的GUI環境以規劃下一步。然而,面臨兩大挑戰:一是任務規劃中的歧義消解(即動作提案序列),在眾多可能有效的方案中選擇合適的計劃並非易事;二是在複雜且高分辨率的界面中精確地將動作落地,即準確地與視覺目標進行交互。 本文針對上述兩大挑戰,探討了我們的GUI測試時縮放代理,即GTA1。首先,為選取最合適的動作提案,我們引入了一種測試時縮放方法。在每一步,我們採樣多個候選動作提案,並利用一個評判模型來評估並選取最適宜的方案。該方法通過並行採樣在計算與決策質量之間取得平衡,縮短任務執行步驟,提升整體性能。其次,我們提出了一種模型,在將選定的動作提案對應到其視覺元素時,實現了更高的準確性。我們的核心洞見是,強化學習(RL)通過內在的目標對齊促進了視覺落地,獎勵成功點擊界面元素的行為。 實驗結果表明,我們的方法在多樣化的基準測試中均達到了頂尖水平。例如,GTA1-7B在Screenspot-Pro、Screenspot-V2和OSWorld-G上的準確率分別為50.1%、92.4%和67.7%。當與應用我們測試時縮放策略的規劃器配合使用時,它展現了頂尖的代理性能(如在OSWorld上達到45.2%的任務成功率)。我們在此開源了我們的代碼和模型。
世界模型,作為生物體所經歷並與之互動的真實環境的算法替代,近年來已成為一個新興話題,這源於開發具有人工(通用)智能的虛擬代理的迫切需求。關於世界模型究竟是什麼、如何構建、如何使用以及如何評估,學界存在諸多爭論。本文從著名科幻經典《沙丘》中的想像出發,並借鑒心理學文獻中「假設性思維」的概念,對世界建模的幾種學派觀點進行了批判,並主張世界模型的主要目標應是模擬現實世界中所有可操作的可能性,以實現有目的的推理與行動。基於這些批判,我們提出了一種新的通用世界模型架構,該架構基於分層、多層次及混合連續/離散表示,以及生成式與自監督學習框架,並展望了由該模型驅動的物理性、能動性與嵌套性(PAN)AGI系統的前景。
我們推出了Nile-Chat-4B、3x4B-A6B及12B,這是一系列專為埃及方言設計的大型語言模型(LLMs),其獨特之處在於能夠理解並生成以阿拉伯字母及拉丁字母書寫的文本。特別地,通過Nile-Chat-3x4B-A6B,我們引入了一種新穎的語言適應方法,利用Branch-Train-MiX策略將專精於不同書寫體系的專家模型融合為一個單一的混合專家(MoE)模型。在我們新推出的埃及語評估基準上,涵蓋理解與生成任務,Nile-Chat系列模型顯著超越了領先的多語言及阿拉伯語LLMs,如LLaMa、Jais和ALLaM。值得注意的是,我們的12B模型在拉丁字母基準測試中,相較於Qwen2.5-14B-Instruct,性能提升了14.4%。所有資源均已公開。我們相信,這項工作為適應雙書寫體系語言的LLMs提供了一套全面的方法論,填補了現代LLM開發中常被忽視的一環。
數據規模化在自然語言處理(NLP)和計算機視覺(CV)的基礎模型中取得了顯著成功,然而在機器人操作領域,有效數據規模化的原則仍未被充分理解。本研究通過考察三個關鍵維度——任務(做什麼)、具身(使用哪種機器人)和專家(由誰示範)——深入探討了數據多樣性在機器人學習中的細微作用,挑戰了“多樣性越高越好”的傳統直覺。通過在多種機器人平台上進行的大量實驗,我們揭示出:(1)任務多樣性比單一任務的示範數量更為關鍵,有利於從多樣化的預訓練任務向新穎的下游場景遷移;(2)多具身預訓練數據對於跨具身遷移並非必需——基於高質量單具身數據訓練的模型能有效遷移至不同平台,在微調過程中展現出比多具身預訓練模型更理想的規模化特性;(3)專家多樣性,源於個體操作偏好和人類示範中的隨機變異,可能對策略學習造成混淆,其中速度的多模態性成為一個關鍵影響因素。基於這一洞察,我們提出了一種分佈去偏方法來緩解速度模糊性,由此產生的GO-1-Pro模型實現了15%的性能提升,相當於使用了2.5倍的預訓練數據。總體而言,這些發現為如何有效規模化機器人操作數據集提供了新的視角和實用指導。
大型語言模型(LLMs)在代碼生成方面取得了顯著進展,但其真正的編程能力仍未被充分探索。我們引入了代碼三角框架,該框架系統性地評估LLMs在三個基本維度上的表現:編輯分析、代碼實現和測試案例生成。通過在競技編程基準上的廣泛實驗,我們發現,雖然LLMs能夠在這些維度上形成一個自洽的系統,但其解決方案往往缺乏人類程序員的多樣性和魯棒性。我們識別出模型認知與人類專業知識之間存在顯著的分佈偏移,模型錯誤往往由於訓練數據偏差和有限的推理遷移而聚集。我們的研究表明,結合人類生成的編輯、解決方案和多樣化的測試案例,以及利用模型混合,可以顯著提升LLMs的性能和魯棒性。此外,我們揭示了LLMs認知中的一致性和不一致性,這可能促進自我反思和自我改進,為開發更強大的編碼模型提供了潛在方向。
序列模型如Transformer和RNN常常過度關注不相關的上下文,導致中間表示充滿噪聲。這會降低大型語言模型的能力,助長幻覺生成,削弱長距離依賴和檢索能力,並降低模型的魯棒性。最近的研究表明,差異化設計可以緩解Transformer中的這一問題,提升其在各種應用中的效能。本文探討這些最初為Transformer開發的技術是否能夠應用於Mamba——一種基於選擇性狀態空間層的新架構,該架構以更高的效率達到了Transformer級別的表現。我們發現,將差異化設計簡單地套用於Mamba並不足夠,需要進行細緻的架構調整。為此,我們為Mamba引入了一種新穎的差異化機制,並在語言建模基準上進行了實證驗證,展示了其相較於原始Mamba在檢索能力上的提升和更優的整體表現。最後,我們進行了廣泛的消融研究和實證分析,以證明我們的設計選擇,並提供證據表明我們的方法有效緩解了基於Mamba模型中的過度關注問題。我們的代碼已公開提供。
大型语言模型(LLMs)近期被应用于信息检索中的重排序任务,并取得了显著成效。然而,其高昂的计算需求往往阻碍了实际部署。现有研究通过代理指标如延迟、前向传播次数、输入令牌数及输出令牌数来评估基于LLM的重排序器效率。然而,这些指标依赖于硬件及运行时选择(例如是否并行、批量大小等),且常未能考虑模型规模,导致难以解读并模糊了效率与效果权衡的评估。为解决此问题,我们提出了针对基于LLM重排序器的E2R-FLOPs指标:每PetaFLOP的排序指标(RPP)用于衡量计算相关性,以及每PetaFLOP的查询数(QPP)作为硬件无关的吞吐量指标。伴随新指标,我们构建了一个可解释的FLOPs估算器,即便无需进行任何实验也能估算基于LLM重排序器的FLOPs。基于所提出的指标,我们开展了全面实验,评估了多种不同架构的基于LLM重排序器,探讨了效率与效果之间的权衡,并将此议题提请研究界关注。
現今的大型多模態模型(LMMs)在處理高解析度圖像時面臨挑戰,因為這些輸入會被轉換為大量的視覺標記,其中許多與下游任務無關。本文提出了一種基於多輪對話框架的多輪定位策略優化(MGPO),這是一個端到端的強化學習(RL)框架,使LMMs能夠根據模型預測的定位座標,在多輪對話中自動裁剪子圖像,從而迭代地聚焦於關鍵視覺區域。與需要昂貴額外定位註釋的監督微調(SFT)相比,我們的方法強調LMMs可以在RL訓練過程中僅基於最終答案正確性的二元獎勵函數,展現出強大的定位能力。此外,我們觀察到LMMs在rollout過程中難以自主觸發視覺定位。為解決這一冷啟動問題,我們設計了一個多輪對話模板,並將策略損失計算限制在多輪對話生成的模型輸出上,從而促進穩定的優化。大量實驗表明,在沒有定位註釋的標準視覺問答短答案數據上訓練時,MGPO相比GRPO能有效激發更強的定位能力,在分佈內MME-Realworld上提升了5.4%,在具有挑戰性的分佈外(OOD)V* Bench上提升了5.2%。值得注意的是,MGPO在Qwen2.5-VL-7B上使用21K樣本進行後訓練後,在OOD V* Bench上超越了OpenAI的o1和GPT-4o模型。代碼可在https://github.com/EvolvingLMMs-Lab/MGPO 獲取。
基於深度學習的計算方法在預測蛋白質-蛋白質相互作用(PPIs)方面已取得顯著成果。然而,現有的基準測試主要集中於孤立的成對評估,忽視了模型重建具有生物學意義的PPI網絡的能力,這對生物學研究至關重要。為填補這一空白,我們推出了PRING,首個從圖層面評估蛋白質-蛋白質相互作用預測的綜合基準。PRING精心策劃了一個高質量、多物種的PPI網絡數據集,包含21,484個蛋白質和186,818個相互作用,並採用精心設計的策略來解決數據冗餘和洩漏問題。基於這一黃金標準數據集,我們建立了兩個互補的評估範式:(1) 面向拓撲的任務,評估物種內及跨物種的PPI網絡構建;(2) 面向功能的任務,包括蛋白質複合體通路預測、GO模塊分析及必需蛋白質驗證。這些評估不僅反映了模型理解網絡拓撲的能力,還促進了蛋白質功能註釋、生物模塊檢測乃至疾病機制分析。對四類代表性模型(基於序列相似性、基於原始序列、基於蛋白質語言模型及基於結構的方法)的廣泛實驗表明,當前PPI模型在恢復PPI網絡的結構和功能特性方面存在潛在侷限,凸顯了支持實際生物學應用的差距。我們相信,PRING為指導社區開發更有效的PPI預測模型提供了可靠平台。PRING的數據集和源代碼可在https://github.com/SophieSarceau/PRING獲取。
人工智慧(AI)在醫療應用中具有巨大潛力,但其訓練與部署面臨著醫療數據多樣性、任務複雜性以及隱私保護需求的挑戰。能夠在醫療任務上表現出色且需要較少任務特定調校數據的基礎模型,對於加速醫療AI應用的發展至關重要。我們介紹了MedGemma,這是一系列基於Gemma 3 4B和27B的醫療視覺-語言基礎模型。MedGemma在圖像和文本的醫療理解與推理上展現出先進能力,顯著超越同規模生成模型的表現,並接近任務特定模型的水平,同時保留了Gemma 3基礎模型的通用能力。在分佈外任務上,MedGemma在醫療多模態問答上實現了2.6-10%的提升,在胸部X光片發現分類上提升了15.5-18.1%,在代理評估上提升了10.8%,相較於基礎模型。對MedGemma進行微調進一步提升了在子領域的表現,將電子健康記錄信息檢索的錯誤率降低了50%,並在氣胸分類和組織病理學切片分類上達到了與現有專門最先進方法相當的性能。我們還介紹了MedSigLIP,這是一個基於SigLIP進行醫療調校的視覺編碼器。MedSigLIP增強了MedGemma的視覺理解能力,作為編碼器,其表現與專門的醫療圖像編碼器相當或更優。總的來說,MedGemma系列提供了強大的醫療圖像和文本處理基礎,具有顯著加速醫學研究及下游應用開發的潛力。MedGemma系列,包括教程和模型權重,可訪問https://goo.gle/medgemma獲取。
近期“分割一切”的研究通过从大规模数据中学习展现出潜力,但直接将此类模型应用于医学影像仍面临挑战,这源于医学数据的复杂性、标注噪声以及跨多种模态和解剖结构的持续学习需求。在本研究中,我们提出了SAMed-2,一种基于SAM-2架构的新型医学图像分割基础模型。具体而言,我们在图像编码器中引入了一个时序适配器以捕捉图像间的关联,并采用了一种置信度驱动的记忆机制来存储高确定性特征以供后续检索。这种基于记忆的策略有效应对了大规模医学数据集中普遍存在的噪声问题,并在遇到新任务或模态时减轻了灾难性遗忘。为了训练和评估SAMed-2,我们构建了MedBank-100k,一个涵盖七种成像模态和21项医学分割任务的综合数据集。我们在内部基准测试及10个外部数据集上的实验表明,在多任务场景下,SAMed-2相较于现有最先进的基线方法表现出更优的性能。代码已发布于:https://github.com/ZhilingYan/Medical-SAM-Bench。
近期,基於擴散變換器模型的運動引導視頻生成技術,如Tora,已取得顯著進展。本文介紹了Tora的升級版——Tora2,該版本通過多項設計改進,進一步提升了在外觀與運動定制方面的能力。具體而言,我們引入了一種解耦的個性化提取器,能夠為多個開放集實體生成全面的個性化嵌入,相比以往方法,更好地保留了細粒度的視覺細節。在此基礎上,我們設計了一種門控自注意力機制,用於整合每個實體的軌跡、文本描述及視覺信息,這一創新顯著減少了訓練過程中多模態條件對齊的偏差。此外,我們還引入了一種對比損失,通過運動與個性化嵌入之間的顯式映射,聯合優化軌跡動態與實體一致性。據我們所知,Tora2是首個實現視頻生成中多實體外觀與運動同步定制的方法。實驗結果表明,Tora2在與頂尖定制方法的性能對比中表現出競爭力,同時提供了先進的運動控制能力,這標誌著多條件視頻生成領域的關鍵進展。項目頁面:https://github.com/alibaba/Tora。
長上下文處理已成為大型語言模型(LLMs)的一項基本能力。為了評估模型的長上下文性能,眾多長上下文評估基準被提出。然而,這些基準在評估設置上的差異導致了結果的不一致,使得難以進行可靠的比較。此外,長上下文評估的高計算成本也為社群全面評估長上下文模型設置了重大障礙。本文中,我們提出了LOOM-Scope,一個全面且高效的長上下文評估框架。LOOM-Scope在多樣化的基準中標準化了評估設置,支持部署高效的長上下文推理加速方法,並引入了一個全面而輕量級的基準套件來綜合評估模型。主頁:https://loomscope.github.io
大型語言模型(LLMs)在多種任務中展現了卓越的能力,然而它們也表現出對訓練數據的記憶現象。這一現象引發了關於模型行為、隱私風險以及學習與記憶之間界限的關鍵問題。針對這些問題,本文綜述了近期研究,探討了記憶的現狀、影響因素及其檢測與緩解方法。我們深入探討了包括訓練數據重複、訓練動態和微調程序在內的主要驅動因素,這些因素影響了數據的記憶。此外,我們檢視了基於前綴的提取、成員推斷和對抗性提示等方法,評估了它們在檢測和測量記憶內容方面的有效性。除了技術分析,我們還探討了記憶的更廣泛影響,包括法律和倫理層面的含義。最後,我們討論了緩解策略,如數據清理、差分隱私和訓練後遺忘,同時強調了在最小化有害記憶與保持模型效用之間平衡的開放性挑戰。本文從技術、隱私和性能三個維度,全面概述了當前關於LLM記憶的研究現狀,並指出了未來工作的關鍵方向。
我們提出了any4,這是一種針對大型語言模型(LLMs)的學習型4位元權重量化解決方案,它能夠提供任意的數值表示,而無需對權重或激活進行預處理。在對多種模型規模、代次和系列(如Llama 2、Llama 3、Mistral和Mixtral)的評估中,any4相比其他相關的4位元數值表示類型(如int4、fp4和nf4)展現出更高的準確性。儘管any4不需要對權重或激活進行預處理,但它與需要此類預處理的正交技術(例如AWQ和GPTQ)相比也具備競爭力。我們還對any3和any2進行了實驗,並展示了在更低位元下的競爭力。此外,我們證明可以使用單一精心挑選的多樣化樣本進行校準,而非像大多數量化方法那樣需要從數據集中抽取數百個樣本。我們還開源了tinygemm,這是一個針對LLMs的延遲優化GPU矩陣乘法庫,它通過GPU高效的查找表策略實現了any4,並支持其他常見的量化方法。我們的代碼已開源於https://github.com/facebookresearch/any4。
語義場景補全(Semantic Scene Completion, SSC)旨在從單一圖像推斷場景的三維幾何結構與語義信息。與以往依賴於昂貴的真實標註的SSC研究不同,我們在無監督的設定下探索SSC。我們的新方法SceneDINO,借鑑了自監督表示學習與二維無監督場景理解技術,將其應用於SSC。我們的訓練僅利用多視圖一致性自監督,無需任何形式的語義或幾何真實標註。給定單一輸入圖像,SceneDINO以前饋方式推斷三維幾何結構及富有表現力的三維DINO特徵。通過一種新穎的三維特徵蒸餾方法,我們獲得了無監督的三維語義。在無監督的三維與二維場景理解任務中,SceneDINO均達到了最先進的分割精度。對我們的三維特徵進行線性探測,其分割精度可與當前有監督的SSC方法相媲美。此外,我們展示了SceneDINO在領域泛化與多視圖一致性方面的能力,為單圖像三維場景理解奠定了初步的堅實基礎。
組合理解對於人類智能至關重要,然而當代視覺模型是否具備此能力仍不明確。主流的機器學習範式建立在一個前提之上,即擴大數據規模和模型尺寸將提升分佈外性能,包括組合泛化能力。我們通過控制實驗系統性地改變數據規模、概念多樣性及組合覆蓋率來檢驗這一前提。我們發現,組合泛化能力由數據多樣性驅動,而非單純的數據規模。增加組合覆蓋率迫使模型發現一種線性分解的表徵結構,其中概念被分解為可加性組件。我們證明這種結構是效率的關鍵,能夠從少量觀察到的組合中實現完美泛化。評估預訓練模型(DINO、CLIP)時,我們發現其表現雖高於隨機但仍不完美,表明這種結構僅部分存在。我們的工作激勵了在構建多樣化數據集以促進組合泛化方面給予更多重視,並考慮到支持高效組合學習的表徵結構的重要性。代碼可在https://github.com/oshapio/visual-compositional-generalization獲取。
文本到圖像生成技術的進步主要集中於英語,這為非英語使用者設置了障礙,並加劇了數字不平等。雖然現有系統依賴於翻譯管道,但這些管道引入了語義漂移、計算開銷和文化錯位。我們推出了NeoBabel,這是一種新型的多語言圖像生成框架,在性能、效率和包容性方面設定了新的帕累托前沿,支持六種語言:英語、中文、荷蘭語、法語、印地語和波斯語。該模型結合了大規模多語言預訓練和高分辨率指令微調進行訓練。為了評估其能力,我們將兩個僅限英語的基準擴展為多語言等效基準:m-GenEval和m-DPG。NeoBabel在保持強大英語能力的同時,實現了最先進的多語言性能,在m-GenEval上得分0.75,在m-DPG上得分0.68。值得注意的是,它在英語任務上與領先模型表現相當,而在多語言基準上則分別超出+0.11和+0.09,儘管這些模型基於多語言基礎LLM構建。這證明了我們針對性對齊訓練在保持和擴展跨語言泛化方面的有效性。我們進一步引入了兩個新指標,以嚴格評估多語言對齊和對代碼混合提示的魯棒性。值得注意的是,NeoBabel在體積小2-4倍的情況下,與僅限英語的模型相當或超越。我們發布了一個開放工具包,包括所有代碼、模型檢查點、一個包含1.24億多語言文本-圖像對的策劃數據集,以及標準化的多語言評估協議,以推動包容性AI研究。我們的工作表明,多語言能力不是一種權衡,而是提高生成AI魯棒性、效率和文化保真度的催化劑。
我们设计并实现了AXLearn,一个旨在促进大规模深度学习模型可扩展及高性能训练的生产级深度学习系统。相较于其他顶尖的深度学习系统,AXLearn独具特色地强调模块化设计,并支持异构硬件基础设施。AXLearn内部软件组件间的接口遵循严格的封装原则,使得不同组件能够灵活组合,从而在异构计算基础设施上加速模型开发与实验进程。我们引入了一种通过代码行数(LoC)复杂度来量化模块化的新方法,该方法展示了我们的系统在组件扩展时如何保持恒定的复杂度,而其他系统则呈现线性或二次方复杂度增长。这一特性使得诸如旋转位置嵌入(RoPE)等功能能够仅需10行代码即可集成到AXLearn的数百个模块中,相比之下,其他系统则需数百行代码。同时,AXLearn在性能上可与最先进的训练系统相媲美。最后,我们分享了在AXLearn开发与运维过程中的实践经验。
近期,图扩散模型(GDMs)的进展已能合成逼真的网络结构,然而确保生成数据的公平性仍是一个关键挑战。现有解决方案试图通过重新训练GDMs并加入临时公平性约束来减轻偏见。相反,在本研究中,我们提出了FAROS,一种新颖的公平图生成框架,该框架利用属性切换机制,并直接在预训练GDMs的生成过程中运行。从技术上讲,我们的方法通过在生成过程中改变节点的敏感属性来实现这一目标。为此,FAROS计算了切换节点的最佳比例,并通过设置定制的多标准约束来选择执行切换的扩散步骤,以保持原始分布中的节点拓扑特征(作为准确性的代理),同时确保生成图中边对敏感属性的独立性(作为公平性的代理)。我们在链接预测的基准数据集上的实验表明,所提出的方法有效减少了公平性差异,同时保持了与其他类似基线相当(甚至更高)的准确性表现。值得注意的是,在帕累托最优性概念下,FAROS在某些测试设置中能够实现比其它竞争者更好的准确性-公平性权衡,这证明了所施加的多标准约束的有效性。