每日精選AI研究論文及翻譯
自回歸模型(ARMs)被廣泛視為大型語言模型(LLMs)的基石。我們通過引入LLaDA來挑戰這一觀念,LLaDA是一個從頭開始在預訓練和監督微調(SFT)範式下訓練的擴散模型。LLaDA通過正向數據遮罩過程和一個反向過程來建模分佈,由一個普通的Transformer參數化以預測遮罩的標記。通過優化一個可能性下界,它提供了一種基於原則的生成方法來進行概率推斷。在廣泛的基準測試中,LLaDA展現出強大的可擴展性,勝過我們自行構建的ARM基準。值得注意的是,LLaDA 8B在上下文學習方面與強大的LLMs如LLaMA3 8B相媲美,在SFT後,在多輪對話等案例研究中展現出令人印象深刻的遵循指示能力。此外,LLaDA解決了反轉詛咒,超越了在反轉詩歌完成任務中的GPT-4o。我們的研究結果確立了擴散模型作為ARM的一個可行且有前途的替代方案,挑戰了上述關鍵LLM能力與ARM固有聯繫的假設。
大型推理模型(LRMs)代表了人工智慧解決問題能力的突破,但它們在互動環境中的效果可能受到限制。本文介紹並分析了LRMs中的過度思考現象,即模型偏好延長的內部推理鏈路而非與環境的互動。通過在使用SWE Bench Verified的軟體工程任務上進行實驗,我們觀察到三個反覆出現的模式:分析癱瘓、不當行動和過早脫離。我們提出了一個研究這些行為的框架,與人類專家評估相關聯,並分析了4018個軌跡。我們觀察到,過度思考分數較高與性能下降呈正相關,推理模型比非推理模型更傾向於過度思考。我們的分析顯示,在代理環境中緩解過度思考的簡單努力,例如選擇過度思考分數較低的解決方案,可以將模型性能提高近30%,同時將計算成本降低43%。這些結果表明,緩解過度思考具有重要的實際意義。我們建議通過利用本地函數調用能力和選擇性強化學習,可以緩解過度思考的趨勢。我們還將我們的評估框架和數據集開源,以促進在這個方向上的研究,網址為https://github.com/AlexCuadron/Overthinking。
我們提出了 Step-Video-T2V,一種最先進的文本轉視頻預訓練模型,具有 30B 個參數,能夠生成長達 204 幀的視頻。我們設計了一種深度壓縮變分自編碼器 Video-VAE 用於視頻生成任務,實現了 16x16 的空間和 8x 的時間壓縮比,同時保持了出色的視頻重建質量。用戶提示信息使用兩個雙語文本編碼器進行編碼,以處理英文和中文。通過使用 Flow Matching 訓練具有 3D 全注意力的 DiT 來將輸入噪聲去噪為潛在幀。我們應用基於視頻的 DPO 方法 Video-DPO 來減少瑕疵並提高生成視頻的視覺質量。我們還詳細介紹了我們的訓練策略,並分享了關鍵觀察和見解。Step-Video-T2V 的性能在一個新的視頻生成基準 Step-Video-T2V-Eval 上進行了評估,與開源和商業引擎相比,展示了其領先的文本轉視頻質量。此外,我們討論了當前基於擴散的模型範式的局限性,並概述了視頻基礎模型的未來方向。我們將 Step-Video-T2V 和 Step-Video-T2V-Eval 都提供在 https://github.com/stepfun-ai/Step-Video-T2V。在線版本也可從 https://yuewen.cn/videos 訪問。我們的目標是加速視頻基礎模型的創新,並賦予視頻內容創作者更大的能力。
擴散模型(DMs)已成為跨不同領域生成任務的首選。然而,它們對多個連續前向傳遞的依賴顯著限制了實時性能。先前的加速方法主要集中於減少採樣步驟的數量或重複使用中間結果,未能利用圖像內空間區域的變化,這是由於卷積 U-Net 結構的限制。通過利用擴散變形器(DiTs)在處理可變數量的標記方面的靈活性,我們引入了 RAS,一種新穎的、無需訓練的採樣策略,根據 DiT 模型的焦點動態分配不同的採樣比率給圖像內的區域。我們的關鍵觀察是,在每個採樣步驟中,模型專注於語義上有意義的區域,這些焦點區域在連續步驟中表現出強烈的連續性。利用這一洞察,RAS僅更新當前焦點區域,而其他區域則使用前一步驟的緩存噪聲進行更新。模型的焦點是基於前一步驟的輸出來確定的,利用我們觀察到的時間一致性。我們在 Stable Diffusion 3 和 Lumina-Next-T2I 上評估了 RAS,分別實現了高達 2.36x 和 2.51x 的加速,並在生成質量上幾乎沒有降低。此外,用戶研究顯示,在人類評估下,RAS 提供了可比擬的質量,同時實現了 1.6x 的加速。我們的方法在更高效的擴散變形器方面邁出了重要一步,增強了它們在實時應用中的潛力。
大型多模型(LMMs)在解釋圖像時存在主要缺陷,某些指標顯示它們的空間認知能力比小孩或動物還要差。儘管如此,它們在許多流行的視覺基準測試中取得高分,但這些成績很快就會被不斷進步的模型所超越。為了應對這一問題,迫切需要更具挑戰性的基準測試,以保持長期的相關性。我們將這個想法推向極限,引入了ZeroBench-一個輕量級的視覺推理基準測試,對於當前領先的LMMs來說完全不可能。我們的基準測試包含100個手動精選問題和334個較不困難的子問題。我們對20個LMMs在ZeroBench上的表現進行評估,所有模型得分均為0.0%,並對錯誤進行嚴格分析。為了推動視覺理解的進步,我們公開發布了ZeroBench。
儘管多模式大型語言模型(MLLMs)取得了顯著進展,但大多數最先進的模型尚未與人類偏好進行深入對齊。這種差距存在是因為目前的對齊研究主要在特定領域取得了進展(例如,幻覺減少),而對於將模型與人類偏好對齊是否可以系統性地增強MLLM能力的更廣泛問題尚未得到充分探討。為此,我們引入了MM-RLHF,一個包含12萬個精細人工標註偏好比較對的數據集。該數據集相對現有資源來說是一個重大進步,提供了更大的規模、多樣性、標註細節和質量。利用這個數據集,我們提出了幾個關鍵創新,以提高獎勵模型的質量和對齊算法的效率。特別是,我們引入了基於評論的獎勵模型,在給出分數之前生成模型輸出的評論,相較於傳統的標量獎勵機制,提供了更好的可解釋性和更具信息性的反饋。此外,我們提出了動態獎勵縮放,一種根據獎勵信號調整每個樣本損失權重的方法,從而優化高質量比較對的使用。我們的方法在10個不同維度和27個基準測試中進行了嚴格評估,結果顯示模型性能顯著且一致地提升。具體來說,使用MM-RLHF和我們的對齊算法對LLaVA-ov-7B進行微調,對話能力提高了19.5%,安全性提高了60%。 我們已將偏好數據集、獎勵模型、訓練和評估代碼以及獎勵建模和安全性基準測試開源。有關更多詳細信息,請訪問我們的項目頁面:https://mm-rlhf.github.io。
擴散模型能夠實現高質量和多樣化的視覺內容合成。然而,它們在生成罕見或從未見過的概念時遇到困難。為了應對這一挑戰,我們探索了檢索增強生成(RAG)與圖像生成模型的應用。我們提出了ImageRAG,一種根據給定的文本提示動態檢索相關圖像並將其用作上下文來引導生成過程的方法。先前利用檢索圖像來改善生成的方法,專門為基於檢索的生成訓練模型。相比之下,ImageRAG利用現有圖像條件模型的能力,並且不需要RAG特定的訓練。我們的方法高度靈活,可以應用於不同的模型類型,展示了在使用不同基礎模型時生成罕見和精細概念方面的顯著改進。 我們的項目頁面可在以下網址找到:https://rotem-shalev.github.io/ImageRAG
像OpenAI o1、o3和DeepSeek R1這樣的推理LLM在數學和編碼方面取得了顯著進展,但在挑戰性的高級任務上仍然遇到困難,例如國際數學奧林匹克(IMO)的組合問題,抽象和推理語料庫(ARC)的謎題,以及人類最後考試(HLE)的問題。我們採用多元推理方法,在測試時結合多個模型和方法。我們發現驗證數學和代碼問題,以及在其他問題上進行拒絕採樣是簡單且有效的。我們通過Lean自動驗證IMO問題的解答正確性,通過代碼驗證ARC謎題的正確性,並發現最佳N有效地回答了HLE問題。我們的方法將IMO組合問題的答案準確率從33.3%提高到77.8%,將HLE問題的準確率從8%提高到37%,解決了948名人類無法解決的80%的ARC謎題,以及o3高計算無法解決的26.5%的ARC謎題。測試時模擬、強化學習和具有推理反饋的元學習通過調整代理圖表示和變化提示、代碼和數據集來改進泛化能力。我們的方法可靠、強大且可擴展,在可重現研究的精神下,我們將在發表後公開提供。
大型語言模型(LLMs)在多種自然語言處理任務中取得了顯著成功。然而,其龐大的計算成本限制了其廣泛應用,尤其是在即時應用中。結構化剪枝提供了一種有效的解決方案,通過壓縮模型並直接提供端到端的速度提升,無論硬件環境如何。同時,模型的不同組件對剪枝表現出不同的敏感度,這要求進行非均勻的模型壓縮。然而,剪枝方法不僅需要識別出一個有效的子結構,還需要考慮壓縮後的訓練。為此,我們提出了\sysname,一種訓練感知的結構化剪枝方法。\sysname基於進化搜索過程,在每一代中通過變異生成多個子代模型,並選擇最適合的模型進行保留。為了評估訓練後的效果,我們在子代群體中引入了一個輕量級的多步訓練過程,逐步增加訓練數據量,並在每個選擇階段淘汰表現不佳的模型。我們在Llama-2-7B、Llama-3.1-8B和Qwen-2.5-14B-Instruct上進行了廣泛的實驗,驗證了我們的方法,並在結構化剪枝方面達到了最先進的性能。例如,\sysname在壓縮後訓練所需的數據量比ShearedLlama少5倍的情況下,仍超越了其性能。
大型語言模型(LLMs)通常使用多個標記來表示數字,這需要模型將這些標記聚合起來以解釋數值。這種碎片化使得訓練和推理都變得不那麼高效,並對模型在與數字相關的任務上的表現產生不利影響。受到預訓練LLMs內部學習數字標記的類似傅立葉特徵的觀察的啟發,我們提出了傅立葉數字嵌入(FoNE),這是一種直接將數字與其傅立葉特徵映射到嵌入空間的新方法。FoNE將每個數字編碼為一個標記,每位數僅具有兩個嵌入維度,有效捕捉數值而不會產生碎片化。這種緊湊的表示加快了訓練和推理的速度。與傳統的子詞和按位嵌入相比,FoNE不僅減少了計算開銷,還在各種數值任務(包括加法、減法和乘法)中實現了更高的準確性。在6位十進制加法中,FoNE僅需要64倍的數據即可實現99%的準確性,而使用的標記數分別比子詞和按位嵌入少3倍和6倍。此外,FoNE是唯一一種在超過100,000個測試示例中實現加法、減法和乘法100%準確性的方法。代碼和可視化可在https://fouriernumber.github.io/找到。
新穎的擴散模型能夠合成與高質量文本相結合的逼真圖像。令人驚訝的是,我們通過注意力激活補丁的展示,表明只有不到1%的擴散模型參數,全部包含在注意力層中,影響了圖像中文本內容的生成。基於這一觀察,我們通過針對擴散模型的交叉和聯合注意力層來提高文本生成效率和性能。我們介紹了幾個從定位負責文本內容生成的層中受益的應用。首先,我們展示了LoRA-based對局部層進行微調,進一步增強了大型擴散模型的一般文本生成能力,同時保留了擴散模型生成的質量和多樣性。然後,我們展示了如何使用局部層來編輯生成圖像中的文本內容。最後,我們將這個想法擴展到實際用例,以無成本的方式防止生成有毒文本。與先前的工作相比,我們的定位方法廣泛適用於各種擴散模型架構,包括U-Net(例如,LDM和SDXL)和基於Transformer的模型(例如,DeepFloyd IF和Stable Diffusion 3),利用各種文本編碼器(例如,從CLIP到像T5這樣的大型語言模型)。項目頁面可在https://t2i-text-loc.github.io/上找到。
這份立場文件主張,為了理解人工智慧,我們不能依賴現有的人類詞彙。相反地,我們應該努力發展新詞彙:代表我們想要教導機器的精確人類概念,或者我們需要學習的機器概念的新詞彙。我們從人類和機器擁有不同概念的前提出發。這意味著可解釋性可以被構想為一個溝通問題:人類必須能夠參照和控制機器概念,並將人類概念傳達給機器。我們相信,透過發展新詞彙來創建共享的人機語言,可以解決這個溝通問題。成功的新詞彙實現了一定程度的抽象化:不要太細節,以至於可以在許多情境中重複使用,也不要太高層次,以至於能夠傳達精確信息。作為概念證明,我們展示了如何透過「長度新詞彙」來控制LLM回應的長度,同時「多樣性新詞彙」則允許抽樣更多變化的回應。綜合來看,我們認為我們無法使用現有的詞彙來理解人工智慧,透過新詞彙的擴展可以為更好地控制和理解機器創造機會。
預訓練基礎模型(FMs)在單變量時間序列預測任務中展現了卓越的性能。然而,仍存在多項實際挑戰,包括處理特徵間複雜的依賴關係以及量化預測中的不確定性。本研究旨在通過引入適配器來解決這些關鍵限制;適配器作為特徵空間轉換,能夠有效利用預訓練的單變量時間序列FMs進行多變量任務。適配器的工作原理是將多變量輸入投影到合適的潛在空間,並獨立地對每個維度應用FM。受表示學習和部分隨機貝葉斯神經網路文獻的啟發,我們提出了一系列適配器及優化/推理策略。在合成和真實世界數據集上進行的實驗證實了適配器的有效性,相比基線方法,在預測精度和不確定性量化方面均顯示出顯著提升。我們的框架AdaPTS將適配器定位為一種模組化、可擴展且有效的解決方案,用於在多變量情境下利用時間序列FMs,從而促進其在現實世界應用中的更廣泛採用。我們在https://github.com/abenechehab/AdaPTS上公開了代碼。
低資源語言(LRLs)在自然語言處理(NLP)領域面臨著顯著挑戰,主要由於數據量有限。儘管當前最先進的大型語言模型(LLMs)在處理低資源語言時仍存在困難,但較小的多語言模型(mLMs),如mBERT和XLM-R,因其模型容量更適合低訓練數據量而展現出更大的潛力。本研究系統性地探討了基於適配器的參數高效方法,用於將多語言模型適應於低資源語言,並評估了三種架構:序列瓶頸、可逆瓶頸和低秩適應。利用GlotCC的非結構化文本和ConceptNet的結構化知識,我們展示了小規模適應數據集(例如,最多1 GB的自由文本或幾MB的知識圖譜數據)在內在任務(掩碼語言建模)和外在任務(主題分類、情感分析和命名實體識別)中的性能提升。我們發現,序列瓶頸適配器在語言建模方面表現出色,而可逆瓶頸適配器由於更好的嵌入對齊和更多的參數數量,在下游任務中略微優於其他方法。基於適配器的方法在參數使用量大幅減少的情況下,與全面微調相當或更優,且較小的多語言模型在處理低資源語言時比LLaMA-3、GPT-4和基於DeepSeek-R1的蒸餾模型等大型語言模型更為有效。儘管適應方法提升了性能,但預訓練數據量仍然是主導因素,尤其是對於預訓練覆蓋廣泛的語言而言。
在特定資料集上微調大型語言模型(LLMs)是一種常見的做法,可用來提高目標任務的性能。然而,這種性能提升通常會導致過度擬合,使模型在任務或訓練數據特徵方面過於專精,導致泛化能力下降。本文介紹了選擇性自我監督微調(S3FT),這是一種微調方法,能夠比標準監督微調(SFT)實現更好的性能並提高泛化能力。S3FT利用對一個查詢存在多個有效回應的事實。通過利用模型的正確回應,S3FT在微調階段減少了模型的專精化。S3FT首先通過部署適當的評判器從訓練集中識別出正確的模型回應。然後,它使用這些正確的模型回應以及剩餘樣本的黃金回應(或其改寫)來微調模型。通過在數學推理、Python編程和閱讀理解任務上進行實驗,證明了S3FT的有效性。結果顯示,標準SFT在多個基準測試中的平均性能下降可達4.4,如MMLU和TruthfulQA。相比之下,S3FT將這種下降減半,即2.5,表明其在泛化能力方面優於SFT,同時在微調任務上表現顯著更好。
本文提出了一種用於3D視覺定位的高效多層級卷積架構。傳統方法由於雙階段或基於點的架構而難以滿足實時推理的要求。受到3D物體檢測中多層級完全稀疏卷積架構成功的啟發,我們旨在構建一個新的3D視覺定位框架,遵循這一技術路線。然而,在3D視覺定位任務中,由於體素特徵的數量龐大,基於稀疏卷積的架構對於與文本特徵的深度交互效率低下。為此,我們提出了文本引導的修剪(TGP)和基於完成的添加(CBA)方法,通過逐步區域修剪和目標完成,以高效地深度融合3D場景表示和文本特徵。具體而言,TGP通過迭代地稀疏化3D場景表示,從而通過交叉注意力高效地將體素特徵與文本特徵進行交互。為了減輕修剪對精細幾何信息的影響,CBA通過體素完成自適應地修復過度修剪的區域,並且計算開銷幾乎可以忽略不計。與先前的單階段方法相比,我們的方法實現了頂級推理速度,並且超過了以前最快方法100%的FPS。我們的方法在準確性方面也達到了最新水平,即使與雙階段方法相比,也在ScanRefer上的Acc@0.5上領先1.13,並分別在NR3D和SR3D上領先2.6和3.2。代碼可在以下鏈接找到:https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}。
具體智能的一個關鍵目標是使代理人能夠在動態環境中執行長期任務,同時保持堅固的決策能力和適應性。為了實現這一目標,我們提出了時空記憶代理人(STMA),這是一個旨在通過整合時空記憶來增強任務規劃和執行的新框架。STMA建立在三個關鍵組件之上:(1)一個捕捉實時歷史和環境變化的時空記憶模塊,(2)一個促進適應性空間推理的動態知識圖,以及(3)一個迭代地優化任務策略的規劃者-評論者機制。我們在TextWorld環境中對STMA進行了評估,涉及32個任務,包括多步規劃和在不同複雜程度下的探索。實驗結果表明,與最先進的模型相比,STMA的成功率提高了31.25%,平均分數增加了24.7%。結果突顯了時空記憶在提升具體智能代理人記憶能力方面的有效性。
遮罩圖像建模(Masked Image Modeling, MIM)為自監督表示學習提供了一種極具前景的方法,然而現有的MIM模型仍落後於當前最先進技術。本文中,我們系統性地分析了目標表示、損失函數及架構,進而提出了CAPI——一個基於潛在聚類預測的全新純MIM框架。我們的方法採用了基於聚類的損失函數,該函數訓練穩定,並展現出良好的擴展特性。我們的ViT-L骨幹網絡CAPI,在ImageNet上達到了83.8%的準確率,在ADE20K上實現了32.1%的mIoU,僅使用簡單的線性探測器便顯著超越了以往的MIM方法,並接近了當前最先進技術DINOv2的性能。我們已公開所有代碼和模型。
在擴散模型的應用中,可控生成具有實際意義,但也具有挑戰性。目前用於可控生成的方法主要集中在修改擴散模型的得分函數,而均值回歸(MR)擴散直接修改隨機微分方程(SDE)的結構,使得圖像條件的整合更簡單、更自然。然而,目前的無需訓練的快速取樣器並不適用於MR擴散。因此,MR擴散需要數百個NFEs(函數評估次數)才能獲得高質量的樣本。在本文中,我們提出了一種名為MRS(MR取樣器)的新算法,以降低MR擴散的取樣NFEs。我們解決了與MR擴散相關的逆時SDE和概率流常微分方程(PF-ODE),並推導出半解析解。這些解包括一個解析函數和一個由神經網絡參數化的積分。基於這個解,我們可以在較少步驟中生成高質量的樣本。我們的方法不需要訓練,支持所有主流的參數化,包括噪聲預測、數據預測和速度預測。大量實驗表明,MR取樣器在十個不同的圖像恢復任務中保持高取樣質量,速度提升了10到20倍。我們的算法加速了MR擴散的取樣過程,使其在可控生成中更加實用。
CLaMP 3 是一個統一的框架,旨在應對音樂信息檢索中跨模態和跨語言泛化的挑戰。通過對比學習,它將所有主要音樂模態(包括樂譜、演奏信號和音頻錄音)與多語言文本在共享表示空間中對齊,實現跨未對齊模態的檢索,以文本作為橋樑。它具有一個適應未見語言的多語言文本編碼器,展現出強大的跨語言泛化能力。通過檢索增強生成,我們精心編輯了M4-RAG,這是一個包含 2.31 百萬音樂-文本對的大規模網絡數據集。該數據集豐富了詳細的元數據,代表了廣泛的全球音樂傳統。為了推動未來研究,我們發布了WikiMT-X,這是一個包含 1,000 套樂譜、音頻和豐富多樣文本描述的基準測試集。實驗表明,CLaMP 3 在多個音樂信息檢索任務上實現了最先進的性能,顯著超越了先前的強基線,並展現了在多模態和多語言音樂情境中的出色泛化能力。
目前的自動駕駛車輛主要依賴其個別感應器來理解周圍場景並規劃未來軌跡,然而當感應器發生故障或被遮擋時,這種方法可能變得不可靠。為解決這個問題,提出了透過車輛間通信的合作感知方法,但這些方法往往專注於檢測和追蹤。這些方法如何有助於整體合作規劃表現仍未深入探討。受最近使用大型語言模型(LLMs)構建自動駕駛系統的進展啟發,我們提出了一個將LLM整合到合作自動駕駛中的新問題設定,並提出了車輛間問答(V2V-QA)數據集和基準。我們還提出了我們的基準方法車輛間大型語言模型(V2V-LLM),該方法使用LLM將來自多個連接的自動駕駛車輛(CAVs)的感知信息融合,並回答與駕駛相關的問題:定位、顯著物體識別和規劃。實驗結果顯示,我們提出的V2V-LLM可以成為執行合作自動駕駛中各種任務的有前途的統一模型架構,並優於使用不同融合方法的其他基準方法。我們的工作還開創了一個新的研究方向,可以提高未來自動駕駛系統的安全性。我們的項目網站:https://eddyhkchiu.github.io/v2vllm.github.io/。
拒絕訓練大型語言模型(LLMs)可防止有害輸出,但這種防禦仍然容易受到自動化和人工製作的越獄攻擊。我們提出了一種新穎的LLM作為紅隊成員的方法,其中一名人類越獄一個經過拒絕訓練的LLM,使其願意越獄自己或其他LLMs。我們將越獄後的LLMs 稱為 J_2 攻擊者,它們可以通過各種紅隊策略系統地評估目標模型,並通過從先前失敗中進行上下文學習來提高性能。我們的實驗表明,Sonnet 3.5 和 Gemini 1.5 在作為 J_2 時優於其他LLMs,分別在Harmbench上對GPT-4o(以及其他能力強大的LLMs)實現了93.0%和91.0%的攻擊成功率(ASRs)。我們的工作不僅引入了一種可擴展的戰略紅隊方法,從人類紅隊成員中汲取靈感,還突顯了越獄以進行越獄是一種被忽視的失敗模式。具體來說,一個LLM可以通過使用一個願意協助進一步越獄的越獄版本來繞過自己的保護措施。為了防止J_2的直接濫用,同時推進AI安全研究,我們公開分享我們的方法論,同時保留特定提示細節。
蛋白質是動態的分子機器,其生物功能——包括酶催化、信號傳導和結構適應——與其運動本質相關。然而,由於序列、結構和分子運動之間存在複雜且多重的關係,設計具有特定動態特性的蛋白質仍是一大挑戰。本文介紹了VibeGen,這是一個生成式AI框架,能夠基於正態模態振動進行端到端的從頭蛋白質設計。VibeGen採用了一種雙模型架構,包含一個根據指定振動模式生成序列候選的蛋白質設計器,以及一個評估其動態準確性的蛋白質預測器。這種方法在設計過程中協同了多樣性、準確性和新穎性。通過全原子分子模擬作為直接驗證,我們展示了所設計的蛋白質在保持各種穩定且功能相關結構的同時,精確地再現了主鏈上規定的正態模態振幅。值得注意的是,生成的序列是從頭設計的,與天然蛋白質無顯著相似性,從而將可探索的蛋白質空間擴展至超越進化限制的範疇。我們的工作將蛋白質動力學整合到生成式蛋白質設計中,並建立了序列與振動行為之間直接的雙向聯繫,為工程化具有定制動態和功能特性的生物分子開闢了新途徑。這一框架對於靈活酶、動態支架和生物材料的理性設計具有廣泛意義,為基於動力學的AI驅動蛋白質工程鋪平了道路。