每日精選AI研究論文及翻譯
圖像編輯涉及各種複雜任務,需要高效和精確的操作技巧。本文介紹了MagicQuill,一個整合的圖像編輯系統,能夠快速實現創意想法。我們的系統具有簡潔而功能強大的界面,可通過最少的輸入進行編輯操作(例如插入元素、擦除物件、改變顏色)。這些互動由多模式大型語言模型(MLLM)監控,以實時預測編輯意圖,無需明確提示輸入。最後,我們應用了一個強大的擴散先驗,通過精心學習的雙分支插件模塊進行處理,實現精確控制的編輯請求。實驗結果證明了MagicQuill在實現高質量圖像編輯方面的有效性。請訪問https://magic-quill.github.io 以試用我們的系統。
本研究探討擴展大型語言模型(LLMs)的能力,透過在統一模型中預訓練的文本生成3D網格。這提供了關鍵優勢,包括(1)利用已嵌入LLMs中的空間知識,來自於文本來源如3D教程,以及(2)實現對話式3D生成和網格理解。主要挑戰之一是有效地將3D網格數據分詞為LLMs可以無縫處理的離散標記。為了應對這一挑戰,我們引入了LLaMA-Mesh,一種新穎的方法,將3D網格的頂點坐標和面定義表示為純文本,從而實現與LLMs的直接集成,而無需擴展詞彙表。我們構建了一個監督微調(SFT)數據集,使預訓練的LLMs能夠(1)從文本提示生成3D網格,(2)根據需要生成交錯的文本和3D網格輸出,以及(3)理解和解釋3D網格。我們的研究首次證明,LLMs可以被微調以獲得用於3D網格生成的複雜空間知識,以文本形式呈現,有效地統一了3D和文本模態。LLaMA-Mesh實現了與從頭開始訓練的模型相當的網格生成質量,同時保持較強的文本生成性能。
隨著語言模型變得越來越龐大,它們的詞彙量也隨之增加。這導致在訓練期間,LLM 的記憶體佔用不成比例地轉移到一個單獨的層:交叉熵在損失計算中。交叉熵建立了一個 logit 矩陣,其中包含每對輸入標記和詞彙項的條目,對於小型模型而言,其消耗的記憶體比LLM 的其餘部分多一個數量級。我們提出了Cut Cross-Entropy(CCE)方法,該方法計算交叉熵損失,而無需將所有標記的 logits 實現為全局記憶體中的矩陣。相反,CCE僅計算正確標記的 logits,並即時評估所有 logits 的 log-sum-exp。我們實現了一個自定義核心,該核心在快閃記憶體中對詞彙進行矩陣乘法和 log-sum-exp 減少,使得交叉熵計算的全局記憶體消耗可以忽略不計。這產生了戲劇性的效果。以Gemma 2(2B)模型為例,CCE將損失計算的記憶體佔用從24 GB減少到1 MB,將分類器頭部的總訓練時間記憶體消耗從28 GB降至1 GB。為了提高CCE的吞吐量,我們利用 softmax 的固有稀疏性,並建議跳過對梯度計算貢獻微不足道(即低於數值精度)的元素。實驗表明,記憶體消耗的戲劇性減少是在不犧牲訓練速度或收斂性的情況下實現的。
大型語言模型(LLMs)具有極大的潛力,可以革新當前的臨床系統,因為它們在醫學文本處理任務和醫學許可考試方面具有卓越的能力。與此同時,傳統的機器學習模型,如支持向量機(SVM)和XGBoost,仍然主要應用於臨床預測任務中。一個新興問題是,LLMs能否在臨床預測中擊敗傳統的機器學習模型?因此,我們建立了一個新的基準測試ClinicalBench,來全面研究通用和醫學LLMs的臨床預測建模能力,並將它們與傳統機器學習模型進行比較。ClinicalBench包含三個常見的臨床預測任務、兩個數據庫、14個通用LLMs、8個醫學LLMs和11個傳統機器學習模型。通過廣泛的實證研究,我們發現,無論是通用還是醫學LLMs,即使在不同的模型規模、不同的提示或微調策略下,仍然無法在臨床預測中擊敗傳統的機器學習模型,這揭示了它們在臨床推理和決策方面潛在的不足。我們呼籲從業者在臨床應用中使用LLMs時要謹慎。ClinicalBench可用於彌合LLMs在醫療保健領域發展和現實世界臨床實踐之間的差距。
使用者活動的影片錄影,尤其是桌面錄影,提供了豐富的數據來源,用於理解使用者行為並自動化流程。然而,儘管視覺語言模型(VLMs)的進展以及它們在影片分析中的日益使用,從桌面錄影中提取使用者動作仍然是一個未被充分探索的領域。本文通過提出兩種基於VLM的新方法來提取使用者動作來填補這一空白:直接基於幀的方法(DF),將採樣的幀直接輸入VLM,以及差異基於幀的方法(DiffF),通過計算機視覺技術檢測到的明確幀差異進行融合。我們使用基本的自行製作數據集和從先前工作中調整的先進基準來評估這些方法。我們的結果顯示,DF方法在識別使用者動作方面達到了70%至80%的準確率,提取的動作序列可以透過機器人流程自動化重新播放。我們發現,雖然VLMs具有潛力,但融入明確的UI變化可能會降低性能,使DF方法更可靠。這項工作代表了首次應用VLMs從桌面錄影中提取使用者動作序列,為未來研究提供了新的方法、基準和見解。
儘管擴散模型能夠生成品質極高的樣本,但其昂貴的迭代採樣程序內在上存在瓶頸。一致性模型(CMs)最近已嶄露頭角,作為一種有前途的擴散模型蒸餾方法,通過僅需少數迭代即可生成高保真度樣本,從而降低採樣成本。一致性模型蒸餾的目標是解決由現有擴散模型定義的概率流常微分方程(ODE)。CMs並非直接訓練以最小化對ODE求解器的誤差,而是使用更易於計算的客觀函數。為了研究CMs如何有效解決概率流ODE以及任何誘發誤差對生成樣本品質的影響,我們引入了直接CMs,直接最小化這種誤差。有趣的是,我們發現與CMs相比,直接CMs降低了ODE求解誤差,但也導致生成樣本品質顯著下降,這引發了對CMs為何起初表現良好的質疑。完整代碼可在以下鏈接找到:https://github.com/layer6ai-labs/direct-cms。
隨著蜂窩網絡系統日益複雜,自動化網絡運營的需求不斷增長。儘管有所進展,但由於依賴人類干預來建模網絡行為並定義滿足目標需求的政策,完全自主目前仍難以實現。網絡數字孿生體(NDTs)顯示出增強網絡智能的潛力,但該技術的成功應用受到用例特定架構的限制,限制了其在推進網絡自主性方面的作用。需要更具能力的網絡智能,即“電信大腦”,以實現對蜂窩網絡的無縫自主管理。大型語言模型(LLMs)已被提出作為實現這一願景的潛在推動者,但在網絡建模方面面臨挑戰,尤其是在推理和處理多樣數據類型方面。為了解決這些差距,我們引入了 Hermes,一系列LLM代理的鏈,通過結構化和可解釋的邏輯步驟使用“藍圖”來構建NDT實例。Hermes實現了對多樣用例和配置進行自動、可靠和準確的網絡建模,從而實現了向完全自主網絡運營的進展。