每日精選AI研究論文及翻譯
我們提出了StdGEN,一個創新的流程,從單張圖像中生成語義分解的高質量3D角色,可廣泛應用於虛擬現實、遊戲和電影製作等領域。與以往的方法不同,這些方法在分解能力有限、質量不佳和優化時間長方面存在問題,StdGEN具有分解能力、效果和效率;即在三分鐘內生成具有細緻細節的3D角色,並分離語義組件,如身體、衣服和頭髮。StdGEN的核心是我們提出的語義感知大型重建模型(S-LRM),這是一個基於Transformer的通用模型,可以以前向傳播的方式從多視圖圖像中聯合重建幾何、顏色和語義。引入了可微分的多層語義表面提取方案,從我們的S-LRM重建的混合隱式場中獲取網格。此外,還將專門的高效多視圖擴散模型和迭代多層表面細化模塊集成到流程中,以促進高質量、可分解的3D角色生成。大量實驗證明了我們在3D動漫角色生成方面的最新性能,在幾何、紋理和分解能力方面明顯優於現有基準。StdGEN提供即用的語義分解3D角色,並為各種應用提供靈活的定制功能。項目頁面:https://stdgen.github.io
CLIP是當今最重要的多模式基礎模型之一。CLIP的能力來自於什麼?自然語言提供的豐富監督訊號,這是人類知識的載體,塑造了一個強大的跨模式表示空間。然而,隨著大型語言模型(LLMs)如GPT-4和LLaMA的快速進展,語言理解和生成的界限不斷被推進。這帶出了一個有趣的問題:LLMs的能力能否被利用來進一步改善多模式表示學習?將LLMs納入CLIP中的潛在好處是顯而易見的。LLMs強大的文本理解能力可以從根本上改善CLIP處理圖像標題的能力,徹底提升其處理長篇和複雜文本的能力,這是普通CLIP已知的局限。此外,LLMs在龐大的文本語料庫上進行訓練,擁有開放世界知識。這使它們能夠在訓練過程中擴展標題信息,提高學習過程的效率。在本文中,我們提出了LLM2CLIP,這是一種採用LLMs潛力的新方法。通過在對比學習中在標題空間中微調LLM,我們將其文本能力提取到輸出嵌入中,顯著提高了輸出層的文本可區分性。然後,我們設計了一個高效的訓練過程,其中經過微調的LLM作為CLIP的視覺編碼器的強大教師。由於LLM的存在,我們現在可以納入更長更複雜的標題,而不受普通CLIP文本編碼器的上下文窗口和能力限制。我們的實驗表明,這種方法在跨模式任務中帶來了顯著的改進。
大型語言模型(LLMs)展現了令人印象深刻的能力,但在需要多步驟的複雜推理任務上仍然面臨困難。儘管像“Chain-of-Thought”(CoT)這樣的提示式方法可以改善LLM在推論時的推理能力,但在訓練期間優化推理能力仍然具有挑戰性。我們引入了LaTent Reasoning Optimization(LaTRO),這是一個原則性框架,將推理定義為從潛在分布中取樣並通過變分方法進行優化。LaTRO使LLMs能夠同時改善其推理過程和評估推理質量的能力,而無需外部反饋或獎勵模型。我們通過在GSM8K和ARC-Challenge數據集上使用多種模型架構的實驗來驗證LaTRO。在GSM8K上,LaTRO將零-shot準確性平均提高了12.5%,比基礎模型提高了9.6%,超過了Phi-3.5-mini、Mistral-7B和Llama-3.1-8B的監督微調。我們的研究結果表明,預訓練的LLMs具有潛在的推理能力,可以通過我們提出的自我改進方法進行解鎖和增強。LaTRO的代碼可在https://github.com/SalesforceAIResearch/LaTRO 上找到。
管道並行性被廣泛應用於擴展基於變壓器的大型語言模型的訓練,已經有各種工作來改進其吞吐量和內存佔用。本文解決了一個經常被忽視的問題:詞彙層可能導致管道階段之間的計算和內存使用不平衡,加劇了管道氣泡和內存瓶頸。為了應對這一問題,我們將詞彙層均勻地劃分到管道設備上並將計算分組為管道通過。為了減少激活內存開銷,我們提出了幾種算法來減少詞彙層內的通信障礙。此外,我們利用一種通用方法將詞彙並行性與現有的管道計劃集成在一起。通過結合這些技術,我們的方法有效地平衡了計算和參數內存,只有一個很小的恆定激活內存開銷。值得注意的是,當與像V-Half這樣的激活內存平衡計劃結合時,我們的方法在內存和計算方面實現了完美平衡。廣泛的評估表明,我們的方法實現了計算和內存平衡,無論詞彙大小如何,與天真方法相比,吞吐量提高了5%至51%,同時顯著減少了內存使用峰值,特別是對於大詞彙情況。我們的實現已在https://github.com/sail-sg/VocabularyParallelism 開源。
對大型語言模型(LLMs)進行微調對於提升其在特定任務上的表現至關重要,但由於存在冗餘或無信息的數據,這往往需要耗費大量資源。為解決這種低效問題,我們引入了DELIFT(Data Efficient Language model Instruction Fine-Tuning),這是一種新穎的算法,系統地優化了微調的三個關鍵階段中的數據選擇:(1)指令微調,(2)特定任務的微調(例如推理、問答),以及(3)持續微調(例如整合新數據版本)。與現有方法不同,這些方法著重於單階段優化或依賴於計算密集型的梯度計算,DELIFT在所有階段都能高效運作。我們方法的核心是一種成對效用度量標準,該標準量化了一個數據樣本對於改善模型對其他樣本的響應有多有益,有效地測量了信息價值相對於模型當前能力的情況。通過利用應用於這個度量標準的不同子模模函數,DELIFT選擇出多樣化和最佳子集,這些子集在微調的所有階段都是有用的。通過在各種任務和模型規模上進行的實驗表明,DELIFT可以將微調數據大小減少多達70%,同時不影響性能,提供了顯著的計算節省,並在效率和功效方面優於現有方法。
本文旨在設計一個統一的電腦輔助設計(CAD)生成系統,可以根據用戶以文本描述、圖像、點雲甚至它們的組合形式輸入,輕鬆生成CAD模型。為了實現這一目標,我們引入了CAD-MLLM,這是第一個能夠生成參數化CAD模型並以多模態輸入為條件的系統。具體來說,在CAD-MLLM框架內,我們利用CAD模型的命令序列,然後利用先進的大型語言模型(LLMs)來對齊這些不同多模態數據和CAD模型的向量表示的特徵空間。為了促進模型訓練,我們設計了一個全面的數據構建和標註流程,為每個CAD模型配備相應的多模態數據。我們的結果數據集名為Omni-CAD,是第一個包含文本描述、多視圖圖像、點和命令序列的多模態CAD數據集。它包含約450K個實例及其CAD構建序列。為了徹底評估我們生成的CAD模型的質量,我們超越了目前僅關注重建質量的評估指標,引入了評估拓撲質量和表面封閉範圍的額外指標。廣泛的實驗結果表明,CAD-MLLM明顯優於現有的有條件生成方法,並且對噪音和缺失點具有高度的魯棒性。項目頁面和更多可視化內容可在以下網址找到:https://cad-mllm.github.io/
大型語言模型(LLMs)如GitHub Copilot的出現顯著提升了程式設計人員的生產力,特別是在程式碼生成方面。然而,這些模型在沒有進行微調的情況下通常難以應對現實世界的任務。隨著LLMs變得更大且性能更好,針對專業任務的微調變得越來越昂貴。參數高效微調(PEFT)方法僅微調模型參數的子集,提供了一種有前途的解決方案,可以降低調整LLMs的計算成本,同時保持其性能。現有研究已探索了在各種與程式碼相關的任務中使用PEFT和LLMs,並發現PEFT技術的有效性取決於任務。在單元測試生成中應用PEFT技術仍未被充分探索。目前最先進的方法僅使用完全微調的LLMs來生成單元測試。本文研究了完全微調和各種PEFT方法,包括LoRA、(IA)^3和提示微調,在不同的模型架構和尺寸上。我們使用成熟的基準數據集來評估它們在單元測試生成中的有效性。我們的研究結果表明,PEFT方法可以提供與完全微調相當的性能,使專業微調更具可行性和成本效益。值得注意的是,就成本和資源利用而言,提示微調是最有效的,而LoRA在幾種情況下接近完全微調的效果。
現代語言模型能夠處理來自不同語言和模態的輸入。我們假設這些模型通過學習跨異質數據類型(例如不同語言和模態)之間的共享表示空間來獲得這種能力,該空間將語義上相似的輸入放置在一起,即使它們來自不同的模態/語言。我們稱之為語義中樞假設,這源自神經科學中的中樞-輻輪模型(Patterson等人,2007),該模型認為人類大腦中的語義知識是通過一個跨模態的語義“中樞”組織的,該中樞整合了來自各種模態特定的“輻輪”區域的信息。我們首先展示,在中間層中,不同語言中語義等效輸入的模型表示是相似的,並且可以通過模型的主要預訓練語言使用對數鏡片來解釋這個空間。這種趨勢擴展到其他數據類型,包括算術表達式、代碼和視覺/音頻輸入。對一種數據類型中的共享表示空間的干預也可以預測地影響其他數據類型中模型的輸出,這表明這種共享表示空間不僅僅是在廣泛數據上的大規模訓練的副產品,而是模型在輸入處理過程中積極利用的東西。
精煉的視覺語言模型(VLMs)常常捕捉到影像特徵與文字屬性之間的虛假相關性,導致在測試時性能下降。現有方法針對虛假相關性的解決方案(i)主要在全局影像層面操作,而非直接介入精細的影像特徵,以及(ii)主要設計用於單模態設置。在本研究中,我們提出 RaVL,通過發現並減輕虛假相關性,以局部影像特徵而非在全局影像層面操作,從而對 VLM 的穩健性提出了精細的觀點。給定一個精煉的 VLM,RaVL 首先通過利用區域級別的聚類方法來識別導致零樣本分類錯誤的精確影像特徵,發現虛假相關性。然後,RaVL 通過一個新穎的區域感知損失函數來減輕已識別的虛假相關性,使 VLM 在精煉過程中專注於相關區域並忽略虛假關係。我們在 654 個 VLM 上評估了 RaVL,這些 VLM 具有各種模型架構、數據領域和學習的虛假相關性。我們的結果顯示,RaVL 能夠準確發現(比最接近的基線改進了 191%)和減輕(最差組圖像分類準確性改進了 8.2%)虛假相關性。對於一般領域和醫學領域的 VLMs 進行的定性評估驗證了我們的發現。
技術債(TD)是一個術語,用於描述當開發人員選擇快速簡便的解決方案而非更有效且設計良好但耗時的方法時,所產生的額外工作和成本。自我承認的技術債(SATD)是一種特定類型的技術債,開發人員有意識地記錄和承認,通常通過文字註釋。儘管這些自我承認的註釋對於識別技術債是一個有用的工具,但大多數現有方法都專注於捕獲與各種類型的TD相關的關鍵標記,忽略了源代碼本身所包含的豐富信息。最近的研究集中於通過分析源代碼中嵌入的註釋來檢測SATD,對於包含在源代碼中的技術債,卻鮮有相應的研究。為了填補這一空白,在這項研究中,通過分析來自Stack語料庫中974個Java項目的註釋及其相關的源代碼,我們編制了第一個由代碼註釋識別的TD數據集,並附帶其相關的源代碼。通過實證評估,我們發現所得數據集的註釋有助於提升最先進的SATD檢測模型的預測性能。更重要的是,包括分類的源代碼顯著提高了預測各種類型技術債的準確性。在這方面,我們的工作具有雙重意義:(i)我們相信我們的數據集將促進該領域未來的工作,激發與技術債識別相關的各種研究問題;(ii)所提出的分類器可能為通過精心編制的數據集進行TD檢測的其他研究提供基準。