每日精選AI研究論文及翻譯
在具身體的人工智慧領域中,具有部分觀察能力的規劃是一個核心挑戰。過去的大部分研究是通過開發能夠在環境中進行物理探索以更新對世界狀態信念的代理來應對這一挑戰。相比之下,人類可以透過心智探索想像世界中看不見的部分,並通過想像的觀察來修正他們的信念。這些更新後的信念可以幫助他們做出更明智的決策,而無需始終進行對世界的物理探索。為了實現這種類似人類的能力,我們引入了生成式世界探索器(Genex),這是一個以自我為中心的世界探索框架,允許代理通過心智探索大規模的3D世界(例如城市場景),並獲取想像的觀察來更新其信念。然後,這些更新後的信念將幫助代理在當前步驟做出更明智的決策。為了訓練Genex,我們創建了一個合成的城市場景數據集,Genex-DB。我們的實驗結果表明:(1)Genex能夠在對大型虛擬物理世界進行長期探索時生成高質量且一致的觀察;(2)通過生成的觀察更新的信念可以為現有的決策模型(例如LLM代理)提供信息,從而做出更好的計劃。
多模式大型語言模型(MLLMs)的出現和日益普及具有顯著潛力,能夠增強日常生活的各個方面,從改善溝通到促進學習和問題解決。作為必不可少的日常伴侶,手機代表了最有效和可訪問的MLLMs部署平台,使其能夠無縫集成到日常任務中。然而,在手機上部署MLLMs面臨挑戰,因為記憶大小和計算能力的限制,這使得在沒有廣泛優化的情況下難以實現平滑和實時處理。在本文中,我們提出了BlueLM-V-3B,這是一種針對在移動平台上高效部署MLLMs的算法和系統共同設計方法。具體來說,我們重新設計了主流MLLMs採用的動態解析方案,並實施了硬件感知部署的系統優化,以優化手機上的模型推斷。BlueLM-V-3B擁有以下主要亮點:(1)體積小:BlueLM-V-3B具有包含27億參數的語言模型和包含4億參數的視覺編碼器。 (2)速度快:BlueLM-V-3B在MediaTek Dimensity 9300處理器上實現了24.4個token/s的生成速度,並採用了4位LLM權重量化。 (3)性能強:BlueLM-V-3B在OpenCompass基準測試中取得了66.1的最高平均分,超過了一系列具有更大參數大小的模型(例如MiniCPM-V-2.6,InternVL2-8B)中小於4B參數的模型。
我們提出了一種統一的可控影片生成方法 AnimateAnything,有助於在各種情況下實現精確且一致的影片操作,包括攝影機軌跡、文字提示和使用者動作標註。具體而言,我們精心設計了一個多尺度控制特徵融合網絡,用於構建不同情況下的共同運動表示。它明確地將所有控制信息轉換為逐幀光流。然後,我們將光流作為運動先驗,引導最終的影片生成。此外,為了減少大範圍運動引起的閃爍問題,我們提出了一個基於頻率的穩定模塊。它可以通過確保影片的頻率域一致性來增強時間上的連貫性。實驗表明,我們的方法優於最先進的方法。有關更多細節和影片,請參閱網頁:https://yu-shaonian.github.io/Animate_Anything/。
機器學習的演進越來越重視強大模型的開發和更具可擴展性的監督信號。然而,基礎模型的出現在提供進一步增強其能力所需的有效監督信號方面帶來了重大挑戰。因此,迫切需要探索新的監督信號和技術方法。本文提出了驗證器工程,這是一種專門為基礎模型時代設計的新型後訓練範式。驗證器工程的核心是利用一套自動驗證器來執行驗證任務並向基礎模型提供有意義的反饋。我們將驗證器工程過程系統地分為三個基本階段:搜索、驗證和反饋,並對每個階段內的最新研究發展進行全面回顧。我們認為,驗證器工程是實現人工通用智能的基本途徑。
大型語言模型(LLMs)通常在推理任務中採用貪婪解碼或低溫度抽樣,反映了多樣性和準確性之間的權衡。我們通過引入top-nsigma挑戰這種慣例,這是一種新穎的抽樣方法,直接在預軟最大值之前的logits上操作,利用統計閾值。我們的關鍵見解是logits自然地分為高斯分佈的噪聲區域和獨特的信息區域,從而實現有效的標記篩選,而無需複雜的概率操作。與現有方法(例如top-p、min-p)不同,這些方法在較高溫度下無意中包含更多噪聲標記,top-nsigma無論溫度如何縮放,都能保持穩定的抽樣空間。我們還對top-nsigma進行了理論分析,以更好地理解其行為。在四個以推理為重點的數據集上進行的廣泛實驗結果表明,我們的方法不僅優於現有的抽樣方法,而且超越了貪婪解碼,並且即使在高溫度下也能保持一致的性能。
重新排序器,通常是跨編碼器,常被用來重新評分由較便宜的初始IR系統檢索的文件。這是因為,儘管昂貴,重新排序器被認為更有效。我們通過測量重新排序器在完整檢索中的表現,而不僅僅是重新評分第一階段檢索,來挑戰這一假設。我們的實驗揭示了一個令人驚訝的趨勢:在逐漸評分更多文件時,最佳的現有重新排序器提供遞減的回報,實際上在某個限制之後會降低質量。事實上,在這種情況下,重新排序器經常會將與查詢沒有詞彙或語義重疊的文件賦予高分。我們希望我們的研究結果能激發未來改進重新排序的研究。
儘管基於圖像的虛擬試穿已取得相當大的進展,但新興方法在各種情境下生成高保真度和穩健的合身圖像仍然面臨挑戰。這些方法通常在紋理感知維護和尺寸感知合身等問題上遇到困難,這些問題影響了它們的整體有效性。為了解決這些限制,我們提出了一種新穎的服裝感知增強技術,稱為FitDiT,旨在使用擴散Transformer(DiT)進行高保真度的虛擬試穿,該技術分配更多參數和注意力於高分辨率特徵。首先,為了進一步改善紋理感知維護,我們引入了一種服裝紋理提取器,該提取器融合了服裝先驗進化,以微調服裝特徵,有助於更好地捕捉條紋、圖案和文字等豐富細節。此外,我們通過定製頻率距離損失,引入頻域學習,以增強高頻服裝細節。為了應對尺寸感知合身問題,我們採用了一種膨脹-放鬆的遮罩策略,適應服裝的正確長度,防止在跨類別試穿期間生成填滿整個遮罩區域的服裝。憑藉上述設計,FitDiT在定性和定量評估中均超越了所有基準線。它擅長生成合身的服裝,具有照片般逼真和精細的細節,同時在DiT結構瘦身後,單張1024x768圖像的推理時間為4.57秒,勝過現有方法。
雖然小型語言模型(SLMs)在移動部署方面表現出潛力,但它們在智慧型手機上的實際性能和應用仍未被充分探索。我們提出了SlimLM,這是一系列針對移動設備上文件輔助任務進行優化的SLMs。通過在三星Galaxy S24上進行大量實驗,我們確定了模型大小(從125M到7B參數不等)、上下文長度和推理時間之間的最佳折衷方案,以實現高效的設備內處理。SlimLM在SlimPajama-627B上進行了預訓練,並在我們構建的DocAssist數據集上進行了微調,用於摘要、問答和建議任務。我們最小的模型在S24上展現了高效的性能,而較大的變體則在移動設備的限制範圍內提供了增強的功能。我們對現有的SLMs進行了評估,展示了可比或優越的性能,並為未來在設備上語言模型研究提供了基準。我們還提供了一個Android應用程序,提供了有關SLM部署的實用見解。我們的研究結果提供了寶貴的見解,闡明了在高端智慧型手機上運行先進語言模型的能力,潛在地降低了伺服器成本,並通過設備內處理增強了隱私保護。
最近生成式人工智慧的進步顯著推動了內容創作和編輯,目前的研究更將這一令人振奮的進展進一步擴展到視頻編輯領域。在這些研究中,主要是將源視頻中固有的運動模式轉移到編輯後的視頻中,然而,由於交付的運動與編輯內容之間缺乏特定的對齊,因此通常會觀察到與用戶提示不一致的結果。為了解決這一限制,本文提出了一種形狀一致的視頻編輯方法,即StableV2V。我們的方法將整個編輯流程分解為幾個連續的步驟,首先編輯第一幀視頻,然後建立交付的運動與用戶提示之間的對齊,最後基於這種對齊將編輯後的內容傳播到所有其他幀。此外,我們還為全面評估視頻編輯,考慮各種類型的提示和困難程度,精心策劃了一個測試基準,即DAVIS-Edit。實驗結果和分析說明了我們的方法相對於現有最先進研究的卓越性能、視覺一致性和推理效率。
隨著多模態大型語言模型(MLLMs)研究的普及,一個先進的MLLM模型通常需要同時處理各種文本和視覺任務(例如VQA、檢測、OCR和ChartQA)以應用於現實世界中。然而,由於不同任務數據之間的表示和分佈存在顯著差異,簡單地將所有任務的數據混合在一起會導致眾所周知的“多任務衝突”問題,進而導致各種任務的性能下降。為了解決這個問題,我們提出了Awaker2.5-VL,這是一種適用於MLLM的專家混合(MoE)架構,通過多個稀疏激活的專家獲得多任務能力。為了加快Awaker2.5-VL的訓練和推理速度,我們模型中的每個專家都被設計為低秩適應(LoRA)結構。對多個最新基準測試的大量實驗證明了Awaker2.5-VL的有效性。代碼和模型權重已在我們的項目頁面上發布:https://github.com/MetabrainAGI/Awaker。
在語言模型解碼過程中,使用較高溫度採樣會產生更具創意的回應,而較低溫度則更加準確。然而,這些模型通常應用於一般指令遵循,其中包含創意和事實尋求任務,並在所有範例和標記中使用單一固定溫度。在這項工作中,我們引入了自適應解碼,這是一個添加到模型中的層,可在推論時動態選擇採樣溫度,無論是在標記還是範例級別,以優化性能。為了學習其參數,我們引入了潛在偏好優化(LPO),這是一種訓練離散潛在變量(如溫度選擇)的通用方法。我們的方法在需要不同溫度的一系列任務中優於所有固定解碼溫度,包括UltraFeedback、創意故事寫作和GSM8K。
我們從頭開始創建了兩個僅限於德語的解碼器模型,LL\"aMmlein 120M 和 1B,並透明地將它們與訓練數據一起發布,供德語自然語言處理研究社區使用。模型訓練包括多個關鍵步驟,包括廣泛的數據預處理、自定義德語分詞器的創建、訓練本身以及對最終模型在各種基準測試中的評估。在整個訓練過程中,我們保存了多個檢查點並使用 SuperGLEBer 基準進行分析,以監控模型的學習動態。與 SuperGLEBer 基準上的最先進模型相比,兩個 LL\"aMmlein 模型表現出競爭力,一致地與具有相似參數大小的模型相匹配或超越。結果顯示,模型的質量隨著大小增加而提高,但在某些任務上的性能改進很快達到瓶頸,為未來模型開發中的資源分配提供了寶貴的見解。
擴散Transformer(DiT)已成為強大的生成模型,適用於各種任務,包括圖像、視頻和語音合成。然而,由於需要重複評估資源密集型的注意力和前饋模組,其推論過程仍然耗時。為了應對這一問題,我們引入了SmoothCache,這是一種針對DiT架構的模型無關推論加速技術。SmoothCache利用觀察到的相鄰擴散時間步之間層輸出的高相似性。通過從一個小的校準集中分析層級表示誤差,SmoothCache在推論過程中自適應地緩存並重複使用關鍵特徵。我們的實驗表明,SmoothCache實現了8%至71%的加速,同時在各種模態下保持甚至提高了生成質量。我們展示了它在圖像生成的DiT-XL、文本到視頻的Open-Sora和文本到音頻的Stable Audio Open上的有效性,突顯了它在實時應用方面的潛力,以及擴大強大DiT模型的可用性。
檢索增強生成(RAG)已成為增強大型語言模型(LLMs)在知識密集型任務中表現的一種有前途的方法,例如醫學領域的任務。然而,醫學領域的敏感性要求系統完全準確可信。現有的RAG基準主要集中在標準的檢索-回答設置上,卻忽略了許多衡量可靠醫學系統關鍵方面的實際情境。本文通過為醫學問答(QA)系統在這些情況下的RAG設置提供全面的評估框架來解決這一缺口,包括充分性、整合性和韌性。我們引入醫學檢索增強生成基準(MedRGB),為四個醫學QA數據集提供各種補充元素,以測試LLMs處理這些特定情境的能力。利用MedRGB,我們對商用LLMs和開源模型在多種檢索條件下進行了廣泛評估。我們的實驗結果顯示目前模型在處理檢索文檔中的噪音和錯誤信息方面的能力有限。我們進一步分析LLMs的推理過程,為在這一關鍵醫學領域發展RAG系統提供有價值的見解和未來方向。
隱式神經表示(INRs)利用神經網絡來近似將離散數據表示為連續函數。在視頻數據的情況下,這樣的模型可以用來將像素位置的坐標以及幀出現時間(或索引)轉換為 RGB 顏色值。儘管 INRs 有助於有效壓縮,但不適用於編輯目的。一個潛在的解決方案是使用基於 3D 高斯擴散(3DGS)的模型,如視頻高斯表示(VGR),它能夠將視頻編碼為眾多 3D 高斯分佈,並適用於眾多視頻處理操作,包括編輯。然而,在這種情況下,修改的能力僅限於有限的基本變換集。為解決這個問題,我們引入了視頻高斯擴散(VeGaS)模型,它能夠實現對視頻數據的逼真修改。為構建 VeGaS,我們提出了一個新型的折疊高斯分佈家族,旨在捕捉視頻流中的非線性動態,並通過獲取各自條件分佈的 2D 高斯分佈來對連續幀進行建模。我們的實驗表明,VeGaS 在幀重建任務中優於最先進的解決方案,並允許對視頻數據進行逼真修改。代碼可在以下鏈接找到:https://github.com/gmum/VeGaS。
大型語言模型(LLMs)不斷增強的能力已導致它們被用作訓練和評估其他LLMs的人類反饋的替代品。這些方法通常依賴“憲章”,即評論模型用來提供反饋並改進生成的指導方針。我們通過使用四種不同的憲章來改進醫學訪談中以患者為中心的溝通,來研究憲章的選擇如何影響反饋質量。在215名人類評分員進行的兩兩比較中,我們發現詳細的憲章在情感品質方面取得了更好的結果。然而,在學習與信息收集和提供相關的實用技能方面,沒有任何一種憲章勝過了基準。我們的研究結果表明,儘管應優先選擇詳細的憲章,但在某些領域中,AI反饋作為獎勵信號的有效性可能存在一些限制。