每日精選AI研究論文及翻譯
在建立 GUI 代理方面的現有努力嚴重依賴於穩健的商用視覺語言模型(VLMs),如 GPT-4o 和 GeminiProVision。從業者通常不願使用開源 VLMs,因為它們在 GUI 地面化和超出分佈(OOD)情境中與封閉源對應物相比表現明顯滯後。為了促進該領域的未來研究,我們開發了 OS-Atlas - 一個在數據和建模方面創新,擅長於 GUI 地面化和 OOD 代理任務的基礎 GUI 行動模型。我們在開發開源工具包方面投入了大量工程努力,用於在多個平台上合成 GUI 地面化數據,包括 Windows、Linux、MacOS、Android 和網頁。利用這個工具包,我們釋出迄今為止最大的開源跨平台 GUI 地面化語料庫,其中包含超過 1300 萬個 GUI 元素。這個數據集,結合模型訓練的創新,為 OS-Atlas 理解 GUI 截圖並推廣到未見界面提供了堅實基礎。通過在涵蓋三種不同平台(移動、桌面和網頁)的六個基準上進行廣泛評估,OS-Atlas 展示了比先前最先進模型顯著的性能改進。我們的評估還揭示了持續改進和擴展開源 VLMs 代理能力的寶貴見解。
最近,個性化大型語言模型(LLMs)在各種應用中變得越來越重要。儘管個性化LLMs的重要性和最近的進展,大多數現有的個性化LLMs作品要麼專注於(a)個性化文本生成,要麼專注於利用LLMs進行與個性化相關的下游應用,如推薦系統。在這項工作中,我們首次介紹了一個用於個性化LLM使用的分類法,以彌合這兩個獨立主要方向之間的差距,並總結了關鍵差異和挑戰。我們對個性化LLMs的基礎進行了形式化,概括和擴展了個性化LLMs的概念,定義和討論了個性化、使用和個性化LLMs的渴望的新面向。然後,我們通過提出個性化程度、個性化技術、數據集、評估方法和個性化LLMs應用的系統分類法,將這些不同領域和使用情境的文獻統一起來。最後,我們強調了尚待解決的挑戰和重要開放問題。通過使用提出的分類法統一和調查最近研究,我們旨在為現有文獻和LLMs中個性化的不同面向提供清晰指南,使研究人員和從業者都能受益。
糾正流程和重新流程程序已顯著推進快速生成,逐漸使普通微分方程(ODE)流變得更加直線。它們的運作基於一個假設,即圖像和噪聲對,稱為耦合,可以通過具有恆定速度的直線軌跡來近似。然而,我們觀察到,使用恆定速度建模和重新流程程序在準確學習對之間的直線軌跡方面存在局限性,導致在少步生成中表現不佳。為了解決這些限制,我們引入了常加速流(CAF),這是一個基於簡單的恆定加速方程的新框架。CAF引入了加速度作為一個額外可學習的變量,可以更具表現力和準確地估計ODE流。此外,我們提出了兩種進一步提高估計準確性的技術:加速度模型的初始速度條件和用於初始速度的重新流程。我們對玩具數據集、CIFAR-10和ImageNet 64x64進行了全面研究,結果顯示CAF在一步生成方面優於最先進的基準。我們還展示了CAF在幾步耦合保留和反演方面明顯優於糾正流。代碼可在https://github.com/mlvlab/CAF{https://github.com/mlvlab/CAF}找到。
現有的基準往往突顯了最先進的多模態基礎模型(MFMs)在利用時間上下文進行視頻理解時取得的卓越表現。然而,這些模型在視覺時間推理方面表現如何?我們對現有基準的研究顯示,MFMs 的這種能力可能被高估,因為許多問題可以通過使用單個、少量或無序幀來解決。為了系統地檢驗當前的視覺時間推理任務,我們提出了三個原則和相應的指標:(1)多幀增益,(2)幀序敏感性和(3)幀信息差異。遵循這些原則,我們引入了 TOMATO,即時間推理多模態評估,這是一個新穎的基準,旨在嚴格評估 MFMs 在視頻理解中的時間推理能力。TOMATO 包括 1,484 個精心策劃的、人工標註的問題,涵蓋六個任務(即動作計數、方向、旋轉、形狀和趨勢、速度和頻率以及視覺提示),應用於 1,417 個視頻,包括 805 個自行錄製和生成的視頻,涵蓋人類中心、現實世界和模擬情境。我們的全面評估顯示,與表現最佳的模型相比,人類與模型之間存在 57.3% 的性能差距。此外,我們的深入分析揭示了當前 MFMs 之間更基本的限制。儘管它們可以準確識別孤立幀中的事件,但它們無法將這些幀解釋為連續序列。我們相信 TOMATO 將成為評估下一代 MFMs 的重要試驗平臺,並呼籲社區開發能夠通過視頻模態理解人類世界動態的人工智能系統。
本文提出了用於視覺生成的隨機自回歸建模(RAR),在保持與語言建模框架完全兼容的同時,在圖像生成任務上取得了新的最先進性能。所提出的RAR方法很簡單:在標準的自回歸訓練過程中,採用下一個令牌預測目標,輸入序列通常以光柵形式排序,以概率r隨機排列成不同的因式分解順序,其中r從1開始,並在訓練過程中線性衰減至0。這種退火訓練策略使模型能夠學會最大化對所有因式分解順序的期望概然性,從而有效提高模型建模雙向上下文的能力。重要的是,RAR保留了自回歸建模框架的完整性,確保與語言建模完全兼容,同時在圖像生成方面顯著提高了性能。在ImageNet-256基準測試中,RAR實現了1.48的FID分數,不僅超越了先前最先進的自回歸圖像生成器,還優於領先的基於擴散和基於遮罩的變壓器方法。代碼和模型將在https://github.com/bytedance/1d-tokenizer 提供。
我們發現了「下一個標記預測」(Next-token Prediction, NTP)中的基礎物理學。我們確定了NTP中信息守恆定律,並提出了信息容量第一定律(IC-1),證明自回歸模型中智能出現的本質基本上是一個信息傳遞過程。我們還將蘭道爾原理引入NTP,制定了信息容量第二定律(IC-2),建立了自回歸模型訓練與能量消耗之間的關係。此外,我們提出了幾個推論,對生產實踐具有實際意義。最後,我們驗證了我們的研究結果與現有理論的相容性和互補性。
我們提出了一種將遮罩語言建模與因果語言建模相結合的簡單方法。這種混合訓練目標導致一個模型,將兩種建模範式的優勢結合在單個變壓器堆中:GPT-BERT可以像任何標準的因果或遮罩語言模型一樣透明地使用。我們在2024年的BabyLM挑戰賽上測試了使這種靈活行為成為可能的預訓練過程。結果顯示,混合預訓練優於僅遮罩或僅因果模型。我們公開發布了模型、訓練語料庫和代碼。
生成式人工智慧的應用變得非常令人印象深刻,而使用者與人工智慧之間的互動更是如此。目前的人工智慧互動文獻廣泛探討人類如何與生成式人工智慧互動,但缺乏對用於創建這些應用程式的使用者介面設計和模式的具體性描述。因此,我們提出了一份調查報告,全面呈現了人類如何與人工智慧互動的分類法,以及設計用於滿足各種相關使用案例需求的使用者互動模式。我們主要關注使用者引導的互動,調查由使用者啟動且不包括使用者發出的任何隱含信號的互動。通過這份調查,我們旨在建立一個不同使用者互動模式的彙編,可供設計師和開發人員參考。在這樣做的同時,我們也致力於降低那些想要更多了解生成式人工智慧應用程式設計的人的門檻。
我們提出了Fashion-VDM,一種用於生成虛擬試穿視頻的視頻擴散模型(VDM)。給定一個服裝圖像和人物視頻,我們的方法旨在生成一個高質量的試穿視頻,展示穿著該服裝的人,同時保留人物的身份和動作。基於圖像的虛擬試穿已經取得了令人印象深刻的成果;然而,現有的視頻虛擬試穿(VVT)方法仍然缺乏服裝細節和時間一致性。為了解決這些問題,我們提出了一種基於擴散的架構,用於視頻虛擬試穿,分離無分類器的引導,以增加對條件輸入的控制,以及一種漸進式的時間訓練策略,用於單遍 64 幀、512 像素視頻生成。我們還展示了聯合圖像-視頻訓練對視頻試穿的有效性,特別是當視頻數據有限時。我們的定性和定量實驗表明,我們的方法為視頻虛擬試穿設定了新的技術水平。欲獲取更多結果,請訪問我們的項目頁面:https://johannakarras.github.io/Fashion-VDM。
最近的研究 arXiv:2410.15027 探索了擴散Transformer(DiTs)在任務不可知的圖像生成中的應用,方法是通過簡單地將注意力標記串聯在圖像之間。然而,儘管使用了大量計算資源,生成的圖像保真度仍然不理想。在這項研究中,我們重新評估並精簡了這個框架,假設文本到圖像的DiTs本質上具有上下文生成能力,只需要進行最小程度的調整來激活它們。通過多樣的任務實驗,我們在質量上展示了現有的文本到圖像DiTs可以有效地執行上下文生成而無需任何調整。基於這一見解,我們提出了一個非常簡單的流程來利用DiTs的上下文能力:(1)串聯圖像而不是標記,(2)對多個圖像進行聯合標註,(3)使用小數據集(例如20至100個樣本)進行任務特定的LoRA調整,而不是使用大數據集進行全參數調整。我們將我們的模型命名為上下文LoRA(IC-LoRA)。這種方法不需要對原始DiT模型進行修改,只需要對訓練數據進行更改。顯著的是,我們的流程生成了更符合提示的高保真度圖像集。儘管在調整數據方面是任務特定的,但我們的框架在架構和流程上仍然是任務不可知的,為社區提供了一個強大的工具,並為進一步研究產品級任務不可知生成系統提供了有價值的見解。我們在 https://github.com/ali-vilab/In-Context-LoRA 釋出了我們的代碼、數據和模型。
大型語言模型(LLMs)展示了在解決簡單科學問題方面的潛力,但在複雜問題上常常產生幻覺。雖然將LLMs與工具整合可以提高可靠性,但這種方法通常會導致對工具的過度依賴,從而降低模型通過基本推理解決簡單問題的能力。相比之下,人類專家會在選擇適當的解決方案之前,首先利用領域知識評估問題的複雜性。受到這種人類解決問題過程的啟發,我們提出了一種新穎的雙組件微調方法。在第一個組件「世界知識蒸餾」(WKD)中,LLMs直接從使用工具信息生成的解決方案中學習,以內化領域知識。在第二個組件「工具使用適應」(TUA)中,我們根據模型的直接回答準確性將問題劃分為簡單和困難類別。在保持對簡單問題的對齊目標與WKD相同的情況下,我們訓練模型智能地在面對更具挑戰性的問題時切換到使用工具。我們在涵蓋數學、氣候科學和流行病學的六個科學基準數據集上驗證了我們的方法。平均而言,我們的模型在所有數據集上的答案準確性提高了28.18%,工具使用精確度提高了13.89%,超越了包括GPT-4o和Claude-3.5在內的最先進模型。
最近,3D 高斯飛灑(3DGS)已經在輝度場重建方面帶來革命性變革,展現出高效率和高保真度的新視角合成。然而,在大型和複雜場景中準確表示表面,特別是由於 3DGS 的非結構化特性,仍然是一個重大挑戰。本文提出了 CityGaussianV2,這是一種針對大規模場景重建的新方法,解決了與幾何精度和效率相關的關鍵挑戰。借鑒 2D 高斯飛灑(2DGS)良好的泛化能力,我們解決了其收斂性和可擴展性問題。具體來說,我們實現了一種基於分解梯度的致密化和深度回歸技術,以消除模糊的藝術品並加速收斂。為了擴展規模,我們引入了一種延伸濾波器,以減輕 2DGS 退化引起的高斯計數爆炸。此外,我們對 CityGaussian 流程進行了優化,實現了高效的平行訓練,達到最多 10 倍的壓縮,至少節省 25% 的訓練時間,以及 50% 的記憶體使用減少。我們還在大型場景下建立了標準幾何基準。實驗結果表明,我們的方法在視覺質量、幾何精度以及存儲和訓練成本之間取得了有希望的平衡。項目頁面位於 https://dekuliutesla.github.io/CityGaussianV2/。
神經模型中的詞嵌入空間存在偏差,糾正這一問題可以提升任務表現。我們指出,大多數用於建模、糾正和衡量嵌入空間對稱性的方法,都隱含地假設詞頻是均勻的;而實際上,詞頻遵循一種高度非均勻的分佈,即齊夫定律。令人驚訝的是,僅通過根據遵循齊夫定律的實證詞頻進行主成分分析(PCA)白化,就能顯著提升任務表現,超越已建立的基準線。從理論角度來看,我們的方法和現有方法都可以清晰地分類:詞表示根據指數族分佈,其基本測度可以是均勻的,也可以是遵循齊夫定律的。通過採用後者的方法,我們可以自然地強調具有信息量的低頻詞,這在信息幾何學的角度和不平衡分類的損失函數方面變得明顯。此外,我們的理論證實了流行的自然語言處理方法,如skip-gram負採樣、WhiteningBERT和無頭語言模型之所以表現良好,僅因為它們的詞嵌入將實證詞頻編碼到基礎概率模型中。
我們提出了一種有效的方法,將適配器插入文本到圖像基礎模型中,從而實現執行複雜的下游任務,同時保留基礎模型的泛化能力。該方法的核心思想是優化與2D特徵圖相關的注意機制,從而增強適配器的性能。這種方法在模因視頻生成任務上得到驗證,並取得了顯著的成果。我們希望這項工作能為大型文本到圖像模型的後訓練任務提供一些見解。此外,由於這種方法展示了與SD1.5衍生模型良好的兼容性,對於開源社區具有一定價值。因此,我們將釋出相關代碼(https://songkey.github.io/hellomeme)。
目前的臉部匿名化技術常常依賴於臉部識別模型計算的身份損失,然而這可能不準確且不可靠。此外,許多方法需要額外的數據,如臉部標誌和遮罩來引導合成過程。相反地,我們的方法使用擴散模型僅具有重建損失,無需臉部標誌或遮罩,仍能生成具有精細細節的圖像。我們通過定量和定性評估在兩個公共基準上驗證了我們的結果。我們的模型在三個關鍵領域取得了最先進的性能:身份匿名化、臉部屬性保留和圖像質量。除了其主要的匿名化功能外,我們的模型還可以執行臉部交換任務,通過將額外的面部圖像作為輸入,展示了其多功能性和多樣應用的潛力。我們的程式碼和模型可在 https://github.com/hanweikung/face_anon_simple 下載。
大型語言模型(LLMs)在多跳問答(M-QA)方面表現優異,這要歸功於其先進的推理能力。然而,固有推理結構對LLM M-QA表現的影響仍不清楚,主要是因為缺乏提供細緻推理結構的QA數據集。為了填補這一空白,我們引入了圖推理結構問答數據集(GRS-QA),該數據集為QA對提供了語義上下文和推理結構。與現有的M-QA數據集不同,GRS-QA明確捕捉了複雜的推理路徑,通過構建推理圖,其中節點代表文本上下文,邊表示邏輯流。這些不同結構的推理圖使得可以對LLM在各種推理結構下的推理能力進行細緻評估。我們的實證分析顯示,LLMs在處理具有不同推理結構的問題時表現不同。這一發現有助於與語義相比,探索文本結構。
鋰離子電池的健康狀態(SOH)是決定電池剩餘容量和剩餘壽命的關鍵參數。本文提出了一種名為SambaMixer的新型結構化狀態空間模型(SSM),用於預測鋰離子電池的健康狀態。所提出的SSM基於MambaMixer架構,旨在處理多變量時間信號。我們在NASA電池放電數據集上評估我們的模型,並展示我們的模型在該數據集上優於最先進的方法。我們進一步引入了一種新型基於錨點的重採樣方法,確保時間信號具有預期長度,同時也作為增強技術。最後,我們使用位置編碼來條件預測樣本時間和循環時間差,以提高我們模型的性能並學習恢復效應。我們的結果證明,我們的模型能夠高精度和穩健地預測鋰離子電池的SOH。
在軟體工程領域,存儲庫級別的程式碼自動完成引起了廣泛關注,並引入了幾個基準數據集。然而,現有的存儲庫級別的程式碼自動完成基準通常僅專注於有限數量的語言(<5),這無法評估現有程式碼大型語言模型(LLMs)在不同語言間的一般程式碼智能能力。此外,現有的基準通常報告不同語言的整體平均分數,忽略了在不同完成情境中的細粒度能力。因此,為了促進多語言情境下程式碼LLMs的研究,我們提出了一個涵蓋18種程式設計語言的大規模多語言存儲庫級別程式碼自動完成基準(稱為M2RC-EVAL),並提供了兩種細粒度註釋(即桶級別和語義級別)在不同完成情境下,我們基於解析的抽象語法樹獲取這些註釋。此外,我們還整理了一個大規模多語言指令語料庫M2RC-INSTRUCT數據集,以提高現有程式碼LLMs的存儲庫級別程式碼自動完成能力。全面的實驗結果證明了我們的M2RC-EVAL和M2RC-INSTRUCT的有效性。
本文討論了WikiNER語料庫的質量,這是一個多語言命名實體識別語料庫,並提供了其整合版本。WikiNER的標註是以半監督的方式生成的,即沒有進行事後手動驗證。這樣的語料庫被稱為銀標準。在本文中,我們提出了WikiNER-fr-gold,這是WikiNER法語部分的修訂版本。我們的語料庫包括原始法語子語料庫的隨機抽樣的20%(26,818個句子,700k個標記)。我們首先總結了每個類別中包含的實體類型,以制定標註準則,然後我們開始修訂語料庫。最後,我們對WikiNER-fr語料庫中觀察到的錯誤和不一致性進行了分析,並討論了潛在的未來工作方向。