每日精選AI研究論文及翻譯
儘管高品質的紋理貼圖對於逼真的3D資產渲染至關重要,但很少有研究探索直接在紋理空間中進行學習,尤其是在大規模數據集上。在這項研究中,我們偏離傳統方法,不再依賴於預先訓練的2D擴散模型來優化3D紋理的測試時間。相反,我們專注於在UV紋理空間本身進行學習的基本問題。我們首次訓練了一個大型擴散模型,能夠以前向傳遞的方式直接生成高分辨率的紋理貼圖。為了促進在高分辨率UV空間中的有效學習,我們提出了一種可擴展的網絡架構,交錯在UV貼圖上進行卷積,同時在點雲上使用注意力層。利用這種架構設計,我們訓練了一個擁有7億參數的擴散模型,可以生成由文本提示和單視圖圖像引導的UV紋理貼圖。一旦訓練完成,我們的模型自然支持各種擴展應用,包括文本引導的紋理修補、稀疏視圖紋理完成以及文本驅動的紋理合成。項目頁面位於http://cvmi-lab.github.io/TEXGen/。
隨著擴散模型的最新進展,以及圖像編輯中主題驅動的圖像修補技術已成為一項熱門任務。先前的方法主要著重於保留身份特徵,但在維持插入物件的可編輯性方面遇到困難。為此,本文介紹了DreamMix,一種基於擴散的生成模型,擅長將目標物件插入到給定場景中的用戶指定位置,同時使其屬性可以進行任意文本驅動的修改。具體來說,我們利用先進的基礎修補模型,並引入了一個分離的局部-全局修補框架,以平衡精確的局部物件插入和有效的全局視覺連貫性。此外,我們提出了一個屬性解耦機制(ADM)和一個文本屬性替換(TAS)模組,分別用於改善基於文本的屬性引導的多樣性和區分能力。大量實驗表明,DreamMix 在各種應用場景中,包括物件插入、屬性編輯和小物件修補等方面,有效平衡了身份保留和屬性可編輯性。我們的程式碼公開在 https://github.com/mycfhs/DreamMix。
在長序列上使用基於Transformer的大型語言模型(LLMs)進行推論是昂貴且緩慢的,這是由於自注意機制的二次複雜度所致。我們引入Star Attention,這是一種兩階段的塊稀疏近似,通過在多個主機之間分片注意力並最小化通信開銷來提高計算效率。在第一階段,通過跨主機的塊狀本地注意力並行處理上下文。在第二階段,查詢和響應標記通過序列全局注意力與所有先前緩存的標記進行關聯。Star Attention與大多數使用全局注意力訓練的基於Transformer的LLMs無縫集成,將記憶體需求和推論時間降低最多11倍,同時保持95-100%的準確性。
建構圖形使用者介面(GUI)助理對提升人類工作流生產力具有重要潛力。儘管大多數代理人是基於語言的,依賴於具有文本豐富元資訊的封閉式 API(例如 HTML 或可存取性樹),但它們在感知 UI 視覺方面與人類不同,凸顯了對 GUI 視覺代理人的需求。在這項工作中,我們在數位世界中開發了一個名為 ShowUI 的視覺-語言-動作模型,具有以下創新:(i)UI 引導的視覺標記選擇,通過將截圖制定為 UI 連接圖,自適應地識別其冗餘關係,並作為自注意力區塊期間標記選擇的標準;(ii)交錯的視覺-語言-動作串流,靈活地統一 GUI 任務中的多樣需求,使得在導航中有效管理視覺-動作歷史,或對每個截圖進行多輪查詢-動作序列配對,以增強訓練效率;(iii)小規模高質量 GUI 指示遵循數據集,通過精心的數據整理和採用重新取樣策略來解決重要數據類型不平衡的問題。憑藉上述組件,使用 256K 數據的輕量級 2B 模型 ShowUI 在零樣本截圖定位中實現了強大的 75.1% 準確率。其 UI 引導的標記選擇進一步在訓練過程中減少了 33% 的冗餘視覺標記,並將性能加速了 1.4 倍。在跨網頁 Mind2Web、移動 AITW 和在線 MiniWob 環境中的導航實驗進一步突顯了我們模型在推進 GUI 視覺代理人方面的效力和潛力。模型可在 https://github.com/showlab/ShowUI 上找到。
最近透過影像擴散模型推動的影像編輯技術取得了顯著進展。然而,仍存在重大挑戰,因為這些模型通常難以準確遵循複雜的編輯指示,並且經常通過改變原始影像的關鍵元素而降低忠實度。與此同時,視頻生成取得了顯著進展,擁有能夠有效充當一致且連續世界模擬器的模型。在本文中,我們提出通過利用影像轉視頻模型進行影像編輯,將這兩個領域進行融合。我們重新定義影像編輯為一個時間過程,利用預訓練的視頻模型從原始影像平滑過渡到所需的編輯。這種方法持續地穿越影像流形,確保一致的編輯同時保留原始影像的關鍵方面。我們的方法在基於文本的影像編輯方面取得了最新成果,展示了在編輯準確性和影像保留方面的重大改進。
作為人工通用智能(AGI)的一個重要方向,多模式大型語言模型(MLLMs)已經引起了工業界和學術界的廣泛關注。這一類模型是在預訓練的語言模型(LLMs)基礎上構建的,進一步發展了令人印象深刻的多模式感知和推理能力,例如根據流程圖編寫代碼或根據圖像創作故事。在開發過程中,評估至關重要,因為它提供直觀的反饋和指導,幫助改進模型。與傳統的僅偏好單一任務(如圖像分類)的訓練-評估-測試範式不同,MLLMs 的多功能性促使各種新的基準和評估方法的興起。本文旨在提供對MLLM評估的全面調查,討論四個關鍵方面:1)根據評估能力劃分的總結基準類型,包括基礎能力、模型自我分析和擴展應用;2)基準構建的典型過程,包括數據收集、標註和注意事項;3)由評審、度量和工具組成的系統評估方式;4)對下一個基準的展望。這項工作旨在為研究人員提供如何根據不同需求有效評估MLLMs的方法,並激發更好的評估方法,從而推動MLLM研究的進展。
為了加速推斷重型多模態大型語言模型(MLLMs),本研究重新思考了目前無需訓練的標記減少研究的現狀。我們遺憾地發現現有方法的關鍵組件緊密相互交織,它們的相互連接和影響對於比較、轉移和擴展仍不清楚。因此,我們提出了一個統一的「篩選-相關-壓縮」範式,將標記減少分解為管道內的三個明確階段,保持一致的設計目標和元素,同時允許獨特的實現。此外,我們對流行的作品進行了解密並納入我們的範式,以展示其普遍性。最後,我們提供了一套基於這個範式的方法,通過推斷的不同階段在速度和準確性之間取得平衡。在10個基準測試中的實驗結果顯示,我們的方法可以實現高達82.4%的FLOPs減少,對性能影響最小,同時超越了最先進的無需訓練的方法。我們的項目頁面位於https://ficoco-accelerate.github.io/。
素描作為一種多功能工具,可將想法外顯化,促進快速探索和視覺溝通,跨越各種學科領域。儘管人工系統在內容創作和人機交互方面取得了重大進展,但捕捉人類素描的動態和抽象特性仍然具有挑戰性。在這項工作中,我們介紹了SketchAgent,一種以語言驅動的、順序素描生成方法,使用戶能夠通過動態的對話互動來創建、修改和完善素描。我們的方法無需訓練或微調。相反,我們利用現成的多模式大型語言模型(LLMs)的順序性和豐富的先前知識。我們提出了一種直觀的素描語言,通過上下文示例引入模型,使其能夠使用基於字符串的操作來"繪製"。這些操作被處理成向量圖形,然後呈現在像素畫布上,可以再次訪問以進行進一步的任務。通過逐筆描繪,我們的代理捕捉了與素描固有的不斷變化和動態特質。我們展示了SketchAgent能夠從不同提示生成素描,進行對話驅動的繪圖,並與人類用戶有意義地合作。
我們揭示了低位元量化有利於訓練不足的大型語言模型(LLMs),觀察到較大尺寸或較少訓練標記的模型在應用低位元量化時,受到的量化誘發降級(QiD)較少,而具有廣泛訓練標記的較小模型則遭受顯著的QiD。為深入了解這一趨勢,我們在受控環境中研究了1500多個不同尺寸和不同訓練水平(訓練不足或完全訓練)的量化LLM檢查點,推導出用於理解QiD與訓練標記數量、模型尺寸和位元寬度等因素之間關係的標度律。 通過推導的標度律,我們提出了一個新的觀點,即我們可以使用QiD來衡量LLM的訓練水平,並確定各種尺寸的LLM完全訓練所需的訓練標記數量。此外,我們使用標度律來預測使用100萬億標記進行訓練的不同尺寸LLM的量化性能。我們的預測顯示,未來模型的低位元量化性能,預計將使用超過100萬億標記進行訓練,可能並不理想。這對未來的低位元量化提出了潛在挑戰,並強調了在評估低位元量化研究時需要意識到模型的訓練水平。為了促進這一問題的未來研究,我們在https://huggingface.co/Xu-Ouyang 上發布了本研究中使用的所有1500多個量化檢查點。
自回歸模型在各個領域展現了卓越的成功,從大型語言模型(LLMs)到大型多模態模型(LMMs)和2D內容生成,逐漸接近人工通用智能(AGI)。儘管取得這些進展,將自回歸方法應用於3D物體生成和理解仍然是一個未被廣泛探索的領域。本文介紹了尺度自回歸3D(SAR3D),這是一個新穎的框架,利用多尺度3D向量量化變分自編碼器(VQVAE)將3D物體進行標記化,以實現高效的自回歸生成和詳細理解。通過在多尺度潛在表示中預測下一個尺度,而非下一個單個標記,SAR3D顯著降低了生成時間,僅需在A6000 GPU上的0.82秒內實現快速3D物體生成。此外,由於標記中富含層次化的3D感知信息,我們對預訓練的LLM進行微調,實現對3D內容的多模態理解。我們的實驗表明,SAR3D在速度和質量上超越了當前的3D生成方法,並使LLMs能夠全面解釋和標註3D模型。
視覺語言生成獎勵模型(VL-GenRMs)在對齊和評估多模式人工智慧系統中扮演著關鍵角色,然而它們自身的評估仍未被充分探討。目前的評估方法主要依賴於傳統視覺語言任務中的人工智慧標註偏好標籤,這可能引入偏見並且常常無法有效挑戰最先進的模型。為了應對這些限制,我們引入了VL-RewardBench,這是一個全面的基準測試,涵蓋了一般多模式查詢、視覺幻覺檢測和複雜推理任務。通過我們的人工智慧輔助標註流程,結合樣本選擇和人工驗證,我們精心挑選了1,250個高質量範例,專門設計來探測模型的局限性。對16個領先的大型視覺語言模型進行全面評估,顯示VL-RewardBench作為一個具有挑戰性的測試平臺的有效性,即使是GPT-4o也僅達到65.4%的準確率,而像Qwen2-VL-72B這樣的最先進開源模型,難以超越隨機猜測。重要的是,VL-RewardBench上的表現與使用VL-GenRMs的Best-of-N採樣的MMMU-Pro準確度呈現強烈相關性(皮爾森r > 0.9)。分析實驗揭示了三個關鍵見解,有助於改進VL-GenRMs:(i)模型主要在基本視覺感知任務上失敗,而非推理任務;(ii)推理時間的擴展效益根據模型容量有很大差異;以及(iii)訓練VL-GenRMs學習判斷能夠大幅提升判斷能力(對於7B VL-GenRM,準確率提高了+14.7%)。我們相信VL-RewardBench以及實驗見解將成為推進VL-GenRMs的寶貴資源。
儘管大型多模型模型取得了進展,但將其應用於長且未經修剪的視頻內容仍然具有挑戰性,原因在於上下文長度的限制和大量的內存開銷。這些限制通常導致信息損失顯著,並降低模型響應的相關性。隨著網絡平台上視頻數據的指數級增長,理解長格式視頻對於推進泛化智能至關重要。在本文中,我們介紹了SALOVA:Segment-Augmented LOng Video Assistant,這是一個新穎的視頻-LLM框架,旨在通過有針對性的檢索過程增強對長視頻內容的理解。我們解決了實現這一目標的兩個主要挑戰:(i)我們提出了SceneWalk數據集,這是一個高質量的收藏,包含87.8K個長視頻,每個視頻在段落級別密集標註,以便模型捕捉場景的連續性並保持豐富的描述上下文。(ii)我們開發了強大的架構設計,集成了動態路由機制和時空投影機,以便根據用戶查詢有效地檢索和處理相關的視頻片段。我們的框架通過允許對查詢做出精確識別和檢索相關視頻片段,從而提高了生成響應的上下文相關性,從而減輕了當前視頻-LMM的限制。通過大量實驗,SALOVA展示了在處理複雜的長格式視頻方面的增強能力,顯示出在延長序列中保持上下文完整性的顯著能力。
自我監督學習已成為一種有前途的方法,用於從未標記的3D點雲中獲取可轉移的表示。與廣泛可取得的2D圖像不同,獲取3D資產需要專業知識或專業的3D掃描設備,這使得擴展變得困難並引起版權問題。為了應對這些挑戰,我們提出從程序化3D程序中學習3D表示,該程序可以自動生成使用簡單基元和增強技術的3D形狀。 值得注意的是,盡管缺乏語義內容,從這個合成數據集中學習的3D表示在各種下游3D任務(包括形狀分類、部分分割和遮罩點雲完成)中表現與從語義可識別的3D模型(例如飛機)中學習的最先進表示相當。我們的分析進一步表明,當前的自我監督學習方法主要捕捉幾何結構而不是高層次語義。
大視覺-語言模型(VLMs)的出現顯著推動了多模式任務的發展,使得在各種應用中,包括圖像和視頻標題生成、視覺問答和跨模態檢索等方面,能夠進行更複雜和準確的推理。儘管具有卓越的能力,VLMs在細粒度圖像區域組成信息感知方面仍然存在困難。具體而言,它們難以準確地將分割遮罩與相應的語義對齊,並精確描述所指區域的組成方面。 然而,組成性——即理解和生成已知視覺和文本組件的新組合的能力——對於促進VLMs在模態之間進行連貫推理和理解至關重要。為了解決這個問題,我們提出了FINECAPTION,一種新型VLM,可以識別任意遮罩作為參考輸入,並處理高分辨率圖像,以不同粒度水平進行組成圖像標題生成。為了支持這一努力,我們引入了COMPOSITIONCAP,一個新的用於多粒度區域組成圖像標題生成的數據集,引入了組成屬性感知區域圖像標題生成任務。 實證結果顯示了我們提出的模型相對於其他最先進的VLMs的有效性。此外,我們分析了當前VLMs在識別各種視覺提示以進行組成區域圖像標題生成方面的能力,突出了VLM設計和訓練中需要改進的領域。
在線商務、廣告和消費者參與方面,自動生成錨式產品推廣視頻帶來了許多機遇。然而,儘管姿勢引導的人類視頻生成取得了重大進展,但這仍然是一項具有挑戰性的任務。為應對這一挑戰,我們確定將人物-物體交互(HOI)整合到姿勢引導的人類視頻生成中是一個核心問題。為此,我們引入了AnchorCrafter,這是一個基於擴散的新型系統,旨在生成具有目標人物和定制物體的2D視頻,實現高視覺保真度和可控交互。具體來說,我們提出了兩個關鍵創新:HOI-外觀感知,這有助於從任意多視角識別物體外觀並解開物體和人物外觀之間的關係,以及HOI-運動注入,通過克服物體軌跡條件和相互遮擋管理方面的挑戰,實現複雜的人物-物體交互作用。此外,我們引入了HOI-區域重新加權損失,這是一個訓練目標,有助於學習物體細節。大量實驗表明,我們提出的系統在保留物體外觀和形狀感知方面優於現有方法,同時在保持人物外觀和運動一致性方面也表現出色。項目頁面:https://cangcz.github.io/Anchor-Crafter/
為了在資源受限的環境中部署神經網絡,先前的研究已建立了具有捕捉局部和全局依賴性的輕量級結構,分別使用卷積和注意力。最近,狀態空間模型已成為一種有效的全局標記交互方式,其在標記數量上具有有利的線性計算成本。然而,利用SSM構建的高效視覺骨幹鮮少被探索。在本文中,我們介紹了Efficient Vision Mamba(EfficientViM),這是一種基於隱藏狀態混合器的狀態空間對偶(HSM-SSD)構建的新型結構,可以高效地捕捉全局依賴性,並進一步降低計算成本。在HSM-SSD層中,我們重新設計了先前的SSD層,以實現在隱藏狀態內進行通道混合操作。此外,我們提出了多階段隱藏狀態融合,進一步增強隱藏狀態的表示能力,並提供了設計以緩解由內存限制操作引起的瓶頸。因此,EfficientViM系列在ImageNet-1k上實現了一種新的最先進的速度-準確性折衷,比第二好的SHViT模型提供了高達0.7%的性能改進,並且速度更快。此外,與先前的研究相比,當擴展圖像或使用蒸餾訓練時,我們觀察到吞吐量和準確性方面的顯著改進。代碼可在https://github.com/mlvlab/EfficientViM找到。
分子發現是一個重要的研究領域,影響著我們服用的藥物和使用的材料等方方面面。最近,大型語言模型(LLMs)已被廣泛應用於分子理解和生成,然而分子與其相應標題之間的對齊仍然是一個重大挑戰。先前的努力通常將分子視為一個通用的SMILES字符串或分子圖,忽略了分子子結構與描述性文本短語之間的細粒度對齊,這對於準確和可解釋的預測至關重要。在這種情況下,我們介紹了MolReFlect,這是一個新穎的師生框架,旨在以細粒度的方式在上下文中執行分子-標題對齊。我們的方法最初利用一個更大的師生LLM來標記詳細的對齊,通過直接從分子標題或SMILES字符串中提取關鍵短語並將其暗示給相應的子結構或特徵。為了改進這些對齊,我們提出了In-Context Selective Reflection,它檢索以前的提取結果作為師生LLM反映的上下文示例,並讓較小的學生LLM從上下文反映和以前的提取結果中進行選擇。最後,我們通過Chain-of-Thought In-Context Molecule Tuning增強了學生LLM的學習過程,將細粒度的對齊和推理過程融入Chain-of-Thought格式中。我們的實驗結果表明,MolReFlect使像Mistral-7B這樣的LLMs能夠顯著優於以前的基準線,在ChEBI-20數據集上實現了SOTA性能。這一進步不僅增強了LLMs在分子-標題翻譯任務中的生成能力,還有助於構建更具解釋性的框架。
我們提出了BootComp,一個基於文本到圖像擴散模型的新框架,用於具有多個參考服裝的可控人類圖像生成。在這裡,主要瓶頸是訓練的數據獲取:收集每個人穿著的高質量參考服裝圖像的大規模數據集相當具有挑戰性,即理想情況下,需要手動收集每位人穿著的每件服裝照片。為了應對這一問題,我們提出了一個數據生成流程,通過引入一個模型從每個人類圖像中提取任何參考服裝圖像,構建一個包含人類和多種服裝配對的大型合成數據集。為了確保數據質量,我們還提出了一種過濾策略,基於衡量人類圖像中呈現的服裝與提取服裝之間的知覺相似性來刪除不良生成數據。最後,通過利用構建的合成數據集,我們訓練了一個擁有兩個平行去噪路徑的擴散模型,這兩個路徑使用多種服裝圖像作為條件來生成人類圖像,同時保留其細節。我們進一步展示了我們的框架的廣泛應用性,通過將其適應到時尚領域的不同類型的基於參考的生成,包括虛擬試穿,以及具有其他條件(例如姿勢、面部等)的可控人類圖像生成。
隨著人工智慧技術在圖像生成方面的應用日益普及,並且變得越來越容易取得,對於這些圖像可能被濫用以散佈錯誤信息的擔憂日益增加。最近的人工智慧生成圖像檢測(AGID)方法包括 CNNDetection、NPR、DM Image Detection、Fake Image Detection、DIRE、LASTED、GAN Image Detection、AIDE、SSP、DRCT、RINE、OCC-CLIP、De-Fake 和 Deep Fake Detection。然而,我們認為目前最先進的AGID技術尚不足以有效檢測當代人工智慧生成的圖像,並主張對這些方法進行全面重新評估。我們引入了視覺反作弊圖靈測試(VCT^2),這是一個基準,包括由當代文本生成圖像模型(Stable Diffusion 2.1、Stable Diffusion XL、Stable Diffusion 3、DALL-E 3 和 Midjourney 6)生成的約130K張圖像。VCT^2包括兩組提示,來自紐約時報Twitter帳號的推文和MS COCO數據集的圖像標題。我們還評估了上述AGID技術在VCT^2基準上的表現,突顯了它們在檢測人工智慧生成圖像方面的無效性。隨著圖像生成的人工智慧模型不斷演進,對於評估這些模型的需求變得日益迫切。為了滿足這一需求,我們提出了視覺人工智慧指數(V_AI),該指數從各種視覺角度評估生成的圖像,包括紋理複雜度和對象連貫性,為評估圖像生成的人工智慧模型設定了新的標準。為了促進這一領域的研究,我們將我們的 https://huggingface.co/datasets/anonymous1233/COCO_AI 和 https://huggingface.co/datasets/anonymous1233/twitter_AI 數據集公開提供。