每日精選AI研究論文及翻譯
Transformer 已經徹底改變了機器學習,然而其內部運作對許多人來說仍然是不透明的。我們提出了 Transformer Explainer,這是一個互動式可視化工具,專為非專家設計,讓他們通過 GPT-2 模型來學習有關 Transformer。我們的工具幫助使用者理解複雜的 Transformer 概念,通過整合模型概覽並實現在數學操作和模型結構的抽象層級之間平滑過渡。它在使用者的瀏覽器中本地運行一個即時的 GPT-2 實例,讓使用者可以嘗試他們自己的輸入,並實時觀察 Transformer 的內部組件和參數如何一起工作來預測下一個 token。我們的工具無需安裝或特殊硬體,擴大了公眾對現代生成式人工智慧技術的教育訪問。我們的開源工具可在 https://poloclub.github.io/transformer-explainer/ 上找到。視頻演示可在 https://youtu.be/ECR4oAwocjs 上觀看。
大型視覺語言模型(LVLMs)能夠處理多樣的數據類型,如影像、文本和生理信號,並可應用於各個領域。在醫學領域中,LVLMs具有高潛力,能夠為診斷和治療提供實質幫助。然而,在此之前,關鍵是要發展基準來評估LVLMs在各種醫學應用中的有效性。目前的基準通常建立在特定學術文獻基礎之上,主要聚焦於單一領域,並缺乏不同感知細節。因此,它們面臨特定挑戰,包括臨床相關性有限、評估不完整以及對互動式LVLMs缺乏指導。為了應對這些限制,我們開發了迄今為止最全面的通用醫學人工智慧基準GMAI-MMBench,具有良好分類的數據結構和多感知細節。它以視覺問答(VQA)格式構建,涵蓋了285個數據集,跨越39種醫學影像模態、18個臨床相關任務、18個部門以及4種感知細節。此外,我們實現了一個詞彙樹結構,允許用戶自定義評估任務,滿足各種評估需求,大力支持醫學人工智慧研究和應用。我們對50個LVLMs進行了評估,結果顯示,即使是先進的GPT-4o也僅實現了52%的準確率,表明有很大的改進空間。此外,我們確定了當前尖端LVLMs中的五個關鍵不足,需要解決以推動更好醫學應用的發展。我們相信GMAI-MMBench將激勵社區建立走向GMAI的下一代LVLMs。 項目頁面:https://uni-medical.github.io/GMAI-MMBench.github.io/
3D內容生成是許多電腦圖形應用的核心,包括視頻遊戲、電影製作、虛擬現實和擴增實境等。本文提出了一種基於深度學習的新方法,用於自動生成互動且可玩的3D遊戲場景,全部源自用戶輕鬆的提示,如手繪草圖。基於草圖的輸入提供了一種自然且便捷的方式,在內容創建過程中傳達用戶的設計意圖。為了克服學習中的數據不足挑戰(即缺乏大量3D場景的訓練數據),我們的方法利用預訓練的2D去噪擴散模型生成場景的2D圖像作為概念指導。在這個過程中,我們採用等距投影模式來排除未知的相機姿勢,同時獲取場景佈局。從生成的等距圖像中,我們使用預訓練的圖像理解方法將圖像分割為有意義的部分,如離地物體、樹木和建築物,並提取2D場景佈局。這些分割和佈局隨後被餵入程序化內容生成(PCG)引擎,例如Unity或Unreal等3D視頻遊戲引擎,以創建3D場景。生成的3D場景可以無縫集成到遊戲開發環境中,並且可以立即進行遊玩。大量測試表明,我們的方法可以高效生成質量高且互動性強的3D遊戲場景,其佈局緊隨用戶意圖。
大型語言模型(LLMs)廣泛地對一般大眾開放,顯著擴大了機器生成文本(MGTs)的傳播。提示操作的進展加劇了識別文本來源(人類撰寫 vs 機器生成)的困難。這引發了對MGTs潛在濫用的擔憂,特別是在教育和學術領域。本文介紹了LLM-DetectAIve,這是一個用於細粒度MGT檢測的系統。它能夠將文本分類為四個類別:人類撰寫、機器生成、機器撰寫機器人化、以及人類撰寫機器精緻。與以往執行二元分類的MGT檢測器不同,LLM-DetectAIve引入了兩個額外的類別,提供了有關LLM在文本創建過程中干預程度不同的見解。這在一些領域可能很有用,比如教育領域,通常禁止任何LLM干預。實驗表明,LLM-DetectAIve能夠有效識別文本內容的作者,證明了它在增強教育、學術和其他領域的誠信方面的用途。LLM-DetectAIve可在https://huggingface.co/spaces/raj-tomar001/MGT-New 公開訪問。介紹我們系統的視頻可在https://youtu.be/E8eT_bE7k8c觀看。
對於低資源和中資源語言,開發單語言語言模型仍然受到來源高質量訓練數據的困難所限。在這項研究中,我們提出了一種新穎的跨語言詞彙轉移策略,即跨標記化,旨在應對這一挑戰,實現更有效的語言適應。我們的方法著重於將高資源的單語言語言模型適應到一個未見過的目標語言,方法是通過使用來源語言中語義相似的標記嵌入的加權平均值來初始化目標語言的標記嵌入。為此,我們利用了涵蓋來源語言和目標語言的翻譯資源。我們通過Tweeties驗證了我們的方法,這是一系列跨標記化的單語言語言模型,展示了它們在一小但多樣化語言集合上各種下游任務中的競爭性表現。此外,我們介紹了Hydra LLMs,這是具有多個可交換語言建模頭部和嵌入表的模型,進一步擴展了我們的跨標記化策略的功能。通過基於多語言模型TowerInstruct設計Hydra LLM,我們以零樣本方式為韃靼語開發了一個最先進的機器翻譯模型,完全繞過了高質量平行數據的需求。這一突破對於像韃靼語這樣的低資源語言尤為重要,因為高質量平行數據難以獲得。通過降低訓練高質量模型的數據和時間需求,我們的跨標記化策略允許開發更多語言的單語言語言模型,尤其是那些資源有限的語言。我們希望我們的工作能激發跨語言詞彙轉移領域的進一步研究和合作,並有助於全球語言的發展。
我們提出了一種新方法,即指令來回翻譯,以建立基於世界知識的高質量合成數據,用於對齊大型語言模型(LLMs)。給定來自網絡語料庫的文件,我們使用李等人(2023a)提出的反向翻譯方法生成和編輯合成指令,並根據初始文件進一步改寫回應以提高其質量。使用生成的(反向翻譯指令,改寫回應)對進行微調,比使用其他常見指令數據集(如Humpback、ShareGPT、Open Orca、Alpaca-GPT4和Self-instruct)在AlpacaEval上獲得更高的勝率。我們還展示了使用LLM重寫回應優於直接提煉,並且兩個生成的文本分佈在嵌入空間中呈現顯著差異。進一步分析顯示,我們的反向翻譯指令比其他來源的合成指令質量更高,而我們的回應比從提煉獲得的回應更多樣化和複雜。總的來說,我們發現指令來回翻譯結合了網絡上發現的信息多樣性和數量,同時確保了回應的質量,這對於有效對齊是必要的。
高性能多模式大型語言模型(MLLMs)在很大程度上依賴於數據質量。本研究介紹了一個名為Img-Diff的新型數據集,旨在通過利用對比學習和圖像差異標註的見解,提升MLLMs中的細粒度圖像識別能力。通過分析相似圖像之間的對象差異,我們挑戰模型識別匹配和不同組件。我們利用Stable-Diffusion-XL模型和先進的圖像編輯技術創建了突出對象替換的相似圖像對。我們的方法包括用於識別對象差異的差異區域生成器,隨後是用於詳細差異描述的差異標註生成器。結果是一個相對較小但高質量的“對象替換”樣本數據集。我們使用提出的數據集來微調最先進的MLLMs,如MGM-7B,在眾多圖像差異和視覺問答任務中,性能得分全面優於使用更大規模數據集訓練的最先進模型,例如我們訓練的模型在MMVP基準測試中明顯超越了GPT-4V和Gemini等最先進模型。此外,我們研究了通過“對象刪除”生成圖像差異數據的替代方法,並進行了全面評估以確認數據集的多樣性、質量和韌性,提出了有關合成此類對比數據集的幾點見解。為了鼓勵進一步研究並推動多模式數據合成和增強MLLMs對圖像理解基本能力的領域發展,我們在https://github.com/modelscope/data-juicer/tree/ImgDiff上發布了我們的代碼和數據集。
我們提出了 Puppet-Master,一個互動式影片生成模型,可作為部分動態的運動先驗。在測試時,給定單張圖像和稀疏的運動軌跡集(即拖曳),Puppet-Master 能夠合成一段影片,展現忠實於給定拖曳交互作用的逼真部分層級運動。這是通過對一個大規模預訓練的影片擴散模型進行微調來實現的,我們提出了一種新的條件架構,以有效注入拖曳控制。更重要的是,我們引入了全對第關注機制,這是廣泛採用的空間關注模塊的可替換方案,通過解決現有模型中的外觀和背景問題,顯著提高了生成質量。與其他在野外影片上訓練並主要移動整個對象的運動條件影片生成器不同,Puppet-Master 是從 Objaverse-Animation-HQ 學習的,這是一個經過精心策劃的部分層級運動片段新數據集。我們提出了一種策略,可以自動過濾出次優動畫並用有意義的運動軌跡增強合成渲染。Puppet-Master 在各種類別的真實圖像上有很好的泛化能力,在真實世界基準測試中以零樣本方式優於現有方法。請參閱我們的項目頁面以獲取更多結果:vgg-puppetmaster.github.io。
人頭檢測、關鍵點估計和3D頭部模型擬合是具有許多應用的重要任務。然而,傳統的現實世界數據集往往存在偏見、隱私和道德問題,並且它們是在實驗室環境中記錄的,這使得訓練模型難以泛化。在這裡,我們介紹VGGHeads - 一個使用擴散模型生成的大規模合成數據集,用於人頭檢測和3D網格估計。我們的數據集包含超過100萬張高分辨率圖像,每張圖像都標註了詳細的3D頭部網格、面部標誌和邊界框。使用這個數據集,我們介紹了一種新的模型架構,能夠在單張圖像中的單一步驟中同時檢測頭部和重建頭部網格。通過廣泛的實驗評估,我們證明了在我們的合成數據上訓練的模型在真實圖像上取得了強大的性能。此外,我們的數據集的多功能性使其適用於各種任務,提供了對人類頭部的一般和全面的表示。此外,我們提供了有關合成數據生成管道的詳細信息,使其可以被重新用於其他任務和領域。
將自然語言與實體3D環境相結合對於推動具體化人工智慧的發展至關重要。目前用於3D視覺對象定位的數據集和模型主要集中在識別和定位靜態、以對象為中心的描述中的對象。這些方法並未充分解決任務導向對象定位的動態和序列性質,這在實際應用中是必要的。在這項工作中,我們提出了一個新任務:在3D場景中進行任務導向的序列定位,其中代理必須按照詳細的逐步說明,在室內場景中定位一系列目標對象以完成日常活動。為了促進這一任務,我們引入了SG3D,一個包含22,346個任務、112,236個步驟的大規模數據集,跨越4,895個現實世界的3D場景。該數據集是通過從各種3D場景數據集中獲取的RGB-D掃描和自動任務生成流程構建的,隨後通過人工驗證以確保質量。我們將三種最先進的3D視覺對象定位模型適應到序列定位任務中,並在SG3D上評估它們的性能。我們的結果顯示,儘管這些模型在傳統基準上表現良好,但在任務導向的序列定位方面面臨重大挑戰,突顯了在該領域進行進一步研究的必要性。
分子表示是我們理解物理世界的基礎元素。它的重要性從化學反應的基本原理到新療法和材料的設計都有涵蓋。先前的分子機器學習模型採用了字串、指紋、全局特徵和簡單的分子圖,這些都是內在信息稀疏的表示形式。然而,隨著預測任務的複雜度增加,分子表示需要編碼更高保真度的信息。本研究引入了一種新方法,通過立體電子效應將量子化學豐富信息注入到分子圖中。我們展示了明確添加立體電子相互作用顯著提高了分子機器學習模型的性能。此外,通過定制的雙圖神經網絡工作流程,可以學習和應用立體電子注入的表示形式,從而使其應用於任何下游分子機器學習任務。最後,我們展示了學習到的表示形式允許對先前難以處理的系統進行方便的立體電子評估,例如整個蛋白質,開啟了分子設計的新途徑。
在軟體工程中,預測程式行為而無需執行是一項重要且具挑戰性的任務。傳統模型常常難以捕捉程式碼內的動態依賴和互動。本文介紹了一個名為 CodeFlowrepresents 的新型基於機器學習的框架,通過動態依賴學習來預測程式碼覆蓋率並檢測運行時錯誤。利用控制流圖(CFGs),CodeFlowrepresents 描繪了所有可能的執行路徑和不同語句之間的關係,提供了對程式行為的全面理解。它構建 CFGs 來描述執行路徑並學習 CFG 節點的向量表示,捕捉靜態控制流依賴關係。此外,它通過執行跟蹤學習動態依賴,反映執行過程中語句之間的影響。這種方法能夠準確預測程式碼覆蓋率並識別運行時錯誤。實證評估顯示在程式碼覆蓋率預測準確性和運行時錯誤的有效定位方面取得了顯著改善,超越了當前模型。
當使用語言模型(LMs)來解決複雜問題時,人類可能會難以理解LM生成的解決方案並修復有缺陷的解決方案。為了幫助人類修復這些解決方案,我們提出自動將複雜解決方案分解為多個對應於特定子任務的簡單部分。我們引入了一個新的學習任務分解的目標,稱為輔助值(AssistV),該值衡量了人類修復分解解決方案的可行性和速度。我們收集了一個人類修復不同分解解決方案經驗的數據集。利用所收集的數據作為上下文示例,我們學習批評、改進和排名分解解決方案以改善AssistV。我們在競技程式設計問題下驗證了我們的方法:在177小時的人類研究中,我們的方法使非專家能夠解決更多問題(增加33.3%),加快速度(提高3.3倍),並使他們能夠與未經協助的專家匹敵。