每日精選AI研究論文及翻譯
儘管大規模文本到圖像生成模型近期取得了進展,利用這些模型對真實圖像進行操控仍是一個具有挑戰性的問題。現有編輯方法的主要局限在於,它們要麼無法在廣泛的圖像編輯範圍內保持一致的質量,要麼需要耗時的超參數調整或對擴散模型進行微調,以保留輸入圖像的特定外觀。我們提出了一種新穎的方法,該方法基於通過引導機制修改的擴散採樣過程。在本研究中,我們探索了自引導技術,以保留輸入圖像的整體結構及其不應被編輯的局部區域外觀。特別是,我們明確引入了旨在保存源圖像局部和全局結構的佈局保持能量函數。此外,我們提出了一種噪聲重縮放機制,該機制通過在生成過程中平衡無分類器引導與我們提出的引導器的範數來保持噪聲分佈。這種引導方法無需對擴散模型進行微調和精確的反轉過程。因此,所提出的方法提供了一種快速且高質量的編輯機制。在我們的實驗中,通過人類評估和定量分析,我們展示了所提出的方法能夠產生更受人類青睞的期望編輯,並且在編輯質量與原始圖像保留之間實現了更好的平衡。我們的代碼可在https://github.com/FusionBrainLab/Guide-and-Rescale獲取。
自ChatGPT問世以來,大型語言模型(LLMs)在各類任務中表現卓越,但其運作機制仍多屬黑箱系統。這導致當前發展高度依賴數據驅動方法,難以透過調整內部架構與推理路徑來提升效能。因此,許多研究者開始探索LLMs的潛在內部機制,試圖釐清其推理瓶頸的本質,其中多數研究聚焦於注意力頭部。本綜述旨在透過解析注意力頭部的可解釋性與底層機制,揭示LLMs的內部推理過程。我們首先將人類思維流程提煉為四階段框架:知識喚起、上下文識別、潛在推理與表達準備,並以此系統性回顧既有研究,對特定注意力頭部的功能進行識別與歸類。此外,我們歸納了發現這些特殊注意力頭部的實驗方法,將其分為無需建模與需建模兩大類別,同時概述相關評估方法與基準測試。最後,我們討論現有研究的局限性,並提出多個潛在的未來研究方向。本文參考文獻清單已開源於:https://github.com/IAAR-Shanghai/Awesome-Attention-Heads。
模糊測試是一項重要的動態程式分析技術,專為在複雜軟體中發現漏洞而設計。該技術通過向目標程式輸入精心構造的惡意資料來觸發程式崩潰、緩衝區溢位、記憶體錯誤及異常。如何高效生成惡意輸入資料至今仍是難解的開放性問題,當前最有效的方法通常是對現有合法輸入資料進行均勻隨機變異。本研究提出採用精調的大型語言模型(FuzzCoder),透過學習成功攻擊案例中的輸入檔案模式來指導後續模糊測試探索。具體而言,我們開發了基於程式碼大語言模型的框架來指導模糊測試中的輸入變異過程,將變異過程建模為序列到序列的轉換任務,由大語言模型接收位元組序列後輸出變異後的位元組序列。FuzzCoder在自建的指令資料集(Fuzz-Instruct)上進行微調,該資料集收集了啟發式模糊測試工具的成功測試記錄。該模型能預測輸入檔案中的變異位置與策略位置,從而觸發程式的異常行為。實驗結果表明,基於AFL(American Fuzzy Lop)的FuzzCoder在ELF、JPG、MP3和XML等多種輸入格式上,於有效變異比例(EPM)和崩潰次數(NC)兩項指標均取得顯著提升。
自線上教育首次將課程上傳至可共享的網絡平台以來,這種拓展人類知識傳播規模以觸達更廣泛受眾的模式,已引發廣泛討論並獲得普遍應用。鑑於個性化學習仍具巨大改進潛力,新興人工智慧技術持續融入此學習形式,催生了教育推薦系統、智慧導學等多類教育AI應用。大型語言模型所展現的智慧特性,使這些教育增強功能得以建構在統一的基礎模型上,實現更深層次的整合。在此背景下,我們提出MAIC(大規模AI賦能課程),這種新型線上教育形式利用LLM驅動的多智能體系統構建AI增強課堂,在可擴展性與自適應性間取得平衡。除探討概念框架與技術創新外,我們還在中國頂尖學府清華大學開展初步實驗。基於500餘名學生的十萬餘條學習記錄,我們獲取了一系列有價值的觀測數據與初步分析。該項目將持續演進,最終目標是建立一個支持並統籌研究、技術與應用的綜合開放平台,探索大模型AI時代線上教育的可能性。我們設想該平台成為協作樞紐,匯聚教育者、研究人員與創新者,共同探索AI驅動的線上教育未來。
基於文本描述生成高品質3D物件仍是個具挑戰性的難題,其原因涉及計算成本高昂、3D資料稀缺以及複雜的3D表示方法。我們提出幾何圖像擴散模型(GIMDiffusion),這是一種創新的文本轉3D模型,能利用幾何圖像將3D形狀以二維影像形式高效表徵,從而避免使用複雜的3D感知架構。透過整合協同控制機制,我們充分發揮現有文本轉圖像模型(如Stable Diffusion)豐富的二維先驗知識,即便在3D訓練資料有限的情況下(使我們能僅採用高品質訓練資料)仍實現強大的泛化能力,並保持與IPAdapter等引導技術的兼容性。簡言之,GIMDiffusion能以媲美現行文本轉圖像模型的速度生成3D資產。所生成的物件不僅包含語意明確的獨立部件,更具備內部結構設計,顯著提升實用性與多功能性。
多模態大型語言模型(MLLMs)通過提升文件影像的支援解析度,在無需光學字元辨識的文件理解任務中展現出優異效能。然而此舉需為單一文件影像生成數千個視覺標記,導致GPU記憶體負荷過重且推論速度下降,在多頁文件理解任務中尤為明顯。為解決這些挑戰,本研究提出高解析度文件壓縮模組,透過低解析度全域視覺特徵引導,將每張高解析度文件影像壓縮至324個標記。基於此壓縮模組,為強化多頁文件理解能力並平衡標記效率與問答效能,我們採用三階段訓練框架開發DocOwl2模型:單圖預訓練、多圖持續預訓練與多任務微調。DocOwl2在多頁文件理解基準測試中創下最新效能紀錄,並將首標記延遲降低逾50%,展現出在多頁問答、附證據頁面解釋及跨頁面結構理解方面的先進能力。此外,與使用相似資料訓練的單圖MLLMs相比,DocOwl2僅需不到20%的視覺標記量即可達成相當的單頁理解效能。相關程式碼、模型與資料已公開於:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2。
數學公式識別因數學表達式結構複雜且符號多樣而面臨重大挑戰。儘管公式識別模型持續進步,但其採用的BLEU和編輯距離等評估指標仍存在明顯侷限性。這些指標忽略了同一公式具有多樣化表徵形式,且對訓練數據分佈高度敏感的事實,從而導致公式識別評估存在不公平性。為此,我們提出字元檢測匹配(CDM)指標,通過設計圖像層面而非LaTex層面的評分標準來確保評估客觀性。具體而言,CDM將模型預測的LaTeX與真實標註的LaTeX公式皆渲染為圖像格式,隨後採用視覺特徵提取與定位技術進行結合空間位置信息的精確字元級匹配。這種具備空間感知能力的字元匹配方法,相較於僅依賴文本字元匹配的BLEU和編輯距離指標,能提供更準確且更公平的評估。實驗中,我們使用CDM、BLEU和ExpRate指標對多種公式識別模型進行評估。結果表明,CDM更貼近人類評估標準,並通過消除因公式表徵差異引起的偏差,為不同模型提供了更公平的比較基準。
現實世界對話資料的日益普及,為研究人員提供了研究用戶與聊天機器人互動的絕佳機會。然而,這類資料的龐大規模使得手動檢視單一對話變得不可行。為克服此挑戰,我們推出 WildVis——一款支援快速、多面向大規模對話分析的互動式工具。WildVis 能根據多種條件,在文本空間與嵌入空間中提供搜尋與視覺化功能。為處理百萬級規模的資料集,我們實施了多項優化技術,包括建構搜尋索引、預計算與壓縮嵌入向量,以及快取機制,以確保使用者在數秒內獲得流暢的互動體驗。透過三項案例研究,我們驗證了 WildVis 的實用性:協助不當使用聊天機器人之研究、視覺化並比較不同資料集的主題分佈,以及分析用戶特有的對話模式。WildVis 為開源工具且具可擴充性,能支援額外資料集及客製化的搜尋與視覺化功能。
近期研究表明,通過整合程式碼解譯器等外部工具並採用多輪思維鏈推理,可有效提升大型語言模型的數學問題求解能力。現有方法主要聚焦於合成資料生成與監督式微調,而本文則研究互補性的直接偏好學習方法以進一步提升模型效能。然而,現有的直接偏好學習演算法最初是為單輪對話任務設計,未能充分應對工具整合型數學推理任務所需的多輪推理與外部工具整合之複雜性。為填補此空白,我們提出專為此場景設計的多輪直接偏好學習框架,該框架利用程式碼解譯器的回饋訊號並最佳化軌跡層級的偏好選擇,具體實現包含多輪DPO與多輪KTO兩種方案。我們透過使用GSM8K和MATH資料集的增強提示集對多種語言模型進行訓練,驗證了該框架的有效性:經監督式微調的Gemma-1.1-it-7B模型在GSM8K上的準確率從77.5%提升至83.9%,在MATH上從46.1%提升至51.2%;同樣地,Gemma-2-it-9B模型在GSM8K上從84.1%提升至86.3%,在MATH上從51.0%提升至54.5%。
大型語言模型(LLMs)的快速發展與動態特性,使得傳統量化基準難以準確評估其能力。我們提出「能力報告卡」概念——針對特定技能或主題、以人類可解讀的自然語言呈現模型行為摘要。我們建立了一套評估框架,基於三項標準衡量報告卡效能:區分度(區分不同模型的能力)、忠實度(準確反映模型能力)及可解讀性(對人類而言的清晰度與相關性)。同時提出一種無需人工監督即可生成報告卡的迭代演算法,並透過消融實驗驗證各設計要素的效用。透過對主流LLMs的實驗驗證,我們證明能力報告卡能提供超越傳統基準的洞察,有助於實現更可解讀、更全面的LLM評估需求。
開放詞彙分割技術面臨重大挑戰,因其需要在非受限環境中對開放類別集合的物體進行分割與識別。基於CLIP等強大視覺語言基礎模型的成功,近期研究試圖利用其零樣本能力來識別未見過的類別。儘管性能顯著提升,這些模型仍存在關鍵問題:難以針對未見類別和場景生成精確的遮罩提案,最終導致分割性能欠佳。為解決此難題,我們提出創新方法FrozenSeg,通過協同框架整合定位基礎模型(如SAM)的空間知識與視覺語言模型(如CLIP)的語義知識。以視覺語言模型的視覺編碼器作為特徵主幹網絡,我們將空間感知特徵注入可學習查詢向量和轉譯器解碼器中的CLIP特徵。此外,我們設計了遮罩提案集成策略,進一步提升召回率與遮罩品質。為充分挖掘預訓練知識同時最小化訓練開銷,我們凍結兩個基礎模型,僅針對性能瓶頸——用於生成遮罩提案的輕量級轉譯器解碼器進行優化。大量實驗表明,FrozenSeg在僅使用COCO全景數據訓練、並以零樣本方式測試的條件下,於多個分割基準測試中刷新了最先進成果。程式碼已開源於:https://github.com/chenxi52/FrozenSeg。
大型語言模型(LLMs)已重塑程式合成的格局。然而,當代基於LLM的程式碼補全系統常因缺乏適當上下文而產生錯誤程式碼,尤其在處理訓練資料中未出現或游標附近不存在的定義時更為明顯。本文證明,透過語言伺服器提供的類型與綁定結構緊密整合,能以符元高效的方式解決此上下文缺失問題。簡而言之,我們主張人工智慧同樣需要整合開發環境!具體而言,我們將LLM程式碼生成功能整合至Hazel即時程式草圖建構環境中。Hazel語言伺服器能識別待填補空缺的類型與型別上下文(即使存在錯誤),確保始終可取得有意義的程式草圖。這使得提示機制能運用程式庫全域的上下文資訊——這些資訊不僅無需與游標詞法相鄰,甚至不必位於同一檔案,但很可能與開發者目標語義相關。LLM生成的補全內容隨後透過與語言伺服器的多輪對話進行迭代優化。為評估這些技術,我們提出MVUBench資料集,包含一系列模型-視圖-更新(MVU)網頁應用程式。這類應用因依賴特定應用的資料結構而成為理想挑戰題。我們發現類型定義的上下文化尤其關鍵。在Hazel環境中闡述理念後,我們複製該技術並將MVUBench移植至TypeScript,以驗證這些方法對高資源語言的適用性。最後,我們提出ChatLSP——語言伺服器協定(LSP)的保守擴展方案,語言伺服器可透過實作此協定,為各類AI程式碼補全系統提供靜態上下文整合能力,從而優化LLM的提示生成過程。