每日精選AI研究論文及翻譯
目前的通用分割方法在像素級圖像和視頻理解方面表現出強大能力。然而,它們缺乏推理能力,無法通過文本指令進行控制。相比之下,大型視覺語言多模型展現出強大的基於視覺的對話和推理能力,但缺乏像素級理解,並且難以接受用於靈活用戶互動的視覺提示。本文提出了OMG-LLaVA,一個新穎而優雅的框架,結合了強大的像素級視覺理解和推理能力。它可以接受各種視覺和文本提示,以進行靈活的用戶互動。具體來說,我們使用通用分割方法作為視覺編碼器,將圖像信息、感知先驗和視覺提示整合為提供給LLM的視覺標記。LLM負責理解用戶的文本指令,並根據視覺信息提供文本回應和像素級分割結果。我們提出感知先驗嵌入以更好地將感知先驗與圖像特徵整合。OMG-LLaVA在單一模型中實現了圖像級、對象級和像素級的推理和理解,與多個基準測試上的專門方法的性能相匹敵甚至超越。我們的工作不是使用LLM來連接每個專家,而是旨在對一個編碼器、一個解碼器和一個LLM進行端到端訓練。代碼和模型已釋出供進一步研究使用。
對於大型語言模型(LLMs)來說,數學推理提出了重大挑戰,因為為了確保準確性,需要進行廣泛且精確的推理鏈。確保每個推理步驟的正確性至關重要。為了應對這一挑戰,我們旨在通過從人類反饋中學習來增強LLMs的魯棒性和事實性。然而,直接偏好優化(DPO)對於長鏈數學推理的幫助有限,因為採用DPO的模型很難識別不正確答案中的詳細錯誤。這一限制源於缺乏細粒度的過程監督。我們提出了一種簡單、有效且數據高效的方法,名為Step-DPO,該方法將單個推理步驟視為偏好優化的單位,而不是對答案進行整體評估。此外,我們還為Step-DPO開發了一個數據構建流程,可以創建包含10K步驟偏好對的高質量數據集。我們還觀察到,在DPO中,自生成的數據比人類或GPT-4生成的數據更有效,因為後者具有超出分佈範圍的特性。我們的研究結果表明,僅需10K偏好數據對和少於500個Step-DPO訓練步驟,即可使具有超過70B參數的模型在MATH上的準確率提高近3%。值得注意的是,當應用於Qwen2-72B-Instruct時,Step-DPO在MATH和GSM8K的測試集上分別達到了70.8%和94.0%的得分,超越了一系列封閉源模型,包括GPT-4-1106、Claude-3-Opus和Gemini-1.5-Pro。我們的代碼、數據和模型可在https://github.com/dvlab-research/Step-DPO 上找到。
我們訓練了一個模型,從交錯的文本和圖像的多模式提示中生成圖像,例如“一個<圖片中的男人>男人和他的<圖片中的狗>狗以<卡通圖片>動畫風格呈現”。我們通過從合成生成的和公開可用的文本-圖像數據的圖像標題中提取語義上有意義的圖像裁剪,來引導一個多模式數據集的啟動。我們的模型MUMU由一個具有擴散解碼器的視覺-語言模型編碼器組成,並在單個8xH100 GPU節點上進行訓練。儘管只訓練於來自同一圖像的裁剪,MUMU學會將來自不同圖像的輸入組合成一個連貫的輸出。例如,一個包含真實人物和卡通的輸入將輸出相同人物的卡通風格,一個包含站立主題和滑板車的輸入將輸出主題騎著滑板車的畫面。因此,我們的模型推廣到風格轉換和角色一致性等任務。我們的結果展示了使用多模式模型作為圖像生成的通用控制器的潛力。
大型語言模型(LLMs)已被應用於各種智能教育任務以協助教學。儘管初步探索專注於獨立的LLM增強代理人用於特定教育任務,但在多代理人協作框架中利用LLMs來模擬具有真實用戶參與的課堂的潛力尚未被探索。在這項工作中,我們提出SimClass,一個涉及用戶參與的多代理人課堂模擬框架。我們確認了代表性的課堂角色,並引入了一種新穎的課堂控制機制用於自動課堂教學,並在兩個現實課程中進行用戶實驗。利用教育分析中的Flanders互動分析系統和社群探究理論框架,我們證明LLMs能夠有效模擬傳統課堂互動模式,同時增強用戶體驗。我們還觀察到SimClass中代理人之間出現的新興群體行為,代理人合作創造活躍的課堂互動,以改善用戶的學習過程。我們希望這項工作能開創LLM增強的多代理人系統應用於虛擬課堂教學的先河。
本文介紹了自我意識知識檢索(SeaKR),這是一種新型的適應性RAG模型,從LLM的內部狀態中提取自我意識不確定性。SeaKR在LLM呈現高自我意識不確定性以進行生成時啟動檢索。為了有效整合檢索到的知識片段,SeaKR根據LLM的自我意識不確定性對它們進行重新排序,以保留最大程度降低其不確定性的片段。為了促進解決需要多次檢索的複雜任務,SeaKR利用它們的自我意識不確定性來選擇不同的推理策略。我們在複雜和簡單的問答數據集上進行的實驗表明,SeaKR優於現有的適應性RAG方法。我們在https://github.com/THU-KEG/SeaKR 上發布了我們的代碼。
大型語言模型(LLMs)在各種任務中展現出顯著的潛力,作為助手。在處理隱私敏感數據或延遲敏感任務時,將LLMs在邊緣設備上進行本地部署是必要的。這些設備的計算限制使得直接部署強大的大規模LLMs變得不切實際,因此需要從大規模模型到輕量級模型的知識蒸餾。已經有很多工作從LLMs中獲取多樣性和高質量的訓練示例,但很少有人注意到基於學生喜好來調整教師指導內容,類似於教學法中的“響應式教學”。因此,我們提出ARTE,全名Aligning TeacheR with StudenT PreferencEs,這是一個框架,將教師模型與學生喜好對齊,以生成針對知識蒸餾的定制訓練示例。具體而言,我們從教師模型中獲取初步問題和原因,然後使用學生在上下文學習中的表現作為代理來收集學生對這些問題和原因的喜好,最後將教師模型與學生喜好對齊。最後,我們使用對齊的教師模型重複第一步,為目標任務上的學生模型獲取定制的訓練示例。在學術基準測試中進行的大量實驗顯示,ARTE相對於從強大LLMs蒸餾出的現有指導調整數據集具有優越性。此外,我們深入研究了ARTE的泛化能力,包括在推理能力方面對微調的學生模型和對齊的教師模型在跨任務和學生間生成定制訓練數據的泛化能力。總之,我們的貢獻在於提出了一個新穎的框架用於定制訓練示例生成,展示了其在實驗中的有效性,並調查了ARTE中學生和對齊教師模型的泛化。
測試集污染是一個廣為人知的問題,指的是測試數據從基準測試中流入新模型的訓練集,這對於公正評估語言模型(LLM)構成障礙,並可能迅速使基準測試過時。為了減輕這個問題,許多最近的基準測試從人類或LLM評審中集體獲取新提示和評估;然而,這些方法可能引入顯著偏見,並在評分困難問題時失效。在本研究中,我們介紹了一個新的LLM基準測試,旨在兼顧測試集污染和LLM評分以及人類集體智慧的缺陷。我們推出了LiveBench,這是第一個基準測試,具有以下特點:(1)包含最新信息來源中經常更新的問題,(2)根據客觀的真實值自動評分答案,以及(3)包含各種具有挑戰性的任務,涵蓋數學、編碼、推理、語言、指令遵循和數據分析。為實現這一目標,LiveBench包含基於最近發布的數學競賽、arXiv論文、新聞文章和數據集的問題,並包含來自先前基準測試(如Big-Bench Hard、AMPS和IFEval)的更難、無污染版本的任務。我們評估了許多知名的封閉源代碼模型,以及從0.5B到110B不等的數十個開源模型。LiveBench非常困難,頂尖模型的準確率低於65%。我們公開所有問題、代碼和模型答案。問題將每月添加和更新,我們將隨時間推出新任務和更難的任務版本,以便LiveBench可以區分LLM在未來改進時的能力。我們歡迎社區參與和合作擴展基準測試任務和模型。
教學以改進學生模型(例如知識蒸餾)是LLM中被廣泛研究的方法論。然而,對於人類而言,教學不僅改進了學生,也改進了教師。我們提出:LLM是否也可以透過教學來學習(LbT)?如果是,我們可能可以解鎖在不僅依賴人類產生的數據或更強大模型的情況下持續推進模型的可能性。在本文中,我們對這一雄心勃勃的議程進行了初步探索。我們展示了LbT理念可以融入現有的LLM訓練/提示流程中並帶來顯著改進。具體而言,我們設計了三種方法,分別模仿人類LbT的三個層次:觀察學生的反饋、從反饋中學習以及迭代學習,旨在提高答案準確性而無需訓練,並通過微調提高模型的固有能力。研究結果令人鼓舞。例如,類似於人類的LbT,我們發現:(1)LbT可以引發從弱到強的泛化:強大模型可以通過教導其他弱模型來改進自身;(2)學生的多樣性可能有助於:教授多個學生可能比教授一個學生或教師本身更好。我們希望這種初步的潛力能激發對LbT的未來研究以及更廣泛地採納教育中的先進技術來改進LLM。代碼可在https://github.com/imagination-research/lbt找到。
模型反推與成員推斷攻擊的目標是重建並驗證模型訓練的數據。然而,由於不知道訓練集的大小,它們並不能保證找到所有訓練樣本。本文介紹了一個新任務:資料集大小恢復,旨在直接從模型的權重中確定用於訓練模型的樣本數量。然後,我們提出了 DSiRe,一種用於恢復用於微調模型的圖像數量的方法,在微調使用 LoRA 的常見情況下。我們發現 LoRA 矩陣的範數和頻譜與微調資料集大小密切相關;我們利用這一發現提出了一種簡單但有效的預測算法。為了評估 LoRA 權重的資料集大小恢復,我們開發並釋出了一個新基準 LoRA-WiSE,其中包含來自2000多個不同 LoRA 微調模型的超過 25000 個權重快照。我們最佳的分類器可以預測微調圖像的數量,平均絕對誤差為 0.36 張圖像,確立了這種攻擊的可行性。
稀疏注意力可以有效地減輕大型語言模型(LLMs)在長文本中對記憶和吞吐量的巨大需求。現有方法通常採用均勻的稀疏注意力遮罩,在不同的注意力頭和輸入長度之間應用相同的稀疏模式。然而,這種統一方法無法捕捉LLMs中固有的多樣化注意力模式,忽略了它們獨特的準確性和延遲之間的折衷。為應對這一挑戰,我們提出了混合注意力(MoA),可以自動為不同的注意力頭和層級量身定制不同的稀疏注意力配置。MoA構建並導航各種注意力模式及其相對於輸入序列長度的縮放規則的搜索空間。它對模型進行分析,評估潛在的配置,並找出最佳的稀疏注意力壓縮計劃。MoA適應不同的輸入大小,揭示了一些注意力頭擴展其焦點以容納更長序列,而其他注意力頭則一直集中在固定長度的本地上下文上。實驗表明,MoA使有效上下文長度增加了3.9倍,並在Vicuna-7B、Vicuna-13B和Llama3-8B模型上將檢索準確性提高了1.5-7.1倍,超過了統一注意力基線。此外,MoA縮小了稀疏模型和密集模型之間的能力差距,將最大相對性能下降從9%-36%降至在兩個長文本理解基準測試中不超過5%。MoA實現了單個GPU上7B和13B密集模型的1.2-1.4倍GPU內存減少,並將解碼吞吐量提高了5.5-6.7倍,對性能影響很小。
通過示例編程(PBE)旨在從輸入輸出示例生成算法。這類系統在實踐和理論上都非常重要:從最終用戶的角度來看,它們被部署到數百萬人手中;從人工智能的角度來看,PBE對應於一種非常一般的少樣本歸納推斷形式。鑒於大型語言模型(LLMs)在代碼生成任務中取得的成功,我們在這裡研究LLMs在多大程度上可以說已經“解決”了PBE。我們在經典領域(如列表和字符串)以及在典型預訓練數據中未很好代表的不常見的圖形編程領域進行實驗。我們發現預訓練模型在PBE方面效果不佳,但可以進行微調以獲得更高性能,前提是測試問題是在分佈內的。我們從實證分析了導致這些模型成功和失敗的原因,並朝著了解如何實現更好的分佈外泛化邁出了步伐。總的來說,這些結果表明LLMs在解決典型的PBE任務方面取得了重大進展,潛在地提高了PBE系統的靈活性和適用性,同時也確定了LLMs仍存在不足之處的方面。
在大型語言模型中,分詞器對於編碼信息至關重要,但其發展最近出現停滯現象,並且存在固有弱點。主要限制包括計算開銷過大、詞彙使用效率低下,以及嵌入層和頭層過大。此外,它們的性能偏向於參考語料庫,導致對於少數語言的效果降低。 為了解決這些問題,我們提出了T-FREE,它通過字符三元組上的稀疏激活模式直接嵌入單詞,並且不需要參考語料庫。T-FREE固有地利用形態相似性,並允許對嵌入層進行強大的壓縮。在我們的詳盡實驗評估中,我們在這些層上實現了超過85%的參數減少,同時實現了具有競爭力的下游性能。此外,T-FREE在跨語言轉移學習方面顯示出顯著的改進。
大型視覺語言模型(LVLMs)會出現幻覺:圖像中的某些上下文提示可能會觸發語言模塊對異常或假設對象的過度自信和不正確推理。儘管已開發了一些基準來調查LVLM幻覺,但它們主要依賴於手工製作的邊緣情況,其失敗模式可能很難泛化,對其進行微調可能會削弱其有效性。這促使我們開發了第一個自動基準生成方法AUTOHALLUSION,該方法利用幾種主要策略來創建不同的幻覺示例。它通過探測LVLM中的語言模塊以獲取上下文提示,並使用這些提示來合成圖像:(1)添加與上下文提示不正常的對象;(2)對於兩個同時出現的對象,保留一個並排除另一個;或(3)刪除與上下文提示密切相關的對象。然後生成基於圖像的問題,其真實答案與語言模塊的先前答案相矛盾。模型必須克服上下文偏見和干擾以獲得正確答案,而不正確或不一致的答案表明出現幻覺。AUTOHALLUSION使我們能夠以最低成本創建新的基準,從而克服手工製作基準的脆弱性。它還揭示了常見的失敗模式和原因,提供了檢測、避免或控制幻覺的關鍵見解。對頂級LVLMs,例如GPT-4V(ision)、Gemini Pro Vision、Claude 3和LLaVA-1.5進行全面評估,顯示在AUTOHALLUSION的合成和真實世界數據集上誘發幻覺的成功率分別為97.7%和98.7%,為長期對抗幻覺鋪平了道路。
圖形使用者介面(GUI)對我們與數位設備的互動至關重要。最近,人們開始努力建立各種GUI理解任務的模型。然而,這些努力在很大程度上忽略了一個重要的GUI相關任務:根據使用者指示的點進行螢幕閱讀,我們稱之為螢幕點讀(SPR)任務。這個任務主要由僵化的可存取螢幕閱讀工具處理,迫切需要由多模式大型語言模型(MLLMs)驅動的新模型。在本文中,我們提出了一個名為鏡片樹(ToL)代理,利用一種新穎的ToL基礎機制來應對SPR任務。根據輸入的點座標和相應的GUI螢幕截圖,我們的ToL代理構建了一個階層佈局樹。基於這個樹,我們的ToL代理不僅理解了指示區域的內容,還闡述了元素之間的佈局和空間關係。這樣的佈局信息對於準確解讀螢幕上的信息至關重要,使我們的ToL代理與其他螢幕閱讀工具有所不同。我們還對ToL代理在新提出的SPR基準測試中與其他基準進行了全面評估,該基準包括來自移動、網頁和操作系統的GUI。最後,我們在移動GUI導航任務上測試了ToL代理,展示了其在識別執行軌跡中路徑上的錯誤操作方面的實用性。程式碼和數據:screen-point-and-read.github.io
檢索增強生成(RAG)已證明在緩解大型語言模型(LLMs)的幻覺問題方面具有效果。然而,將檢索器與多樣的LLMs知識偏好對齊的困難不可避免地在開發可靠的RAG系統時帶來挑戰。為了應對這個問題,我們提出了DPA-RAG,這是一個旨在對齊RAG系統內多樣知識偏好的通用框架。具體而言,我們首先引入了一個偏好知識構建流程,並結合了五種新的查詢擴充策略來緩解偏好數據稀缺的問題。基於偏好數據,DPA-RAG實現了外部和內部偏好對齊:1)它將成對、點對和對比偏好對齊能力共同整合到重新排序器中,實現了RAG組件之間的外部偏好對齊。2)它進一步引入了在普通監督微調(SFT)之前的預對齊階段,使LLMs能夠隱式捕捉與其推理偏好對齊的知識,實現了LLMs的內部對齊。在四個知識密集型QA數據集上的實驗結果表明,DPA-RAG優於所有基準線,並無縫集成了黑盒和開源LLMs讀者。進一步的定性分析和討論還提供了實證指導,以實現可靠的RAG系統。我們的代碼公開在https://github.com/dongguanting/DPA-RAG。
受近年來埃及阿拉伯語和英語之間代碼切換現象普遍增加的影響,本文探討機器翻譯(MT)和自動語音識別(ASR)系統的複雜性,專注於將代碼切換的埃及阿拉伯語-英語翻譯成英語或埃及阿拉伯語。我們的目標是介紹開發這些系統所採用的方法,利用大型語言模型如LLama和Gemma。在ASR領域,我們探討了Whisper模型在代碼切換的埃及阿拉伯語識別中的應用,詳細說明了我們的實驗程序,包括數據預處理和訓練技術。通過實施一個將ASR與MT集成的連續語音轉文本翻譯系統,我們旨在克服受限資源和埃及阿拉伯方言的獨特特徵所帶來的挑戰。根據已建立的指標進行評估,我們的方法較最先進技術在英語翻譯方面實現了顯著的56%改進,阿拉伯語翻譯方面則為9.3%。由於代碼切換在口語語言中根深蒂固,ASR系統能夠有效處理這一現象至關重要。這種能力對於實現在各個領域中的無縫互動至關重要,包括商務談判、文化交流和學術論述。我們的模型和代碼可作為開源資源使用。代碼:http://github.com/ahmedheakl/arazn-llm,模型:http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e。
隨著對線上招聘平台的日益依賴以及人工智慧技術的採用,強調了對高效履歷分類方法的迫切需求。然而,挑戰如小數據集、缺乏標準化履歷模板和隱私問題阻礙了現有分類模型的準確性和效力。在這項研究中,我們通過提出一種全面的履歷分類方法來應對這些挑戰。我們從不同來源精心挑選了一個規模龐大的數據集,包含13,389份履歷,並採用了大型語言模型(LLMs)如BERT和Gemma1.1 2B進行分類。我們的結果顯示,相較於傳統機器學習方法,我們的最佳模型實現了92%的頂級1準確度和97.5%的頂級5準確度。這些發現強調了數據集質量和先進模型架構在提升履歷分類系統的準確性和韌性方面的重要性,從而推動了線上招聘實踐領域的發展。
儘管許多研究已評估語言模型(LMs)在需要心智理論推理的任務上的生成性能,但對模型對心智狀態的內部表示的研究仍然有限。最近的研究使用探測技術來證明LMs可以表示自己和他人的信念。然而,這些主張缺乏充分的評估,使得難以評估模型設計和訓練選擇對心智狀態表示的影響。我們報告了一項廣泛的基準測試,使用不同模型大小、微調方法和提示設計的各種LM類型,以研究心智狀態表示的穩健性和探測中的記憶問題。我們的結果顯示,模型對他人信念的內部表示品質隨著模型大小的增加而提高,更重要的是,隨著微調的進行而提高。我們是第一個研究提示變化如何影響心智理論任務探測性能的研究。我們證明模型的表示對提示變化敏感,即使這些變化應該是有益的。最後,我們補充了先前在心智理論任務上的激活編輯實驗,並展示了通過引導它們的激活可以改善模型的推理性能,而無需訓練任何探測器。