每日精選AI研究論文及翻譯
我們推出Qwen2.5-VL,作為Qwen視覺語言系列的最新旗艦模型,其在基礎能力與創新功能上均展現了顯著進步。Qwen2.5-VL通過增強視覺識別、精確物體定位、強大文檔解析及長視頻理解能力,實現了對世界理解與互動的重大飛躍。該模型的一大亮點在於其能精確使用邊界框或點來定位物體,並能從發票、表格中提取穩健的結構化數據,以及對圖表、圖示和佈局進行詳細分析。為處理複雜輸入,Qwen2.5-VL引入了動態分辨率處理與絕對時間編碼,使其能夠處理不同尺寸的圖像及長達數小時的視頻,並實現秒級事件定位。這讓模型能夠原生感知空間尺度與時間動態,無需依賴傳統的歸一化技術。通過從頭訓練原生動態分辨率的視覺Transformer(ViT)並結合窗口注意力機制,我們在保持原生分辨率的同時降低了計算開銷。因此,Qwen2.5-VL不僅在靜態圖像與文檔理解上表現卓越,還作為一個互動視覺代理,在操作電腦與移動設備等現實場景中具備推理、工具使用及任務執行的能力。Qwen2.5-VL提供三種尺寸,滿足從邊緣AI到高效能計算的多元應用場景。旗艦型號Qwen2.5-VL-72B在文檔與圖示理解方面與GPT-4o、Claude 3.5 Sonnet等頂尖模型相媲美。此外,Qwen2.5-VL保持了強大的語言性能,延續了Qwen2.5大語言模型的核心語言能力。
生成式基礎模型(GenFMs)已成為變革性的工具。然而,其廣泛應用引發了對多維度可信度的關鍵擔憂。本文提出了一個全面框架,通過三項關鍵貢獻來應對這些挑戰。首先,我們系統性地回顧了來自政府和監管機構的全球AI治理法律與政策,以及行業實踐與標準。基於此分析,我們提出了一套GenFMs的指導原則,這些原則通過廣泛的多學科合作制定,融合了技術、倫理、法律和社會視角。其次,我們介紹了TrustGen,這是首個動態基準測試平台,旨在評估多維度和多模型類型的可信度,包括文本到圖像、大型語言和視覺語言模型。TrustGen利用模塊化組件——元數據策展、測試案例生成和上下文變異——來實現適應性和迭代性評估,克服了靜態評估方法的局限。通過TrustGen,我們揭示了可信度方面的顯著進展,同時指出了持續存在的挑戰。最後,我們深入探討了可信GenFMs的挑戰與未來方向,揭示了可信度的複雜性和演變性,強調了效用與可信度之間的細微權衡,並考慮了各種下游應用,識別了持續存在的挑戰,並為未來研究提供了戰略路線圖。這項工作建立了一個推進生成式AI可信度的整體框架,為GenFMs更安全、更負責任地融入關鍵應用鋪平了道路。為促進社區的進步,我們發布了動態評估工具包。
文本到歌曲生成,即從文本輸入中創造人聲和伴奏的任務,由於領域的複雜性和數據的稀缺性,面臨著重大挑戰。現有方法通常採用多階段生成程序,導致訓練和推理流程繁瑣。本文中,我們提出了SongGen,一個完全開源、單階段的自迴歸變壓器模型,專為可控歌曲生成而設計。該模型能夠精細控制多樣化的音樂屬性,包括歌詞及對樂器配置、流派、情緒和音色的文本描述,同時還提供一個可選的三秒參考片段用於聲音克隆。在統一的自迴歸框架內,SongGen支持兩種輸出模式:混合模式,直接生成人聲與伴奏的混合;雙軌模式,分別合成人聲和伴奏,為下游應用提供更大的靈活性。我們針對每種模式探索了多樣的令牌模式策略,帶來了顯著的改進和寶貴的見解。此外,我們設計了一個自動化的數據預處理流程,並實施了有效的質量控制。為促進社區參與和未來研究,我們將公開模型權重、訓練代碼、註釋數據及預處理流程。生成的樣本展示於我們的項目頁面https://liuzh-19.github.io/SongGen/,代碼將在https://github.com/LiuZH-19/SongGen 提供。
現有的端到端自動駕駛(AD)算法通常遵循模仿學習(IL)範式,該範式面臨因果混淆和開環差距等挑戰。在本研究中,我們建立了一種基於3D高斯散射(3DGS)的閉環強化學習(RL)訓練範式。通過利用3DGS技術,我們構建了一個逼真的數字化現實物理世界複製品,使AD策略能夠廣泛探索狀態空間,並通過大規模試錯學習處理分佈外場景。為了增強安全性,我們設計了專門的獎勵機制,引導策略有效應對安全關鍵事件並理解現實世界的因果關係。為了更好地與人類駕駛行為對齊,我們將IL作為正則化項融入RL訓練中。我們引入了一個由多樣化、未見過的3DGS環境組成的閉環評估基準。與基於IL的方法相比,RAD在大多數閉環指標上表現更強,尤其是碰撞率降低了3倍。豐富的閉環結果展示於https://hgao-cv.github.io/RAD。
大型語言模型(LLMs)在複雜推理任務中表現卓越,將其推理能力蒸餾至較小模型已顯示出潛力。然而,我們發現了一個有趣的現象,稱之為「小模型可學習性差距」:參數規模較小的模型(≤3B)並未一致地受益於長鏈思維(CoT)推理或從更大模型的蒸餾。相反,當這些小模型在更短、更簡單的推理鏈上進行微調,更符合其內在學習能力時,它們的表現更佳。為此,我們提出了混合蒸餾(Mix Distillation),這是一種簡單而有效的策略,通過結合長短CoT示例或大小模型的推理,來平衡推理的複雜性。我們的實驗表明,與單獨使用任一數據訓練相比,混合蒸餾顯著提升了小模型的推理性能。這些發現揭示了直接強模型蒸餾的局限性,並強調了調整推理複雜性對於有效推理能力轉移的重要性。
線性序列建模方法,如線性注意力、狀態空間建模和線性RNN,通過降低訓練和推理的複雜性,顯著提升了效率。然而,這些方法通常將整個輸入序列壓縮為單一固定大小的記憶狀態,這導致在召回密集型下游任務中表現欠佳。受神經科學啟發,尤其是大腦在保持穩健長期記憶的同時減輕“記憶干擾”的能力,我們引入了一種名為混合記憶(Mixture-of-Memories, MoM)的新架構。MoM利用多個獨立的記憶狀態,並通過路由網絡將輸入令牌定向到特定的記憶狀態。這種方法極大地增強了整體記憶容量,同時最小化了記憶干擾。因此,MoM在召回密集型任務中表現出色,超越了現有的線性序列建模技術。儘管引入了多個記憶狀態,每個記憶狀態的計算仍保持線性複雜度,使MoM在訓練時保留了線性複雜度的優勢,而在推理時保持常數複雜度。我們的實驗結果表明,MoM在下游語言任務中,尤其是召回密集型任務上,顯著優於當前的線性序列模型,甚至達到了與Transformer模型相當的性能。代碼已發佈於https://github.com/OpenSparseLLMs/MoM,並作為https://github.com/OpenSparseLLMs/Linear-MoE的一部分發佈。
文本嵌入模型通常僅在有限的任務集上進行評估,這些任務受到語言、領域和任務多樣性的限制。為了解決這些限制並提供更全面的評估,我們引入了大規模多語言文本嵌入基準(MMTEB)——這是對MTEB的一次大規模、社群驅動的擴展,涵蓋了超過500個質量控制的評估任務,涉及250多種語言。MMTEB包含了一系列多樣且具有挑戰性的新任務,如指令遵循、長文檔檢索和代碼檢索,代表了迄今為止最大的多語言嵌入模型評估任務集合。利用這一集合,我們開發了幾個高度多語言的基準,並用它們來評估一組具有代表性的模型。我們發現,雖然擁有數十億參數的大型語言模型(LLMs)在某些語言子集和任務類別上能夠達到最先進的性能,但公開可用的最佳表現模型是僅有5.6億參數的multilingual-e5-large-instruct。為了提高可訪問性並降低計算成本,我們引入了一種基於任務間相關性的新穎下采樣方法,確保了多樣性選擇的同時保留了模型的相對排名。此外,我們通過採樣困難負例來優化檢索等任務,創建了更小但有效的分割。這些優化使我們能夠引入大幅降低計算需求的基準。例如,我們新引入的零樣本英語基準在保持與完整版本相似排名順序的同時,僅需極少的計算成本。
大型語言模型(LLMs)通過預訓練和對齊展現了卓越的能力。然而,在短上下文場景中表現優異的LLMs,在長上下文情境下可能表現不佳,這主要是由於長上下文對齊的不足。這一對齊過程面臨挑戰,原因在於人類對長上下文進行註解的不可行性,以及平衡短上下文和長上下文性能的難度。為解決這些問題,我們引入了LongPO,它使短上下文LLMs能夠通過內部轉移短上下文能力,自我進化以在長上下文任務中表現出色。LongPO利用LLMs從自我生成的短到長偏好數據中學習,這些數據包括針對相同指令但分別以長上下文輸入及其壓縮後的短上下文對應版本生成的回應對。這種偏好揭示了在短上下文對齊過程中培養的LLMs能力與潛力,這些在未充分對齊的長上下文場景中可能被削弱。此外,LongPO還引入了短到長的KL約束,以減輕長上下文對齊過程中短上下文性能的下降。當應用於從128K到512K上下文長度的Mistral-7B-Instruct-v0.2時,LongPO完全保留了短上下文性能,並在長短上下文任務中大幅超越簡單的SFT和DPO。具體而言,經過\ourMethod訓練的模型在長上下文基準測試中的結果,可與甚至超越那些涉及大量長上下文註解和更大參數規模的優質LLMs(如GPT-4-128K)相媲美。
網路爬取是大型語言模型(LLMs)預訓練資料的主要來源,但由於資料品質低劣,大多數爬取的網頁在預訓練過程中被捨棄。本文提出Crawl4LLM,一種基於LLM預訓練偏好探索網路圖的高效網頁爬取方法。具體而言,該方法利用網頁在LLM預訓練中的影響力作為爬取器排程器的優先級評分,取代了基於標準圖連通性的優先級。我們在包含商業搜尋引擎索引中9億個網頁的網路圖上進行的實驗,展示了Crawl4LLM在獲取高品質預訓練資料方面的效率。僅爬取21%的URL,使用Crawl4LLM資料預訓練的LLMs就能達到與先前爬取相同的下游任務表現,顯著減少了爬取浪費並減輕了對網站的負擔。我們的程式碼公開於https://github.com/cxcscmu/Crawl4LLM。
大型語言模型(LLM)應用正從簡單的聊天機器人演進為動態、通用的代理程式,這些程式通過擴展LLM調用和輸出標記,協助AI代理進行推理、探索並解決複雜任務。然而,現有的LLM服務系統忽視了程式與調用之間的依賴關係,錯失了重要的優化機會。我們的分析顯示,提交至LLM服務引擎的程式經歷了較長的累積等待時間,這主要是由於單個LLM請求和程式層面的隊頭阻塞所致。為解決這一問題,我們引入了Autellix,這是一個將程式視為一等公民的LLM服務系統,旨在最小化其端到端延遲。Autellix攔截程式提交的LLM調用,為調度器提供程式層面的上下文信息。我們提出了兩種調度算法——針對單線程和分佈式程式——這些算法根據程式先前完成的調用,對LLM調用進行搶佔和優先級排序。我們的評估表明,在各種LLM和代理工作負載下,與最先進的系統(如vLLM)相比,Autellix在相同延遲下將程式的吞吐量提高了4至15倍。
監督式微調(Supervised Fine-Tuning, SFT)一直是提升相對較小的大型語言模型(LLMs)長鏈思維(Chain-of-Thought, CoT)推理能力的有效方法,通過使用來自更大LLMs的長CoT回應進行微調。為了持續提升推理能力,我們可以收集新的高質量長CoT推理SFT數據,或重複訓練現有的SFT數據集。然而,獲取新的長CoT SFT數據成本高昂且有限,而重複訓練往往導致性能停滯或下降。為了進一步利用SFT數據提升性能,我們提出了思維偏好優化(Thinking Preference Optimization, ThinkPO),這是一種簡單而有效的後SFT方法,無需新的長CoT回應即可增強長CoT推理。ThinkPO利用現成或易於獲取的短CoT推理回應作為被拒絕的答案,並將長CoT回應作為同一問題的選擇答案,然後應用直接偏好優化,鼓勵模型偏好更長的推理輸出。實驗表明,ThinkPO進一步提升了SFT模型的推理性能,例如,它將SFT模型的數學推理準確率提高了8.6%,輸出長度增加了25.9%。值得注意的是,ThinkPO能夠持續提升公開蒸餾的SFT模型的性能,例如,將官方DeepSeek-R1-Distill-Qwen-7B在MATH500上的表現從87.4%提升至91.2%。
大型語言模型(LLMs)在通用領域展現了卓越的能力,但在需要專業知識的任務上往往表現不佳。傳統的檢索增強生成(RAG)技術通常從靜態知識庫中檢索外部信息,這些信息可能過時或不完整,缺乏對準確醫療問答至關重要的細粒度臨床細節。在本研究中,我們提出了SearchRAG,這是一種新穎的框架,通過利用即時搜索引擎來克服這些限制。我們的方法採用合成查詢生成,將複雜的醫療問題轉換為適合搜索引擎的查詢,並利用基於不確定性的知識選擇來過濾並將最相關且信息豐富的醫療知識整合到LLM的輸入中。實驗結果表明,我們的方法顯著提高了醫療問答任務中的回答準確性,特別是在需要詳細和最新知識的複雜問題上。
大型語言模型(LLMs)在自然語言處理領域取得了顯著進展,展現出卓越的任務泛化能力。低秩適應(LoRA)提供了一種成本效益高的微調解決方案,它凍結原始模型參數,僅訓練輕量級的低秩適配矩陣。然而,LoRA的記憶體佔用主要由原始模型參數主導。為緩解此問題,我們提出了LoRAM,這是一種基於記憶體效率的LoRA訓練方案,其核心思想是:在過參數化的LLMs中,許多神經元在訓練時效用較低,但在推理時卻至關重要。LoRAM提出了一種獨特的轉折:它在一個經過剪枝的(小型)模型上進行訓練,以獲得剪枝後的低秩矩陣,然後將這些矩陣恢復並用於原始(大型)模型的推理。此外,模型發布者預先執行的最低成本持續預訓練,對齊了剪枝模型與原始模型之間的知識差異。我們的大量實驗證明了LoRAM在多種剪枝策略和下游任務中的有效性。對於一個擁有700億參數的模型,LoRAM使得僅需20G HBM的GPU即可進行訓練,取代了用於LoRA訓練的A100-80G GPU和用於完整微調的15個GPU。具體而言,結合結構化剪枝與4位元量化的QLoRAM,在LLaMA-3.1-70B(LLaMA-2-70B)上,將低秩矩陣訓練中主導記憶體使用的參數存儲成本降低了15.81倍(16.95倍),同時在性能上超越了原始LLaMA-3.1-70B(LLaMA-2-70B)和LoRA訓練的LLaMA-3.1-8B(LLaMA-2-13B)。
姓名與人類身份密切相關,它們可以作為個體性、文化傳承和個人歷史的標誌。然而,將姓名作為身份的核心指標可能會導致對複雜身份的過度簡化。在與大型語言模型(LLMs)互動時,用戶姓名是個性化的重要信息點。姓名可以通過直接用戶輸入(由聊天機器人請求)、作為任務上下文的一部分(如簡歷審查)或作為存儲用戶信息以實現個性化的內置記憶功能進入聊天機器人對話。我們通過測量LLMs在面對常見的尋求建議查詢時生成的回應中的文化假設,來研究與姓名相關的偏見,這些查詢可能涉及對用戶的假設。我們的分析表明,在多種文化的LLM生成中,存在與姓名相關的強烈文化身份假設。我們的工作對設計更細緻的個性化系統具有啟示意義,這些系統在保持有意義的定制的同時,避免強化刻板印象。
大型語言模型(LLMs)的安全對齊仍然存在脆弱性,因為它們的初始行為很容易被相對簡單的攻擊所破解。由於在輸入指令和模型初始輸出之間填充固定模板是現有LLMs的常見做法,我們假設這個模板是導致其脆弱性的關鍵因素:LLMs的安全相關決策過度依賴於模板區域的聚合信息,這在很大程度上影響了這些模型的安全行為。我們將此問題稱為模板錨定的安全對齊。在本文中,我們進行了大量實驗,並驗證了模板錨定的安全對齊在各種對齊的LLMs中普遍存在。我們的機制分析展示了它如何導致模型在遇到推理時破解攻擊時的易感性。此外,我們表明,將安全機制從模板區域中分離出來有望減輕對破解攻擊的脆弱性。我們鼓勵未來的研究開發更為穩健的安全對齊技術,以減少對模板區域的依賴。
目前訓練過程獎勵模型(PRMs)的方法通常涉及使用基於規則的技術將回應分解為多個推理步驟,例如使用預定義的佔位符標記或將推理步驟的長度設定為固定大小。這些方法忽略了特定詞語通常不會在文本中標示真正的決策點這一事實。為解決此問題,我們提出了AdaptiveStep,這是一種根據模型預測下一個詞的置信度來劃分推理步驟的方法。這種劃分方法在每一步提供了更多的決策信息,從而增強了下游任務,如獎勵模型學習。此外,我們的方法無需手動註釋。我們通過在數學推理和代碼生成任務中使用AdaptiveStep訓練的PRMs進行實驗,展示了其有效性。實驗結果表明,最終的PRM在Best-of-N性能上達到了最先進的水平,超越了基於詞元級別值引導解碼的貪婪搜索策略,同時與現有的開源PRMs相比,構建成本降低了超過30%。此外,我們還對PRM的性能、可遷移性和泛化能力進行了深入分析和案例研究。
三維分子生成對於藥物發現和材料設計至關重要。儘管先前的研究主要關注三維擴散模型在模擬連續三維構象上的優勢,但卻忽視了一維基於SELFIES的語言模型(LMs)的優點,後者能夠生成100%有效的分子並利用數十億規模的一維分子數據集。為了結合這些優勢進行三維分子生成,我們提出了一個基礎模型——NExT-Mol:三維擴散與一維語言建模相結合的三維分子生成模型。NExT-Mol利用經過廣泛預訓練的分子LM進行一維分子生成,隨後使用三維擴散模型預測生成分子的三維構象。我們通過擴大LM的模型規模、改進擴散神經架構以及應用一維到三維的遷移學習來提升NExT-Mol的性能。值得注意的是,我們的一維分子LM在保證有效性的同時,在分佈相似性上顯著超越了基線模型,而我們的三維擴散模型在構象預測方面取得了領先的表現。鑑於這些在一維和三維建模上的改進,NExT-Mol在GEOM-DRUGS數據集上的全新三維生成任務中實現了26%的相對提升,在QM9-2014數據集上的條件三維生成任務中平均獲得了13%的相對增益。我們的代碼和預訓練檢查點可在https://github.com/acharkq/NExT-Mol獲取。
大型語言模型(LLMs)與多模態大型語言模型(MLLMs)在推理能力上取得了顯著進展。然而,它們仍面臨高計算需求與隱私問題等挑戰。本文聚焦於開發具備競爭力推理能力的高效小型語言模型(SLMs)與多模態小型語言模型(MSLMs)。我們提出了一種新穎的訓練流程,該流程不僅提升了推理能力,還便於在邊緣設備上部署,實現了頂尖性能的同時最大限度地降低了開發成本。\InfR~ 旨在通過縮小模型規模來提升AI系統的推理能力、降低採用門檻並解決隱私問題。相關資源可於 https://github.com/Reallm-Labs/InfiR 獲取。
機器學習,作為現代人工智慧的基石,已推動了從根本上改變世界的創新。然而,在這些進步的背後,隱藏著一個複雜且往往繁瑣的過程,需要耗費大量人力和計算資源進行迭代與實驗。開發機器學習模型的工程師和科學家們,將大量時間花費在試錯任務上,而非構思創新解決方案或研究假設。為應對這一挑戰,我們引入了AI驅動探索(AIDE),這是一個由大型語言模型(LLMs)驅動的機器學習工程代理。AIDE將機器學習工程視為代碼優化問題,並將試錯過程形式化為在潛在解決方案空間中的樹搜索。通過策略性地重用和改進有前景的解決方案,AIDE有效地以計算資源換取性能提升,在多個機器學習工程基準測試中取得了最先進的成果,包括我們的Kaggle評估、OpenAI MLE-Bench和METRs RE-Bench。
我們推出TESS 2,這是一個通用的指令遵循擴散語言模型,其表現超越了當代的指令調優擴散模型,並在某些情況下與強大的自回歸(AR)模型相媲美甚至超越。我們首先通過持續預訓練來適應一個強大的AR模型,使用常規的交叉熵作為擴散損失,然後進行進一步的指令調優,從而訓練TESS 2。我們發現,適應訓練以及基礎模型的選擇對於訓練良好的指令遵循擴散模型至關重要。我們進一步提出了獎勵引導,這是一種新穎且模塊化的推理時引導程序,用於對齊模型輸出,而無需訓練底層模型。最後,我們展示了TESS 2隨著推理時計算資源的增加而進一步提升,這凸顯了擴散語言模型在推理時對計算量進行細粒度控制的實用性。代碼和模型可在https://github.com/hamishivi/tess-2獲取。
長期、開放領域的對話能力對於旨在回憶過往互動並展現情感智能(EI)的聊天機器人至關重要。然而,現有研究大多依賴於合成、由大型語言模型(LLM)生成的數據,這使得真實世界中的對話模式仍存有疑問。為填補這一空白,我們引入了REALTALK,這是一個為期21天的真實即時通訊應用對話語料庫,為直接對比真實人類互動提供了基準。 我們首先進行了數據集分析,聚焦於情感智能屬性和角色一致性,以理解真實世界對話所帶來的獨特挑戰。通過與LLM生成的對話進行比較,我們突出了關鍵差異,包括多樣的情感表達和角色穩定性的變化,這些往往是合成對話所未能捕捉的。 基於這些洞察,我們提出了兩項基準任務:(1)角色模擬,即模型在給定先前對話上下文的情況下,代表特定用戶繼續對話;(2)記憶探測,即模型回答需要長期記憶過去互動的特定問題。 我們的研究發現,模型僅憑對話歷史難以模擬用戶,而對特定用戶聊天進行微調則能提升角色模仿能力。此外,現有模型在回憶和利用真實世界對話中的長期上下文方面面臨顯著挑戰。
利用大型語言模型(LLMs)進行相關性評估,為改進信息檢索(IR)、自然語言處理(NLP)及相關領域提供了充滿希望的機會。實際上,LLMs有望讓IR實驗者以目前所需人工勞動的一小部分,構建評估集合。這對於尚處知識有限的新興主題尤為有益,並能緩解在低資源情境下評估排名系統的挑戰,這些情境中尋找人工標註者往往困難重重。鑑於該領域近期的快速發展,關於LLMs作為評估者的許多問題仍有待解答。在需要進一步研究的方面中,我們可以列舉出相關性判斷生成流程中各個組件的影響,例如所使用的提示或選擇的LLM。 本文對大規模自動相關性判斷評估的結果進行了基準測試並予以報告,這是在SIGIR 2024上舉辦的LLMJudge挑戰賽,其中提出了多種相關性評估方法。具體而言,我們發布並對比了由參與挑戰的八個國際團隊生成的42個LLM標籤,這些標籤基於TREC 2023深度學習軌道的相關性判斷。鑑於其多樣性,這些自動生成的相關性判斷不僅能幫助社區研究由LLMs引起的系統性偏差,還能探索集成模型的有效性,分析不同模型與人工評估者之間的權衡,並推進改進自動化評估技術的方法論。發布的資源可通過以下鏈接獲取: https://llm4eval.github.io/LLMJudge-benchmark/
大型語言模型(LLMs)在工作環境中的應用日益廣泛,擅長於解決單一且獨立的問題。然而,它們是否也能在長期互動中有效協作?為探討此問題,我們引入了MemoryCode,這是一個合成的多會話數據集,旨在測試LLMs在模擬真實環境下,追蹤並執行簡單編碼指令的能力,同時處理無關信息。儘管所有測試的模型都能很好地處理孤立指令,但即使是像GPT-4o這樣的頂尖模型,在指令分散於多個會話時,其表現也會下降。我們的分析表明,這是由於它們無法在長指令鏈中有效檢索和整合信息。我們的結果揭示了當前LLMs的一個根本限制,這限制了它們在長期互動中有效協作的能力。
生成式推薦(Generative Recommendation, GR)是一種新興的範式,其中用戶行為被轉化為離散的標記模式,並以自回歸方式生成預測。然而,現有的GR模型獨立地對每個行為進行標記化,為所有序列中的相同行為分配相同的固定標記,而忽略了上下文關係。這種缺乏上下文感知的處理方式可能導致次優的表現,因為相同的行為在不同的上下文環境中可能具有不同的意義。為了解決這一問題,我們提出了ActionPiece,在標記化行為序列時顯式地融入上下文信息。在ActionPiece中,每個行為被表示為一組項目特徵,這些特徵作為初始標記。基於行為序列語料庫,我們通過合併特徵模式來構建詞彙表,這些新模式作為新標記,其合併依據是它們在單個集合內及相鄰集合間的共現頻率。考慮到特徵集合的無序性,我們進一步引入了集合排列正則化,這能生成具有相同語義的行為序列的多種分割方式。在公開數據集上的實驗表明,ActionPiece在現有的行為標記化方法中持續表現優異,將NDCG@10提升了6.00%至12.82%。
大型語言模型(LLM)輸出中的幻覺嚴重限制了其在知識密集型任務(如問答)中的可靠性。為應對這一挑戰,我們引入了REFIND(基於檢索的事實性幻覺檢測),這是一個新穎的框架,通過直接利用檢索到的文檔來檢測LLM輸出中的幻覺片段。作為REFIND的一部分,我們提出了上下文敏感度比率(CSR),這是一種新穎的指標,用於量化LLM輸出對檢索證據的敏感性。這一創新方法使REFIND能夠高效且準確地檢測幻覺,使其有別於現有方法。在評估中,REFIND在九種語言(包括低資源環境)中展現了魯棒性,並顯著優於基準模型,在識別幻覺片段方面獲得了優異的IoU分數。這項工作凸顯了量化上下文敏感度在幻覺檢測中的有效性,從而為跨多種語言的更可靠、更值得信賴的LLM應用鋪平了道路。
多選題問答(MCQA)因其簡便性和類似人類測試的特性,在大型語言模型(LLM)評估中廣受歡迎,但我們主張對其進行改革。首先,我們揭示了MCQA格式的缺陷,它難以:1)測試生成能力/主觀性;2)匹配LLM的實際應用場景;3)全面測試知識。相反,我們提倡基於人類測試的生成式格式——讓LLM構建並解釋答案——這樣能更好地捕捉用戶需求和知識,同時保持評分的簡便性。接著,我們指出即使MCQA作為一種有用格式,其數據集也存在問題:洩露、無法回答、捷徑和飽和。針對每個問題,我們從教育領域借鑒解決方案,如使用評分標準指導多選題編寫;採用評分方法抑制猜測;以及應用項目反應理論來構建更難的多選題。最後,我們探討了LLM在MCQA中的錯誤——魯棒性、偏見和不忠實的解釋——展示了我們之前的解決方案如何更好地衡量或解決這些問題。雖然我們無需完全摒棄MCQA,但我們鼓勵基於教育測試的更多努力來精煉這一任務,從而推進評估的進步。
大型視覺語言模型(LVLMs)近期因其卓越性能與廣泛應用性而受到關注。儘管先前研究已表明,這些模型在涉及非西方情境的使用場景中效果欠佳,但現有研究範圍有限,僅涵蓋少數文化,專注於少量文化面向,或僅在單一任務上評估有限數量的模型。為推動全球包容性的LVLM研究,我們引入了GIMMICK,這是一個廣泛的多模態基準,旨在評估代表全球六大宏觀區域的144個國家的廣泛文化知識。GIMMICK包含基於三個新數據集構建的六項任務,涵蓋728個獨特的文化事件或面向,我們在此基礎上評估了20個LVLMs和11個LLMs,包括五個專有模型和26個各種規模的開源模型。我們系統性地考察了(1)區域文化偏見,(2)模型規模的影響,(3)輸入模態,以及(4)外部提示。我們的分析揭示了模型和任務中對西方文化的強烈偏見,並強調了模型規模與性能之間的強相關性,以及多模態輸入和外部地理提示的有效性。我們進一步發現,模型對有形文化元素(如食物)的知識多於無形元素(如儀式),並且在識別廣泛文化起源方面表現出色,但在更細緻的理解上則面臨挑戰。
現有的多語言視覺-語言(VL)基準通常僅涵蓋少數幾種語言。因此,對大型視覺-語言模型(LVLMs)的評估主要針對高資源語言,這凸顯了對低資源語言評估數據的需求。為解決這一限制,我們引入了MVL-SIB,這是一個大規模多語言視覺-語言基準,評估了205種語言的跨模態和純文本主題匹配——比現有最為多語言的VL基準多出100多種語言。我們隨後在MVL-SIB上對一系列開源權重的LVLMs以及GPT-4o(-mini)進行了基準測試。我們的結果顯示,LVLMs在低資源語言的跨模態主題匹配上表現不佳,對於像N'Koo這樣的語言,其表現甚至不優於隨機猜測。我們的分析進一步揭示,相對於文本支持,LVLMs在低資源語言中的VL支持下降得不成比例,這通過跨模態與純文本主題匹配性能的比較得以證實。我們還觀察到,開源權重的LVLMs並未從使用多張圖像表示主題中獲益,這表明這些模型在處理多圖像任務方面尚未完全有效。通過將MVL-SIB上的性能與其他多語言VL基準進行關聯,我們強調了MVL-SIB作為全面探測LVLMs多語言VL理解能力的工具。
儘管新視角合成(Novel View Synthesis, NVS)領域近期取得了進展,但從單一或稀疏觀測中生成高保真視圖仍是一大挑戰。現有的基於點雲渲染的方法常因渲染誤差而產生幾何失真。雖然基於擴散模型的方法利用豐富的三維先驗知識來改善幾何結構,但它們往往會出現紋理幻覺問題。本文提出SplatDiff,一種基於像素點雲引導的視頻擴散模型,旨在從單一圖像合成高保真的新視角。具體而言,我們提出了一種對齊合成策略,以精確控制目標視角並實現幾何一致的視圖合成。為減輕紋理幻覺,我們設計了一個紋理橋接模塊,通過自適應特徵融合實現高保真紋理生成。如此,SplatDiff結合了點雲渲染和擴散模型的優勢,生成具有一致幾何結構和高保真細節的新視角。大量實驗驗證了SplatDiff在單視圖NVS中的領先性能。此外,無需額外訓練,SplatDiff在多樣化任務中展現出卓越的零樣本性能,包括稀疏視圖NVS和立體視頻轉換。
半監督異質域適應(SHDA)致力於解決特徵表示和分佈各異的跨域學習問題,其中源域樣本帶有標籤,而目標域樣本大多未標記,僅有少量被標註。此外,源域與目標域樣本之間並不存在一一對應關係。儘管已有多種SHDA方法被開發以應對此挑戰,但跨異質域傳遞的知識本質仍不明朗。本文從實證角度深入探討這一問題。我們在約330個SHDA任務上進行了廣泛實驗,採用了兩種監督學習方法和七種代表性SHDA方法。出乎意料的是,我們的觀察表明,源域樣本的類別信息和特徵信息對目標域性能的影響並不顯著。此外,從簡單分佈中抽取的噪聲,若作為源域樣本使用,可能蘊含可遷移的知識。基於這一發現,我們進行了一系列實驗以揭示SHDA中可遷移知識的內在規律。具體而言,我們設計了一個統一的SHDA知識遷移框架(KTF)。基於KTF,我們發現SHDA中的可遷移知識主要源於源域的可遷移性和可區分性。因此,確保源域樣本具備這些特性,無論其來源(如圖像、文本、噪聲),都能提升SHDA任務中知識遷移的效果。代碼和數據集已公開於https://github.com/yyyaoyuan/SHDA。
從自然語言問題生成SPARQL查詢的能力,對於確保從知識圖譜(KG)中高效且準確地檢索結構化數據至關重要。儘管大型語言模型(LLMs)已被廣泛應用於SPARQL查詢生成,但在基於內部參數知識生成如統一資源標識符(URIs)等KG元素時,它們往往容易出現幻覺和分佈外錯誤。這通常導致生成的內容看似合理,但實際上存在事實性錯誤,這對其在現實世界信息檢索(IR)應用中的使用構成了重大挑戰。這也促使了旨在檢測和緩解此類錯誤的研究日益增多。在本文中,我們介紹了PGMR(生成後記憶檢索),這是一個模塊化框架,它整合了一個非參數記憶模塊來檢索KG元素,並增強基於LLM的SPARQL查詢生成。我們的實驗結果表明,PGMR在多樣化的數據集、數據分佈和LLMs上均展現出穩定的強勁性能。值得注意的是,PGMR顯著減少了URI幻覺,在幾種場景下幾乎完全消除了這一問題。