每日精選AI研究論文及翻譯
近期研究表明,大型語言模型(LLMs)在獲得外部反饋後,具備一定程度的改進回應能力。然而,這些模型如何有效且徹底地整合外部反饋仍不明確。在理想情況下,若LLMs接收到近乎完美且完整的反饋,我們期望它們能完全吸收反饋並將錯誤答案修正為正確答案。本文通過設計一個受控的實驗環境,系統性地探討了LLMs整合反饋的能力。對於每個問題,首先由一個求解模型嘗試解答,接著一個擁有近乎完整標準答案訪問權限的反饋生成器產生針對性反饋,之後求解模型再次嘗試。我們在多樣化的任務上評估了這一流程,包括數學推理、知識推理、科學推理以及使用包括Claude 3.7(有無擴展思維)在內的尖端語言模型進行的通用多領域評估。令人驚訝的是,即使在這些近乎理想的條件下,求解模型仍持續表現出對反饋的抗拒,這一限制我們稱之為“反饋摩擦力”。為緩解這一限制,我們嘗試了基於採樣的策略,如逐步提高溫度參數和明確拒絕之前嘗試過的錯誤答案,這些方法雖帶來了一定改善,但仍未能幫助模型達到目標性能。我們還對“反饋摩擦力”的潛在成因進行了嚴謹探索,排除了模型過度自信和數據熟悉度等因素。我們希望通過揭示LLMs中的這一問題並排除若干表面原因,能為未來的自我改進研究提供幫助。
基於大型語言模型(LLM)的任務導向型代理,在退款資格或取消規則等嚴格政策的領域中日益普及。其挑戰在於確保代理始終遵守這些規則與政策,適當地拒絕任何可能違反規定的請求,同時仍保持自然且有益的互動。這要求開發量身定制的設計與評估方法,以確保代理對抗惡意用戶行為的韌性。我們提出了一種新穎的威脅模型,專注於那些企圖利用政策遵循型代理以謀取個人利益的對抗性用戶。為此,我們介紹了CRAFT,這是一個多代理紅隊系統,它利用政策感知的說服策略,在客戶服務場景中削弱政策遵循型代理,其表現超越了傳統的越獄方法,如DAN提示、情感操控及強制手段。基於現有的tau-bench基準,我們引入了tau-break,這是一個補充性基準,旨在嚴格評估代理對抗操縱性用戶行為的魯棒性。最後,我們評估了幾種直接但有效的防禦策略。雖然這些措施提供了一定程度的保護,但仍顯不足,凸顯了需要更強、基於研究的安全保障,以保護政策遵循型代理免受對抗性攻擊。
均匀状态离散扩散模型因其固有的自我修正能力,在快速文本生成方面展现出巨大潜力。然而,它们通常被自回归模型和掩码扩散模型所超越。在本研究中,我们通过利用一个关键洞见缩小了这一性能差距:均匀状态扩散过程自然源自于底层的高斯扩散。我们的方法Duo,将高斯扩散中的强大技术迁移过来,以改进训练和采样过程。首先,我们引入了一种由高斯过程指导的课程学习策略,通过降低方差使训练速度翻倍。采用课程学习策略训练的模型,在7个基准测试中的3个上,其零样本困惑度超越了自回归模型。其次,我们提出了离散一致性蒸馏,该算法将一致性蒸馏从连续域适应到离散域。这一算法通过将采样速度提升两个数量级,实现了扩散语言模型中的少步生成。我们在项目页面上提供了代码和模型检查点:http://s-sahoo.github.io/duo。
我們提出了一種基於擴散的框架,該框架通過扭曲與修復的方法實現了對齊的新視角圖像與幾何生成。與以往需要密集姿態圖像或受限於域內視角的姿態嵌入生成模型不同,我們的方法利用現成的幾何預測器來預測從參考圖像中觀察到的部分幾何,並將新視角合成表述為圖像和幾何的修復任務。為了確保生成圖像與幾何之間的精確對齊,我們提出了跨模態注意力蒸餾,在訓練和推理過程中,將來自圖像擴散分支的注意力圖注入到並行的幾何擴散分支中。這種多任務方法實現了協同效應,促進了幾何上穩健的圖像合成以及定義良好的幾何預測。我們進一步引入了基於鄰近度的網格條件化,以整合深度和法線線索,在點雲之間進行插值,並過濾錯誤預測的幾何,避免其影響生成過程。實驗表明,我們的方法在各種未見場景中實現了高保真的外推視角合成,在插值設置下提供了具有競爭力的重建質量,並生成了幾何對齊的彩色點雲,用於全面的3D補全。項目頁面可在https://cvlab-kaist.github.io/MoAI 訪問。
近期有報告指出,大型語言模型(LLMs)在競技編程領域已超越頂尖人類選手。基於一組國際算法競賽獎牌得主的專業知識,我們重新審視這一主張,探討LLMs與人類專家之間的差異及其仍存的局限。我們推出了LiveCodeBench Pro,這是一個由Codeforces、ICPC和IOI題目組成的基準測試,持續更新以降低數據污染的風險。一支由奧林匹克競賽獎牌得主組成的團隊為每道題目標註算法類別,並對模型生成失敗的提交進行逐行分析。利用這些新數據和基準測試,我們發現前沿模型仍存在顯著限制:在沒有外部工具輔助的情況下,最佳模型在中等難度題目上的通過率僅為53%,而在難題上則為0%,這些領域中人類專家仍表現卓越。我們還發現,LLMs在實現密集型的問題上表現出色,但在細膩的算法推理和複雜的案例分析上卻舉步維艱,常常生成自信滿滿卻錯誤的解釋。高性能似乎主要依賴於實現的精確性和工具的增強,而非卓越的推理能力。因此,LiveCodeBench Pro不僅凸顯了與人類大師級水平之間的顯著差距,還提供了細緻的診斷,以引導未來在代碼中心化LLM推理方面的改進方向。
隨著上下文長度的增加,大型語言模型在處理不斷增長的鍵值(KV)緩存時面臨記憶體需求的挑戰。現有的壓縮方法要麼統一頭部維度,要麼依賴於注意力引導的令牌修剪,這些方法往往會犧牲準確性或引入計算開銷。我們提出了FourierAttention,這是一個無需訓練的框架,它利用了變壓器頭部維度的異質性角色:較低的維度優先考慮局部上下文,而較高的維度則捕捉長程依賴關係。通過將對長上下文不敏感的維度投影到正交傅立葉基上,FourierAttention用固定長度的頻譜係數近似它們的時間演化。在LLaMA模型上的評估顯示,FourierAttention在LongBench和Needle-In-A-Haystack(NIAH)上實現了最佳的長上下文準確性。此外,我們設計了一個定制的Triton內核,FlashFourierAttention,通過簡化的讀寫操作來優化記憶體,從而實現高效部署而不影響性能。
強化學習(RL)在微調大型語言模型(LLMs)方面展現了顯著成效,尤其是在處理具有挑戰性且易於驗證的任務時,如數學推理或代碼生成。然而,將這一成功擴展到視覺-語言模型(VLMs)的視覺感知領域,卻因缺乏既具挑戰性又能明確驗證的視覺中心任務而受阻。為此,我們引入了ViCrit(視覺描述幻覺批評),這是一個RL代理任務,旨在訓練VLMs定位並識別人為撰寫的圖像描述段落中注入的細微、合成的視覺幻覺。從200字的描述開始,我們注入一個單一的、細微的視覺描述錯誤——改變對象、屬性、數量或空間關係的幾個詞——並要求模型根據圖像和修改後的描述精確定位被篡改的部分。這一設計保留了完整的感知難度,同時提供了一個易於計算且無歧義的二進制精確匹配獎勵。通過ViCrit任務訓練的模型在多種VL基準測試中取得了顯著提升。關鍵在於,這些改進不僅限於自然圖像訓練數據,還能遷移到抽象圖像推理和視覺數學,顯示出學習感知而非僅僅記憶所見對象的潛力。為了便於評估,我們進一步推出了ViCrit-Bench,這是一個類別平衡的診斷基準,系統性地探測跨多樣圖像領域和錯誤類型的感知錯誤。綜合來看,我們的結果表明,細粒度的幻覺批評是增強VLMs視覺感知的有效且可泛化的目標。
大型語言模型在臨床決策中展現出潛力,但現有方法在定位和糾正推理過程特定步驟中的錯誤方面仍存在困難。這一限制在醫學領域尤為關鍵,因為識別並解決推理錯誤對於準確診斷和有效患者護理至關重要。我們提出了Med-PRM,這是一種過程獎勵建模框架,它利用檢索增強生成技術,針對已建立的醫學知識庫驗證每個推理步驟。通過從臨床指南和文獻中檢索證據來驗證中間推理步驟,我們的模型能夠以細粒度方式精確評估推理質量。在五個醫學問答基準和兩項開放式診斷任務上的評估表明,Med-PRM達到了最先進的性能,使用Med-PRM將基礎模型的性能提升了高達13.50%。此外,我們通過以即插即用的方式將Med-PRM與Meerkat等強大策略模型集成,展示了Med-PRM的通用性,首次在MedQA上使用80億參數的小規模模型實現了超過80%的準確率。我們的代碼和數據可在以下網址獲取:https://med-prm.github.io/
可驗證獎勵的強化學習(RLVR)在訓練大型語言模型(LLMs)於複雜推理任務上,如數學問題解決,已證明其有效性。RLVR可擴展性的先決條件是擁有一套高質量且答案精確可驗證的問題集。然而,現有以蒸餾為導向的合成數據集中,精心製作的人類標註數學問題及有限驗證答案的稀缺,限制了其在強化學習中的效能。此外,大多數問題合成策略不加區分地擴展問題集,未考慮模型的能力,導致生成有用問題的效率低下。為緩解此問題,我們引入了一種自我感知弱點驅動的問題合成框架(SwS),該框架系統性地識別模型缺陷並利用這些缺陷進行問題擴充。具體而言,我們將弱點定義為模型在RL訓練過程中通過迭代採樣始終未能學會的問題。隨後,我們從這些失敗案例中提取核心概念,並合成新問題以在後續的擴充訓練中強化模型的薄弱環節,使其能夠專注並逐步克服其弱點。在不依賴外部知識蒸餾的情況下,我們的框架通過賦予模型自我識別並解決其在RL中的弱點,實現了強健的泛化能力,在八個主流推理基準上,分別為7B和32B模型帶來了平均10.0%和7.7%的性能提升。
基础视觉编码器已成为众多密集视觉任务中不可或缺的组成部分。然而,其低分辨率的空间特征输出要求进行特征上采样,以生成下游任务所需的高分辨率模态。在本研究中,我们引入了JAFAR,一种轻量级且灵活的特征上采样器,它能够将任何基础视觉编码器的视觉特征空间分辨率提升至任意目标分辨率。JAFAR采用了一种基于注意力的模块,旨在通过空间特征变换(SFT)调制,促进源自低层次图像特征的高分辨率查询与语义丰富的低分辨率键之间的语义对齐。值得注意的是,尽管缺乏高分辨率监督,我们证明了在低上采样比率和分辨率下的学习能够显著泛化至更高的输出尺度。大量实验表明,JAFAR有效恢复了细粒度的空间细节,并在多种下游任务中持续超越现有的特征上采样方法。项目页面请访问https://jafar-upsampler.github.io。
近期研究證實了基於強化學習(RL)的後訓練方法在提升大型語言模型(LLMs)推理能力方面的有效性。特別是,群組相對策略優化(GRPO)通過採用PPO風格的強化算法與基於群組的標準化獎勵,展現了令人矚目的成功。然而,GRPO在視頻大型語言模型(Video LLMs)中的應用研究尚顯不足。本文探討了GRPO在視頻LLMs中的應用,並識別了阻礙其有效學習的兩個主要問題:(1)對安全措施的依賴,以及(2)優勢消失問題。為應對這些挑戰,我們提出了DeepVideo-R1,這是一個採用我們提出的回歸式GRPO(Reg-GRPO)及難度感知數據增強策略訓練的視頻大型語言模型。Reg-GRPO將GRPO目標重新表述為回歸任務,直接預測GRPO中的優勢值。這一設計消除了對裁剪和最小值函數等安全措施的需求,從而通過使模型與優勢值對齊,促進了更直接的策略指導。我們還設計了難度感知數據增強策略,該策略在可解決的難度水平上動態增強訓練樣本,促進了多樣化且信息豐富的獎勵信號。我們的全面實驗表明,DeepVideo-R1在多個視頻推理基準測試中顯著提升了視頻推理性能。
現代循環架構,如xLSTM和Mamba,最近在語言建模領域對Transformer發起了挑戰。然而,這些架構的結構限制了它們僅適用於序列數據,或要求以預定義的順序處理多維數據結構,如圖像或分子圖。相比之下,多維循環神經網絡(MDRNNs)更適合處理具有更高層次結構的數據,如二維網格、樹和有向無環圖(DAGs)。在本研究中,我們將多維性的概念擴展到線性循環神經網絡。我們引入了可並行化的線性源轉換標記網絡(pLSTMs),利用源門、轉換門和標記門作用於一般DAG的線圖上。這使得在DAG上實現並行化成為可能,類似於並行關聯掃描和序列線性循環神經網絡的分塊遞歸形式。對於規則網格(一維和二維),如圖像,該方案可以通過einsum操作、連接和填充在對數時間內高效實現。pLSTMs通過兩種不同的模式解決了DAG中長距離的激活/梯度消失/爆炸問題:定向傳播模式(P模式)和擴散分佈模式(D模式)。為了展示pLSTM的長距離能力,我們引入了箭頭指向外推作為一個包含長距離方向信息的合成計算機視覺任務。我們證明pLSTMs能夠很好地泛化到更大的圖像尺寸,而Transformer則難以外推。在已建立的分子圖和計算機視覺基準測試中,pLSTMs也表現出強大的性能。代碼和數據集可在以下網址獲取:https://github.com/ml-jku/plstm_experiments。
Transformer已成為大型語言模型及跨多領域下游任務的事實標準。儘管其具備如內在訓練並行性等眾多優勢,Transformer仍面臨關鍵挑戰,主要源於其無法有效處理超出固定上下文窗口的序列,以及其注意力機制的二次方複雜度。這些挑戰重新激發了對RNN類架構的興趣,該類架構雖因固有的遞歸性質而並行性受限,卻能在序列長度上實現線性擴展,並更好地處理長程依賴。本文中,我們提出了Avey,一種新型神經基礎架構,它既摒棄了注意力機制,也擺脫了遞歸結構。Avey由一個排序器和一個自回歸神經處理器組成,二者協同工作,針對序列中任意位置的token,僅識別並上下文化最相關的token。具體而言,Avey將序列長度與上下文寬度解耦,從而實現了對任意長度序列的有效處理。實驗結果表明,Avey在多種標準短程自然語言處理基準測試中與Transformer相比表現優異,尤其在捕捉長程依賴方面表現突出。
利用扩散模型進行視頻編輯,在生成高質量視頻編輯方面已取得顯著成果。然而,當前方法往往依賴於大規模預訓練,限制了特定編輯的靈活性。首幀引導編輯雖能控制首幀,但對後續幀的靈活性不足。為此,我們提出了一種基於掩碼的低秩適應(LoRA)調優方法,該方法使預訓練的圖像到視頻(I2V)模型適應靈活的視頻編輯需求。我們的方案在保留背景區域的同時,實現了可控的編輯傳播,提供了一種無需改變模型架構的高效且適應性強的視頻編輯解決方案。為更好地引導這一過程,我們引入了額外參考,如替代視角或代表性場景狀態,這些參考作為視覺錨點,指導內容應如何展開。我們採用掩碼驅動的LoRA調優策略來應對控制挑戰,該策略使預訓練的圖像到視頻模型適應編輯上下文。模型需從兩個不同來源學習:輸入視頻提供空間結構和運動線索,而參考圖像則提供外觀指導。空間掩碼通過動態調節模型關注的內容,實現區域特定學習,確保每個區域從適當的來源汲取信息。實驗結果表明,與最先進的方法相比,我們的方法在視頻編輯性能上表現更優。
近期,大型多模态模型(LMMs)的进展显著提升了多模态理解与生成能力。然而,这些模型在生成紧密交织的图文输出方面仍面临挑战,主要受限于当前训练数据集的规模、质量及指令丰富度不足。为此,我们引入了InterSyn,一个采用自评估迭代优化(SEIR)方法构建的大规模多模态数据集。InterSyn以多轮次、指令驱动的对话为特色,包含紧密交织的图文响应,提供了丰富的对象多样性和严格的自动化质量优化,使其非常适合用于训练下一代遵循指令的LMMs。此外,针对缺乏能够评估交织多模态输出的可靠工具的问题,我们推出了SynJudge,一个旨在从四个维度定量评估多模态输出的自动评估模型:文本内容、图像内容、图像质量以及图文协同性。 实验研究表明,与未经过优化的相同流程相比,SEIR方法显著提高了数据集质量。此外,基于InterSyn训练的LMMs在所有评估指标上均实现了性能的全面提升,证实了InterSyn在推动多模态系统发展方面的实用价值。
人形機器人憑藉其靈活性和類人形態,在完成多樣化環境中的日常任務方面具有顯著潛力。近期研究利用最優控制或強化學習,在人形機器人的全身控制與移動操作方面取得了重大進展。然而,這些方法需要針對每項任務進行繁瑣的特定調校以達到滿意的行為表現,這限制了它們在日常場景中多樣化任務的通用性和可擴展性。為此,我們引入了SkillBlender,這是一種新穎的分層強化學習框架,旨在實現多功能的人形機器人移動操作。SkillBlender首先預訓練目標條件下的任務無關基礎技能,然後動態融合這些技能,以最少的任務特定獎勵工程完成複雜的移動操作任務。我們還推出了SkillBench,這是一個並行、跨具身、多樣化的模擬基準,包含三種具身形式、四種基礎技能和八項具有挑戰性的移動操作任務,並配有一套平衡準確性和可行性的科學評估指標。大量模擬實驗表明,我們的方法顯著優於所有基線,同時自然地規範行為以避免獎勵欺騙,從而為日常場景中的多樣化移動操作任務帶來更準確和可行的動作。我們的代碼和基準將開源給社區,以促進未來的研究。項目頁面:https://usc-gvl.github.io/SkillBlender-web/。
測試時擴展已成為一種有效的方法,通過在推理時利用額外的計算資源來提升語言模型的性能。最近的研究表明,覆蓋思維結束標記(例如,將“</think>”替換為“Wait”)可以延長推理步驟並提高準確性。在本研究中,我們探討是否能夠學習一個專用的繼續思維標記來觸發延長推理。我們在DeepSeek-R1的精簡版本中增加了一個單獨學習的“<|continue-thinking|>”標記,僅通過強化學習訓練其嵌入,同時保持模型權重不變。我們的實驗表明,與基線模型及使用固定標記(如“Wait”)進行預算強制的測試時擴展方法相比,這一學習到的標記在標準數學基準測試上實現了更高的準確性。特別地,我們觀察到,在固定標記方法提升基礎模型準確性的情況下,我們的方法取得了更為顯著的改進。例如,在GSM8K基準測試中,固定標記方法使準確性絕對提升了1.3%,而我們學習到的標記方法相比未使用預算強制的基礎模型,準確性提升了4.2%。
為了使大型語言模型(LLMs)在日常及高風險領域中可靠部署,知曉何時不回答與正確回答同等關鍵。現實世界中的用戶查詢可能是不明確、不恰當或根本無法回答的,這要求LLMs能夠對不確定性進行推理並選擇性地棄答——即拒絕給出明確答案。然而,棄答行為仍未被充分研究,缺乏針對現代LLMs的系統性評估框架。在本研究中,我們引入了AbstentionBench,這是一個大規模基準,用於全面評估20個多樣化數據集上的棄答表現,包括未知答案、不確定性、錯誤前提、主觀解釋及過時信息等問題。對20個前沿LLMs的評估顯示,棄答仍是一個未解決的問題,且模型規模的擴大對此幫助甚微。儘管近期在複雜問題解決上,推理型LLMs展現了令人印象深刻的成果,但令人驚訝的是,我們發現推理微調反而會降低棄答能力(平均下降24%),即便是在推理模型明確訓練的數學和科學領域也是如此。我們發現,雖然精心設計的系統提示可以在實踐中提升棄答表現,但這並未解決模型在推理不確定性方面的根本缺陷。我們發布AbstentionBench,旨在促進提升LLM可靠性的研究進展。
我們提出了一種自我精煉框架,僅利用未標註的數據集即可提升自動語音識別(ASR)的性能。該過程始於現有ASR模型在未註解語音上生成偽標籤,這些偽標籤隨後用於訓練一個高保真度的文本轉語音(TTS)系統。接著,將合成的語音文本對引導回原始ASR系統,完成閉環自我改進的循環。我們在台灣普通話語音上驗證了該框架的有效性。利用6,000小時的未標註語音、適量的文本數據以及AI模型生成的合成內容,我們將Whisper-large-v2調整為專用模型Twister。與Whisper相比,Twister在普通話及普通話-英語語碼轉換基準測試中,分別降低了最多20%和50%的錯誤率。結果表明,該框架是偽標籤自我蒸餾方法的一個有力替代方案,並為在低資源或特定領域環境中提升ASR性能提供了一條實用途徑。
本研究聚焦于文本编码器的一个已观察到的局限性:嵌入可能无法识别语义中的细粒度实体或事件,导致即使在简单案例中也无法实现密集检索。为了探究此类行为,我们首先引入了一个新的中文评估数据集,名为CapRetrieval,其段落为图像描述,查询则是以多种形式询问实体或事件的短语。零样本评估表明,无论训练来源或模型规模如何,编码器在这些细粒度匹配上均可能失败。为了寻求改进,我们继而采用我们提出的数据生成策略对编码器进行微调,从而在CapRetrieval上取得了最佳性能。在此过程中,我们进一步识别出一个粒度困境问题,即嵌入在表达细粒度显著性的同时与整体语义对齐所面临的挑战。本工作中的数据集、代码及模型已公开发布于https://github.com/lxucs/CapRetrieval。
近期利用多模态大语言模型(MLLM)作为图形用户界面(GUI)代理的研究已取得显著成果。然而,这些代理在在线环境中执行长期任务时仍面临挑战,主要归因于知识储备不足及离线与在线领域间的固有差距。本文受人类在开放环境中知识泛化方式的启发,提出了一种层次化多模态技能(HMS)模块,以应对知识不足的问题。该模块逐步将执行轨迹抽象为执行技能、核心技能,最终形成元技能,为长期任务规划构建了层次化的知识结构。为弥合领域差距,我们提出了技能增强蒙特卡洛树搜索(SA-MCTS)算法,该算法高效利用离线环境中习得的技能,在在线树搜索过程中缩减动作搜索空间。基于HMS,我们推出了Mirage-1,一个多模态、跨平台、即插即用的GUI代理。为验证Mirage-1在现实世界长期任务场景中的表现,我们构建了新的基准测试集AndroidLH。实验结果显示,Mirage-1在AndroidWorld、MobileMiniWob++、Mind2Web-Live及AndroidLH上的表现分别超越先前代理32%、19%、15%和79%。项目页面:https://cybertronagent.github.io/Mirage-1.github.io/
大型語言模型(LLMs)在實際應用中展現出強大的性能,然而現有的開源指令數據集往往集中在狹窄的領域,如數學或編程,這限制了其泛化能力,並拉大了與專有模型之間的差距。為彌合這一差距,我們引入了Infinity-Instruct,這是一個高質量的指令數據集,旨在通過兩階段流程增強LLMs的基礎能力和對話能力。在第一階段,我們從超過1億個樣本中精選出740萬個高質量的基礎指令(InfInstruct-F-7.4M),採用混合數據選擇技術。在第二階段,我們通過包含指令選擇、進化和診斷過濾的兩階段過程,合成了150萬個高質量的對話指令(InfInstruct-G-1.5M)。我們通過微調多個開源模型(包括Mistral、LLaMA、Qwen和Yi)對Infinity-Instruct進行了實證評估,並觀察到在基礎和指令遵循基準測試中均取得了顯著的性能提升,持續超越官方指令微調的對應模型。值得注意的是,InfInstruct-LLaMA3.1-70B在指令遵循任務上比GPT-4-0314高出8.6%,同時在基礎性能上達到可比水平。這些結果強調了基礎訓練與對話訓練之間的協同效應,並為LLM的全面發展提供了新的見解。我們的數據集https://huggingface.co/datasets/BAAI/Infinity-Instruct和代碼https://gitee.com/li-touch/infinity-instruct已公開發布。
检测有害模因对于维护网络环境的完整性至关重要。然而,现有方法往往在资源效率、灵活性或可解释性方面存在不足,限制了其在内容审核系统中的实际部署。为应对这些挑战,我们提出了U-CoT+,一种新颖的有害模因检测框架。不同于仅依赖提示或微调多模态模型,我们首先开发了一个高保真的模因转文本管道,将视觉模因转换为保留细节的文本描述。这一设计将模因解读与模因分类解耦,从而避免直接对复杂的原始视觉内容进行推理,并利用通用的大型语言模型(LLMs)实现资源高效的有害模因检测。基于这些文本描述,我们进一步整合了有针对性的、可解释的人工制定指南,以在零样本链式思维(CoT)提示下引导模型推理。因此,该框架能够轻松适应跨平台、跨地区及随时间变化的不同有害性检测标准,提供了高度的灵活性和可解释性。在七个基准数据集上的广泛实验验证了我们框架的有效性,凸显了其在使用小规模LLMs进行可解释且低资源有害模因检测方面的潜力。代码和数据可在以下网址获取:https://anonymous.4open.science/r/HMC-AF2B/README.md。
利用大型語言模型(LLMs)解決編碼任務的標準範式是先生成再排序程序,其中排序過程使用驗證器。當前普遍共識認為,只要可能,應優先考慮全面驗證器(如完整測試套件)而非結果獎勵模型(ORM),而很少考慮其中的權衡。我們旨在通過系統探索速度與準確性之間的權衡來挑戰這一假設。我們發現,即便在全面驗證器可用的情況下,ORM在通過犧牲準確性換取速度來擴展驗證規模方面扮演著關鍵角色。它們的價值在採用生成-修剪-再排序的方法時尤為顯著,該方法中,更快但準確性稍低的驗證器在排序前移除錯誤解——從而構建出一個比完整測試套件僅低8.33%準確性,卻快11.65倍的系統。我們分析了生成-修剪-再排序方法,並展示其通過過濾掉錯誤但排名高的解決方案來發揮作用。這些發現為設計可擴展且準確的程序排序系統提供了依據。
我們提出了一種基於注意力機制的方法,該方法利用學習到的二值注意力掩碼來確保只有被關注的圖像區域會影響預測結果。上下文信息往往會強烈影響物體感知,有時會導致偏差的表徵,尤其是在物體出現在分佈外背景時。與此同時,許多圖像層面的以物體為中心的任務需要識別相關區域,這通常需要上下文信息。為了解決這一難題,我們提出了一個兩階段框架:第一階段處理完整圖像以發現物體部件並識別任務相關區域,而第二階段則利用輸入注意力掩碼將其感受野限制在這些區域內,從而實現聚焦分析,同時過濾掉潛在的虛假信息。兩個階段聯合訓練,使得第二階段能夠精煉第一階段的結果。在多樣化的基準測試中進行的廣泛實驗表明,我們的方法顯著提高了對抗虛假相關性和分佈外背景的魯棒性。
近年來,大型語言模型(LLMs)在數據標註方面展現出顯著潛力,大幅降低了下游應用所需的勞動成本。然而,現有方法大多採取激進策略,即提示LLM為每個未標註樣本確定單一黃金標籤。由於LLM固有的不確定性,它們常對困難樣本產生錯誤標籤,嚴重影響了下游應用的數據質量。受人類行為中模糊規避的啟發,我們提出了一種新穎的候選標註範式,鼓勵大型語言模型在遇到不確定性時輸出所有可能的標籤。為確保下游任務獲得唯一標籤,我們開發了一個師生框架CanDist,利用小型語言模型(SLM)對候選標註進行蒸餾。我們進一步提供了嚴謹的理論證明,表明從教師LLM蒸餾候選標籤相比直接使用單一標註具有更優的理論保證。在六個文本分類任務上的廣泛實驗驗證了我們所提方法的有效性。源代碼已公開於https://github.com/MingxuanXia/CanDist。
人類反饋模型在AI對齊中的應用,例如支撐直接偏好優化(DPO)的那些模型,通常內嵌了一套單一且靜態的偏好集,這限制了其適應性。本文通過引入可配置偏好調優(CPT),挑戰了這一偏好單一性的假設。CPT是一種新穎的框架,旨在賦予語言模型根據明確、人類可理解的指令動態調整其行為的能力。CPT利用基於系統提示合成的偏好數據,這些提示源自於結構化、細粒度的評分標準,這些標準定義了諸如寫作風格等期望屬性。通過使用這些由評分標準引導的偏好進行微調,大型語言模型(LLM)學會在推理時根據系統提示調節其輸出,而無需重新訓練。這種方法不僅提供了細粒度的控制,還為建模更細膩且依賴於上下文的人類反饋提供了一種機制。多項實驗成果,包括訓練代碼、生成的數據集及微調後的模型,已發佈於https://github.com/vicgalle/configurable-preference-tuning。