每日精選AI研究論文及翻譯
我們提出了 ABot-Earth 0.5,這是一個生成式 3D 框架,旨在從廣泛存在的地理參考衛星影像中,合成廣闊且無縫的 3D 環境。為達成此目標,我們提出了一種新穎的生成模型,該模型直接以 3D 高斯潑濺(3DGS)表示法來制定。該模型在大量現有真實世界城市重建資料集上進行訓練,學習生成逼真的幾何形狀與紋理。在推理階段,它僅以衛星影像為條件,便能以每平方公里不到 10 分鐘的可擴展速率合成新穎的 3D 場景,同時展現出卓越的真實感。此框架的設計注重可及性,內建了層級式細節層次(LOD)結構,使其能夠在基於網路的地圖引擎上進行即時、互動式的視覺化。這個高擬真的模擬沙盒有效地縮小了模擬到真實的領域差距,從而支援如閉環無人機導航等關鍵的下游具身 AI 應用。透過提供超低成本且高效率的方案,ABot-Earth 0.5 顯著降低了大型 3D 重建的技術與財務門檻,並為全球數位地球視覺化的未來賦能。
我們推出了 Kwai Keye-VL-2.0-30B-A3B,這是一個開源的混合專家(MoE)多模態基礎模型,旨在推動長影片理解與智能體智能的發展。為了應對小時級影片中超長上下文、資訊冗餘及高昂計算成本的挑戰,Keye-VL-2.0 首次將 DeepSeek 稀疏注意力(DSA)適配至基於 GQA 的多模態架構,實現無損的 256K 上下文處理,同時捕捉關鍵幀與長程時間依賴關係。此架構奠基於高度優化的訓練與推理基礎設施,包括可擴展的影片 I/O、異構 ViT-LM 並行運算,以及自定義的 DSA 核心,顯著提升吞吐量並降低計算開銷。此外,為了解決多任務對齊過程中災難性遺忘的演算法困境,我們引入了跨模態多教師在線策略蒸餾(MOPD),並結合 Context-RL 與 Video-RL。透過將從在線策略 rollout 中獲得的密集 token 級教師反饋,蒸餾回僅激活 3B 參數的 MoE 骨幹網路,Keye-VL-2.0 原生支援跨程式碼、工具與搜尋場景的高階智能體協作,並具備多模態自我修正能力。在影片理解、時間定位、推理、STEM 及智能體基準測試上的廣泛評估結果顯示,Keye-VL-2.0-30B-A3B 在同規模模型中達到了最先進的性能,特別是在 TimeLens 上的細粒度時間定位,以及 Video-MME-v2 與 LongVideoBench 上的長影片理解方面表現尤為突出。我們開放了模型檢查點,以加速社群朝向可擴展且穩健的多模態智能體應用邁進。
儘管大型語言模型(LLM)代理在複雜任務中展現出強大的效能,但其學習過程往往受限於低效的互動回饋與靜態的訓練環境,從而阻礙了更廣泛的泛化能力。為了解決這些限制,本文提出了Role-Agent框架,該框架利用單一大型語言模型同時扮演代理與環境的角色,從而實現自我啟動的共同演化。Role-Agent由兩個協同組件構成:世界中的代理(WIA)與代理中的世界(AIW)。在WIA中,大型語言模型作為代理,在每次行動後預測未來狀態,並將預測狀態與實際狀態之間的一致性作為過程獎勵,以激發具環境感知能力的推理。在AIW中,大型語言模型從失敗軌跡中分析失敗模式,並檢索具有相似失敗模式的任務,從而重塑訓練資料分佈以進行針對性練習。多個基準實驗結果顯示,Role-Agent能持續提升效能,相較於強基線模型平均提升超過4%。
AI代理依赖由技能、工具和工作流组成的框架来解决复杂问题。持续改进这一框架对于适应新任务至关重要。然而,现有的优化方法通常需要真实标注验证集,但在实际部署场景中,此类标注数据难以获取。为解决这一问题,我们提出回溯式框架优化(RHO),这是一种仅利用过去轨迹来优化代理框架的自监督方法。具体而言,RHO从过去轨迹中选取具有挑战性任务的多样化核心集,并并行重新求解。代理通过自我验证和自洽性分析这些滚动结果,生成候选框架更新,并通过其自身的成对自我偏好选择最有效的更新。我们在软件工程、技术工作和知识工作三个不同领域对RHO进行了评估。值得注意的是,单次优化轮次将SWE-Bench Pro的通过率从59%提升至78%,且无需任何外部评分。此外,我们的分析表明,RHO能有效针对先前的失败模式。因此,优化后的框架改变了代理的行为模式,并在长周期会话中保持更高的准确性。
大型語言模型日益被期望能夠處理複雜、長期的現實世界任務,其語境需求可能無限增長,然而模型的上下文窗口本質上是有限的。近期研究探索了一種範式:主代理將任務分解並將子任務分派給子代理,後者執行任務並僅回傳總結結果,從而節省主代理的上下文預算。然而,要有效執行此流程,需要具備委派智能:即分解複雜任務、判斷何時與委派何事、以及將回傳結果整合至持續工作流程的能力。此類能力的訓練數據在自然出現的文本中相當稀缺,而據我們所知,在開源社群中,如何合成此類數據並訓練模型以獲得此能力,仍是尚未充分探索的領域。為填補此缺口,我們提出一項初步探索,聚焦於深度研究——一項具代表性的長期代理任務。具體而言,我們設計了一套引導框架,引導模型進行高品質的任務分解與委派,同時約束子代理以適當方式回傳結果,以支援主代理的工作流程。該框架引導的軌跡自然編碼了正確的委派決策,我們將其作為監督式微調數據,將委派智能內化至模型權重中。我們由此產出的模型 SearchSwarm-30B-A3B,在 BrowseComp 上達到 68.1,在 BrowseComp-ZH 上達到 73.3,是同規模模型中最佳表現。我們將釋出引導框架、模型權重及訓練數據,以促進未來研究。
具有可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的标准方法。然而,现有的PPO风格信任区域机制仍保持位置无关性——对所有词元独立施加统一阈值。这种逐点处理方式与自回归生成在两个方面存在根本性冲突。首先,统一阈值忽略了自回归的不对称性。早期阶段的偏差会引发序列级累积漂移,导致静态阈值对早期发散约束不足,却过度限制后期探索。其次,孤立评估词元级发散会忽视累积前缀漂移,使得无论条件历史已偏离当前部署策略多远,系统仍给予相同的发散容忍度。为解决这一局限,我们提出CPPO(累积前缀散度策略优化),这是一种词元级掩码规则,通过两种耦合机制使更新与有限时域策略改进界对齐:其一,位置加权阈值对早期位置(其影响持续更久)施加更严格限制,同时放宽对后期词元的约束;其二,累积前缀预算追踪历史偏差,动态限制进一步的词元级偏差,从而防止前缀路径上的误差累积。实验表明,CPPO在不同模型规模下均能提升训练稳定性,并显著提高推理准确率。
目前的视觉语言模型在处理数小时的长视频时面临困难,因为处理完整视觉序列会导致标记数量爆炸性增长和注意力机制稀释。为了解决这一问题,我们提出MemDreamer,将感知与推理分离,将长视频理解转化为智能体探索过程。作为一个即插即用的框架,它逐步流式传输视频以构建层级图记忆,这是一种自上而下的三层架构,用于语义抽象,其基础图捕捉时空和因果关系。在推理过程中,推理模型采用智能体工具增强的检索,通过观察-推理-行动循环在层级中导航、搜索节点并遍历逻辑边。实验表明,MemDreamer在四个主流基准测试中达到了最先进的性能,将专家与人类之间的差距缩小至仅3.7分。它将推理上下文窗口限制为完整上下文输入的仅2%,同时提供了12.5分的绝对准确率提升。此外,统计分析揭示了视觉语言模型在逻辑推理和长视频理解基准上的性能之间存在强烈的正线性相关,由此确立了智能体能力扩展作为多模态理解的新范式。
近期研究證實,線上強化學習(Reinforcement Learning, RL)能顯著提升影像與影片生成中流匹配模型的品質與對齊程度。Flow-GRPO 與 CPS 等方法將去噪過程視為馬可夫決策過程(Markov Decision Process),並採用類似 PPO(Proximal Policy Optimization)的比率裁剪(ratio clipping)來約束信任區域。然而,我們認為比率裁剪本質上不適用於流模型:新舊策略間的機率比率是對真實策略發散度的含噪單樣本估計,這會導致軌跡部分區域過度約束、部分區域約束不足。我們提出 Flow-DPPO(Flow Divergence Proximal Policy Optimization),以發散度近端約束取代比率裁剪。關鍵觀察在於,流模型中每一步的策略均為高斯分布,可精確且低成本的計算新舊策略間的 KL 散度(KL divergence)。Flow-DPPO 採用非對稱發散遮罩,僅在更新同時偏離信任區域且違反發散度閾值時,才阻擋梯度更新。實驗結果顯示,Flow-DPPO 能獲得更高獎勵、具備更佳的 KL 近端效率、緩解災難性遺忘、促進平衡的多目標最佳化,並在比率裁剪會劣化的情況下實現穩定的多輪訓練。程式碼與模型請參閱:https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO
受控角色動畫需要將驅動序列的動作遷移至參考角色上。現有方法高度依賴中間表示,例如用姿勢骨架表示動作、或用遮罩背景表示環境,這無可避免會造成資訊損失。為了解決此問題,我們提出 SCAIL-2 框架,該框架跳過這些中間表示,實現端到端的角色動畫。透過直接將驅動影片與序列串接,模型能夠從輸入影片中獲取所有必要的視覺資訊。為了解決缺乏端到端資料的問題,我們以解耦條件統一角色動畫的子任務,並設計一個流程來合成 MotionPair-60K,這是一個包含角色動畫異質任務的端到端動作遷移資料集。為了實現統一,我們利用上下文遮罩條件化與模式特定旋轉位置編碼,作為文字指令與原始視覺資訊之外的軟性引導。為了解決細部區域的合成差異,我們提出偏誤感知直接偏好優化,建構偏好項目來減輕誤差。大量實驗證明,我們的方法在多種角色動畫任務中明顯優於現有最先進的方法。我們將在專案頁面(https://teal024.github.io/SCAIL-2/)釋出合成資料的較大子集以及模型權重。
基於擴散的唇同步模型在視覺品質和視聽同步方面表現出色,但其全序列雙向注意力機制以及大量的去噪步驟使其難以應用於即時推理。我們提出 Lip Forcing,據我們所知,這是第一個用於影片到影片(V2V)唇同步的自回歸擴散方法,該方法將一個 14B 參數的音訊條件雙向影片擴散教師模型蒸餾為因果學生模型。在推理時,學生模型僅需兩步去噪即可生成每個片段,且無需推理階段的 CFG,從而實現即時唇同步。針對唇同步的教師軌跡分析揭示了一個 CFG 保真度-同步權衡:無 CFG 預測傾向於參考保真度,而 CFG 引導預測則傾向於在中軌跡帶內實現同步。Lip Forcing 將這一發現轉化為三個分析驅動的組件:Sync-Window DMD、一個兩步推理排程以及一個基於 SyncNet 的獎勵函數。我們在兩種規模的學生模型上驗證了 Lip Forcing,兩者均從 14B 教師模型蒸餾而來。1.3B 的學生模型以 31 FPS 的速度實現即時串流,比同規模的雙向模型快 17.6 倍。而 14B 的學生模型——這是迄今為止報導中最大的用於 V2V 唇同步的擴散模型——在可比的參考保真度下,運行速度比其教師模型快 39.8 倍。兩種規模的首幀延遲均低於 1 毫秒,遠低於所有擴散基準模型。
我們介紹WorldOlympiad,這是一個用於診斷基於影片的世界模型在物理忠實度、幾何一致性與互動保真度方面的基準測試。雖然現有基準通常聚焦於視覺品質、語意對齊或短期時間連貫性,但它們對於生成的影片是否遵守物理規則、維持連貫的三維結構,以及支援長時程的可控互動,所提供的洞察相當有限。為填補此缺口,WorldOlympiad將世界模型的評估分解為三個互補的維度:物理軌道使用物件分割與多模態大型語言模型(MLLM)作為評判,評估生成的影片是否遵循力學、熱現象與材料屬性中的可解釋規則;幾何軌道透過高斯潑濺法重建生成的影片,並評估結構一致性、跨視角連貫性與相機軌跡對齊;互動軌道則評估生成的展開是否遵循複雜的動作提示,並在連續的影片片段之間維持平滑且連貫的過渡。此外,WorldOlympiad涵蓋三個主要的下游場景,包括遊戲、機器人以及通用的真實世界影片,捕捉從互動控制與具身操作到開放域運動與相機動態的多樣化挑戰。這些軌道與場景共同構成一個可擴展且可解釋的評估套件,能夠揭露超越一般影片品質的失敗模式。針對當前最先進模型的實驗顯示,在物理推理、三維一致性以及長時程互動方面存在顯著差距,凸顯了為生成式世界模型建立更具結構化評估協議的必要性。
強化學習(RL)已成為大型語言模型(LLM)後訓練階段的關鍵組成部分。實務上,由於訓練與推論不一致以及策略過時,LLM的強化學習常為離策略學習,因此控制信任區域對於穩定優化至關重要。主流方法如PPO與GRPO透過比率裁剪機制近似此控制,但在長尾詞彙分布中,重要性比率可能無法有效反映分布偏移。近期研究如DPPO以基於散度的遮罩取代基於比率的裁剪,藉由取樣詞元的絕對機率偏移定義信任區域。然而,DPPO仍依賴硬遮罩:一旦詞元朝有害方向跨越信任區域邊界,其梯度將被丟棄而非修正。為解決此問題,我們提出散度正則化策略優化(DRPO),以平滑的優勢權重二次正則項取代硬遮罩,作用於策略偏移。DRPO保留了與DPPO相同的信任區域幾何結構,同時引入有界且連續的梯度權重,可衰減發散更新,並在邊界外提供修正信號。跨模型規模、架構與精度設定的實驗顯示,DRPO能提升LLM強化學習訓練的穩定性與效率。
本文提出EEVEE,首個針對大型語言模型智能體的多數據集測試時提示學習框架,能在真實任務串流中實現測試時提示學習。現有方法主要針對單一數據集設計,然而真實應用場景要求模型處理來自多個數據集、領域及任務分佈的異質輸入串流,限制了其實用性。為減輕跨數據集干擾,EEVEE引入一個路由器,將輸入分割為任務聚類,並指派至合適的提示配置。此設計透過路由器-提示共同演化策略進行優化,該策略採用交錯的路由器與提示學習階段,以處理兩者間的相互依賴關係。在多個數據集上的實驗顯示,該框架在異質數據串流下提升穩健性,同時維持單標桿學習能力與效率。具體而言,EEVEE在Qwen3-4B-Instruct與DeepSeek-V3.2上分別將平均多標桿分數提升10.38分與24.32分,相較於SOTA方法GEPA與ACE,最高提升幅度達37.2%與48.2%。
本文介紹了ARM,一種基於離散表示的自迴歸模型,將圖像理解、生成和編輯統一在一個下一個詞元預測框架中。ARM建立在三個努力之上:首先,我們訓練了一個離散語義視覺詞元化器,將圖像映射為緊湊的詞元序列。我們的詞元化器通過多個目標進行監督,共同促進語義可辨識性、語言對齊和忠實重建,從而在共享的潛在空間中支持多樣化的任務。在此基礎上,我們在大規模文本和圖像詞元序列上訓練了一個7B參數的自迴歸模型,無縫發展出視覺語言感知和生成能力。最後,為了進一步提升文本到圖像生成和指令引導編輯的偏好對齊行為,ARM應用強化學習來優化任務級目標,如視覺品質、指令遵循度和編輯一致性。令人驚訝的是,結果顯示強化學習不僅顯著提高了目標任務的性能(例如,將WISE總分從0.50提升至0.56,GEdit-Bench-EN的G_O從5.75提升至6.68),還引發了文本到圖像生成與編輯之間的跨任務協同效應。總體而言,這些發現強調了自迴歸建模——當與強大的表示和偏好優化相結合時——可以作為多模態智能的可擴展基礎。代碼:https://github.com/wdrink/ARM。
近年來,AI代理在處理日益複雜的現實任務方面發展迅速。然而,現有基準測試很少評估代理是否能操作圖形使用者介面,以完成跨越多個領域的長期、高價值專業工作流程。當前的GUI基準測試仍主要聚焦於通用型軟體、相對簡單的應用程式及短期任務,因此現代代理能否遵循用戶指令,自主操作領域特定的專業軟體,並以端到端方式完成具有經濟價值的工作,仍是個未知數。為填補此缺口,我們推出Workflow-GYM,這是一個以專業領域與專業軟體環境為核心的長期GUI任務基準測試。透過對最先進模型進行廣泛實驗,我們發現即使是最強大的模型,其成功率也僅略高於30%,凸顯出專業的長期GUI工作流程對當前GUI代理而言仍極具挑戰性。進一步分析顯示,現有代理難以維持長期工作流程的一致性,經常出現工作流程階段遺漏、錯誤傳播、目標漂移,以及對專業軟體環境理解不足等問題。我們的研究結果為當前代理系統的局限性提供了重要見解,並為下一代GUI代理研究指出了關鍵方向。
外部記憶有效地將基於大語言模型(LLMs)和視覺語言模型(VLMs)的問答(QA)與相關的多模態證據結合起來。然而,現有的記憶範式以原始文本和圖像形式表示每個記憶項目,因此基於檢索的系統必須將檢索到的文本或圖像傳遞給生成式LLMs/VLMs,導致標記消耗高、儲存壓力大,對於資源受限的應用來說難以負擔。我們提出潛在記憶(Latent Memory),一種潛在空間中的記憶範式,將每個原始文本或圖像證據項目替換為由小型壓縮器LLM/VLM生成的單個高維潛在標記。潛在記憶並非檢索原始證據用於生成,而是在統一的潛在表徵空間中運作:查詢被嵌入該空間以檢索相關的潛在標記,然後將檢索到的潛在標記直接提示給預訓練的LLM或VLM進行答案生成。為了使每個潛在標記同時對重建、檢索和生成具有信息量,我們使用重建、對比和蒸餾目標以統一的端到端方式訓練壓縮器。潛在記憶在七個純文本問答基準(例如HotpotQA)和多模態問答基準上進行了評估,與先進的RAG基線相比,它在取得競爭性問答性能的同時,減少了3到10倍的生成器標記消耗。在WebQA上,它還能實現最強的圖像支撐問答性能。代碼可在https://github.com/zz1358m/Latent-Memory-Master 獲取。
思維鏈監督微調(CoT-SFT)被廣泛用於提升推理能力,但我們發現它會系統性地降低混合線性注意力模型中的長上下文召回效能。在包括HypeNet和Jet-Nemotron在內的多種架構中,CoT-SFT導致「大海撈針」(NIAH)檢索任務的表現大幅下降,且在更嚴苛的檢索設定與更長的上下文視窗下,效能退化更加嚴重。例如,HypeNet-9B在NIAH-S2@256K上的準確率從67.2%降至9.4%。我們將此歸因於CoT-SFT使注意力梯度偏向短程模式,從而擾亂了負責長程路由的查詢-鍵投影(W_Q, W_K)。基於此發現,我們提出QK-Restore,一種無需額外訓練的方法,僅從SFT前的檢查點恢復W_Q與W_K,同時保留所有其他SFT後的參數。我們進一步引入普氏分析(Procrustes)變體,以平衡路由保留與推理適應。在各種架構中,QK-Restore在零訓練成本下持續恢復長上下文能力,同時保持推理效能;例如,在HypeNet-5B上,它將S3@256K從65.4%提升至76.4%,並維持強大的推理表現。
語言模型日益成為文字轉語音(TTS)系統的核心骨幹,然而我們對於當文字與生成語音符號共享單一殘差流時,模型所建立的表徵卻所知甚少。我們在 CosyVoice3 的語言模型骨幹上訓練 BatchTopK 稀疏自編碼器,並引入一套具備模態感知能力的自動解釋管線,能依據每個特徵激發的來源——文字前綴上下文、1 秒語音片段或兩者兼具——進行標記。所還原的特徵具有可解釋性,涵蓋音素、笑聲、口音提示與說話者性別。透過在 SAE 潛在空間中進行操控,顯示這些特徵具有因果性而非僅是描述性:針對性干預將笑聲機率從 0.02 提升至 0.79,翻轉感知到的說話者性別,並能在保留說話內容的同時控制語速。因此,SAE 特徵既可作為可解釋性物件,也可作為 TTS 合成的控制方向。
技能在智能体工作流中占据特殊地位,因为智能体需隐式遵循并执行这些技能,这使得第三方技能成为易受攻击的薄弱环节。现有研究虽已揭示基于技能的攻击所引发的智能体不安全行为,但主要针对单次任务执行中受污染技能进行评估,并通过临时风险清单枚举危害类型。为填补这些空白,我们提出SkillHarm——一项覆盖技能使用全生命周期的基准测试,并配以系统化的技能相关风险分类体系。SkillHarm评估两种攻击场景:固定载荷投毒(FPP),即固定受污染技能包会直接危害任何调用它的任务会话;自变异投毒(SMP),即初始良性的执行会悄然改变持久的技能内容,将危害延迟到后续复用。基于风险所针对的智能体工作流组件,它进一步定义了12种风险类型:数据管道、系统环境和智能体自主性。为规模化实例化这些攻击,我们构建了AutoSkillHarm——一种通过自然语言驱动编码智能体的自动化构建流水线。最终基准测试包含71项技能的879个攻击样本。实验表明,当前智能体仍存在脆弱性,FPP攻击成功率达86.3%,SMP达69.3%。我们的分析进一步揭示了一个潜在风险:许多明显的攻击失败源于智能体未能接触受污染文件,而非真正的抵抗能力,且当前防御措施仍无法可靠缓解这一威胁。
语言代理越来越依赖可复用技能来改进跨相关任务的多步骤网络自动化。一系列新兴研究探讨在线技能学习,即代理持续从先前任务轨迹中归纳技能,并在未来任务中动态复用。然而,现有方法主要在任务层面复用技能:根据初始任务指令检索固定技能集,并在整个执行过程中保持不变。这种静态策略与网络执行的实际需求不符——合适的下一步动作不仅取决于任务目标,还取决于当前网页状态,而网页状态往往演变为初始技能无法覆盖的情况。为弥补这一不足,我们提出状态基础动态检索(SGDR),一种在线技能学习方法,使网络代理能够逐步复用技能。SGDR包含三个组成部分:一种滑动窗口提取过程,将已完成轨迹转化为可在中间执行状态调用的可复用子流程;一种双重文本-代码表示,连接技能检索与可执行动作;一种状态基础动态检索机制,将技能同时匹配至任务目标与当前网页状态。在WebArena五个领域的实验表明,SGDR始终优于强基线方法,GPT-4.1平均成功率达37.5%,Qwen3-4B达24.3%,分别比最强基线相对提升10.6%和10.0%。代码开源在https://github.com/plusnli/skill-dynamic-retrieval。
随着深度学习模型的规模不断增大,管理、检查及修改大型检查点的难度日益提升。研究人员经常需要调整模型权重以进行层重构、精度转换、低秩分解和架构调试,但这些工作流程往往依赖于脆弱的临时Python脚本。在此,我们介绍BrainSurgery,一个用于对神经网络检查点进行稳健且可复现的“张量手术”的工具,并通过系统演示涵盖从模型升级到LoRA提取的四个示例和三个案例研究。通过抽象存储格式与内存管理,BrainSurgery能够通过声明式YAML计划执行复杂的变换。它支持通过表达性正则表达式和结构化定位进行结构修改、数学变换和张量重塑,同时内置断言检查张量形状、数据类型和数值,以防止静默错误。我们期望BrainSurgery凭借其可复现且经过验证的操作,为未来研究提供坚实基础。
令牌級信用分配仍是大語言模型(LLMs)中強化學習(RL)的主要障礙,現有的RL方法通常將所有令牌一視同仁,未能區分決定性的推理步驟與常規格式或流暢填充詞。近期研究嘗試利用模型內部信號進行更細粒度的信用分配,但這些方法多為逐點啟發式,忽略了資訊傳播的整體結構。我們提出FlowTracer,這是一個基於注意力誘導的有向無環圖(DAG)追蹤答案導向推理流程的RL框架,其中節點對應令牌,邊容量來自聚合注意力權重,並從此整體結構推導令牌信用。邊容量經重新加權,僅保留能抵達答案區域的影響力,同時強制局部流量守恆,使中間令牌不會因路徑長度或無關分支而損失或增加有效質量。在此圖上,FlowTracer提取連結問題到答案的資訊流主幹,並根據流通量對令牌評分,揭示調解長距依賴的高影響力樞紐與聚合檢查點。這些推導出的重要性用於塑造令牌級獎勵,使學習信號能精準聚焦於將資訊導向(或偏離)正確答案的令牌,並在各種推理任務中帶來一致的性能提升。
基於大型語言模型(LLM)的智慧代理廣泛應用於互動式文本環境中,涵蓋網頁導航、程式碼編輯、工具使用以及長時間跨度的對話等場景。然而,許多代理仍停留在被動反應階段,僅將觀察結果映射為行動,卻缺乏對環境結構與演變方式的明確模型。這促使了文本世界模型(TWM)的發展:一種針對文本狀態的轉換模型,在給定狀態與候選行動後,能預測出對應的網頁內容、終端輸出、API回應或用戶回覆,進而支援規劃、高效學習與原則性評估。我們系統性地回顧了用於LLM驅動代理的文本世界模型,並圍繞一個正式框架與代理的生命週期進行組織:(1)基礎定義:界定文本世界模型,並依據狀態表示與領域基礎進行分類;(2)建構方法:歸納「LLM即世界模型」與「程式碼即世界模型」兩大典範,並回顧相關建構方法;(3)應用層面:探討世界模型如何在訓練階段透過經驗合成,以及在推論階段透過規劃、驗證與適應來支援代理運作;(4)評估方式:涵蓋對世界模型本身的評估,以及將其作為代理評估環境的使用。我們旨在整合這個快速發展的領域,釐清其設計空間,並為未來研究指出其開放性挑戰。
深度研究代理因能够收集大规模在线信息以获取目标知识而日益受到关注,近期的工作已从纯文本信息搜索逐步转向多模态场景。然而,现有代理工作流大多遵循证据积累模型,以线性方式聚合证据,缺乏处理跨异质模态矛盾信息的原则性机制。针对这一问题,我们提出Struct-Searcher——一种基于信念修正理论的结构化代理工作流,该工作流在整个推理过程中明确维护一个动态演化的多模态结构图,从而支持有效的冲突感知多模态深度信息搜索。在多个基准数据集和主干模型上的广泛实验表明,Struct-Searcher(1)具备即插即用且与模型无关的特性,在五种不同主干模型上,相对于BrowseComp-VL任务的平均准确率提升达17.2%;(2)性能领先,持续优于最先进的视觉语言模型(VLM)及深度研究代理,在MM-BrowseComp、HLE-VL和BrowseComp-VL上,相较于排名第二的竞争方法,准确率分别相对提升3.7%、1.5%和0.7%。
大型語言模型(LLMs)經常面臨需要拒絕的請求,這使得「助益性」與「防止傷害」之間存在取捨。然而,拒絕本身也可能具有助益性。在涉及危機、脅迫或意圖升級等高風險互動中,生硬的不配合雖能避免直接傷害,卻仍未能支援請求背後使用者的需求。我們提出PsychoSafe——一套基於心理學的拒絕框架,將拒絕重新定義為結構化的支持性溝通,並奠基於實證支持的介入策略。為開發PsychoSafe,我們建構了一個包含8019組提示-回應對的語料庫,涵蓋五個具有心理顯著性的風險領域,並對Qwen 3.5 27B模型應用了提示設計與參數高效微調。在一個由500組提示組成的平衡驗證集上,經由LLM評估器評分並透過人類評分驗證,PsychoSafe提示相較於一般基準,整體拒絕品質提升了28.1%,其中在外部資源轉介(+46.8%)與心理學基礎(+34.8%)方面表現尤為突出,同時保留了非拒絕任務的後續表現。微調模型達到了近乎完美的拒絕率與資源轉介率,但降低了回應的相關性。此外,在SORRY-Bench與XSTest上的評估顯示,模型在領域內具有強健性,但在領域外的一般化能力有限,顯示未來研究應多樣化微調資料,以協助模型選擇性地而非制式地應用介入策略。
现有用于正电子发射断层扫描(PET)图像去噪的深度学习模型在分布偏移下常出现严重的性能退化,这从根本上限制了其在临床环境中的鲁棒部署。这种泛化能力的缺失源于传统的固定参数模型范式——模型在训练后无法适应测试数据(例如不同的剂量水平或扫描仪类型)的变化。为克服这一限制、实现鲁棒泛化,我们提出了U-TTT,一种新颖的U形模型,它集成了测试时训练(Test-Time Training, TTT)层,通过自监督在推理过程中动态调整模型参数,从而适应每个测试实例的特定特征。此外,为全面捕获3D PET数据的复杂退化,U-TTT设计了双域适应机制,包含一个空间测试时训练(S-TTT)层和一个频率测试时训练(F-TTT)层。S-TTT层捕获并校正空间结构退化,而F-TTT层抑制全局噪声频谱并恢复精细的高频细节。大量实验证明,U-TTT在PET去噪中达到了最先进的性能,并在具有挑战性的分布偏移(包括未见过的剂量水平和未见过的扫描仪类型)下展现出卓越的泛化能力。我们的代码将发布在 https://github.com/Yaziwel/U-TTT。
先前研究顯示,在狹窄領域中對大型語言模型進行惡意或不正確輸出的微調,可能引發廣泛的脫序與有害行為,此現象稱為「新出現的脫序」。然而,有效逆轉此類脫序的方法仍然有限。在本研究中,我們有兩項貢獻。首先,我們識別出「諂媚微調」——即訓練模型被動同意使用者不正確觀點——是先前未充分探索的新出現脫序驅動因素,並證明其會引發廣泛且嚴重的脫序行為。其次,我們提出「對齊閘門」,這是一種在微調期間於模型中插入可學習且可控閘門的有效方法,用以逆轉新出現的脫序。透過微調,這些閘門學會識別導致不安全回應的內部表徵。因此,放大或抑制這些表徵,分別能加劇或減緩新出現的脫序。我們進一步發現,對齊閘門模組展現出強大的泛化能力:從狹窄領域微調獲得的閘門權重,能大幅抑制廣義領域的脫序行為,同時保留模型的整體能力。
现有的大多数基于深度学习的PET图像去噪方法假设低剂量PET图像具有固定且已知的剂量缩减因子(DRF)。然而,在实际应用中,当DRF超出预设范围时,这些方法会出现显著的性能下降。为应对不同DRF带来的挑战,一些初步研究聚焦于通用PET图像去噪任务,旨在训练一个能够跨DRF处理低剂量数据的通用模型。然而,这类朴素通用模型往往难以处理不同DRF数据中存在的风格不匹配问题,从而导致风格消除现象及显著的过度平滑效应。为解决这一问题,我们创新性地将域泛化引入PET图像去噪领域,并提出一种通用PET图像去噪网络(UniPET),以实现跨不同DRF的高质量PET图像去噪。UniPET包含两大核心创新:风格对齐网络(SAN)和区域感知学习策略(RALS)。具体而言,SAN利用源自域泛化的风格对齐技术,对不同DRF下的风格进行对齐与恢复,在有效保留风格的同时确保模型在多种DRF下的泛化能力。此外,为增强风格恢复效果,RALS区分平坦区域与风格化区域,并仅对后者进行对抗学习,从而更有效地引导模型聚焦于风格化区域的学习。实验证明,我们提出的UniPET能够自适应地恢复不同DRF风格,实现跨DRF的高质量PET图像去噪。大量实验表明,UniPET在特定DRF下展现出与单DRF专属模型相当的性能,并在定量、感知和临床评估中均达到了通用PET图像去噪的最新水平。
视频生成模型的能力日益强大,但长程一致性仍难以实现,这是因为即便仅需生成几十帧画面,所需的Transformer序列长度也过长,在实际应用中难以实现。我们证明,通过在多尺度标记空间内采用由粗到细的逐步生成方式,这一难题可得到缓解。我们的方法简单直观:首先,预训练一个自编码器,将每一帧压缩成由粗到细的多层标记层级——从常规的潜在分辨率级别,直至每帧仅包含极少量标记的极粗层级。最粗的层级捕捉场景布局和语义等关键信息,而更细的层级则补充高频的表征与纹理细节。随后,我们训练一个视频扩散模型,以由粗到细的逐步生成方式产出这些标记。通过精心控制在每个生成步骤中帧级细节的呈现程度及其作为上下文的使用方式,我们得以在保证几何结构一致性与物体恒常性的同时,减少对感知上不显著的细节进行长程一致性建模所需的计算开销。我们采用一个包含大量《我的世界》游戏视频的自定义数据集验证了该方法,结果表明,其生成的视频在连贯性上显著优于现有基线模型。
基於大型語言模型的多智能體系統(MAS)通常圍繞角色、流程和輪替排程進行組織,而智能體之間傳遞的內容往往被保留為未經約束的自然語言。然而,這種自由形式的通訊方式可能迅速膨脹令牌使用量、耗盡共享上下文視窗,最終影響系統效能與推理成本。我們分析了兩種MAS拓撲結構中五種常見的智能體間通訊策略,發現沒有任何一種固定策略普遍最優。相反,有效的智能體間訊息始終能保留下游智能體所需的行動中心資訊。在此基礎上,我們提出PACT(協議化行動狀態通訊與傳輸),將智能體間通訊視為公開狀態更新問題,並在每個原始智能體輸出進入共享歷史之前,將其壓縮為緊湊的行動狀態記錄。在各種MAS拓撲結構下,PACT持續改善效能與成本之間的取捨,以顯著更少的令牌達成相當或更強的任務表現。此效益延伸到生產級編碼框架:PACT使OpenHands的解決率提升,同時每個解決問題的令牌消耗減少10%;對SWE-agent則維持解決率不變,同時輸入令牌減半。我們的程式碼已公開於 https://github.com/iNLP-Lab/PACT。
自迴歸影片生成已成為世界動作模型(WAMs)的一個強大範式。然而,現有方法在訓練收斂速度與最終收斂精度上仍存在侷限,特別是在高幀率設定下——由於訓練監督僅限於當前區塊,缺乏對未來動態的明確信號;同時,因需迭代式影片去噪,推論速度亦受影響。本文提出「Next Forcing」,一種針對因果世界建模的多區塊預測(MCP)框架,能實現更快的訓練、更高的精度以及加速的推論。受大型語言模型中的多token預測啟發,Next Forcing引入MCP訓練目標:為主模型添加輕量級輔助MCP模組,使其能同時對多個未來時間視野(下一個、下兩個、下三個區塊)的影片區塊進行去噪。這些MCP模組在預測深度間形成因果鏈,利用從主模型多層融合而來的中間特徵來預測未來動態,使近期預測能輔助遠期預測,並為主模型提供密集的多尺度時間監督。訓練階段,MCP模組顯著加速收斂並提升收斂精度,特別是在高幀率場景:在50 fps下,Next Forcing在5,000訓練步中相較LingBot-VA取得93.1%的相對提升,收斂速度加快2.3倍,並在RoboTwin基準上創下新的最佳結果(Clean/Random分別為94.1%/93.5%)。推論階段,可保留MCP模組,使其在預測當前區塊的同時平行預測下一區塊,實現2倍推論加速。Next Forcing在PhyWorld(評估影片生成是否符合物理法則的基準)上也展現顯著進步,並在通用影片預訓練任務中將FVD降低超過50%。
大型語言模型(LLMs)在長上下文中的可擴展性根本上受到標準注意力機制的二次複雜度的限制,從而促成了採用具有次二次成本的線性注意力機制。為了提升長上下文下的表示能力,近期方法以多狀態方式組織記憶。然而,現有的多狀態線性注意力方法依賴於固定的狀態合併策略,無法適應動態變化的 token 重要性,不可逆地模糊了關鍵 token,並在長序列中導致嚴重的誤差累積。為了解決這一限制,我們提出了 DLA,一種用於多狀態線性注意力的動態記憶建模框架。DLA 引入了 (i) 信息感知動態狀態合併(Information-Aware Dynamic State Merging),根據 token 層級的信息變化自適應地確定狀態邊界,在語義轉換周圍保留高解析度表示,同時積極總結穩定區域;以及 (ii) 容量受限記憶建模(Capacity-Bounded Memory Modeling),通過選擇性地合併相鄰的低信息狀態來維持一個固定大小、按時間順序排列的狀態快取,從而以最小的信息損失控制記憶增長。我們在兩種不同的線性注意力模型上預訓練 DLA,並在三類共 16 個數據集上進行評估。實驗結果證明了 DLA 相對於當前最先進方法的優越性。
表達式連續控制策略(如擴散模型與流模型)是近期在模擬與真實機器人控制中,拓展模仿學習規模化的核心基礎。雖然這類策略在監督式模仿學習環境中展現出穩定的擴展性,但要將其整合至強化學習(RL)流程中進行策略改善,卻被證實相當困難。這往往需要專門的訓練目標函數,或透過去噪過程進行反向傳遞,而這些方法會引發眾所周知的穩定性問題,進而影響可擴展性。在本論文中,我們探討一個問題:僅在測試階段採用簡單的策略改善機制,同時保留穩定的監督式策略訓練,是否能成為避開上述問題的競爭性替代方案?為此,我們提出QGF(Q引導流)——一種完全在測試階段進行策略最佳化的強化學習演算法。QGF的運作方式是先預訓練一個參考流策略(透過標準的行為複製目標)與一個價值函數評論家;在測試階段,則利用價值梯度來引導參考策略,使其產生更高價值的動作,而無需進行額外的策略學習。實驗結果顯示,QGF在先前的測試階段強化學習方法中,於高維度動作空間的單任務與目標條件離線強化學習基準測試中表現更佳,且與最先進的訓練階段演算法相比,競爭力相當,同時運行成本更低。此外,透過避免演員-評論家訓練的不穩定性,QGF在模型規模擴展時展現出良好的線性成長特性,為採用表達式策略的強化學習提供了一個實用且有效的替代演算法。
多模态大語言模型(MLLMs)普遍繼承了專為單模態文本建模設計的深層對稱 Transformer 骨幹網路,並對影像與語言標記施加相同的統一計算。這種設計忽略了關鍵的模態不對稱性:影像與文本標記在資訊密度、冗餘程度及所需推理深度上存在顯著差異。透過對 LLaVA-1.5 進行逐層分析,我們觀察到視覺標記傾向於在中層達到飽和。具體而言,文本對影像的注意力從第 0 層的 0.68 降至第 4 層的 0.07,並在第 18 層後穩定在 0.04 附近,而文本標記則持續受益於深層語義處理。這些發現顯示,架構上的對稱性與依深度異步變化的模態演化之間存在不匹配,導致在深度任務特定調適過程中,出現冗餘的視覺計算及感知表徵的可能偏移。基於此,我們提出雙路徑視覺標記路由(DPVR),一種適用於高效 MLLMs 的模態不對稱路由框架。其核心實作 DPVR-LF(晚層融合)會在飽和點將視覺標記路由至可訓練的單層側分支,執行跳過深層堆疊中影像位置的十三層純文本前向傳遞,並僅在最終層重新融合視覺與文本流。DPVR-LF 僅需約 3% 的可訓練參數,即可在標準基準測試中維持具競爭力的多模態性能,同時減少深層 Transformer 堆疊中的視覺計算量。此結果挑戰了視覺標記必須遍歷所有深層語言模型層的傳統假設,並指出單一後期融合層即足以在 LLaVA 風格的多模態大語言模型中維持強大的感知能力。
在智能体评估与训练中,一个日益严重的失败模式是:模型可以通过利用捷径而非解决预期任务来获得高评估分数,从而产生欺骗性表现。这使得评估分数作为衡量真实任务解决能力的指标变得不可靠。我们提出 CapCode 框架,用于构建带有随机测试的编码数据集,其非作弊情况下的最佳可实现性能被故意设定上限低于满分。这种上限性能设计为评估分数提供了更清晰的解释:明显高于上限的分数不可信,因此可作为作弊的证据。为了防止作弊,我们提出 CapReward,这是一种基于 CapCode 原理的奖励设计,旨在抑制超出上限的优化。跨多个数据集的实验表明,CapCode 能够检测作弊行为,同时保持模型的性能排名;而 CapReward 则减少了作弊行为,使得模型能更好地遵循预期的任务规范。
基础大语言模型(LLMs)在广泛的一般任务上展现出熟练的能力,并通过领域专家LLMs在各种专业任务上取得了显著成果。随着可用LLM列表的不断增长,推理路由器被提出用于为每个提示选择最合适的LLM。然而,现有的路由方法要么在从弱到强的通用LLMs之间优化成本,要么需要大量训练来支持领域专家路由。在本文中,我们提出了IR3DE,一种基于岭回归的领域专家路由器,能够为每个提示提供低成本且快速的路由决策。我们在两种因果语言建模(CLM)设置下评估了IR3DE,其中任务是对所有域进行下一个词预测,以及一种推理设置,其中每个域都有其独特的推理任务。尽管是一个线性路由器,IR3DE在两种CLM设置中实现了与其他基线相当的性能,并在推理设置中超越了它们,归一化性能达到98.4%。此外,IR3DE支持添加或移除新的领域专家,而无需从头重新训练路由器,从而允许以最小中断路由器本身的方式服务一组动态的LLM。我们的代码可在 github.com/gensyn-ai/IR3DE 获取。
将语言模型以额外上下文(例如对先前尝试的反馈)作为条件,通常能改善其回答。自我蒸馏技术旨在让模型在缺乏该上下文时仍保留这种改善效果。该方法通过匹配模型在两种设置下的输出分布实现:仅看到问题的学生模型,以及能看到上下文的自教师模型。因此,模型所学内容取决于自教师模型接收的上下文类型,然而针对该上下文的设计仍鲜有研究。 我们通过使用冻结评判器对求解器进行训练,研究了自我蒸馏中的上下文设计。我们比较了三种条件:(i) 二元奖励(GRPO),(ii) 参考答案,以及(iii) 与求解器推理轨迹对齐的逐步批评。逐步批评带来的收益最大,在Avg@12指标上分别比GRPO高出16.11分,比参考答案条件化的自我蒸馏高出5.27分。逐词优势分析揭示了原因:逐步对齐的反馈仅针对推理失败的词元,而保持正确行为不变。相比之下,以参考答案为条件会迫使模型在每一个词元(即使正确的步骤)上都改变行为,因为另一种推导在表述和方法上必然存在差异。这表明反馈与求解器推理之间的结构对齐是自我蒸馏有效性的关键驱动因素。
經驗豐富研究員提供的專家寫作回饋,對早期職業學者改進稿件至關重要,然而高品質回饋往往稀缺,因為審查研究論文需要大量人力。新興的AI驅動寫作助手大多專注於語法修正或模擬同儕審查並給出最終評分,卻無法提供具體可行的建議,幫助學生在撰寫過程中改善論文。我們提出PaperMentor,這是一套以人為本的寫作輔助系統,能將可行建議以Overleaf原生內嵌註解的形式呈現,同時將實際寫作完全交由人類作者處理。PaperMentor整合了一個專家技能庫,該庫從資深研究員的寫作建議中精心挑選,並搭配12個專門代理,涵蓋論文寫作的不同面向,例如格式合規性、措辭準確性及術語一致性。在一項用戶研究(n=14)中,90.6%的生成註解被評為可行,67.5%被評為有效,顯著優於未使用技能庫的GPT-5.2基準。我們以開放原始碼形式釋出PaperMentor供大眾使用。我們的程式碼在AGPL-3.0許可證下公開,網址為https://github.com/jiarui-liu/overleaf。
多輪推理模型的失敗在終端評分評估中幾乎無法察覺。模型可能在長對話早期就鎖定某種不安全立場,但其最終輪的拒絕率可能與穩健對齊的基線模型看起來並無差異。為了揭露這些隱藏的時序動態,我們提出了一種痕跡層診斷方法——思維鏈輸出2x2安全矩陣(CoT-Output 2x2 Safety Matrix)。該架構沿兩個獨立維度(內部推理與可見輸出)對每一輪進行標註,從而定義四個具操作性的失敗類別:穩健對齊、偽裝對齊、公開越獄,以及一個我們稱之為情境注入失誤(context-injection failure)的獨特失敗模式——在此模式下,思維鏈維持安全推理,但可見輸出卻產生有害內容,凸顯了多輪場景中推理不忠實的表現。我們對三個蒸餾推理目標,在五種監督條件下對固定攻擊者進行評估,收集了6750個輪次級別的資訊危害情境觀察資料。我們的分析揭示了兩種可重現的漏洞:一為監督悖論,即明確的監控線索反而提高偽裝對齊率而非抑制它;二為情境注入失誤,即模型在內部狀態安全的情況下仍鎖定於不安全的外部輸出。我們釋出完整的多輪對話與思維鏈痕跡資料集,以支援後續的痕跡診斷研究。
多智能體系統(MAS)能在測試時透過將複雜問題分解為平行子任務,來擴展大型語言模型的推理能力。然而,現有的MAS大多依賴集中式協調,由主智能體分配任務、收集輸出並合併結果。隨著子任務數量增加,此控制器會成為通訊與整合的瓶頸。我們提出去中心化語言模型(DeLM),這是一個透過平行智能體、共享驗證上下文及任務佇列來實現去中心化協調的MAS框架。智能體可以非同步地認領子任務、讀取累積進度、執行局部推理,並回寫精簡的驗證更新。共享上下文作為共同的通訊基礎,使智能體能在彼此驗證過的進度上構建,無需透過中央控制器路由每次更新。實驗上,DeLM提升了軟體工程的測試時擴展能力與長上下文推理能力。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2及Pass@4三項指標均達到最佳表現,較最強基線高出最多10.5個百分點,同時每個任務成本降低約50%。在LongBench-v2多文件問答中,DeLM在四個前沿模型系列中取得最高平均準確率,較最強基線提升最多5.7個百分點。程式碼已公開於專案網站:https://yuzhenmao.github.io/DeLM/。
大型語言模型(LLM)的安全性通常僅在行為層面進行評估,這對於內部魯棒性提供的證據有限,因為這類評估針對的是輸出結果,而非干預下的表徵層級脆弱性。我們將此差異正式定義為「審計鴻溝」:即行為安全性與干預下魯棒性之間的差距。為研究此鴻溝,我們構建了解耦模型,此類模型能維持安全的外顯行為,同時在潛在空間中仍保持脆弱性。我們提出一套基於干預的評估框架,透過在參數與潛在空間中進行軟干預(包括有害微調與逐層潛在擾動)來測試模型魯棒性。為使評估形式化,我們提出「潛在脆弱性評分」(LVS),用以衡量在有限潛在擾動下,有害行為被誘發的容易程度。利用此評估框架,我們證實了在多個安全與不安全對齊的當前最佳模型中,行為安全指標不足以反映表徵層級的魯棒性。值得注意的是,解耦模型在有害干預下雖表現出可比的拒絕行為,但其LVS卻顯著升高,其中中間表徵層對干預最為敏感。我們的結果表明,僅依靠行為安全性評估無法完整呈現模型魯棒性,因而需要進行表徵感知的審計,同時關注潛在脆弱性與可觀測行為。
自回归视频生成器通过生成连续的时间片段来合成长视频,但其历史键值缓存会随视频长度增长而膨胀。现有的有界缓存方法通过局部窗口、汇合令牌或压缩记忆状态来降低该成本,但它们通常为历史信息的不同部分分配固定角色。我们提出FadeMem,一种距离感知的键值内存整合机制,在固定缓存预算下将历史键值块组织成时间层级结构。该设计源于频率依赖的时间衰减规律:精细细节迅速去相关,而粗粒度场景结构与主体特征在更长时段内保持有效性。生成过程中,新历史以细粒度条目插入,而相邻的旧条目则在幂律时间分配调度下逐步合并,形成缓存内近密远疏的记忆模式。无需架构改动,FadeMem即可保留近期上下文以捕捉短时动态,同时通过紧凑的远距离锚点维持主体一致性与场景连贯性。实验表明,与现有有界缓存策略相比,该方法在主体一致性、背景稳定性和时间连贯性上均有提升。
多实例学习(MIL)解决的是监督信号仅存在于实例包级别的问题,并已成功应用于从计算病理学到卫星图像等多个领域。然而,现有算法在现实应用中常见的低标签样本场景下表现欠佳:灵活的模型容易过拟合,而刚性模型又难以适应特定任务。我们提出,在合成数据上使用感知器风格架构预训练一个上下文学习者,所得模型仅需少量标注实例包即可解决新任务。推理时,分类过程仅需一次前向传播,无需梯度更新。我们设计并研究了多种针对包结构数据的合成数据生成器,发现它们能够捕获互补的归纳偏置。混合使用这些生成器进行预训练的模型,继承了各生成器在特定任务上的优势,在十二个MIL基准测试中取得了平均最佳表现,超越了需要任务特定训练的有监督基线方法。
大型語言模型(LLMs)日益參與情感敏感的社交對話,其回應可能從平衡的支持轉向過度肯定或逐步升級的順應。現有的諂媚行為研究主要關注事實一致性與指令遵循情境,對植根於文化的對話式諂媚行為著墨甚少。我們提出 BenSyc,這是首個針對孟加拉語社交情境中對話式諂媚行為的基準測試。我們從孟加拉國與西孟加拉邦各社群收集的 11,840 則 Reddit 貼文及 17 萬則留言出發,建構了一個經人工驗證的基準測試,包含二元標籤與一套細粒度五層級分類體系(涵蓋否定、中立、支持、肯定、升級)。我們評估了超過 15 個開放與專有 LLM 在對話順應分類及回應生成任務上的表現。結果顯示,即便是最先進的指令調校模型,在區分同理支持與強化導向的肯定時仍具挑戰性:最佳系統在二元檢測上僅達 61.8 Macro-F1,在五類分類上則為 61.7 Macro-F1。在生成設定中,多個模型在情緒高漲情境下經常產生強烈肯定或升級的回應。我們的研究結果凸顯了不同模型家族與對話行為間的顯著差異,強調了植根於文化的多語言基準測試對於評估社交順應對話式 AI 系統的重要性。