每日精選AI研究論文及翻譯
自我演化方法透過迭代式的「生成-驗證-精煉」循環來增強程式碼生成能力,然而現有方法存在探索效率低下的問題,難以在有限預算內發現具備更優複雜度的解決方案。這種低效性源於三方面:初始化解偏差使演化過程陷入次優解區域、缺乏反饋引導的隨機操作失控,以及跨任務經驗利用不足。為突破這些瓶頸,我們提出可控自我演化框架,其包含三個核心組件:多樣化規劃初始化生成結構迥異的演算法策略以實現廣闊解空間覆蓋;遺傳演化以反饋驅動機制取代隨機操作,實現定向突變與組合式交叉;階層化演化記憶在任務間與任務內層級同步捕獲成功與失敗經驗。在EffiBench-X基準上的實驗表明,無論採用何種大型語言模型基座,CSE均能穩定超越所有基線方法。此外,CSE從演化早期即展現更高效率,並在整個演化過程中保持持續改進。程式碼已開源於:https://github.com/QuantaAlpha/EvoControl。
深度研究系統廣泛應用於多步驟網絡研究、分析與跨來源資訊整合,但其評估仍面臨挑戰。現有基準測試往往需要耗費大量標註資源來構建任務、依賴靜態評估維度,或在引用缺失時無法可靠驗證事實。為彌補這些不足,我們提出DeepResearchEval——一個用於深度研究任務構建與能動式評估的自動化框架。在任務構建方面,我們設計基於人物角色的生成流程,透過多樣化用戶畫像生成具真實性的複雜研究任務,並應用「任務資格審查」與「檢索必要性」雙階段篩選機制,僅保留需要整合多源證據與外部檢索的任務。在評估方面,我們開發能動式評估流程包含兩個組件:適應性點狀質量評估能根據生成任務動態推導出任務專屬的評估維度、標準與權重;主動事實核查則能在引用缺失時,透過網絡搜索自主提取並驗證報告中的陳述。
大型語言模型(LLM)代理通過多工具協作展現出內在的推理能力。然而在代理推理過程中,現有方法常存在兩大問題:(一)因缺乏前瞻性而導致局部短視的生成;(二)軌跡不穩定性,即早期細微誤差可能引發推理路徑發散。這些問題使得全局效能與計算效率難以兼顧。為解決上述挑戰,我們提出基於LLM代理的元自適應探索框架MAXS(https://github.com/exoskeletonzj/MAXS),該框架能靈活整合工具執行與推理規劃。MAXS採用前瞻策略延伸推理路徑數步,預估工具使用的優勢值,並結合步驟一致性方差與跨步趨勢斜率,聯合篩選出穩定、一致且高價值的推理步驟。此外,我們引入軌跡收斂機制,在達成路徑一致性時停止後續推演,通過控制計算成本實現多工具推理中資源效率與全局效能的平衡。我們在三個基礎模型(MiMo-VL-7B、Qwen2.5-VL-7B、Qwen2.5-VL-32B)與五個數據集上進行廣泛實證研究,結果表明MAXS在性能與推理效率上均持續優於現有方法。進一步分析驗證了我們的前瞻策略與工具使用機制的有效性。
科學推理不僅依賴邏輯推斷,更需要激活先備知識與經驗結構。記憶能有效複用知識並提升推理的一致性和穩定性。然而現有基準主要評估最終答案或逐步推導的連貫性,忽視了人類推理中基於記憶驅動的機制——這種機制會先激活錨點與吸引子,再將其整合至多步推導中。為填補此空白,我們提出A³-Bench(https://a³-bench.github.io),該基準以錨點與吸引子激活理論為基礎,通過雙尺度記憶驅動激活來評估科學推理能力。首先,我們採用SAPM流程(主體、錨點與吸引子、問題、記憶發展)對涵蓋多領域的2,198個科學推理問題進行標註。其次,引入基於錨點與吸引子的雙尺度記憶評估框架,並設計AAUI指標(錨點—吸引子利用指數)量化記憶激活率。最後,通過對多種基礎模型與範式的實驗,我們驗證了A³-Bench的有效性,並解析記憶激活如何影響推理性能,為記憶驅動的科學推理提供新見解。
本報告介紹DASD-4B-Thinking——一個輕量級卻能力卓越的完全開源推理模型。該模型在數學、科學推理和代碼生成等挑戰性基準測試中,取得了同規模開源模型的SOTA性能,甚至超越多個更大規模的模型。我們首先批判性地重新審視學界廣泛採用的蒸餾範式:基於教師生成回應的SFT(序列微調),亦稱為序列級蒸餾。儘管近期一系列遵循此方案的研究展現了顯著效率與強大實證性能,但其主要立足於SFT視角,導致這些方法過度聚焦於設計SFT數據篩選的啟發式規則,卻在很大程度上忽略了蒸餾的核心原則——讓學生模型學習教師的完整輸出分佈以繼承其泛化能力。具體而言,我們指出現行實踐中的三個關鍵缺陷:i) 教師序列級分佈的表徵不足;ii) 教師輸出分佈與學生學習能力間的失配;iii) 教師強制訓練與自回歸推斷產生的曝光偏差。總體而言,這些缺陷反映了蒸餾過程中系統性缺乏明確的師生互動,致使蒸餾本質未被充分挖掘。為解決這些問題,我們提出多項方法創新,共同構建出增強的序列級蒸餾訓練流程。值得注意的是,DASD-4B-Thinking僅使用44.8萬訓練樣本就獲得競爭性結果——相比現有大多數開源工作減少了一個數量級。為支持社群研究,我們公開釋出模型與訓練資料集。
視覺-語言-行動(VLA)任務需在複雜視覺場景中進行推理,並於動態環境中執行適應性動作。儘管近期研究表明顯性思維鏈(CoT)能提升推理型VLA的泛化能力,但冗長的推理軌跡導致其推論延遲居高不下。我們提出Fast-ThinkAct框架,透過可言語化的潛在推理實現緊湊而高效的規劃。該框架通過從教師模型提煉知識,以偏好引導的目標驅動學習潛在CoT推理,藉此對齊操作軌跡,同時遷移語言與視覺規劃能力以實現具身控制。這種機制使推理增強的策略學習能有效串聯緊湊推理與動作執行。在多樣化具身操作與推理基準測試中,Fast-ThinkAct以較現有最先進推理VLA降低89.3%推論延遲的優勢達成強勁性能,同時保持有效的長程規劃、少樣本適應及錯誤恢復能力。
通用大型視覺語言模型(LVLM)儘管規模龐大,卻常因「注意力擴散」現象而在皮膚科診斷中表現不佳——即無法從背景噪聲中分離出細微的病理性病變。本文挑戰了「參數擴張是實現醫療精準度的唯一途徑」這一假設,提出SkinFlow框架,將診斷任務重新定義為視覺信息傳輸效率的優化過程。我們的方法採用虛擬寬度動態視覺編碼器(DVE),無需物理參數擴展即可「展開」複雜的病理性流形,並結合兩階段強化學習策略:第一階段對齊顯性醫學描述,第二階段在受限語義空間內重構隱性診斷紋理。此外,我們提出以臨床實務為基礎的評估方案,優先考量診斷安全性與層級關聯性,而非僵化的標籤匹配。實證結果令人振奮:我們的70億參數模型在Fitzpatrick17k基準測試中創下新紀錄,相比大型通用模型(如Qwen3VL-235B和GPT-5.2),Top-1準確率提升12.06%,Top-6準確率飆升28.57%。這些發現證明,相較於單純的參數擴張,優化幾何容量與信息流能產生更卓越的診斷推理能力。
我們提出OpenVoxel——一種免訓練算法,用於對稀疏體素進行分組與描述,以實現開放詞彙的3D場景理解任務。基於從多視角影像獲得的稀疏體素柵格化(SVR)模型,OpenVoxel能生成描述場景中不同物件的意義分組。同時,通過運用強大的視覺語言模型(VLM)與多模態大型語言模型(MLLM),OpenVoxel能為每個分組生成描述性標註,從而建構具信息量的場景地圖,支援如開放詞彙分割(OVS)或指代表達式分割(RES)等進階3D場景理解任務。有別於先前方法,本方法無需訓練,且不引入CLIP/BERT文本編碼器的嵌入向量,而是直接透過MLLM進行文本到文本的搜尋。經大量實驗驗證,本方法在複雜的指代表達式分割(RES)任務中表現尤為突出,性能優於近期研究。程式碼將公開釋出。
大型語言模型(LLM)的發展已在一系列下游任務中取得卓越性能,包括基於LLM的檢索增強生成(RAG)。生成內容的質量高度依賴於檢索信息的實用性,以及LLM內部信息處理機制在答案生成中整合這些信息的能力。通常假設檢索到的信息與問題相關,但實際上檢索信息的相關性和實用性會因問題和文檔集合的不同而存在差異。因此,在答案生成中考慮檢索信息的相關性至關重要。本文提出OpenDecoder——一種新方法,利用對檢索信息的顯式評估作為生成過程中的質量指標特徵。我們的目標是構建一個對不同程度噪聲上下文更具魯棒性的RAG模型。該方法考慮了三類顯式評估信息:相關性評分、排序評分和QPP(查詢性能預測)評分。在五個基準數據集上的實驗結果表明,OpenDecoder通過超越多種基準方法,展現出卓越的有效性與更優的魯棒性。重要的是,此範式具備靈活性,可與任何目的的LLM後訓練相結合,並能整合任意類型的外部指標。
經驗干預在網路代理中已成為一種前景廣闊的技術範式,通過從累積經驗中提取有價值的洞察來增強代理的互動能力。然而現有方法主要在被動地將經驗作為全域上下文注入任務執行前,難以適應代理與環境互動過程中動態變化的情境觀測。我們提出ExpSeek方法,將經驗運用轉向步驟級別的主動搜尋:(1)利用模型內在信號估算步驟級熵值閾值以確定干預時機;(2)設計步驟級定制化經驗內容。在Qwen3-8B和32B模型上進行的四項高難度網路代理基準測試表明,ExpSeek分別實現了9.3%和7.5%的絕對效能提升。實驗驗證了熵作為自我觸發信號的可行性與優勢,並揭示即使僅使用40億參數的小型經驗模型也能顯著提升更大規模代理模型的效能。
视觉语言模型(VLMs)在处理高分辨率屏幕截图方面展现出卓越能力,在用户界面(UI)定位任务中表现突出。然而屏幕截图被标记化为数千个视觉标记(如2K分辨率约4700个),这会带来巨大计算开销并稀释注意力。相比之下,人类与UI交互时通常聚焦于感兴趣区域。本研究开创性地提出高效UI定位任务,基于对任务特性与挑战的实践分析,我们提出FocusUI框架——通过筛选与指令最相关的图像块同时保持位置连续性来实现精确定位。该框架攻克两大核心挑战:(1)消除视觉编码中的冗余标记。我们融合指令条件评分与基于规则的UI图谱评分(通过降低大尺寸同质区域权重)构建图像块级监督机制,从而筛选出独特且与指令相关的视觉标记;(2)保持视觉标记选择过程中的位置连续性。研究发现通用视觉标记剪枝方法会破坏位置信息,导致UI定位任务精度严重下降。我们创新性提出PosPad策略,将连续丢弃的视觉标记序列压缩为特殊标记并置于序列末端,从而保持位置连续性。在四个定位基准上的综合实验表明,FocusUI超越了GUI专用基线模型:在ScreenSpot-Pro基准测试中,FocusUI-7B相较GUI-Actor-7B实现3.7%的性能提升;即使仅保留30%视觉标记,FocusUI-7B性能仅下降3.2%,同时推理速度提升1.44倍,峰值GPU内存降低17%。
大型语言模型(LLM)的训练常以偏好对齐为优化目标,奖励那些被认为有助于互动且友好的输出。然而这种偏好导向的目标可能被恶意利用:操纵性提示可诱导模型倾向于迎合用户认同,而非坚持真相导向的修正。本研究通过偏好颠覆攻击(PUA)——一种利用模型取悦用户偏好而牺牲真实性的操纵性提示策略,系统检验对齐模型的脆弱性。我们提出一种诊断方法,采用2×2^4因子实验设计,通过可解释的效应分解将提示引发的输出偏移归因为系统目标(真相导向vs偏好导向)与PUA对话因子(指令控制、人格贬损、条件认可、现实否定)的交互作用,该方法比聚合基准测试能提供更细粒度的定向分析。令人惊讶的是,更先进的模型有时反而更容易受操纵性提示影响。除主导性的现实否定因子外,我们还观察到模型特定的符号反转及与PUA因子的交互效应,表明需要定制化防御而非统一鲁棒性方案。这些发现不仅提供了一种可复现的因子评估方法,为RLHF等训练后流程提供细粒度诊断,更能通过深化对偏好对齐风险与操纵提示影响的理解,为LLM产品迭代中的权衡决策提供新视角。
尽管基于大语言模型的智能体在深度研究任务中展现出潜力,但现有方法大多依赖固定工作流,难以适应现实世界中开放式的复杂查询。近期研究开始探索通过让智能体重写自身代码或提示词来实现自我进化,但无约束的优化往往引发稳定性缺失、幻觉现象和指令偏移等问题。我们提出EvoFSM框架,通过演化显式有限状态机而非自由形式的重写,在保持可控性的同时实现自适应能力。该框架将优化空间解耦为宏观流程(状态转移逻辑)与微观技能(状态特定行为),在明确的行为边界内实现精准改进。依托批判机制引导,EvoFSM通过一组受限操作精炼有限状态机,并引入自我进化记忆模块——将成功轨迹提炼为可复用的先验知识,失败模式转化为未来查询的约束条件。在五个多跳问答基准测试上的广泛实验表明,EvoFSM在DeepSearch基准上达到58.0%的准确率。在交互式决策任务中的附加结果进一步验证了其泛化能力。
我们推出TranslateGemma——一套基于Gemma 3基础模型的开源机器翻译模型。为增强Gemma 3原生多语言能力在翻译任务中的表现,我们采用两阶段微调策略:首先利用通过前沿模型生成的大规模高质量合成平行数据与人工翻译平行数据组成的混合数据集进行监督微调;随后通过强化学习阶段,采用包含MetricX-QE和AutoMQM在内的奖励模型组合优化翻译质量。我们在WMT25测试集的10个语言对上开展人工评估,并在WMT24++基准测试的55个语言对上进行自动评估,结果验证了TranslateGemma的有效性。自动指标显示所有规模的模型均较基线Gemma 3模型取得持续显著提升。值得注意的是,较小体量的TranslateGemma模型常能达到与更大基线模型相媲美的性能,同时具有更优的效率。我们还证明TranslateGemma模型保留了强大的多模态能力,在Vistra图像翻译基准测试中表现出增强性能。本次开源TranslateGemma模型旨在为研究社区提供强大且适应性强的机器翻译工具。
世界模型的最新进展为环境状态未来动态的建模带来了希望,使智能体能够在无需访问真实环境的情况下进行推理与行动。现有方法主要执行单步或固定步长的推演,其在复杂任务规划方面的潜力尚未得到充分挖掘。我们提出"想象后规划"(ITP)这一通过前瞻想象实现智能体学习的统一框架,该框架使策略模型与习得的世界模型交互,生成多步"想象"轨迹。鉴于不同任务和阶段的想象跨度可能存在差异,我们通过权衡终极目标与任务进度,引入了一种新型自适应前瞻机制。由此产生的想象轨迹可提供关于未来结果的丰富信号(如已达成进度和潜在冲突),这些信号与当前观测相融合,构建出部分可观测且可想象的马尔可夫决策过程以指导策略学习。我们通过免训练和强化训练两种变体实现了ITP框架。在代表性智能体基准测试上的大量实验表明,ITP显著优于现有竞争基线。进一步分析验证了我们的自适应前瞻机制能大幅增强智能体的推理能力,为应对更广泛复杂任务提供了重要启示。
基于扩散模型的现代视频生成模型能够制作出非常逼真的视频片段,但其计算效率低下,通常需要数分钟GPU时间才能生成几秒视频。这种低效性对生成式视频在需要实时交互的应用(如具身人工智能和VR/AR)中的部署构成了关键障碍。本文探索了一种静态场景下相机条件化视频生成的新策略:使用基于扩散的生成模型生成稀疏关键帧集合,然后通过三维重建与渲染技术合成完整视频。通过将关键帧提升为三维表征并渲染中间视角,我们的方法在确保几何一致性的同时,将生成成本分摊至数百帧画面。我们进一步提出一种能根据给定相机轨迹预测最优关键帧数量的模型,使系统能够自适应分配计算资源。最终实现的SRENDER方法对简单轨迹使用极稀疏关键帧,对复杂相机运动则采用更密集的关键帧。该方法在生成20秒视频时比基于扩散的基线模型快40倍以上,同时保持高视觉保真度和时间稳定性,为高效可控的视频合成提供了实用路径。
記憶在增強現代大型語言模型與多模態大語言模型的推理能力、適應性及語境保真度方面發揮著基礎性作用。隨著這些模型從靜態預測器轉變為具備持續學習與個性化推理能力的交互系統,記憶機制的整合已成為其架構與功能演進的核心議題。本文對LLM與MLLM中的記憶研究進行了全面且結構化的綜述,將相關文獻整合為由隱性記憶、顯性記憶與能動性記憶範式構成的統一分類體系。具體而言,本研究闡釋了三種主要記憶框架:隱性記憶指預訓練轉換器內部參數中嵌入的知識,包括其記憶存儲、聯想檢索和語境推理能力,近期研究側重於解讀、操控與重構這種潛在記憶的方法;顯性記憶涉及外部存儲與檢索組件,通過文本語料庫、稠密向量和圖結構等可動態查詢的知識表徵來增強模型輸出,從而實現與信息源的可擴展、可更新的交互;能動性記憶在自主智能體中引入具時間延續性的持久記憶結構,促進多智能體系統中的長期規劃、自我一致性與協作行為,對具身人工智能與交互式AI具有重要意義。超越文本範疇,本文還探討了多模態場景下的記憶整合機制,其中視覺、語言、音頻與行動模態間的連貫性至關重要。文中系統討論了關鍵架構進展、基準任務與開放性挑戰,包括記憶容量、對齊機制、事實一致性及跨系統互操作性等核心問題。
對學習表徵的分析存在一個盲點:當前研究主要聚焦於相似性度量,即衡量嵌入向量與外部參考標準的對齊程度,但相似性僅能揭示表徵內容,無法反映表徵結構的穩健性。本文提出「幾何穩定性」這一全新維度,用於量化表徵幾何在干擾下的保持可靠性,並開發了測量框架Shesha。通過對七個領域2,463種配置的實驗表明:穩定性與相似性實證上無相關性(ρ≈0.01)且機制相異——移除頂部主成分後相似性度量會失效,而穩定性仍能敏感捕捉細粒度流形結構。這種區別具有實踐指導價值:在安全監控方面,穩定性可作為功能性幾何預警指標,其檢測結構漂移的靈敏度比CKA提升近2倍,同時能過濾觸發剛性距離度量誤報的非功能性噪聲;在可控性方面,監督式穩定性可預測線性可控性(ρ=0.89-0.96);在模型選擇方面,穩定性與遷移性呈現解耦現象,揭示了遷移優化產生的幾何代價。超越機器學習領域,穩定性還能預測CRISPR干擾一致性和神經-行為耦合強度。通過量化系統維持結構的可靠性,幾何穩定性為審計生物與計算系統的表徵提供了相似性度量之外的必要補充維度。
具身系统将世界体验为"流动的交响乐":多种持续感官输入流与自我运动相结合,并与外部物体动态交织的复合体。这些信息流遵循平滑的时间参数化对称性,通过精密结构化的代数体系进行组合;然而大多数神经网络世界模型忽视这种结构,反而不断从数据中重复学习相同变换。本研究提出"流等变世界模型"框架,将自我运动与外部物体运动统一为单参数李群"流"。我们利用这种统一性实现针对这些变换的群等变性,从而在数百个时间步长上提供稳定的潜在世界表征。在2D和3D部分可观测视频世界建模基准测试中,流等变世界模型显著优于同类基于扩散和记忆增强的先进世界建模架构——尤其在智能体当前视野外存在可预测世界动态时表现突出。研究表明流等变性对长序列推演特别有益,其泛化能力远超训练时域。通过基于内外运动构建世界模型表征,流等变性为数据高效、对称性引导的具身智能开辟了可扩展路径。项目链接:https://flowequivariantworldmodels.github.io。
多模态大语言模型(MLLMs)在多模态推理领域正取得显著进展。早期方法主要关注纯文本推理,而近期研究虽在推理步骤中融入了多模态信息,但往往遵循单一任务特定的推理模式,这限制了其在各类多模态任务中的泛化能力。事实上,众多多模态任务需要多样化的推理技能,例如聚焦图像特定区域或标记目标物体。为此,我们提出统一生成式多模态推理方法,通过在推理过程中生成中间图像来整合多种多模态推理技能。我们通过两阶段SFT+RL框架Omni-R1实现这一范式,该框架采用感知对齐损失和感知奖励机制,从而实现功能性图像生成。此外,我们还推出Omni-R1-Zero,通过从纯文本推理数据中自举步进式可视化内容,无需多模态标注即可实现推理。实验结果表明,Omni-R1在广泛的多模态任务中实现了统一生成式推理,而Omni-R1-Zero在整体性能上可媲美甚至超越Omni-R1,这为生成式多模态推理指明了富有前景的发展方向。
基于强化学习的大型语言模型增强方法常导致输出多样性降低,从而削弱其在创意写作等开放式任务中的实用性。现有方法缺乏引导多样性探索的显式机制,往往将优化效率和性能置于多样性之上。本文提出一种围绕半结构化长链思维框架构建的强化学习方案,该方案将生成过程分解为显式规划的中间步骤。我们引入多样性规划分支方法,根据多样性变化在规划阶段策略性地引入分化,同时采用群体感知的多样性奖励机制以激励差异化轨迹生成。在创意写作基准测试上的实验结果表明,该方法在保持生成质量的同时显著提升了输出多样性,持续优于现有基线模型。
图像到视频(I2V)生成任务旨在根据参考图像和文本提示合成视频。这要求扩散模型在去噪过程中兼顾高频视觉约束与低频文本引导。然而,现有I2V模型虽注重视觉一致性,却鲜有研究探讨如何有效耦合这种双重引导以确保对文本提示的强遵循性。本研究发现,基于扩散Transformer(DiT)的I2V模型中,部分中间层会表现出弱语义响应(称为语义弱层),其表现为文本-视觉相似度的可测量下降。我们将此归因于"条件隔离"现象:视觉特征注意力会部分脱离文本引导,过度依赖学习到的视觉先验。为此,我们提出聚焦引导(FG)方法,通过增强语义弱层的可控性来解决该问题。FG包含双重机制:(1)细粒度语义引导(FSG)利用CLIP识别参考帧关键区域作为锚点来引导语义弱层;(2)注意力缓存将语义响应层的注意力图迁移至语义弱层,注入显式语义信号以减轻其对模型视觉先验的过度依赖,从而提升文本指令遵循能力。为验证方法有效性并弥补该方向评估体系的缺失,我们构建了I2V模型指令遵循评估基准。实验表明聚焦引导具有显著有效性和泛化性:在Wan2.1-I2V上将总分提升至0.7250(+3.97%),基于MMDiT的HunyuanVideo-I2V得分提升至0.5571(+7.44%)。
強化學習(RL)為提升大型語言模型的推理能力提供了原則性方法,但其有效性取決於能隨模型演化而持續提供信息的訓練信號。實踐中,當任務難度與模型能力失配,或訓練被少量重複問題模式主導時,RL的進展往往放緩。為協同解決這些問題,我們提出SCALER(可擴展合成式自適應推理學習環境),該框架通過自適應環境設計來維持有效的學習信號。SCALER引入可擴展的合成流水線,將現實編程問題轉化為具可控難度與無限實例生成能力的可驗證推理環境,使RL訓練能突破有限數據集的限制,同時保持強正確性保證。在此基礎上,SCALER進一步採用自適應多環境RL策略,動態調整實例難度並策展活躍環境集合,以追蹤模型能力前沿並維持分佈多樣性。這種協同適應機制能防止獎勵稀疏性,減輕對狹窄任務模式的過擬合,支持整個訓練過程的持續改進。大量實驗表明,SCALER在多樣化推理基準測試中始終優於基於數據集的RL基線,並展現出更穩定、更長視距的訓練動態。
基於評判指導的強化學習(RL)已成為訓練大型語言模型代理的強大範式,其通過自然語言反饋來增強稀疏的結果獎勵。然而,現有方法通常依賴靜態或離線的評判模型,無法隨策略演進而動態調整。在在線策略強化學習中,代理的錯誤模式會隨時間變化,導致固定評判器逐漸失效,所提供的反饋效用遞減。為解決此問題,我們提出 ECHO(基於事後優化的動態評判器框架),該框架通過同步協同演化循環聯合優化策略與評判器。ECHO採用級聯式軌跡生成機制:評判器對初始軌跡生成多重診斷,隨後進行策略細化以實現群結構優勢估計。我們通過飽和感知增益調節目標解決學習平台期挑戰,該目標獎勵評判器在高性能軌跡中誘導增量改進。通過採用雙軌GRPO更新機制,ECHO確保評判器反饋與演化策略保持同步。實驗結果表明,ECHO在開放世界環境中能實現更穩定的訓練效果和更高的長週期任務成功率。
集群工作负载分配常需复杂配置,导致可用性差距。本文提出一种基于自然语言处理的语义化、意图驱动的集群系统调度范式。该系统通过Kubernetes调度器扩展集成大语言模型,用于解析自然语言分配提示注解以实现软亲和性偏好。开发的原型系统包含集群状态缓存和意图分析器(采用AWS Bedrock平台)。实证评估表明,顶级模型(如Amazon Nova Pro/Premier和Mistral Pixtral Large)在评估基准数据集上实现了高解析准确率(子集准确率>95%),显著优于基线引擎。六种场景下的调度质量测试显示,相较于标准Kubernetes配置,原型系统实现了更优或相当的资源分配效果,尤其在复杂场景、量化场景及冲突软偏好处理方面表现突出。结果验证了LLM在降低调度门槛方面的可行性,但同步LLM延迟等局限性表明需采用异步处理以满足生产环境要求。本研究证实了语义化软亲和性在简化工作负载编排方面的实用价值。
大型语言模型常生成看似合理但无法对照原文核实的摘要,这在政府及法律分析等合规敏感领域存在严重局限。我们推出sui-1模型——一个具有240亿参数的模型,能生成带行内引用的摘要式摘要,使用户可追溯每个论断至原文句子。我们的合成数据流水线结合思维链提示与多阶段验证机制,从议会文件、网络文本和维基百科等多元来源中,生成涵盖五种语言的超过22,000个高质量训练样本。评估表明,sui-1显著优于所有测试的开放权重基线模型,包括参数量三倍于它的模型。这些结果证明,在基于引用的摘要任务中,针对性训练的效果远胜于单纯扩大模型规模。模型权重及交互演示已公开提供。
子词切分质量对大型语言模型至关重要,然而针对形态丰富的乌拉尔语系语言进行分词器评估,却因缺乏清洁的语素词典而受阻。我们推出SampoNLP——一个基于最小描述长度原理的自参照原子性评分技术的无语料库工具包,通过内部结构线索过滤复合形式,适用于低资源场景。利用SampoNLP为芬兰语、匈牙利语和爱沙尼亚语生成的高纯度词典,我们系统评估了8k-256k词汇量范围内的BPE分词器,并提出统一指标"综合性能得分"以权衡语素覆盖度与过度切分。通过分析IPS曲线,我们识别了收益递减的"拐点",首次为这些语言提供基于实证的最佳词汇量建议。本研究不仅提供实践指导,更定量揭示了标准BPE对高度黏着语的处理局限。SampoNLP工具库及所有生成资源已公开:https://github.com/AragonerUA/SampoNLP