每日精選AI研究論文及翻譯
在大型代码库中,随着大型语言模型(LLMs)需要处理日益广泛的信息,长上下文下的代码生成变得愈发关键。尽管近期的进展使得代码LLMs能够处理长输入,但高昂的API成本和生成延迟仍然是显著的瓶颈。现有的上下文修剪技术,如LLMLingua,在通用文本上取得了令人瞩目的成果,却忽视了代码特有的结构和依赖关系,导致在编程任务中表现欠佳。本文提出LongCodeZip,一种专为代码LLMs设计的新型即插即用代码压缩框架。LongCodeZip采用双阶段策略:(1)粗粒度压缩,通过条件困惑度识别并排序与指令相关的函数级代码块,仅保留最相关的函数;(2)细粒度压缩,将保留的函数基于困惑度分割为块,并在自适应令牌预算下选择最优子集,以最大化相关性。在包括代码补全、摘要和问答在内的多项任务评估中,LongCodeZip持续超越基线方法,实现了高达5.6倍的压缩比,且不降低任务性能。通过有效减少上下文大小同时保留关键信息,LongCodeZip使LLMs能够更好地扩展到现实世界的大规模代码场景,提升了代码智能应用的效率和能力。
擴散模型在圖像和視頻生成領域引發了一場革命,達到了前所未有的視覺質量。然而,這些模型依賴於變壓器架構,導致計算成本極高,尤其是在將生成擴展到長視頻時。最近的研究探索了用於長視頻生成的自回歸公式,通常是通過從短時序雙向教師模型中蒸餾知識來實現的。然而,由於教師模型無法合成長視頻,學生模型在超出其訓練時序範圍外的推斷往往會導致顯著的質量下降,這是由於連續潛在空間中誤差的累積所致。在本文中,我們提出了一種簡單而有效的方法,以減輕長時序視頻生成中的質量下降,而無需依賴長視頻教師的監督或對長視頻數據集進行重新訓練。我們的方法核心在於利用教師模型的豐富知識,通過從自生成的長視頻中抽取的片段來為學生模型提供指導。我們的方法在將視頻長度擴展至教師模型能力的20倍時,保持了時間一致性,避免了過曝和誤差累積等常見問題,且無需像先前方法那樣重新計算重疊幀。在計算規模擴大時,我們的方法展示了生成長達4分15秒視頻的能力,這相當於我們基礎模型位置嵌入支持的最大跨度的99.9%,並且比我們的基線模型長度超過50倍。在標準基準測試和我們提出的改進基準測試上的實驗表明,我們的方法在保真度和一致性方面均顯著優於基線方法。我們的長時序視頻演示可在https://self-forcing-plus-plus.github.io/找到。
基於可驗證獎勵的強化學習(RLVR)是一種新興範式,旨在提升大型語言模型的推理能力。然而,標準的線上策略訓練在單次更新後便捨棄了滾動經驗,導致計算效率低下和訓練不穩定。雖然先前關於強化學習的研究已強調了重用過去經驗的益處,但經驗特徵在塑造大型推理模型學習動態中的作用仍未被充分探索。本文首次探討了何種推理經驗具有價值,並識別出滾動正確性和熵作為經驗價值的有效指標。基於這些洞見,我們提出了ExGRPO(經驗分組相對策略優化)框架,該框架組織並優先處理有價值的經驗,並採用混合策略目標來平衡探索與經驗利用。在五個骨幹模型(1.5B至8B參數)上的實驗表明,ExGRPO在數學/通用基準測試上持續提升了推理性能,相比於線上策略RLVR平均增益分別為+3.5/7.6分。此外,ExGRPO在線上策略方法失效的強弱模型上均實現了訓練穩定。這些結果凸顯了原則性經驗管理作為高效且可擴展RLVR的關鍵要素。
如神經輻射場(NeRF)和3D高斯濺射(3DGS)等3D場景表示方法,已顯著推進了新視角合成技術的發展。隨著這些方法的普及,解決其潛在脆弱性變得至關重要。我們分析了3DGS對圖像級別投毒攻擊的魯棒性,並提出了一種新穎的密度引導投毒方法。該方法通過核密度估計(KDE)識別低密度區域,策略性地注入高斯點,嵌入依賴視角的虛幻物體,這些物體在受污染的視角中清晰可見,而對無辜視角的影響則降至最低。此外,我們引入了一種自適應噪聲策略,以破壞多視圖一致性,進一步提升攻擊效果。我們提出了一種基於KDE的評估協議,系統性地評估攻擊難度,為未來研究提供客觀的基準測試。大量實驗證明,與現有頂尖技術相比,我們的方法展現出卓越的性能。項目頁面:https://hentci.github.io/stealthattack/
大型語言模型(LLMs)近期展現出作為自主代理的強大能力,在推理、工具使用及序列決策方面顯示出潛力。儘管先前的基準測試已在軟件工程和科學發現等領域對LLM代理進行了評估,但金融領域仍未被充分探索,儘管其與經濟價值和高風險決策直接相關。現有的金融基準測試主要通過問答來測試靜態知識,但未能捕捉到交易的動態和迭代特性。為填補這一空白,我們引入了StockBench,這是一個無污染的基準測試,旨在評估LLM代理在現實的多月股票交易環境中的表現。代理接收每日市場信號——包括價格、基本面和新聞——並必須做出連續的買入、賣出或持有決策。性能通過累計回報、最大回撤和索提諾比率等金融指標進行評估。我們對最先進的專有模型(如GPT-5、Claude-4)和開放權重模型(如Qwen3、Kimi-K2、GLM-4.5)的評估顯示,雖然大多數LLM代理難以超越簡單的買入並持有基準,但部分模型展示了提供更高回報和更有效管理風險的潛力。這些發現凸顯了開發LLM驅動的金融代理所面臨的挑戰與機遇,表明在靜態金融知識任務上的優異表現並不一定轉化為成功的交易策略。我們將StockBench作為開源資源發布,以支持可重複性並推動該領域的未來研究。
我們推出F2LLM——基礎到特徵的大規模語言模型套件,包含三種規模的尖端嵌入模型:0.6B、1.7B和4B。與以往需要大規模對比預訓練、複雜訓練流程及昂貴合成訓練數據的頂級嵌入模型不同,F2LLM直接基於基礎模型,在從開源非合成數據集中精選的600萬個查詢-文檔-負樣本三元組上進行微調,在訓練成本、模型規模與嵌入性能之間達到了優異的平衡。在MTEB英文排行榜上,F2LLM-4B在約4B參數的模型中排名第二,總體排名第七;而F2LLM-1.7B則在1B至2B規模的模型中位居榜首。為推動該領域的未來研究,我們公開了模型、訓練數據集及代碼,將F2LLM定位為未來工作中一個強大、可重現且經濟高效的基準線。
傳統神經網絡訓練通常遵循固定且預先定義的優化方案,缺乏動態應對不穩定性或新出現訓練問題的靈活性。本文介紹了交互式訓練,這是一個開源框架,允許人類專家或自動化AI代理在神經網絡訓練過程中進行實時、反饋驅動的干預。交互式訓練的核心是使用控制服務器來調節用戶或代理與正在進行的訓練過程之間的通信,使用戶能夠動態調整優化器超參數、訓練數據和模型檢查點。通過三個案例研究,我們展示了交互式訓練在實現更高的訓練穩定性、降低對初始超參數的敏感性以及提高對不斷變化的用戶需求的適應性方面的優勢,為未來AI代理自主監控訓練日誌、主動解決不穩定性並優化訓練動態的訓練範式鋪平了道路。
訓練大型推理模型的主流範式始於使用下一個詞預測損失對海量數據進行預訓練。強化學習雖然在擴展推理能力方面強大,但僅作為訓練後的最後階段引入,並在監督微調之後進行。然而,這種主流方式是否是最優的訓練方法?在本文中,我們提出了RLP,一種信息驅動的強化預訓練目標,它將強化學習的核心精神——探索——帶入預訓練的最後階段。關鍵思想是將思維鏈視為一種探索性動作,其獎勵基於它為預測未來詞彙提供的信息增益來計算。這一訓練目標本質上鼓勵模型在預測下一個詞之前進行自主思考,從而更早地在預訓練中教授獨立思考的行為。更具體地說,獎勵信號衡量的是在同時考慮上下文和採樣的推理鏈時,下一個詞的對數似然相較於僅考慮上下文時的提升。這種方法產生了一種無需驗證器的密集獎勵信號,使得在預訓練期間能夠高效地訓練整個文檔流。具體而言,RLP將推理的強化學習重新定義為普通文本上的預訓練目標,彌合了下一個詞預測與有用思維鏈推理出現之間的差距。在Qwen3-1.7B-Base上使用RLP進行預訓練,將八個數學與科學基準套件的總體平均提升了19%。在相同的訓練後階段,增益疊加,在推理密集型任務如AIME25和MMLU-Pro上提升最大。將RLP應用於混合模型Nemotron-Nano-12B-v2,總體平均從42.81%提升至61.32%,科學推理的平均提升了23%,展示了跨架構和模型規模的可擴展性。
多模態嵌入模型正逐漸普及,特別是在文檔檢索領域,作為僅依賴文本的流程的高效替代方案。這些模型通常通過在文本-圖像對上使用對比損失來微調大型視覺語言解碼器(VLMs)而構建。在本研究中,我們表明,儘管這種再利用方法成本效益高,但它往往會成為檢索性能的瓶頸。通過對照實驗,我們建立了一套改進視覺文檔檢索模型的原理性方案。我們特別評估了注意力遮罩、圖像分辨率、模態對齊數據機制以及以晚期交互為核心的對比目標對性能的影響,這些因素被證明是關鍵的性能影響因素。基於這些見解,我們發布了ModernVBERT,這是一個擁有2.5億參數的緊湊型視覺語言編碼器,在文檔檢索任務上微調後,其性能超越了規模是其10倍的模型。模型和代碼可在https://huggingface.co/ModernVBERT獲取。
尽管近期在人工智能安全领域取得了快速进展,当前的大型语言模型在多轮交互场景下仍易受对抗性攻击的威胁,攻击者通过策略性地调整对话轮次中的提示,提出了更为严峻且现实的挑战。现有发现安全漏洞的方法,或依赖于人工红队与专家合作,或采用基于预设模板和人工筛选攻击数据的自动化手段,且大多聚焦于单轮攻击。然而,这些方法未能深入探索多轮攻击的广阔可能性空间,忽视了由复杂对话动态及策略性对话规划所催生的新型攻击路径。鉴于最新研究显示,相较于单轮攻击,大型语言模型对多轮攻击表现出显著更高的脆弱性,这一空白尤为关键。我们提出了DialTree-RPO,一种结合树搜索的在线策略强化学习框架,它将对话视为序列决策问题,无需人工筛选数据即可自主发现多样化的多轮攻击策略,实现系统性探索。通过大量实验,我们的方法不仅在10个目标模型上相比之前最先进的方法实现了超过25.9%的攻击成功率提升,还通过学习最大化多轮攻击成功率的对话策略,有效揭示了新的攻击策略。
音視頻生成技術往往依賴於複雜的多階段架構或音視訊的順序合成。我們推出了Ovi,這是一種統一的音視頻生成範式,將兩種模態建模為單一的生成過程。通過使用雙DiT模組的塊狀跨模態融合,Ovi實現了自然的同步,並消除了對獨立管道或事後對齊的需求。為了促進細粒度的多模態融合建模,我們初始化了一個音頻塔,其架構與強大的預訓練視頻模型相同。在數十萬小時的原始音頻數據上從零開始訓練,音頻塔學會了生成逼真的音效,以及傳達豐富說話者身份和情感的語音。融合是通過在龐大的視頻語料庫上,通過塊狀交換時間(通過縮放RoPE嵌入)和語義(通過雙向交叉注意力)來聯合訓練相同的視頻和音頻塔來實現的。我們的模型能夠實現帶有自然語音和精確、上下文匹配音效的電影級敘事,生成電影級別的視頻片段。所有演示、代碼和模型權重均已發布於https://aaxwaz.github.io/Ovi。
大型语言模型(LLM)代理正迅速成为跨领域任务自动化的强大系统。然而,开源社区的进展因缺乏高质量、宽松许可的工具代理训练数据而受到限制。现有数据集在多样性、真实性和复杂性方面往往不足,尤其是在多工具和多轮交互方面。为填补这一空白,我们推出了迄今为止最大的公开可用工具代理数据集——Toucan,包含从近500个真实世界模型上下文协议(MCPs)中合成的150万条轨迹。与以往工作不同,Toucan利用真实的MCP环境生成多样化、真实且具有挑战性的任务,其轨迹涉及实际工具的执行。我们的流程首先使用五个不同的模型生成广泛的工具使用查询,应用基于模型的质量过滤,然后使用两个代理框架和三个教师模型生成代理轨迹。严格的基于规则和基于模型的验证确保了高质量的输出。我们还引入了三种扩展机制,以进一步多样化任务并模拟多轮对话。在Toucan上微调的模型在BFCL V3基准测试中超越了更大的闭源模型,并在MCP-Universe Bench上将帕累托前沿向前推进。
電腦使用代理(CUAs)在自動化日常數位任務方面展現出潛力,但其不可靠性與高變異性阻礙了其在長期、複雜任務中的應用。我們引入了行為最佳N選(bBoN)方法,該方法通過生成多個執行路徑並利用描述代理執行路徑的行為敘事進行選擇,從而實現了對代理的擴展。此方法既支持廣泛探索,又基於原則進行軌跡選擇,大幅提升了魯棒性與成功率。在OSWorld平台上,我們的bBoN擴展方法以69.9%的成績創下了新的技術前沿(SoTA),顯著超越先前方法,並接近72%的人類水平表現,全面的消融實驗驗證了關鍵設計選擇的有效性。我們進一步展示了在WindowsAgentArena和AndroidWorld上對不同操作系統的強大泛化能力。關鍵在於,我們的結果凸顯了當方法得當時,擴展CUAs的非凡效果:有效的擴展需要結構化的軌跡理解與選擇,而bBoN提供了一個實用的框架來實現這一目標。
評估大型語言模型(LLM)輸出的質量面臨著一個關鍵挑戰。以往的方法要么依賴於文本層面的信息(例如獎勵模型、多數投票),這可能過度擬合於表面線索,要么依賴於從詞元概率中校準的置信度,這對於未經充分校準的模型則會失效。然而,這兩種信號實際上都是對更豐富信息源的部分投影:模型的內部隱藏狀態。靠近詞元嵌入的早期層保留了支撐基於文本判斷的語義和詞彙特徵,而後期層則越來越多地與輸出邏輯值對齊,嵌入與置信度相關的信息。本文直接探索隱藏狀態作為驗證的統一基礎。我們展示了解的正確性被編碼為隱藏激活軌跡中的幾何可分離特徵。為驗證這一點,我們提出了Clue(基於聚類和經驗的驗證),這是一個刻意簡化的非參數化驗證器。Clue沒有可訓練參數,僅通過隱藏狀態的變化來總結每個推理軌跡,並通過與過去經驗形成的“成功”和“失敗”聚類的最近質心距離來分類正確性。該方法的簡潔性凸顯了基礎信號的強度。實證表明,Clue在重新排序候選方案時,始終優於LLM作為評判基準,並匹配或超越了現代基於置信度的方法,在AIME 24/25和GPQA上提高了top-1和多數投票的準確性。值得一提的是,在AIME 24上使用1.5B模型時,Clue將準確率從56.7%(多數@64)提升至70.0%(top-maj@16)。
激活導向是一種通過在推理過程中直接向模型的隱藏狀態添加具有語義意義的向量來控制大型語言模型(LLM)行為的有前景技術。它常被視為一種精確、可解釋且可能更安全的微調替代方案。然而,我們的研究表明,激活導向會系統性地破壞模型的安全對齊機制,使其順應有害請求。通過對不同模型家族進行廣泛實驗,我們發現,即使在隨機方向上進行導向,也能將有害順應的概率從0%提升至2-27%。更令人擔憂的是,使用稀疏自編碼器(SAE)——一種常見的可解釋方向來源——對良性特徵進行導向,會進一步將這些概率提升2-4%。最後,我們展示,結合20個隨機採樣的向量,這些向量能夠破解單一提示,從而形成一種通用攻擊,顯著提高對未見請求的有害順應率。這些結果挑戰了通過可解釋性實現安全的範式,表明對模型內部的精確控制並不能保證對模型行為的精確控制。
基於可驗證獎勵的強化學習(RLVR)提升了大型語言模型(LLMs)的推理能力,但在探索方面仍存在挑戰,這一問題在多模態大型語言模型(MLLMs)中依然存在。現有方法將視覺輸入視為固定且確定的條件,忽略了關鍵的模糊性來源,難以構建對合理視覺變化具有魯棒性的策略。我們提出了VOGUE(視覺不確定性引導探索),這是一種新穎的方法,將探索從輸出(文本)空間轉移到輸入(視覺)空間。通過將圖像視為隨機上下文,VOGUE利用“原始”與“噪聲”分支之間的對稱KL散度量化策略對視覺擾動的敏感性,從而為不確定性感知探索創建直接信號。該信號通過與不確定性成比例的獎勵來塑造學習目標,結合詞元熵獎勵和退火採樣計劃,有效平衡了探索與利用。在GRPO框架下應用於兩種模型規模(Qwen2.5-VL-3B/7B),VOGUE在三個視覺數學基準測試中平均提升了2.6%的pass@1準確率,在三個通用領域推理基準測試中提升了3.7%的pass@1準確率,同時提高了pass@4性能,並緩解了RL微調中常見的探索衰減現象。我們的工作表明,基於視覺輸入固有不确定性的探索是提升多模態推理能力的有效策略。
人工智能正经历从封闭语言模型向具备外部感知与信息整合能力的互联代理系统的范式转变。作为这一转变的典型代表,深度研究代理(DRAs)系统性地展现了任务分解、跨源检索、多阶段推理及结构化输出的能力,显著提升了在复杂开放任务上的表现。然而,现有基准在评估维度、响应格式及评分机制方面仍显不足,限制了其有效评估此类系统的能力。本文针对DRAs及报告式响应,引入了一套严谨的基准与多维评价框架。该基准包含214个专家精心设计的跨10大主题领域的挑战性查询,每个查询均配有手工构建的参考包以支持复合评估。该框架能够全面评估DRAs生成的长篇报告,整合了语义质量、主题聚焦及检索可信度等综合评分指标。大量实验证实,主流DRAs在性能上优于增强型网络搜索工具推理模型,但也揭示出仍有较大改进空间。本研究为DRAs系统的能力评估、架构优化及范式推进奠定了坚实基础。
大型語言模型(LLMs)常產生幻覺——即缺乏支持的內容,這削弱了其可靠性。雖然多數先前研究將幻覺檢測視為二元任務,但許多實際應用需要識別幻覺片段,這是一個多步驟的決策過程。這自然引發了一個問題:顯式推理是否能協助完成檢測幻覺片段這一複雜任務。為解答此問題,我們首先評估了帶有與不帶有思維鏈(CoT)推理的預訓練模型,並顯示CoT推理在多次採樣時有潛力生成至少一個正確答案。受此啟發,我們提出了RL4HS,這是一個強化學習框架,通過片段級獎勵函數激勵推理。RL4HS基於群組相對策略優化,並引入了類別感知策略優化以緩解獎勵不平衡問題。在RAGTruth基準(摘要生成、問答、數據到文本)上的實驗表明,RL4HS超越了預訓練的推理模型和有監督的微調,證明了使用片段級獎勵進行強化學習對於檢測幻覺片段的必要性。
細粒度視覺推理仍然是多模態大型語言模型(MLLMs)面臨的核心挑戰。近期引入的ReasonMap凸顯了這一差距,表明即使是先進的MLLMs在結構化且信息豐富的環境(如交通地圖)中的空間推理任務上也表現不佳,而這類任務具有明確的實踐與科學重要性。然而,標準的強化學習(RL)在此類任務上因獎勵稀疏和優化不穩定而受阻。為解決這一問題,我們首先構建了ReasonMap-Plus,這是一個通過視覺問答(VQA)任務引入密集獎勵信號的擴展數據集,從而實現細粒度視覺理解技能的有效冷啟動訓練。接著,我們提出了RewardMap,這是一個旨在提升MLLMs視覺理解與推理能力的多階段RL框架。RewardMap包含兩項關鍵設計:首先,我們引入了一種難度感知的獎勵設計,結合細節獎勵,直接應對獎勵稀疏問題,同時提供更豐富的監督;其次,我們提出了一種多階段RL方案,從簡單的感知任務逐步引導至複雜的推理任務,相比傳統的監督微調(SFT)提供了更有效的冷啟動策略。在ReasonMap和ReasonMap-Plus上的實驗表明,RewardMap的每個組件均能帶來一致的性能提升,而它們的組合則能取得最佳效果。此外,使用RewardMap訓練的模型在涵蓋空間推理、細粒度視覺推理及超越交通地圖的通用任務的6個基準測試中,平均提升了3.47%,進一步證明了其視覺理解與推理能力的增強。
我們介紹亞里士多德,這是一個結合形式驗證與非形式推理的人工智慧系統,其在2025年國際數學奧林匹克競賽問題上達到了金牌等級的表現。亞里士多德整合了三大核心組件:一個Lean證明搜索系統、一個生成並形式化引理的非形式推理系統,以及一個專用的幾何求解器。我們的系統展示了自動定理證明領域內最先進的性能,並具備優良的擴展特性。
基於拖拽的圖像編輯長期以來一直受到目標區域失真的困擾,這主要是因為早期基礎模型(如Stable Diffusion)的先驗知識不足以將優化後的潛在變量投影回自然圖像流形。隨著從基於UNet的DDPM轉向更具可擴展性的DiT與流匹配(例如SD3.5、FLUX),生成先驗顯著增強,推動了多樣化編輯任務的進步。然而,基於拖拽的編輯尚未從這些更強的先驗中受益。本研究提出了首個有效利用FLUX豐富先驗進行拖拽編輯的框架,名為DragFlow,相較於基線方法取得了顯著提升。我們首先指出,直接將基於點的拖拽編輯應用於DiT效果不佳:與UNet高度壓縮的特徵不同,DiT的特徵結構不足以為點級運動監督提供可靠指導。為克服這一限制,DragFlow引入了基於區域的編輯範式,其中仿射變換實現了更豐富且一致的特徵監督。此外,我們整合了預訓練的開放域個性化適配器(如IP-Adapter)以增強主體一致性,同時通過基於梯度掩碼的硬約束保持背景保真度。多模態大語言模型(MLLMs)進一步用於解決任務歧義。為評估效果,我們構建了一個新穎的基於區域拖拽的基準測試(ReD Bench),包含區域級別的拖拽指令。在DragBench-DR和ReD Bench上的大量實驗表明,DragFlow超越了基於點和基於區域的基線方法,為基於拖拽的圖像編輯設定了新的技術標準。代碼和數據集將在論文發表後公開提供。
Transformer架構,以多頭注意力機制(Multi-Head Attention, MHA)為核心,已成為人工智慧領域頂尖模型的實際標準。然而,MHA相對於序列長度的二次計算複雜性,尤其是在涉及長上下文應用的場景中,構成了顯著的擴展障礙。現有的解決方案,如多查詢注意力(Multi-Query Attention, MQA)和分組查詢注意力(Grouped-Query Attention, GQA),通過共享鍵(Key)和值(Value)投影,有效緩解了自迴歸推理延遲中佔主導地位的記憶體頻寬瓶頸。儘管這些方法取得了巨大成功,但它們並未減少注意力分數計算所需的基本浮點運算次數(FLOPs),這仍然是訓練和全序列處理中的關鍵瓶頸。本文提出了稀疏查詢注意力(Sparse Query Attention, SQA),這是一種新穎的注意力架構,探索了一條替代且互補的優化路徑。SQA並非減少鍵/值頭,而是減少查詢頭的數量。這一架構修改直接按比例降低了注意力機制的計算複雜度,從而減少了總體FLOPs。本研究闡述了SQA的理論基礎、數學公式化表達以及一系列架構變體。在長序列(32k至200k個標記)上的實證基準測試表明,在模型預訓練、微調及基於編碼器的任務等計算受限的場景中,SQA可實現高達3倍的吞吐量提升,而在初步的小規模實驗中對模型質量的影響微乎其微。SQA是在開發即將問世的反應式Transformer架構過程中意外發現的,這表明其作為構建更高效、可擴展模型的強大工具的潛力。
尽管当前的大型视觉语言模型(VLMs)在多模态理解与推理方面取得了进展,但其基本的感知与推理能力仍显不足。具体而言,即使在简单的拼图任务上,现有VLMs的表现也近乎随机,暴露出核心感知与推理能力的缺陷。虽然高质量的视觉语言数据能够提升这些能力,但其稀缺性和有限的可扩展性构成了显著制约。为此,我们提出了AGILE(Agentic jiGsaw Interaction Learning for Enhancing visual perception and reasoning in VLMs),旨在通过交互式学习增强VLMs的视觉感知与推理能力。AGILE将拼图解决过程建模为一个互动流程,使模型能够逐步与环境互动。在每一步中,模型根据当前状态生成可执行代码以执行动作,而环境则提供细粒度的视觉反馈以指导任务完成。通过这种观察与互动的迭代循环,模型通过探索与反馈逐步提升其感知与推理能力。实验结果显示,AGILE不仅在复杂度各异的拼图任务上大幅提升了性能(例如,在2×2设置下准确率从9.5%提升至82.8%),还在9项通用视觉任务上展现出强大的泛化能力,平均提升了3.1%。这些结果表明了感知与推理能力的显著增强。本研究为推进多模态模型的推理与泛化能力开辟了新途径,并为多模态强化学习数据的稀缺问题提供了一个高效、可扩展的解决方案。代码与数据集可在https://github.com/yuzeng0-0/AGILE获取。
情境性幻觉是指模型输出中包含无法根据源文本验证的信息的情况。我们研究了大型语言模型(LLMs)在定位此类幻觉方面的适用性,作为现有复杂评估流程的一种更实用的替代方案。由于缺乏用于幻觉定位元评估的既定基准,我们构建了一个专门针对LLMs的基准,涉及对超过1,000个示例进行具有挑战性的人工标注。我们通过一个基于LLM的评估协议来补充该基准,并通过人工评估验证其质量。鉴于现有的幻觉表示方法限制了可表达的错误类型,我们提出了一种基于自由形式文本描述的新表示方法,以捕捉所有可能的错误范围。我们进行了一项全面的研究,评估了四个大规模LLM,结果表明该基准具有相当难度,最佳模型的F1得分仅为0.67。通过细致分析,我们为任务提供了最优提示策略的见解,并识别出使LLM面临挑战的主要因素:(1)模型倾向于错误地将缺失的细节标记为不一致,尽管已指示其仅检查输出中的事实;(2)模型在处理包含源文本中未出现但模型参数知识中存在的正确信息时存在困难,这些信息因此无法验证。
多模态语言模型中的视频理解仍受限于上下文长度:模型常遗漏关键过渡帧,难以在长时间尺度上保持连贯性。为此,我们将原生稀疏注意力机制(NSA)适配于视频-语言模型。我们的方法VideoNSA,通过在216K视频指令数据集上进行端到端训练,对Qwen2.5-VL进行了调整。我们采用了一种硬件感知的混合注意力策略,对文本保留密集注意力,而对视频则应用NSA。与基于令牌压缩和无训练稀疏基线相比,VideoNSA在长视频理解、时序推理及空间基准测试上均取得了性能提升。进一步的消融分析揭示了四个关键发现:(1) 可扩展至128K令牌的可靠性;(2) 在固定预算下,全局与局部注意力的最优分配;(3) 任务依赖的分支使用模式;以及(4) 可学习的组合稀疏注意力有助于诱导动态注意力汇聚点。
基於視覺語言模型(VLM)的多智能體系統(MAS)能夠執行具有挑戰性的任務,但卻面臨一種新型的失效現象——多智能體視覺幻覺雪球效應,即幻覺在單一智能體中萌生,並因過度依賴文本流來傳遞視覺信息而被後續智能體放大。通過對回合、層次及詞元級別的注意力分析,我們深入探討了幻覺雪球效應的本質,即視覺注意力分配的減少。這使我們識別出一組在中間層具有單峰注意力峰值的視覺詞元,這些詞元最能保留視覺證據,但在更深層的智能體回合中逐漸減弱,從而導致MAS中的視覺幻覺雪球效應。因此,我們提出了ViF,一種輕量級、即插即用的緩解範式,它利用選定的視覺中繼詞元驅動的視覺流來傳遞智能體間的消息,並應用注意力重分配來放大這一模式。實驗結果表明,我們的方法顯著減少了幻覺雪球效應,在基於四種常見MAS結構和十種基礎模型的八個基準測試中,性能得到了一致提升。源代碼將在以下網址提供:https://github.com/YU-deep/ViF.git。
測試時縮放(TTS)在增強大型語言模型方面已展現出顯著成效,然而其在基於下一個令牌預測(NTP)的自迴歸(AR)圖像生成中的應用仍鮮有探索。現有的視覺自迴歸(VAR)TTS方法依賴於頻繁的部分解碼和外部獎勵模型,由於中間解碼結果的固有未完成性,這些方法並不適用於基於NTP的圖像生成。為彌合這一差距,我們引入了ScalingAR,這是首個專為基於NTP的AR圖像生成設計的TTS框架,它消除了早期解碼或輔助獎勵的需求。ScalingAR利用令牌熵作為視覺令牌生成中的新信號,並在兩個互補的縮放層面上運作:(i)輪廓層面,通過融合內在和條件信號來流式傳輸校準後的置信狀態;(ii)策略層面,利用這一狀態自適應地終止低置信度軌跡,並動態調度指導以實現階段適宜的條件強度。在通用和組合基準上的實驗表明,ScalingAR(1)在GenEval上將基礎模型提升了12.5%,在TIIF-Bench上提升了15.2%,(2)在超越基線的同時,有效減少了62.0%的視覺令牌消耗,以及(3)成功增強了魯棒性,在挑戰性場景中將性能下降緩解了26.0%。
推理需要超越模式匹配或解决方案的记忆,以识别并实施能够用于推导难题答案的“算法程序”。实现这一点,需识别最相关的原语、中间结果或共享程序,并在此基础上构建。尽管强化学习(RL)在长链思维训练后最终旨在揭示此类算法行为,但大型模型学习到的大多数推理轨迹未能一致地捕捉或重用程序,反而陷入冗长且退化的探索之中。为促进更有效的推理,我们引入了推理抽象:即对程序性和事实性知识的简洁自然语言描述,这些描述引导模型学习成功的推理。我们训练模型使其能够在给定问题时提出多种抽象,随后通过强化学习激励在利用这些抽象提供的信息基础上构建解决方案。这形成了一种双玩家RL训练范式,简称RLAD,它联合训练一个抽象生成器和一个解决方案生成器。此设置有效地实现了结构化探索,解耦了抽象提议与解决方案生成的学习信号,并提升了对更难题目的泛化能力。我们还表明,在较大的测试预算下,将更多测试时间计算资源用于生成抽象比生成更多解决方案更有利于性能提升,这说明了抽象在引导有意义探索中的重要作用。
視覺-語言-行動(VLA)模型旨在統一感知、語言理解與行動生成,提供強大的跨任務與跨場景泛化能力,對具身人工智慧具有廣泛影響。然而,現有的VLA模型往往缺乏明確的逐步推理,而是直接輸出最終行動,未考慮可操作性約束或幾何關係。其訓練後流程也鮮少強化推理質量,主要依賴於監督微調與弱獎勵設計。為應對這些挑戰,我們提出了VLA-R1,這是一種推理增強的VLA模型,它將基於可驗證獎勵的強化學習(RLVR)與群體相對策略優化(GRPO)相結合,系統性地優化推理與執行。具體而言,我們設計了一種基於RLVR的訓練後策略,針對區域對齊、軌跡一致性與輸出格式提供可驗證獎勵,從而增強推理的魯棒性與執行的準確性。此外,我們開發了VLA-CoT-13K,這是一個高質量數據集,提供了與可操作性及軌跡註釋明確對齊的思維鏈監督。進一步地,在域內、域外、模擬及真實機器人平台上的廣泛評估表明,與先前的VLA方法相比,VLA-R1實現了更優的泛化能力與現實世界性能。我們計劃在本文發表後公開模型、代碼及數據集。代碼:https://github.com/GigaAI-research/VLA-R1。網站:https://gigaai-research.github.io/VLA-R1。
從胸部X光影像自動生成結構化放射學報告(SRRG)具有顯著潛力,能通過生成符合臨床報告標準的結構化報告來減輕放射科醫師的工作負擔。儘管放射科醫師在診斷推理中有效利用了可用的臨床背景,現有的SRRG系統卻忽略了這些關鍵要素。這一根本性差距導致了包括在引用不存在的臨床背景時出現的時間性幻覺等嚴重問題。為解決這些限制,我們提出了情境化SRRG(C-SRRG),全面整合豐富的臨床背景以支持SRRG。我們通過整合涵蓋1)多視角X光影像、2)臨床指徵、3)成像技術以及4)基於患者病史的先前研究及其對比,來策劃C-SRRG數據集。通過與最先進的多模態大型語言模型進行廣泛的基準測試,我們證明結合臨床背景的C-SRRG顯著提升了報告生成的質量。我們公開了數據集、代碼和檢查點,以促進未來在臨床對齊的自動化RRG研究,詳見https://github.com/vuno/contextualized-srrg。
圖神經網絡(GNNs)是分子機器學習中的主導架構,尤其在分子性質預測和機器學習原子間勢能(MLIPs)方面表現突出。GNNs在預定義的圖上進行信息傳遞,這些圖通常由固定半徑截斷或k近鄰方案誘導生成。儘管這一設計與許多分子任務中的局部性相契合,但硬編碼的圖可能因固定的感受野而限制表達能力,並因稀疏圖操作而減慢推理速度。在本研究中,我們探討了未經修改的純Transformer模型,直接基於笛卡爾座標進行訓練——無需預定義圖或物理先驗——是否能夠近似分子能量和力。作為分析的起點,我們展示了如何在匹配的訓練計算預算下,訓練一個Transformer模型,使其在OMol25數據集上相對於最先進的等變GNN,達到競爭性的能量和力平均絕對誤差。我們發現,Transformer學習到了物理上一致的模式——例如,注意力權重隨原子間距離的倒數衰減——並且由於缺乏硬編碼的偏見,能夠靈活地適應不同的分子環境。使用標準Transformer還能在訓練資源擴展方面帶來可預見的改進,這與在其他領域觀察到的經驗擴展定律一致。我們的結果表明,GNNs的許多優良特性可以在Transformer中自適應地湧現,這挑戰了硬編碼圖歸納偏見的必要性,並指向了標準化、可擴展的分子建模架構。
電腦使用代理(CUAs)是一類日益普及的代理,它們通過圖形用戶界面(GUI)採取行動以達成用戶目標。本文揭示,CUAs普遍表現出盲目目標導向性(BGD):一種不顧可行性、安全性、可靠性或情境而追求目標的偏見。我們刻畫了BGD的三種常見模式:(i) 缺乏情境推理,(ii) 在模糊性下的假設與決策,以及(iii) 矛盾或不可行的目標。基於OSWorld,我們開發了BLIND-ACT,這是一個包含90個任務的基準測試集,旨在捕捉上述三種模式。BLIND-ACT提供了真實的環境,並採用基於大語言模型(LLM)的評判者來評估代理行為,與人工註釋達到了93.75%的一致性。我們利用BLIND-ACT評估了包括Claude Sonnet、Opus 4、Computer-Use-Preview和GPT-5在內的九個前沿模型,觀察到它們平均高達80.8%的BGD率。研究表明,BGD揭示了即便輸入並非直接有害時仍存在的微妙風險。雖然基於提示的干預措施降低了BGD水平,但重大風險依然存在,這凸顯了更強訓練或推理時干預的必要性。定性分析揭示了觀察到的失敗模式:執行優先偏見(關注如何行動而非是否應行動)、思維與行動脫節(執行偏離推理)以及請求至上(因用戶請求而為行動辯護)。識別BGD並引入BLIND-ACT,為未來研究和減輕這一根本風險、確保CUAs的安全部署奠定了基礎。
多模態表徵學習模型在複雜任務中已展現出卓越的表現,而視覺-語言模型(VLMs)的整合更進一步賦予了嵌入模型指令跟隨的能力。然而,現有的嵌入模型缺乏視覺互動功能,無法從用戶處指定感興趣的區域(例如點選、邊界框、遮罩),這些功能在生成模型中已被探索,以擴展其人機互動的適用性。為嵌入模型配備視覺互動能力,不僅能開啟基於用戶意圖局部定位的新應用領域——這一領域目前尚未被探索——還能讓模型學習圖像中的實體級信息,從而補充其在傳統嵌入任務中的全局表徵。本文提出了一種新穎的視覺互動文本-圖像通用嵌入器(VIRTUE),它將分割模型和視覺-語言模型的能力擴展至表徵學習領域。在VIRTUE中,分割模型能夠處理視覺提示,精確定位圖像中的特定區域,從而使嵌入器能更精確地處理複雜且模糊的場景。為評估VIRTUE的視覺互動能力,我們引入了一個大規模的分割與場景描述檢索(SCaR)基準,包含100萬個樣本,旨在通過同時考慮特定物體和圖像場景的實體來檢索文本描述。VIRTUE在36個通用MMEB任務(提升3.1%-8.5%)和五個視覺互動SCaR任務(提升15.2%-20.3%)中持續實現了最先進的性能,並取得了顯著的改進。
針對大型語言模型(LLMs)的離策略強化學習(RL)正日益受到關注,這是由於現實應用中的實際限制、LLM-RL基礎設施的複雜性,以及對RL方法進一步創新的需求所驅動。雖然經典的REINFORCE及其現代變體如群組相對策略優化(GRPO)通常被視為對策略性算法,對離策略性的容忍度有限,但我們在本研究中從基本原理出發,推導了不假設特定訓練數據分佈的群組相對REINFORCE,展示了其天然具備的離策略解釋。這一視角為將REINFORCE適應於離策略設置提供了兩項通用原則:正則化策略更新,以及主動塑造數據分佈。我們的分析澄清了關於重要性採樣和裁剪在GRPO中作用的一些誤解,統一並重新解釋了兩種近期算法——在線策略鏡像下降(OPMD)和非對稱REINFORCE(AsymRE)——作為REINFORCE損失的正則化形式,並為看似啟發式的數據加權策略提供了理論依據。我們的研究成果提供了可操作的見解,並通過廣泛的實證研究得到驗證,為LLMs的離策略RL中的原則性算法設計開闢了新的機會。本工作的源代碼可在https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k獲取。
文本到圖像(T2I)模型在單一實體提示上表現出色,但在多主體描述上卻常常力不從心,經常出現屬性洩漏、身份糾纏和主體遺漏等問題。我們首次引入了一個理論框架,該框架具有可優化的原則性目標,用於引導採樣動態朝向多主體保真度。通過隨機最優控制(SOC)的視角來審視流匹配(FM),我們將主體解纏結表述為對已訓練FM採樣器的控制。這產生了兩種與架構無關的算法:(i)一種無需訓練的測試時控制器,通過單次更新擾動基礎速度;(ii)伴隨匹配,一種輕量級的微調規則,將控制網絡迴歸到反向伴隨信號,同時保留基礎模型的能力。該公式統一了先前的注意力啟發式方法,通過流-擴散對應關係擴展到擴散模型,並提供了首個專為多主體保真度設計的微調路徑。實證上,在Stable Diffusion 3.5、FLUX和Stable Diffusion XL上,這兩種算法均能持續提升多主體對齊,同時保持基礎模型的風格。測試時控制能在商用GPU上高效運行,且基於有限提示訓練的微調控制器能泛化到未見的提示。我們進一步強調了FOCUS(用於無糾結主體的流最優控制),它在各模型中實現了最先進的多主體保真度。
时间序列预测在能源、金融、气候和公共卫生等多个领域的决策中占据核心地位。实践中,预测者面对的是成千上万条频率、质量和预测期限各异的短而嘈杂的序列,其中主要成本不在于模型拟合,而在于为获得可靠预测所需的劳动密集型预处理、验证和集成工作。主流的统计与深度学习模型往往针对特定数据集或领域定制,泛化能力较差。因此,亟需一种通用的、领域无关的框架,以最大限度地减少人为干预。本文介绍了TimeSeriesScientist(TSci),这是首个基于大语言模型(LLM)驱动的通用时间序列预测框架。该框架包含四个专门设计的智能体:Curator通过LLM引导的诊断,辅以外部工具对数据统计进行推理,以选择针对性的预处理方法;Planner利用多模态诊断和自我规划,缩小模型选择的假设空间;Forecaster执行模型拟合与验证,并根据结果自适应地选择最佳模型配置及集成策略以做出最终预测;Reporter则将整个过程综合成一份全面、透明的报告。通过透明的自然语言推理和详尽的报告,TSci将预测工作流转化为一个可解释且可跨任务扩展的白箱系统。在八个公认基准测试上的实证结果表明,TSci在统计模型和基于LLM的基线方法上均表现出色,平均分别减少了10.4%和38.2%的预测误差。此外,TSci生成的报告清晰严谨,使得预测工作流更加透明和易于理解。
并行大语言模型(LLM)推理扩展涉及对单一输入提示采样一组N>1的响应。然而,这些N个并行响应往往彼此独立生成,分割了计算资源,并使得某一生成过程中潜在的有用信息未被其他生成过程利用。这与响应长度扩展形成对比,后者在所有后续步骤中均利用了先前的计算。为了获得更高质量的响应及响应集,我们提出了“桥梁”方法,通过将批量LLM隐藏状态重新构想为整体张量而非独立切片,以生成相互依赖的并行响应。仅需引入少量(2.8%-5.1%)新参数,“桥梁”便可将基于可验证奖励的强化学习带来的相对平均准确率提升提高至50%,并增强正确响应的一致性。一经训练,“桥梁”即可扩展至任意生成宽度,且在所有情况下均展现出优于独立生成的性能,从而开启了一种更为通用的并行扩展模式,该模式能有效利用序列间的信息,并与任何生成后聚合技术兼容。
推理訓練激勵大型語言模型(LLMs)產生長鏈的思維過程(長CoT),這不僅使它們能夠探索解決策略並進行自我檢查,還提高了準確性,但同時也增加了上下文長度、計算成本和回答延遲。我們提出疑問:當前模型能否利用其元認知能力,在帕累托前沿上提供其他組合,例如在降低上下文長度和/或延遲的情況下獲得更好的準確性?抽象地看,我們將模型視為對其自身“思維”進行改進的操作者,擁有一系列可能的策略。我們發現了一種有趣的推理家族——平行蒸餾精煉(PDR),其執行以下步驟:(i) 平行生成多樣化的草稿;(ii) 將它們蒸餾至一個有限的文本工作空間;(iii) 基於此工作空間進行精煉,產生輸出作為下一輪的起點。關鍵在於,上下文長度(從而計算成本)可通過平行度控制,不再與生成的總令牌數混淆。我們報告了當前模型的PDR實例,這些實例在降低延遲的同時,提供了比長CoT更高的準確性。將平行度設置為1,則得到一個有趣的子案例——順序精煉(SR)(迭代改進單一候選答案),其性能優於長CoT。此類模型協調的成功引發了進一步訓練是否能夠移動帕累托前沿的問題。為此,我們使用強化學習(RL)訓練了一個8B的思維模型,使其與PDR作為推理方法保持一致。在具有可驗證答案的數學任務中,迭代流程在匹配的順序預算下超越了單次通過的基線,其中PDR帶來了最大的增益(例如,在AIME 2024上提升11%,在AIME 2025上提升9%)。
監督式微調(SFT)是適應大型語言模型(LLMs)的主流方法,但與強化學習(RL)相比,其在泛化能力上往往表現不佳。在本研究中,我們認為這種性能差異不僅源於損失函數,更來自於一個更根本的區別:SFT從固定、預先收集的數據集中學習,而RL則利用從當前策略中採樣的即時策略數據。基於這一假設,我們引入了一種新穎的微調算法——單詞滾動(OTR),該算法通過策略梯度方法指導SFT。OTR重新構建了自迴歸學習過程,將每個單詞的生成視為單步強化學習軌跡。在每一步,它通過從當前策略的分佈中採樣多個候選單詞來執行蒙特卡洛“滾動”。然後,監督數據中的真實單詞被用來為這些樣本提供獎勵信號。在策略梯度的引導下,我們的算法將靜態、離線策略的監督數據轉化為動態、在線策略的單詞級信號,既捕捉了在線學習的泛化優勢,又避免了完整句子生成的高昂成本。通過在數學推理、代碼生成和通用領域推理等一系列具有挑戰性的基準測試上進行廣泛實驗,我們證明OTR始終優於標準SFT。我們的研究結果確立了OTR作為微調LLMs的一種強大且實用的替代方案,並提供了有力證據表明數據的在線策略性質是泛化的關鍵驅動因素,為微調LLMs開闢了一條充滿前景的新方向。
尽管大型视觉语言模型(LVLMs)在视频理解方面取得了显著进展,但其在长视频推理中的应用却因统一的帧采样和静态文本推理而受限,这些方法效率低下且难以处理视觉密集型的视频任务。为克服这些挑战,本文提出了“长视频思维”的概念,并引入了一种新颖的框架——FrameThinker。在该框架内,LVLMs能够迭代地探究视频内容。在LVLMs中开发此类视频推理能力面临显著挑战,特别是在使模型适应新的视频动作(如选择帧)以及设计奖励函数以引导LVLMs采纳新引入的动作方面。为解决这些难题,我们提出了一种两阶段训练策略:首先采用监督微调(SFT)来培养基本动作能力,随后通过强化学习(RL)优化战略决策策略。值得注意的是,在RL阶段,我们对每个动作的奖励设计及格式奖励进行了深入且全面的探索。在Video-Holmes、LongVideo-Reason等推理基准测试,以及LongVideoBench、MLVU、VideoMME和LVBench等长视频理解基准测试上的大量实验表明,FrameThinker相较于基线模型实现了平均+10.4%的显著提升,同时大幅减少了处理的帧数。尤为突出的是,我们的7B模型FrameThinker在LongVideo-Reason上树立了新的技术标杆,仅使用平均20.6帧便达到了76.1%的准确率。这不仅超越了竞争对手LongVILA-R1(72.0%),而且使用的帧数减少了超过20倍(对比512帧),展现了无与伦比的效率与效能。
在大型語言模型(LLMs)的競技場式評估中,兩個LLMs對用戶查詢作出回應,用戶選擇勝出的回應或判定「對決」為平局,從而調整兩個模型的評分。目前,模擬這些評分動態的主流方法是將對決視為雙人遊戲比賽,如國際象棋,並應用Elo評分系統及其衍生系統。本文中,我們對這一範式進行了批判性審視。具體而言,我們質疑平局是否真正意味著兩個模型實力相當,因而其評分是否應被等同。相反,我們推測平局更多反映了查詢的難度:若查詢過於簡單,則兩個模型更可能同等成功。在三個真實世界的競技場數據集上,我們展示了忽略平局時的評分更新,對於所有研究的四種評分系統,能帶來1-3%的相對提升,在包含平局的對決結果預測準確性上。進一步分析表明,平局更常發生於被評為非常簡單及高度客觀的查詢,其風險比分別為1.37和1.35。我們建議未來的評分系統重新考慮現有的平局語義,並在評分更新中考慮查詢屬性。
近期在強化後訓練(Reinforcement Post-Training, RPT)領域的進展顯著提升了大型推理模型(Large Reasoning Models, LRMs)的能力,激發了對基於強化學習的推理泛化能力的更多關注。雖然現有研究主要集中在探討其跨任務或跨模態的泛化能力,但本研究提出了一種新穎的跨語言視角來探討推理泛化。這引發了一個關鍵問題:從英語RPT中獲得的推理能力是否能有效轉移到其他語言?我們通過系統性地評估以英語為中心的LRMs在多語言推理基準上的表現,並引入一個量化跨語言可轉移性的指標來回答這一問題。我們的研究發現,跨語言可轉移性在初始模型、目標語言和訓練範式之間存在顯著差異。通過干預性研究,我們發現具有更強初始英語能力的模型往往過度依賴英語特定的模式,導致跨語言泛化能力下降。為解決這一問題,我們進行了全面的平行訓練研究。實驗結果得出三個關鍵發現:首先是「首次平行躍遷」,即從單語言訓練轉向僅使用一種平行語言時性能的顯著提升;其次是可預測的「平行縮放定律」,揭示了跨語言推理轉移遵循與訓練平行語言數量相關的冪律;此外,我們將實際單語言性能與冪律預測之間的差異定義為「單語言泛化差距」,表明以英語為中心的LRMs未能完全實現跨語言泛化。我們的研究挑戰了LRM推理與人類認知相似的假設,為開發更具語言無關性的LRMs提供了重要見解。
多層感知器(MLPs)傳統上遵循窄-寬-窄的設計模式,其中跳躍連接在輸入/輸出維度上運作,而處理則在擴展的隱藏空間中進行。我們挑戰這一慣例,提出寬-窄-寬(沙漏型)MLP模塊,其中跳躍連接在擴展維度上運作,而殘差計算則流經狹窄的瓶頸。這種反轉利用高維空間進行增量精煉,同時通過參數匹配的設計保持計算效率。實現沙漏型MLPs需要初始投影將輸入信號提升至擴展維度。我們提出,這一投影可以在整個訓練過程中保持隨機初始化不變,從而實現高效的訓練和推理實施。我們在流行圖像數據集上的生成任務中評估這兩種架構,通過系統架構搜索來描述性能-參數帕累托前沿。結果顯示,與傳統設計相比,沙漏型架構始終實現更優的帕累托前沿。隨著參數預算的增加,最佳的沙漏型配置傾向於具有更寬跳躍連接和更窄瓶頸的更深網絡——這一擴展模式與傳統MLPs截然不同。我們的研究結果建議重新考慮現代架構中跳躍連接的佈局,其潛在應用可延伸至Transformer及其他殘差網絡。
大型語言模型(LLMs)目前在許多公開數學測試套件上表現出色,然而數學領域的前沿分離日益受到天花板效應的影響。我們提出了兩個互補的基準測試:SKYLENAGE-ReasoningMATH,這是一個包含100個項目的結構感知診斷集,每個項目都附有長度、數值密度和符號複雜度的元數據;以及SKYLENAGE-MATH,這是一個包含150個項目的競賽風格測試套件,涵蓋從高中到博士的四個階段,並按照七個學科分類。我們在單一設置下評估了十五種當代LLM變體,並分析了學科×模型和年級×模型的表現。在競賽套件中,最強的模型達到了44%的準確率,而第二名則達到了37%;從高中到博士階段,準確率逐漸下降,頂尖系統的博士到高中保留率接近79%。在推理測試集中,最佳模型的總體準確率達到81%,最難部分的結果揭示了領先者與中層之間的明顯魯棒性差距。總之,我們發布了SKYLENAGE-ReasoningMATH並報告了SKYLENAGE-MATH的綜合結果;SKYLENAGE共同提供了一個難度高、以推理為中心且廣泛覆蓋的數學基準測試,具有校準的難度和豐富的元數據,作為未來數學推理評估的參考基準。
醫學影像質量評估(IQA)作為臨床AI的首道安全關卡,現有方法仍受制於基於標量分數的度量標準,未能反映專家評估中核心的描述性、類人推理過程。為彌補這一不足,我們引入了MedQ-Bench,這是一個全面的基準測試,它為基於多模態大語言模型(MLLMs)的醫學影像質量語言評估建立了一個感知-推理範式。MedQ-Bench定義了兩項互補任務:(1) MedQ-Perception,通過人工策劃的關於基本視覺屬性的問題來探測低層次感知能力;(2) MedQ-Reasoning,涵蓋無參考和比較推理任務,使模型評估與人類對影像質量的推理方式保持一致。該基準涵蓋五種成像模態及超過四十種質量屬性,總計2600個感知查詢和708項推理評估,覆蓋了包括真實臨床採集、基於物理重建模擬退化的影像及AI生成影像在內的多樣化影像來源。為評估推理能力,我們提出了一個多維度評判協議,沿四個互補軸線評估模型輸出。我們進一步通過比較基於LLM的判斷與放射科醫生的判斷,進行了嚴格的人機對齊驗證。對14種前沿MLLMs的評估顯示,這些模型展現了初步但不穩定的感知與推理能力,其準確性尚不足以可靠地用於臨床。這些發現強調了在醫學IQA中針對MLLMs進行定向優化的必要性。我們希望MedQ-Bench能激發更多探索,釋放MLLMs在醫學影像質量評估中的未開發潛力。
雙編碼器檢索模型依賴於一個原則,即對於給定查詢,相關文檔的得分應高於不相關文檔。然而,主流的噪聲對比估計(NCE)目標,作為對比損失的基礎,優化的是一個軟化的排序替代指標,我們嚴格證明該指標從根本上忽略了得分分離質量,並與AUC無關。這種不匹配導致了在下游任務(如檢索增強生成,RAG)中的校準不佳和性能次優。為解決這一根本性限制,我們引入了MW損失,這是一種新的訓練目標,旨在最大化曼-惠特尼U統計量,該統計量在數學上等同於ROC曲線下面積(AUC)。MW損失通過最小化得分差異上的二元交叉熵,鼓勵每對正負樣本被正確排序。我們提供了理論保證,證明MW損失直接上界於AoC,從而更好地將優化與檢索目標對齊。我們進一步推廣ROC曲線和AUC作為評估檢索器校準和排序質量的自然無閾值診斷工具。實證表明,使用MW損失訓練的檢索器在AUC和標準檢索指標上始終優於對比損失的對應模型。我們的實驗顯示,MW損失是對比損失的實證上更優替代方案,為高風險應用(如RAG)提供了校準更好、區分能力更強的檢索器。
文本匿名化對於在醫療保健、社會服務和法律等高風險領域負責任地開發和部署人工智慧至關重要。在本研究中,我們提出了一種新穎的隱私保護合成文本生成方法,該方法結合了去識別化原則和「隱於無形」(HIPS)理論。我們的方法引入了實體感知控制碼,以引導使用上下文學習(ICL)或前綴調節的可控生成。ICL變體確保隱私水平與基礎去識別化系統一致,而前綴調節變體則結合了自定義遮罩策略和損失函數,以支持可擴展的高質量生成。在法律和臨床數據集上的實驗表明,我們的方法在隱私保護和實用性之間達到了良好的平衡,為敏感領域的合成文本生成提供了一種實用且有效的解決方案。
大型语言模型(LLMs)与物联网(IoT)系统的集成在硬件异构性和控制复杂性方面面临重大挑战。模型上下文协议(MCP)作为关键推动者,提供了LLMs与物理设备之间的标准化通信。我们提出了IoT-MCP,一种通过边缘部署服务器实现MCP的新颖框架,以桥接LLMs与IoT生态系统。为了支持严格的评估,我们引入了IoT-MCP Bench,这是首个包含114个基本任务(例如,“当前温度是多少?”)和1,140个复杂任务(例如,“我感觉很热,你有什么建议吗?”)的基准测试,适用于支持IoT的LLMs。在22种传感器类型和6种微控制器单元上的实验验证表明,IoT-MCP在生成完全符合预期的工具调用并获得完全准确结果的任务成功率达到了100%,平均响应时间为205毫秒,峰值内存占用为74KB。这项工作不仅提供了一个开源集成框架(https://github.com/Duke-CEI-Center/IoT-MCP-Servers),还为LLM-IoT系统提供了一种标准化的评估方法。
隨著大型語言模型(LLMs)規模的擴大,問題不僅在於它們變得有多大,更在於其容量有多少被有效利用。現有的擴展法則將模型大小與損失相關聯,卻忽略了各組件如何利用其潛在空間。我們研究了前饋網絡(FFNs),並將寬度選擇重新定義為一個頻譜利用問題。通過使用一套輕量級診斷工具——硬秩(參與比)、軟秩(香農秩)、頻譜集中度以及綜合的頻譜利用指數(SUI)——我們量化了在LLaMA、GPT-2和nGPT系列中,有多少潛在方向被有意義地激活。我們的主要發現是一個非對稱的頻譜擴展法則:軟秩與FFN寬度幾乎完美地遵循冪律增長,而硬秩僅呈次線性增長且具有高方差。這種非對稱性表明,增加FFN寬度主要添加的是低能量尾方向,而主導模式子空間則早期就達到飽和。此外,在更大寬度下,方差進一步坍縮到一個狹窄的子空間中,導致大部分潛在空間未被充分利用。這些結果將FFN寬度選擇重新定義為尾容量與主導模式容量之間的原則性權衡,為推理高效的大型語言模型設計提供了具體指導。
組合圖像檢索(Composed Image Retrieval, CIR)旨在檢索出既保留參考圖像視覺內容,又融入用戶指定文本修改的目標圖像。無需特定任務訓練或標註數據的零樣本CIR(ZS-CIR)方法極具吸引力,然而精確捕捉用戶意圖仍具挑戰性。本文提出SQUARE,一種新穎的兩階段無訓練框架,利用多模態大語言模型(MLLMs)來增強ZS-CIR。在語義查詢增強融合(Semantic Query-Augmented Fusion, SQAF)階段,我們通過MLLM生成的目標圖像描述,豐富了源自視覺語言模型(如CLIP)的查詢嵌入。這些描述提供了高層次的語義指導,使查詢能更好地捕捉用戶意圖,提升全局檢索質量。在高效批量重排序(Efficient Batch Reranking, EBR)階段,將排名靠前的候選圖像以帶有視覺標記的網格形式呈現給MLLM,MLLM對所有候選圖像進行聯合視覺-語義推理。我們的重排序策略單次執行即可生成更精確的排序結果。實驗表明,SQUARE以其簡潔高效,在四個標準CIR基準測試中展現出強勁性能。值得注意的是,即使在輕量級預訓練條件下,它仍保持高性能,顯示出其廣泛應用的潛力。
近期的思维模型通过扩展测试时的计算能力来解决复杂的推理任务,但这种扩展必须与任务难度相匹配。一方面,过短的推理(欠思考)会导致在需要多步推理的难题上出错;另一方面,过长的推理(过思考)则可能造成令牌效率低下,即使在达到正确的中间解后仍生成不必要的步骤。我们将此称为适应性不足,即模型未能根据问题难度的变化适当调整其响应长度。为解决适应性不足并在欠思考与过思考之间取得平衡,我们提出了TRAAC(通过自适应、注意力压缩实现正确思考),这是一种在线后训练强化学习方法,它利用模型在长推理轨迹上的自注意力机制来识别重要步骤并剪除冗余部分。TRAAC还估计任务难度并将其纳入训练奖励,从而学会根据示例难度分配相应的推理预算。与基础模型及其他强化学习基线相比,我们的方法提高了准确性,减少了推理步骤,并实现了自适应思考。在多种任务(AIME、AMC、GPQA-D、BBEH)上,TRAAC(基于Qwen3-4B)相较于基础模型平均绝对准确率提升了8.4%,推理长度相对减少了36.8%;与最佳强化学习基线相比,准确率提升了7.9%,推理长度减少了29.4%。TRAAC还展现出强大的泛化能力:尽管我们的模型在数学数据集上训练,但在分布外的非数学数据集如GPQA-D、BBEH和OptimalThinkingBench上也实现了准确性和效率的提升。我们的分析进一步验证了TRAAC能够基于难度进行细粒度的思维预算调整,并且任务难度校准与基于注意力的压缩相结合,能够在多样化的任务中带来收益。
設計滿足多重且往往相互衝突目標的序列,是治療與生物分子工程中的核心挑戰。現有的生成框架主要在連續空間中運作,並依循單一目標指導,而離散方法則缺乏對多目標帕累托最優性的保證。我們引入了AReUReDi(退火校正更新以精煉離散流),這是一種具有理論保證能收斂至帕累托前沿的離散優化算法。基於校正離散流(ReDi),AReUReDi結合了切比雪夫標量化、局部平衡提案以及退火Metropolis-Hastings更新,以偏向於帕累托最優狀態的採樣,同時保持分佈不變性。應用於肽和SMILES序列設計時,AReUReDi同時優化了多達五種治療特性(包括親和力、溶解度、溶血性、半衰期和非污損性),並超越了基於進化和擴散的基準方法。這些成果確立了AReUReDi作為一個強大的、基於序列的多屬性生物分子生成框架。