每日精選AI研究論文及翻譯
我們推出 MiroThinker v1.0,這是一款專注於提升工具增強推理與資訊獲取能力的開源研究智能體。與以往僅擴展模型規模或上下文長度的智能體不同,MiroThinker 探索模型層級的互動擴展維度,通過系統化訓練使模型能處理更深層、更頻繁的智能體-環境互動,以此作為性能提升的第三個關鍵維度。有別於孤立運行且易因推理鏈過長而性能衰退的 LLM 測試時擴展方案,互動擴展利用環境回饋與外部資訊獲取來修正錯誤並優化執行軌跡。透過強化學習,該模型實現了高效的互動擴展:在 256K 上下文窗口下,單一任務可執行多達 600 次工具調用,支撐持續多輪推理與複雜現實研究流程。在 GAIA、HLE、BrowseComp 及 BrowseComp-ZH 四個代表性基準測試中,72B 參數版本分別達到 81.9%、37.7%、47.1% 與 55.6% 的準確率,不僅超越既往開源智能體,更逼近 GPT-5-high 等商業級模型。我們的分析表明,MiroThinker 始終受益於互動擴展:隨著模型進行更深層、更密集的智能體-環境互動,其研究性能呈現可預測的提升,證明互動深度與模型規模、上下文長度類似,同樣具備可擴展特性。這些發現確立了互動擴展作為構建下一代開源研究智能體的第三大關鍵維度,與模型容量及上下文窗口形成有效互補。
大型語言模型(LLMs)在各領域展現出卓越能力,但其訓練過程仍耗費大量資源與時間,需要龐大算力及精密的訓練流程調度。模型融合技術——即對相同架構的多個模型權重進行平均——已成為一種極具潛力的訓練前後優化手段,能在免去高昂重訓練成本的前提下提升模型表現。本文提出類別專家融合法(SoCE),這是一種基於基準測試組合的模型融合框架,通過系統化篩選最優模型候選集並應用非均勻加權平均來最大化性能。有別於傳統均權平均方法,我們的方法基於一項關鍵觀察:不同基準測試類別間的模型表現往往呈現低相關性。SoCE針對每個弱相關類別集群識別出「專家」模型,並採用優化加權而非均勻權重進行融合。實驗證明,該方法在多語言能力、工具調用及數學推理等多個領域均能提升模型性能與魯棒性,並在伯克利函數調用排行榜上取得最先進的成果。
近期,大型语言模型(LLMs)的进展已将其前沿从解决谜题推进至科学级推理——这种推理能力旨在应对那些答案必须经得起自然检验,而非仅符合评分标准的问题。物理学是这一转变最为严苛的试金石,它以根本方式将符号与现实紧密相连,成为多数现代技术的基石。在本研究中,我们通过开发具备卓越物理推理能力的大型语言模型,特别是在解决奥林匹克级别物理问题方面表现优异,成功推动了物理学研究的前沿。我们推出了P1系列,这是一组完全通过强化学习(RL)训练的开源物理推理模型。其中,P1-235B-A22B是首个在最新国际物理奥林匹克竞赛(IPhO 2025)中达到金牌表现的开源模型,并在2024/2025年间的13项国际/地区物理竞赛中斩获12枚金牌。P1-30B-A3B同样在IPhO 2025上超越了几乎所有其他开源模型,获得银牌。进一步配备代理框架PhysicsMinions后,P1-235B-A22B+PhysicsMinions在IPhO 2025上荣登总冠军,并在13项物理竞赛中取得最高平均分。除物理学外,P1系列模型在数学和编程等其他推理任务上也展现出卓越性能,彰显了P1系列强大的泛化能力。
我們推出荔枝家族系列的全新力作——Uni-MoE 2.0。作為完全開源的全模態大模型(OLM),該模型在語言核心的多模態理解、推理與生成能力上顯著推進了荔枝Uni-MoE系列的技術邊界。基於Qwen2.5-7B的稠密架構,我們通過三大核心創新從零構建了Uni-MoE-2.0-Omni:動態容量的混合專家(MoE)設計、結合迭代強化策略的漸進式訓練方法,以及精心構建的多模態數據匹配技術。該模型具備全模態理解能力,並能生成圖像、文本與語音。在架構層面,我們的新型MoE框架通過共享專家、路由專家與空置專家的協同機制,在處理10種跨模態輸入時實現了計算效率與性能的平衡;而全模態三維旋轉位置編碼(Omni-Modality 3D RoPE)則確保自注意力層中的時空跨模態對齊。訓練策略上,在跨模態預訓練後,我們採用漸進式監督微調策略激活模態專屬專家,並通過均衡數據組合與創新的GSPO-DPO迭代方法強化訓練穩定性與推理能力。數據方面,基於約750億標記的開源多模態數據訓練的基礎模型,配備專用語音與圖像生成標記,使其能根據語言線索條件化輸出以學習生成任務。在85項基準測試的廣泛評估中,本模型在與主流OLM的對比中取得SOTA或極具競爭力的表現,於76項測試中超過50項超越Qwen2.5-Omni(訓練標記量達1.2萬億)。核心優勢包括影片理解(8項任務平均提升7%)、全模態理解(4項任務平均提升7%)與視聽推理(提升4%),同時在長語音處理(字錯誤率降低4.2%)、底層圖像處理及可控生成(5項指標領先)領域實現突破。
我們推出 Part-X-MLLM,這是一個原生 3D 多模態大型語言模型,透過將多樣化的 3D 任務表述為結構化可執行程式語法來實現統一。給定 RGB 點雲與自然語言提示,我們的模型能以自回歸方式生成單一連貫的詞元序列,編碼零件級邊界框、語義描述與編輯指令。此結構化輸出作為多功能介面,驅動下游幾何感知模組實現基於零件的生成與編輯。透過將符號規劃與幾何合成解耦,我們的方法允許任何相容的幾何引擎透過單一語言原生前端進行控制。我們預訓練雙編碼器架構以分離結構與語義,並在大規模以零件為中心的資料集上對模型進行指令微調。實驗表明,我們的模型能出色生成高品質結構化規劃,透過統一介面在接地問答、組合生成與局部化編輯任務中實現最先進效能。專案頁面:https://chunshi.wang/Part-X-MLLM/
在思維感知生成技術致力於提升複雜任務表現的同時,我們發現現有序列式自迴歸方法存在關鍵缺陷:由於錯誤傳播可能導致性能反常下降。為系統性分析此問題,我們提出ParaBench基準測試框架,專注於評估文本與圖像雙重輸出模態。透過ParaBench的實驗分析顯示,這種性能退化與生成推理過程和最終圖像間的對齊失準存在強相關性。為解決此問題,我們提出並行多模態擴散框架MMaDA-Parallel,該框架能在整個去噪軌跡中實現文本與圖像的連續雙向交互。MMaDA-Parallel先透過監督式微調進行訓練,再經由創新策略——並行強化學習(ParaRL)進行優化,該策略沿軌跡施加語義獎勵以強化跨模態一致性。實驗驗證表明,我們的模型顯著提升了跨模態對齊與語義連貫性,在ParaBench上相較現有最先進模型Bagel實現了6.9%的輸出對齊度提升,為思維感知圖像合成建立了更穩健的範式。相關代碼已開源於:https://github.com/tyfeld/MMaDA-Parallel
當今的去噪擴散模型並非傳統意義上的「去噪」,即它們並不直接預測乾淨影像。相反,神經網絡預測的是噪聲或含噪量。本文提出,預測乾淨數據與預測含噪量存在根本性差異。根據流形假設,自然數據應存在於低維流形上,而含噪量則不然。基於此假設,我們主張採用直接預測乾淨數據的模型,這使得看似容量不足的網絡能在超高維空間中有效運作。我們證明,基於像素的簡單大塊補丁Transformer可成為強大的生成模型:無需標記器、預訓練或額外損失函數。我們的方法概念上僅是「純影像Transformer」(簡稱JiT)。我們在ImageNet數據集上以256和512分辨率,使用16和32的大塊補丁尺寸的JiT模型取得了競爭性結果,而在這些場景下預測高維含噪量可能出現災難性失敗。通過讓網絡回歸流形的基本原理,我們的研究回歸本源,追求一種基於原始自然數據的Transformer擴散自洽範式。
大型語言模型展現出作為重排序器的強大潛力,能夠有效提升檢索增強生成系統的整體效能。然而,現有重排序方法面臨核心的理論與實踐困境:逐點法雖具備簡潔性與高靈活性,但因獨立評估文檔而容易陷入「排序短視陷阱」,忽略文檔間的相對重要性;相比之下,列表法雖能感知全局排序上下文,卻存在固有的「列表剛性缺陷」,在處理大規模候選集時會產生嚴重的可擴展性與靈活性問題。為解決這些難題,我們提出分組式重排序新範式。該方法將查詢與候選文檔組共同輸入模型,通過組內比較為每個文檔賦予獨立相關性分數。此設計既保留逐點法的靈活性,又實現列表法的對比能力。我們進一步採用GRPO進行模型訓練,配備融合排序指標與分佈式獎勵的異構獎勵函數,旨在實現跨組別分數分佈的對齊。為克服高質量標註數據稀缺的瓶頸,我們創新性地提出高質量檢索與排序數據的合成流程,所生成數據不僅可用於訓練重排序器,也能用於訓練檢索器。大量實驗驗證了本方法的有效性:在BRIGHT和R2MED兩個推理密集型檢索基準測試中均表現卓越。
三維建模正從靜態視覺呈現轉向物理化、可動態關節化的資產,這些資產能直接用於模擬與互動。然而,現有多數三維生成方法忽略了關鍵的物理與關節屬性,限制了其在具身人工智慧中的實用性。為彌合這一差距,我們提出PhysX-Anything——首個支援模擬的物理三維生成框架,僅需輸入單張真實場景圖像,即可生成具有顯式幾何結構、關節系統與物理屬性的高品質模擬就緒三維資產。具體而言,我們首創基於視覺語言模型(VLM)的物理三維生成模型,並提出一種能高效標記化幾何數據的新三維表示法。該方法將標記數量減少193倍,使顯式幾何學習能在標準VLM標記預算內實現,且無需在微調階段引入特殊標記,顯著提升生成品質。此外,為克服現有物理三維數據集多樣性不足的問題,我們構建了PhysX-Mobility數據集,將現有物理三維數據集的物體類別擴充逾2倍,涵蓋超過2,000種常見真實物體並附帶豐富物理標註。在PhysX-Mobility與真實場景圖像上的大量實驗表明,PhysX-Anything具備卓越的生成性能與強健的泛化能力。進一步在MuJoCo風格環境中的模擬實驗驗證,我們的模擬就緒資產可直接用於接觸密集型的機器人策略學習。我們相信PhysX-Anything將顯著賦能廣泛的下游應用,特別是在具身人工智慧與物理模擬領域。
影片生成模型的快速演進已將其焦點從產出視覺上合理的結果,轉向處理需要物理合理性和邏輯一致性的任務。然而,儘管近期出現如Veo 3的幀序列推理等突破性技術,這些模型是否能展現類似大型語言模型(LLMs)的推理能力仍不明朗。現有基準主要評估視覺逼真度與時間連貫性,未能捕捉高階推理能力。為彌合此差距,我們提出TiViBench——一個專為評估圖像轉影片(I2V)生成模型推理能力設計的層次化基準。TiViBench系統性地從四個維度評估推理能力:i) 結構推理與搜索、ii) 空間與視覺模式推理、iii) 符號與邏輯推理、iv) 行動規劃與任務執行,涵蓋3種難度級別下的24個多元任務場景。透過大規模評估,我們發現商業模型(如Sora 2、Veo 3.1)展現出更強的推理潛力,而開源模型雖存在未開發潛能,卻仍受制於有限的訓練規模與資料多樣性。為進一步釋放此潛力,我們受偏好優化啟發,提出VideoTPO——一種簡單有效的測試時策略。該策略透過對生成候選結果進行LLM自我分析來識別優劣勢,無需額外訓練、資料或獎勵模型即可顯著提升推理表現。TiViBench與VideoTPO共同為評估與推進影片生成模型的推理能力鋪路,為此新興領域的未來研究奠定基礎。
针对大型语言模型(LLM)的自动化红队测试框架日益精进,但其存在一个根本性局限:其越狱逻辑仅局限于选择、组合或优化既有的攻击策略。这束缚了框架的创造力,使其无法自主发明全新的攻击机制。为突破这一局限,我们提出EvoSynth——一种将范式从攻击规划转向越狱方法进化式合成的自主框架。该框架采用多智能体系统,通过代码自主设计、进化并执行新型攻击算法,而非仅优化提示词。其核心特性在于代码级的自我修正循环机制,使系统能根据失败反馈迭代重写攻击逻辑。大量实验表明,EvoSynth不仅在对Claude-Sonnet-4.5等高鲁棒性模型的测试中达到85.5%的攻击成功率(ASR),刷新当前最优水平,其生成的攻击多样性也显著超越现有方法。我们开源此框架以推动越狱方法进化式合成这一新方向的研究。代码地址:https://github.com/dongdongunique/EvoSynth。
基於大語言模型(LLM)的智能體正將數位設備從被動工具轉變為主動的智能協作夥伴。然而現有框架多侷限於單一作業系統或設備,導致跨設備工作流程脆弱且高度依賴人工操作。我們提出UFO^3系統,該系統將異構終端設備(桌面端、伺服器、移動設備及邊緣計算節點)統一整合為協同調度架構。UFO^3將用戶請求建模為可演化的任務星群(TaskConstellation):通過具象化控制流與數據流依賴關係(TaskStarLines),構建由原子化子任務(TaskStars)組成的分散式有向無環圖(DAG)。隨著分散式設備的結果流持續輸入,任務星群動態演化,實現非同步執行、自適應恢復與動態優化。星群協調器(Constellation Orchestrator)在實施動態DAG更新的同時安全非同步執行任務,而智能體交互協議(AIP)則為可靠任務分派與結果流傳輸提供持久化低延遲通道。這些設計打破了設備與平台間的傳統壁壘,使智能體能夠無縫協作並增強群體智能。 我們在NebulaBench基準測試集(包含5台設備、10個類別的55項跨設備任務)上評估UFO^3。實驗結果顯示:UFO^3實現83.3%的子任務完成率與70.9%的整體任務成功率,平均並行寬度達1.72,端到端延遲較順序執行基準降低31%。故障注入實驗表明,系統在瞬態與永久性智能體故障下均能實現優雅的性能降級與恢復。這些結果證實UFO^3可實現精準、高效、韌性的跨異構設備任務協調,將孤立智能體整合為貫穿普適計算場景的連貫自適應計算框架。
視覺-語言-動作(VLA)模型近期在多種具身任務中展現出優異性能,但其可靠性和泛化能力仍有不足,尤其在跨具身系統或真實環境部署時更為明顯。本研究基於預訓練的NORA骨幹模型,通過引入基於流匹配的動作專家模塊,構建了NORA-1.5模型。僅此架構增強就帶來了顯著的性能提升,使NORA-1.5在仿真與真實場景基準測試中均超越NORA及多個前沿VLA模型。為進一步提升魯棒性與任務成功率,我們開發了一套用於後訓練VLA策略的獎勵模型。該獎勵機制融合了:(i)動作條件世界模型(WM),用於評估生成動作是否導向目標;(ii)偏離真實值啟發式規則,用於區分優劣動作。利用這些獎勵信號,我們構建偏好數據集,並通過直接偏好優化(DPO)使NORA-1.5適應目標具身系統。大量實驗表明,獎勵驅動的後訓練能持續提升仿真與真實機器人場景的性能,驗證了通過簡潔有效的獎勵模型可顯著增強VLA模型可靠性。我們的研究成果凸顯了NORA-1.5與獎勵引導後訓練相結合,是構建適用於真實場景的可靠具身智能體的有效路徑。
Segment Anything Model(SAM)系列已成为广泛采用的视觉基础模型,但其控制分割粒度的能力仍存在局限。用户常需通过手动添加提示或从预生成掩码中选择等方式精调结果,才能获得理想细节层次。这一过程存在模糊性——相同提示可能对应多个合理掩码,且跨所有粒度收集密集标注的成本极高,导致监督式解决方案难以实施。为突破此限制,我们提出UnSAMv2模型,无需人工标注即可实现任意粒度下的通用分割。该模型延展了UnSAM的分治策略,通过发掘海量掩码-粒度配对数据,并引入新型粒度控制嵌入模块,实现对分割尺度的精准连续调控。值得注意的是,仅使用6千张无标注图像和0.02%的额外参数量,UnSAMv2就显著增强了SAM-2模型,在交互式分割、全图分割及视频分割任务中均实现任意粒度分割。经11余项基准测试验证,UnSAMv2将NoC₉₀(5.69→4.75)、1-IoU(58.0→73.1)和AR₁₀₀₀(49.6→68.3)等指标显著提升,证明结合粒度感知自监督学习方法,少量无标注数据即可释放视觉基础模型的潜力。
近日,多模态大语言模型驱动的智能体在网络导航领域展现出卓越能力,能够完成跨领域的复杂浏览任务。然而,现有智能体仍会反复出现相同错误,且缺乏跨会话经验学习能力,限制了其长期鲁棒性与样本效率。我们提出WebCoach——一种与模型无关的自进化框架,通过赋予网页浏览智能体持久性跨会话记忆,无需重新训练即可实现长期规划、反思与持续学习能力的提升。该框架包含三大核心组件:(1)WebCondenser将原始导航日志标准化为精简摘要;(2)外部记忆库将完整操作轨迹组织为情景化经验;(3)教练模块基于相似度与时效性检索相关经验,并通过运行时钩子决策是否向智能体注入任务建议。该设计使网页智能体能够突破原生上下文窗口限制访问长期记忆,显著提升复杂浏览任务的稳定性。此外,WebCoach通过持续从新导航轨迹中提炼情景记忆实现自我进化,使智能体无需重新训练即可持续优化。在WebVoyager基准测试中,WebCoach使三种不同大语言模型基座的浏览器使用智能体性能均获提升:搭载38B参数模型时,任务成功率从47%提升至61%,同时保持或减少了平均操作步数。值得注意的是,搭载WebCoach的较小基座模型可实现与使用GPT-4o的同类网页智能体相媲美的性能表现。
地球观测数据呈现出独特的挑战性:它既具备图像的空间特性,又具有视频或文本的序列特征,且具有高度多模态性。我们推出OlmoEarth——一个多模态时空基础模型,采用专为地球观测领域设计的新型自监督学习框架、掩码策略和损失函数。在与12个其他基础模型的多项研究基准测试及外部合作伙伴的实际任务对比中,OlmoEarth实现了最先进的性能表现。在嵌入向量评估中,OlmoEarth在24项任务中的15项取得最佳性能;经过全参数微调后,其在29项任务中的19项表现最优。我们将OlmoEarth部署为端到端平台的核心架构,该平台集成了地球观测模型的数据采集、标注、训练和推理功能。OlmoEarth平台将前沿基础模型与强大数据管理工具赋能给致力于解决全球重大问题的非营利组织和非政府机构。OlmoEarth的源代码、训练数据及预训练权重已发布于https://github.com/allenai/olmoearth_pretrain。
大型语言模型(LLM)正在重塑包括软件工程在内的几乎所有行业。近年来,已有多种LLM智能体被提出用于解决现实世界的软件问题。这类软件智能体通常配备一套编码工具,能够自主决定后续动作以形成完整轨迹,从而解决端到端的软件任务。尽管前景广阔,但由于彻底穷尽智能体框架设计空间极具挑战性且成本高昂,现有方案通常需要专门设计且可能仍非最优。鉴于软件智能体本质上是可进一步优化/修改的软件本体,研究者近期提出了多种自改进软件智能体,包括达尔文-哥德尔机(DGM)。然而,此类自改进智能体需要在特定基准测试上进行昂贵的离线训练,且可能难以在不同LLM或基准测试间良好泛化。本文提出Live-SWE-agent——首个能在解决现实软件问题过程中实时自主持续演化的在线软件智能体。具体而言,Live-SWE-agent从仅配备基础bash工具的最简智能体框架(如mini-SWE-agent)起步,在解决实际软件问题的同时自主演化其框架实现。在广泛研究的SWE-bench Verified基准测试中,我们的评估表明Live-SWE-agent无需测试时扩展即可实现75.4%的惊人解决率,超越所有现有开源软件智能体,逼近最佳专有解决方案的性能。此外,Live-SWE-agent在最新SWE-Bench Pro基准测试中优于最先进的人工设计软件智能体,以45.8%的解决率创下当前最佳纪录。
情境學習(ICL)——即模型從輸入內容中的示例推斷並應用抽象模式的能力——已在基於人類文本進行下一詞預測訓練的大型語言模型中得到廣泛研究。事實上,先前研究常將這種湧現能力歸因於人類語言獨特的統計特性。這引發了一個根本性問題:情境學習能否在其他序列領域中,純粹通過大規模預測性訓練自然湧現? 為探討此問題,我們轉向基因組序列這一富含統計結構的替代符號領域。具體而言,我們研究了主要通過下一核苷酸(A/T/C/G)預測訓練的Evo2基因組模型,其訓練規模可與中型LLM相媲美。我們開發了一套受控實驗框架,包含以語言形式和基因組形式實例化的符號推理任務,從而實現對基因組模型與語言模型情境學習能力的直接比較。結果表明,與語言模型類似,基因組模型在模式歸納能力上會隨著情境示例數量的增加呈現對數線性增長。據我們所知,這是基因組序列中自然湧現情境學習的首個證據,支持了「情境學習是大規模數據預測建模的產物」這一假說。這些發現將湧現元學習拓展至語言領域之外,為構建跨模態的情境學習統一理論指明方向。
大型语言模型(LLMs)显著推动了知识图谱问答(KGQA)的发展,然而现有系统通常针对返回高相关性但可预测的答案进行优化。当前缺失但亟需的能力是利用LLMs提供令人惊喜的新颖("意外发现"式)答案。本文正式定义了意外发现感知的KGQA任务,并提出SerenQA框架来评估LLMs在科学KGQA任务中发掘意外洞见的能力。该框架包含基于相关性、新颖性和惊喜度的严谨意外发现度量指标,以及源自临床知识图谱(聚焦于药物重定位领域)的专家标注基准。此外,它采用结构化评估流程,涵盖知识检索、子图推理和意外发现探索三个子任务。实验表明,虽然前沿LLMs在检索任务上表现良好,但在识别真正具有惊喜度与价值的新发现方面仍存在不足,这凸显了未来改进的重要空间。我们整理的资源及扩展版本已发布于:https://cwru-db-group.github.io/serenQA。
视觉语言模型(VLM)在零样本推理方面表现出色,但在测试时域偏移下性能常会下降。因此,基于情景的测试时自适应策略近期成为将VLM适配至单张未标注图像的有效技术。然而现有适配策略(如测试时提示调优)通常需要对大型编码器权重进行反向传播,或需改动核心模型组件。本研究提出频谱感知测试时导向(STS)框架,该轻量级适配方法从文本嵌入中提取频谱子空间以定义主语义方向,通过调整少量样本偏移参数来最小化增强视图间的熵值,从而实现频谱感知的隐空间表征导向。STS完全在推理阶段于隐空间运行,无需对冻结编码器进行反向传播或结构修改。基于标准评估协议的综合实验表明,STS在绝大多数情况下显著超越或优于最先进的测试时自适应方法,同时仅引入极少额外参数,推理速度较传统测试时提示调优提升最高达8倍,内存占用减少12倍。代码已开源:https://github.com/kdafnis/STS。
尽管多模态大语言模型在生物医学影像领域的应用日益广泛,但显微成像领域的科学推理能力仍受限于大规模高质量训练数据的稀缺。我们推出MicroVQA++——一个基于BIOMEDICA档案构建的三阶段、大规模高质量显微视觉问答语料库。第一阶段通过同行评议期刊中经专家验证的图注对实现监督引导;第二阶段应用HiCQA-Graph(一种融合图像、图注和问答的异质图网络),结合基于自然语言推理的文本蕴含分析、基于CLIP的视觉语言对齐以及智能体信号,实现不一致样本的识别与过滤;第三阶段采用多模态大语言模型智能体生成多选题,并经过人工筛查。最终发布的数据集包含大规模训练集和经人工校验的测试集,其布鲁姆分类学难度样本分布优于MicroVQA基准。本研究贡献包括:(i)通过图网络过滤与人工精校相结合的质量控制数据集;(ii)首个联合建模(图像、图注、问答)三元组以实现跨模态一致性过滤的HiCQA-Graph;(iii)证明精细数据构建能使40亿参数级多模态大语言模型达到媲美GPT-5的显微推理性能,并在开源模型中实现最优效果。代码与数据集将在评审结束后公开。
尽管大型语言模型(LLMs)在广泛任务中展现出卓越性能,但多数高性能模型仍保持闭源或部分开放,限制了研究的透明度与可复现性。本研究推出Instella系列——完全基于开放数据和代码库训练、参数量达三十亿的全开源语言模型家族。依托AMD Instinct MI300X GPU的算力支持,Instella通过大规模预训练、通用指令微调以及与人类偏好的对齐训练完成开发。尽管预训练词元数量显著少于同期多数模型,Instella在完全开源模型中实现了最先进的性能,并与同规模领先的开放权重模型相媲美。我们进一步发布两个专项优化版本:支持128K词元上下文长度的Instella-Long,以及通过数学任务监督微调与强化学习增强的推理专用模型Instella-Math。这些成果共同确立了Instella作为透明、高效、多功能的开源替代方案,推动语言建模研究向开放可复现的目标迈进。
多模态大语言模型(MLLMs)已展现出卓越的推理与指令遵循能力,然而其扩展的模态空间引入了由复杂图文交互产生的新型组合式安全风险。即使单个输入内容无害,此类跨模态耦合仍可能催生不安全语义,暴露出当前MLLMs脆弱的安全意识。尽管近期研究通过引导模型推理潜在风险来增强安全性,但未受约束的推理轨迹可能损害对齐效果;虽然群组相对策略优化(GRPO)可在无人监督下实现自奖励优化,但其缺乏可验证的推理安全信号。为此,我们提出SafeGRPO——一种融合规则化奖励构建机制的自奖励多模态安全对齐框架,通过将可解释的奖励建构融入GRPO,实现推理安全性的可验证优化。基于包含显式视觉、文本及组合安全标签的SafeTag-VL-3K数据集,SafeGRPO执行步骤引导式安全思维以强化结构化推理和行为对齐,在保持通用能力的同时,显著提升了多模态安全意识、组合鲁棒性及跨基准测试的推理稳定性。
近年來,多模態表徵的對齊研究已揭示不同編碼器在跨數據類型中的結構相似性與下游任務能力。儘管圖像-文本對齊取得顯著進展,但視頻數據的時序特性在此領域仍鮮少被探索。本研究首次對視頻-文本表徵對齊展開系統性研究,深入剖析現代視頻與語言編碼器的能力。我們獲得三項關鍵發現:首先,證實跨模態對齊效果高度依賴測試時視覺數據(靜態圖像vs多幀視頻)與文本數據(單句描述vs文本集合)的豐富度,尤其在使用前沿視頻編碼器時更為明顯。我們提出參數化測試時擴展定律來刻畫此現象,該定律在實證觀察中展現卓越的預測能力。其次,通過探究語義對齊與下游任務(含語義性與非語義性任務)表現的關聯,我們首次發現與文本編碼器的強對齊可能關聯著通用視頻表徵與理解能力。最後,我們建立時序推理與跨模態對齊的關聯性,為視覺-語言模型提供具挑戰性的測試平台。總體而言,本研究開創性地將視頻-文本對齊作為零樣本評估框架,為時空數據編碼器的表徵能力提供新的洞察維度。項目頁面詳見:https://video-prh.github.io/
随着大型语言模型(LLMs)逐步发展为能够执行复杂软件开发任务的自主智能体,评估其实际能力变得至关重要。现有基准测试(如LoCoBench~qiu2025locobench)虽能评估长上下文代码理解能力,但仅关注单轮评测,无法捕捉现实编码智能体所需的多轮交互特性、工具使用模式和自适应推理能力。我们推出LoCoBench-Agent——一个专为评估LLM智能体在真实长上下文软件工程工作流中表现而设计的综合评估框架。该框架将LoCoBench的8000个场景扩展为交互式智能体环境,支持对多轮对话、工具使用效率、错误恢复能力以及长周期开发会话中架构一致性的系统化评估。我们同时提出包含9项理解度与效率维度指标的评估方法,为智能体提供8种专用工具(文件操作、搜索、代码分析等),并在10K至1M令牌的上下文长度范围内进行评测,实现对长上下文性能的精准衡量。通过对前沿模型的系统评估,我们获得关键发现:(1)智能体展现出显著的长上下文鲁棒性;(2)理解度与效率存在负相关的权衡关系,深入探索会提升理解度但降低效率;(3)不同模型的对话效率差异显著,策略性工具使用模式是高性能智能体的关键区分特征。作为首个面向软件工程的长上下文LLM智能体基准,LoCoBench-Agent为衡量智能体能力、识别性能差距及推进规模化自主软件开发奠定了严谨基础。
以电话营销为代表的目标驱动型说服性对话,需要复杂的多轮规划与严格的事实遵循,这对当前最先进的大语言模型仍构成重大挑战。以往研究常受限于任务特定数据的匮乏,而直接应用大语言模型则存在策略脆弱性和事实幻觉问题。本文首次构建并发布了该领域首个基于真实场景的对话数据集TeleSalesCorpus,进而提出具备双阶段架构的创新框架AI-Salesman。在训练阶段,我们设计了贝叶斯监督强化学习算法,从含噪声对话中学习鲁棒的销售策略;在推理阶段,我们引入动态大纲引导智能体(DOGA),通过预构建脚本库提供动态的逐轮策略指导。此外,我们设计了结合细粒度销售技能指标与LLM即评判范式的综合评估框架。实验结果表明,所提出的AI-Salesman在自动指标和综合人工评估中均显著优于基线模型,展现了其在复杂说服场景中的有效性。
现有的检索增强生成(RAG)系统通常采用集中式架构,导致数据收集、整合和管理成本高昂,并引发隐私担忧。业界亟需一种去中心化RAG系统,使基础模型能够直接利用数据所有者控制的信息源,同时确保数据所有者对其资源保持完全控制权。然而,去中心化架构带来一项挑战:大量独立数据源的可靠性差异显著,可能降低检索精度和响应质量。为此,我们设计的去中心化RAG系统引入了一种创新的可靠性评分机制,该机制根据各数据源对生成响应的贡献质量进行动态评估,并在检索过程中优先调用高质量数据源。为确保透明度和可信度,评分流程通过基于区块链的智能合约进行安全管理,无需依赖中央机构即可生成可验证且防篡改的可靠性记录。我们采用两款Llama模型(3B和8B)在两种模拟环境中对系统进行评估,其中六个数据源具有不同等级的可靠性。在模拟真实世界不可靠数据环境时,本系统相较集中式系统实现了10.7%的性能提升。值得注意的是,在理想可靠数据环境下,其性能已接近集中式系统的理论上限。该去中心化基础设施实现了安全可信的评分管理,通过批量更新操作节省约56%的边际成本。我们的代码与系统已在github.com/yining610/Reliable-dRAG开源。
超声成像(US)因其低成本、便携性、实时反馈和无电离辐射等优势,成为应用最广泛的医学影像技术之一。然而,超声图像解读仍高度依赖操作者,且在不同解剖区域、采集协议和设备类型间存在显著差异。这些变异以及散斑噪声、低对比度和标准化标注稀缺等独特挑战,制约了可泛化、低标注依赖的超声AI模型的开发。本文提出OpenUS——首个基于大规模公共数据构建的可复现开源超声基础模型。该模型采用视觉Mamba架构作为主干网络,能同时捕捉图像的局部特征与全局长程依赖关系。在预训练阶段,我们引入结合对比学习与掩码图像建模的自适应掩码框架,通过融合教师模型的注意力图与学生模型的重建损失,动态优化临床相关区域的掩码策略以提升预训练效能。OpenUS还采用动态学习调度机制,逐步调整预训练任务的难度层级。为构建基础模型,我们整合了42个公共数据集中的30.8万余张图像,形成迄今最大的公共超声数据集,涵盖多解剖部位、医疗机构、成像设备及疾病类型。预训练完成的OpenUS模型可作为主干网络,通过少量标注数据微调即可快速适配下游任务。代码已开源:https://github.com/XZheng0427/OpenUS。