每日精選AI研究論文及翻譯
在科學進展的征途中,研究成果的傳播與發現本身同等重要。然而研究人員常需耗費心力於手動重複地建置專案網頁,以使艱澀論文更易理解,這往往使他們偏離核心研究。儘管自動化技術已能處理靜態簡報與海報,但網頁的動態交互特性始終是未被解決的難題。為此我們重新審視問題本質,提出解決方案不在於單一指令,而應建構協作式分層流程。據此理念,我們創新推出多智能體系統 AutoPage。該系統將論文轉網頁的過程解構為由敘事規劃、多模態內容生成到交互渲染的粗粒度至細粒度流水線。為抵禦AI幻覺現象,專設"校驗員"智能體逐步核對原始論文,並可選配人工審核點確保最終成果與作者意圖精準契合,使系統從單純工具蜕變為強效協作助手。為嚴謹驗證方法,我們同時建立首個針對此新任務的基準測試集 PageBench。實驗表明 AutoPage 不僅能生成高品質、視覺吸引力強的網頁,更以低於0.1美元成本在15分鐘內高效完成任務。程式碼與資料集將公開於:https://mqleet.github.io/AutoPage_ProjectPage/{網頁}$。
推測解碼(Speculative Decoding, SD)透過採用小型草稿模型生成預測,並由大型目標模型進行驗證,從而加速大型語言模型的推理過程。SD的效能取決於兩模型間的對齊程度,此對齊通常透過知識蒸餾(Knowledge Distillation, KD)來強化。然而,傳統KD方法旨在最小化草稿模型與目標模型在所有詞元上的KL散度,此目標與SD最大化詞元接受率的真實目標存在偏差。由於草稿模型的容量限制,往往難以完全吸收目標模型的知識,導致效能未達最佳狀態。 為解決此問題,我們提出AdaSPEC創新方法,將選擇性詞元過濾機制引入KD流程。AdaSPEC利用參考模型識別並過濾難以擬合的詞元,使蒸餾過程能專注於讓草稿模型在較簡單的詞元上與目標模型更好對齊。此方法在維持生成品質的同時,有效提升整體詞元接受率。我們在算術推理、指令跟隨、程式編碼及文本摘要等多樣任務中進行評估,採用31M/1.4B與350M/2.7B兩種參數規模的模型配置。實驗結果表明,AdaSPEC在所有任務中均穩定優化現有最先進的DistillSpec方法,詞元接受率最高提升達15%。相關程式碼已公開於:https://github.com/yuezhouhu/adaspec。
多數影片推理模型僅能生成文字推理軌跡,卻無法標示關鍵證據出現的時空位置。近期如OpenAI-o3等模型雖在圖像領域引發以證據為核心的推理熱潮,但將此能力擴展至影片面臨更大挑戰,因其需在動態場景中同步實現時間追蹤與空間定位。我們提出Open-o3 Video非代理框架,將顯式時空證據整合至影片推理,並通過精心收集訓練數據與設計訓練策略應對上述挑戰。該模型在生成答案時同步標註關鍵時間戳、物體及邊界框,使推理過程紮根於具體視覺觀測。為實現此功能,我們首先構建兩個高質量數據集:用於SFT的STGR-CoT-30k與用於RL的STGR-RL-36k,其中包含精心設計的時空標註——因現有數據集多僅提供影片時間片段或圖像空間框,缺乏統一的時空監督與推理軌跡。隨後採用冷啟動強化學習策略,搭配多項特製獎勵函數,共同促進答案準確性、時間對齊度與空間精確度。在V-STAR基準測試中,Open-o3 Video實現突破性表現,較Qwen2.5-VL基線將mAM提升14.4%、mLGM提升24.2%。在VideoMME、WorldSense、VideoMMMU及TVGBench等廣泛影片理解基準上也觀察到一致性提升。除準確度外,該模型生成的推理軌跡更為測試時縮放提供有價值信號,支持置信度感知驗證並提升答案可靠性。
當前最先進的文字轉影片模型雖擅長生成獨立片段,卻難以創建具有連貫性的多鏡頭敘事——這正是故事敘述的核心。我們透過HoloCine模型彌合此「敘事鴻溝」,該模型能整體生成完整場景,確保從首個鏡頭到結尾的全局一致性。我們的架構透過「視窗交叉注意力機制」實現精準的導演控制,將文字提示定位至特定鏡頭;同時採用「稀疏鏡頭間自注意力模式」(鏡頭內密集連接,鏡頭間稀疏連接),確保分鐘級影片生成所需的效率。除了在敘事連貫性上樹立新標竿,HoloCine更展現出顯著的湧現能力:對角色與場景的持久記憶,以及對電影技法的直覺掌握。本研究成果標誌著從片段合成到自動化電影製作的關鍵轉變,使端到端的電影創作成為可觸及的未來。程式碼公開於:https://holo-cine.github.io/。
擴散轉換器模型能生成具有卓越保真度與細節的影像,但由於自注意力機制會隨影像標記數量呈二次方擴增,在超高解析度下訓練這類模型仍成本高昂。本文提出動態位置外推法(DyPE),這是一種無需重新訓練的新穎方法,能使預訓練的擴散轉換器以遠超訓練資料的解析度合成影像,且無需額外採樣成本。DyPE 利用擴散過程固有的頻譜漸進特性——低頻結構會早期收斂,而高頻細節需更多步驟才能解析。具體而言,DyPE 在每個擴散步驟動態調整模型的位置編碼,使其頻譜與當前生成階段相匹配。此方法可實現大幅超越訓練解析度的影像生成(例如使用 FLUX 生成 1600 萬像素影像)。在多項基準測試中,DyPE 不僅持續提升效能,更在超高解析度影像生成中達到最先進的保真度,且解析度越高效果越顯著。專案頁面請見:https://noamissachar.github.io/DyPE/。
離散擴散模型通過平行解碼為自回歸生成提供了極具前景的替代方案,但其存在採樣壁壘問題:一旦進行類別採樣,豐富的分佈資訊便會坍縮為單熱向量,無法在步驟間傳遞,迫使後續步驟僅能基於有限資訊運作。為緩解此問題,我們提出「漏洞穿越」機制——通過確定性潛在路徑保留分佈資訊的新穎簡易方法,據此構建漏洞穿越離散擴散模型(LDDMs)。採用自條件化策略進行高效訓練後,LDDMs實現顯著提升:生成困惑度相較既有基線降低達61%,縮小(甚至在某些情況下超越)與自回歸模型的差距,並生成更連貫的文本。應用於推理任務時,LDDMs在Countdown與Game of 24等算術基準測試中也表現出性能提升。這些結果同時表明,漏洞穿越機制能有效緩解停滯步與振盪現象,為高品質非自回歸文本生成提供了可擴展路徑。
開發具身智慧體需要能平衡內容多樣性與物理準確性的可擴展訓練環境。世界模擬器雖能提供此類環境,卻面臨明顯侷限:基於影片的方法能生成多樣內容,但缺乏即時物理回饋以支援互動式學習;而基於物理的引擎雖能提供精確動力學模擬,卻因需耗費大量人力創建資產而存在可擴展性限制。我們推出Seed3D 1.0基礎模型,可透過單張影像生成即用型3D模擬資產,在保持物理嚴謹性的同時解決可擴展性難題。有別於現有3D生成模型,本系統產出的資產具備精確幾何結構、完美貼合紋理及符合物理規律的真實材質。這些資產僅需極簡配置即可直接整合至物理引擎,適用於機器人操作與模擬訓練等場景。除單一物件生成外,系統更可透過物件組裝實現完整場景生成,構建連貫的環境體系。Seed3D 1.0藉由實現可擴展的即用型內容生成,為推進物理世界模擬器奠定基礎。現可於https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D 體驗使用。
知識編輯提供無需完整重新訓練即可更新模型知識的有效方法,但先前研究幾乎完全集中於文本或視覺模態。我們提出首個專為大型音頻語言模型設計的聽覺屬性知識編輯基準SAKE。與事實性更新不同,SAKE針對多種抽象聽覺屬性,涵蓋超越傳統文本與視覺領域的知識類型。我們在兩個LALM上從四個維度(可靠性、泛化性、音頻/文本局部性及可移植性)對七種編輯方法進行基準測試。結果揭示了諸多挑戰:如何保留與編輯無關的屬性內知識、將編輯泛化至多模態推理,以及在序列更新下維持編輯效果。SAKE建立了系統性框架來研究知識編輯如何延伸至聽覺模態,為在更多元現實場景中維護和適配LALM開闢了新方向。
我們提出「基於顯式人類價值的強化學習」(RLEV),該方法將大型語言模型(LLM)的最佳化過程直接與可量化的人類價值信號對齊。雖然「可驗證獎勵的強化學習」(RLVR)能透過二元正確性獎勵在客觀領域有效訓練模型,但其忽略了不同任務的重要性存在差異。RLEV通過將人類定義的價值信號直接整合至獎勵函數中,擴展了此框架。使用帶有明確真實價值標籤的考試型數據時,RLEV在多種強化學習演算法與模型規模下均持續超越僅基於正確性的基準方法。關鍵在於,RLEV策略不僅提升價值加權準確率,更學會價值敏感的終止策略:對低價值提示簡潔回應,對高價值提示深入闡釋。我們證明此行為源於序列結束符號上的價值加權梯度放大。消融實驗證實效益與價值對齊存在因果關聯。即使在噪聲價值信號(如基於難度的標籤)下,RLEV仍保持穩健性,表明針對顯式效用函數的最佳化為LLM與人類優先事項對齊提供了可行路徑。
大型音頻語言模型(LALMs)在基於文本的大語言模型基礎上擴展了聽覺理解能力,為多模態應用開闢了新途徑。儘管其感知、推理和任務執行能力已得到廣泛研究,但副語言變異下的安全對齊問題仍待深入探索。本研究系統性探討了說話者情緒的影響:我們構建了包含多種情緒及強度表達的惡意語音指令數據集,並評估了多個前沿LALMs。結果顯示顯著的安全不一致性——不同情緒會引發不同程度的非安全回應,且強度影響呈非單調性,中等情緒表達往往構成最大風險。這些發現揭示了LALMs中被忽視的脆弱性,呼籲需要專門設計的對齊策略來確保情緒變異下的穩健性,這是實現現實場景中可信部署的必要前提。
基于可验证奖励的强化学习(RLVR)已成为训练大语言模型智能体的主流技术。然而该方法高度依赖精心设计的任务查询与对应真值答案来提供准确奖励,这不仅需要大量人工投入,更阻碍了强化学习的规模化进程,尤其在智能体应用场景下。尽管近期有研究探索任务合成方法,但生成任务的难度难以有效控制以提供优质的强化学习训练条件。为实现更具扩展性的智能体RLVR,我们探索了深度搜索智能体的自我博弈训练框架:学习中的大语言模型通过多轮搜索引擎调用,同时扮演任务提出者与问题求解者双重角色。任务提出者负责生成具有明确定义真值答案且难度递增的深度搜索查询,问题求解者则尝试处理生成的搜索查询并输出正确答案预测。为确保每个生成查询均具备准确真值,我们收集提出者轨迹中的所有搜索结果作为外部知识,进而通过检索增强生成技术验证所提查询在提供全部必要搜索文档时能否被正确回答。在这种搜索自我博弈框架中,提出者与求解者通过竞争与合作实现智能体能力的协同进化。大量实验结果表明,在从零开始和持续强化学习两种训练模式下,该方法均能无需任何监督即显著提升搜索智能体在多项基准测试中的综合性能。项目代码详见https://github.com/Alibaba-Quark/SSP。
我们推出大规模法律嵌入基准测试(MLEB),这是迄今为止规模最大、最多样化且最全面的开源法律信息检索基准。MLEB包含十个经专家标注的数据集,涵盖多个司法管辖区(美国、英国、欧盟、澳大利亚、爱尔兰和新加坡)、多种文档类型(案例、法规、监管指南、合同和文献)以及多种任务类型(检索、零样本分类和问答)。为填补开源法律信息检索领域在专业范畴与司法管辖权方面的空白,MLEB中有七个数据集为全新构建。我们详细记录了构建MLEB及创建新组件数据集的方法论,并公开共享代码、结果和数据,以助力可复现的评估研究。
自然语言虽长期维系着人类协作,但其有损、模糊与间接的特性限制了集体智能的潜力。尽管机器不受此类限制,当前大多数基于大语言模型的多智能体系统仍仅依赖自然语言进行词元或其嵌入向量的交换。为突破语言局限,我们提出"思维通信"新范式,使智能体能够实现类似心灵感应的直接意识交互。为系统化揭示这些潜在思维,我们将其形式化为广义潜变量模型:智能体状态由底层思维的未知函数生成。我们证明在无辅助信息的非参数设定下,任意智能体对之间的共享与私有潜在思维皆可识别;且思维共享的全局结构(包括哪些智能体共享何种思维及其关联模式)亦可被理论保证地还原。基于该理论框架,我们开发出在通信前从所有智能体提取潜在思维,并为每个智能体分配相关思维及其共享模式的系统。此范式自然延伸至大语言模型之外的所有模态,因多数观测数据皆源自隐藏的生成过程。合成与真实场景的基准实验验证了理论,并证明思维通信的协作优势。本研究旨在揭示挖掘隐藏世界的潜力——诸多挑战仅凭表层观测终难解决,无论算力或数据规模如何扩展。
视频推理需进行跨帧的多步推演,这始终是多模态大语言模型面临的主要挑战。基于强化学习的方法虽能增强推理能力,但常依赖纯文本推理链导致结论缺乏事实依据或出现幻觉。相比之下,帧检索方法虽引入视觉依据,却仍受限于证据定位不准的困境。为此,我们提出Conan框架,通过证据锚定实现多步视频推理。该框架能识别上下文帧与证据帧,基于跨帧线索进行推理,并自适应决定终止推理或继续探索。为实现这一目标,我们(1)构建了Conan-91K大规模数据集,其中自动生成的推理轨迹包含帧识别、证据推理与行动决策;(2)设计了多阶段渐进式冷启动策略,结合"识别-推理-行动"强化学习视频推理训练框架,共同提升多步视觉推理能力。在六个多步推理基准测试上的大量实验表明,Conan相较基线模型Qwen2.5-VL-7B-Instruct平均准确率提升超10%,达到业界最优水平。此外,Conan在长视频理解任务中展现出色泛化能力,验证了其强大的可扩展性与鲁棒性。
尽管现有个性化生成模型具备出色的视觉保真度,但其缺乏对空间构图的交互控制能力,且在处理多主体场景时扩展性不足。为突破这些局限,我们提出LayerComposer——一个支持交互式多主体个性化文生图的框架。本方法包含两大核心贡献:(1)分层画布这一创新表征形式,将每个主体置于独立图层以实现无遮挡构图;(2)锁定机制在保持选定图层高保真度的同时,允许其余图层灵活适应周边语境。类似专业图像编辑软件,所提出的分层画布使用户能通过直观的图层操作来放置、缩放或锁定输入主体。我们的通用锁定机制无需调整模型架构,而是利用固有位置编码与创新的互补数据采样策略。大量实验表明,在多主体个性化图像生成任务中,LayerComposer在空间控制与身份保持方面均优于当前最先进方法。
我們提出了一種基於自迴歸生成的新型圖像分割範式(ARGenSeg),在統一框架內實現多模態理解與像素級感知。現有將圖像分割整合到多模態大語言模型(MLLM)的研究通常採用邊界點表徵或專用分割頭,這些方法依賴於輸入任務特定解碼器的離散表徵或語義提示,限制了MLLM捕捉細粒度視覺細節的能力。為解決這些問題,我們引入了一種基於圖像生成的MLLM分割框架,能自然生成目標對象的稠密掩碼。我們利用MLLM輸出視覺標記,並通過通用VQ-VAE解碼為圖像,使分割完全依賴於MLLM的像素級理解。為降低推理延遲,我們採用下一尺度預測策略並行生成所需視覺標記。大量實驗表明,本方法在多個分割數據集上超越先前最先進方案,推理速度顯著提升,同時保持強大的理解能力。
可靠處理程式碼差異是實現大規模程式庫編輯與重構代理器的核心技術。本文提出Diff-XYZ——一個針對程式碼差異理解設計的精簡基準測試集,包含三項監督式任務:應用差異(舊程式碼 + 差異 → 新程式碼)、逆應用差異(新程式碼 - 差異 → 舊程式碼)以及差異生成(新程式碼 - 舊程式碼 → 差異)。該基準測試集中的實例均為從CommitPackFT真實提交記錄中提取的三元組〈舊程式碼, 新程式碼, 差異〉,並配備自動化評估指標與清晰的評估流程。我們運用此基準測試集對統一差異格式進行聚焦實證研究,並開展不同差異表徵方式的跨格式比較。研究結果表明,應根據使用場景與模型規模選擇差異格式:例如搜尋替換格式的差異表徵雖適用於差異生成場景下的大型模型,卻不適合用於差異分析與小型模型。Diff-XYZ基準測試集為評估與改進大型語言模型的差異處理能力提供可複用的基礎框架,有助於推動未來差異格式與程式碼編輯模型的發展。本數據集已發佈於HuggingFace Hub平台:https://huggingface.co/datasets/JetBrains-Research/diff-xyz。
大型语言模型(LLMs)已成为科学写作领域颇具潜力的辅助工具。然而,人们对其生成文本的质量与可靠性存在诸多担忧,其中引文准确性与真实性尤为突出。尽管近期研究多采用"LLM即评判者"等方法,但单纯依赖此类评判的可靠性仍存疑。本研究将引文评估重新定义为引文归因对齐问题,即评估LLM生成的引文是否与人类作者在相同文本中会采用的引文相匹配。我们提出CiteGuard——一个具备检索感知能力的智能体框架,旨在为引文验证提供更可靠的基础支撑。该框架将现有基线效果提升12.3%,在CiteME基准测试中达到65.4%的准确率,与人类水平表现(69.7%)相当,同时还能识别出替代性有效引文。
MeanFlow作为一种从零开始训练的少步生成建模框架近期崭露头角,但其成功机制尚未被完全理解。本研究表明,MeanFlow目标函数可自然解构为轨迹流匹配与轨迹一致性两个组成部分。通过梯度分析,我们发现这两项存在强烈负相关性,导致优化冲突与收敛缓慢。基于此发现,我们提出了alpha-Flow——一个将轨迹流匹配、Shortcut Model和MeanFlow统一于单一公式的广义目标函数族。通过采用从轨迹流匹配平滑过渡至MeanFlow的课程学习策略,alpha-Flow有效解耦了冲突目标并实现更优收敛性。在类条件ImageNet-1K 256×256数据集上使用标准DiT主干网络从零训练时,alpha-Flow在不同规模与设置下均持续超越MeanFlow。我们最大的alpha-Flow-XL/2+模型在使用标准DiT主干网络的条件下取得了最新顶尖成果:单步推理FID达2.58,两步推理FID达2.15。
通过增加参数规模和训练数据量来提升大语言模型(LLM)性能已被证明是有效策略。然而,随着这些模型能力日益强大且部署范围扩大,推理成本已成为紧迫问题。尽管模型精度与推理效率之间的平衡至关重要,但这一领域仍缺乏深入探索。本研究系统分析了隐藏层维度、MLP与注意力模块的参数分配比例(mlp-to-attention ratio)以及分组查询注意力(GQA)等关键架构因素对推理成本与模型精度的影响。我们提出了条件缩放定律,在Chinchilla框架基础上引入架构信息,并开发了可同时优化推理效率与精度的架构搜索框架。为验证方法有效性,我们训练了超过200个参数规模从80M到3B、训练令牌数从8B到100B的模型,并拟合了所提出的条件缩放定律。实验结果表明:该定律能可靠预测最优架构选择,所得模型性能优于现有开源基线。在相同训练预算下,优化后的架构相比LLaMA-3.2可实现最高2.1%的精度提升和42%的推理吞吐量增益。
本文并非传统意义上的世界模型综述,而是面向构建者的实践指南。我们无意罗列所有提及"世界模型"的文献,而是沿着清晰脉络展开:从早期实现跨模态表征学习统一的掩码模型,到采用单一范式的融合架构,再到实现感知-行动闭环的交互式生成模型,最终抵达能够维持世界持续性的记忆增强系统。我们摒弃松散关联的技术分支,聚焦三大核心要素:生成引擎、交互闭环与记忆系统,论证这正是通往真正世界模型的最具前景的路径。
在大型語言模型(LLM)的可靠評估與部署過程中,模型傾向於尋找並利用「捷徑」完成任務的現象存在顯著風險。例如,一個具備單元測試訪問權限的LLM智能體可能會選擇刪除未通過的測試案例,而非修復潛在的程序錯誤。此類行為不僅損害基準測試結果的有效性,更會削弱現實場景中LLM編程助手部署的可靠性。 為量化、研究並緩解此類行為,我們提出ImpossibleBench——一個系統化衡量LLM智能體利用測試案例傾向的基準框架。該框架通過在LiveCodeBench、SWE-bench等現有基準任務中植入自然語言描述與單元測試之間的直接衝突,構建出「不可完成」的任務變體。我們將智能體在這些任務上的通過率定義為「作弊率」,因為任何通過結果都必然意味着其採用了違反任務規範的捷徑。 作為實用框架,ImpossibleBench不僅是評估工具,更具備多功能性。我們通過實證展示其三大應用場景:(1)行為研究層面,揭示了從簡單測試篡改到複雜運算符重載等細粒度作弊行為;(2)上下文工程層面,闡明提示設計、測試訪問權限及反饋機制對作弊率的影響;(3)監控工具開發層面,提供包含已驗證欺騙性解決方案的測試平台。我們期待ImpossibleBench能為構建更強健可靠的LLM系統提供有效支撐。 項目代碼已開源於:https://github.com/safety-research/impossiblebench
基於Transformer架構的大型語言模型(LLMs)雖已取得顯著成就,但其標準注意力機制會隨序列長度產生二次方計算量與記憶體開銷,成為長上下文訓練的主要瓶頸。現有研究沿兩個方向應對此挑戰:(1)核心層級優化,旨在加速稠密與稀疏注意力運算元;(2)模組層級策略(常稱為分散式注意力或上下文並行訓練),通過多設備擴展注意力計算。然而,系統性評估仍存在侷限性:運算元級別對比往往不夠全面,而上下文並行策略通常受框架限制,且缺乏跨情境的清晰效能分析。為填補這些空白,我們提出一個統一基準測試框架,整合代表性注意力核心與上下文並行機制,並提供模組化可擴展的評估介面。該基準從兩個關鍵維度評估方法:(1)注意力遮罩模式(顯著影響效率、可擴展性與實用性);(2)序列長度與分散式規模(決定極端長上下文訓練下的效能)。通過在最多96張GPU的叢集上進行全面實驗,我們的基準框架實現了可重現的對比,揭示了各類方法的特定權衡,並為長上下文LLM訓練中的注意力機制設計與部署提供實用指引。
针对复杂工作场景中的团队协作需要多样化的沟通策略,但现有多智能体大语言模型系统缺乏面向任务的系统性沟通框架。我们提出"任务达成沟通框架"(C2C),这一可扩展框架通过两项关键创新填补空白:(1)创新性提出"对齐因子"指标,该量化智能体任务对齐度的新标准直接影响工作效率;(2)集成逐步执行与智能沟通决策的序列化行动框架。C2C使智能体能够做出成本感知的沟通选择,通过精准交互动态提升任务理解能力。我们在三个复杂度层级、5至17个智能体规模的现实编程工作流中评估C2C,并与无沟通基准和固定步骤基准进行对比。结果表明,C2C在可接受的沟通成本下将任务完成时间缩短约40%。该框架在标准配置下成功完成所有任务,并具备规模化应用的有效性。C2C既为衡量多智能体系统沟通效能建立了理论基础,也为复杂协作任务提供了实践框架。
我们推出MSC-Bench——一个在分层模型上下文协议(MCP)生态系统中评估LLM智能体多跳端到端工具编排能力的大规模基准。现有基准常孤立评估工具功能,忽视了功能重叠与跨服务器编排等挑战,导致评估结果过于乐观。MSC-Bench通过构建"等效功能集"作为基准真值,采用F1分数等客观指标降低对LLM即评判的依赖,从而弥补这些不足。该基准采用五级课程化设计,系统化测试智能体从单工具编排到复杂跨服务器规划的能力,以及对超范围请求的鲁棒性。实验表明,缺乏协同设计策略的刚性层次结构会制约性能表现,即使最先进的智能体在鲁棒性方面仍存在系统性缺陷。MSC-Bench提供了诊断框架以揭示这些局限性,为开发更强大高效的工具使用智能体指引方向。基准及相关资源已开源:https://github.com/snooow1029/MSC_Bench。
大型語言模型(LLMs)現已支援數十萬至數百萬詞元的上下文窗口,使長文件摘要、大規模程式碼合成、多文件問答及持續性多輪對話等應用成為可能。然而,此類擴展上下文加劇了自注意力機制的二次方計算成本,導致自迴歸解碼出現嚴重延遲。現有的稀疏注意力方法雖能緩解這些成本,但依賴於啟發式模式,難以針對每個查詢召回關鍵的鍵值對,從而導致準確性下降。我們提出Adamas——一種專為長上下文推理設計的輕量級高精度稀疏注意力機制。該方法透過Hadamard變換、分桶處理及2位元壓縮技術生成緊湊表示,並利用曼哈頓距離估計實現高效的top-k選擇。實驗表明,Adamas僅需64個詞元的預算即可達到與全注意力相當的準確性,在128詞元時實現近乎無損的效能,且相比先前最先進方法最高可支援8倍稀疏度,同時在32K長度序列上實現4.4倍自注意力加速和1.5倍端到端加速。值得注意的是,Adamas甚至能達到與全注意力相當或更低的困惑度,彰顯其在激進稀疏條件下保持準確性的卓越效能。
自各類預訓練大語言模型問世以來,從科學文本中提取結構化知識的方法相較傳統機器學習或自然語言處理技術已發生革命性變化。儘管取得這些進展,能夠讓用戶對科學文獻提取結果進行構建、驗證和可視化的易用自動化工具仍然稀缺。為此,我們開發了ComProScanner——一個自主多智能體平台,可協助提取、驗證、分類和可視化機器可讀的化學成分與性質,並整合期刊論文的合成數據以創建綜合數據庫。針對陶瓷壓電材料及其對應壓電應變係數(d33)缺乏大規模數據集的現狀,我們使用100篇期刊論文對比評估了10種不同大語言模型(包括開源和專有模型)提取高度複雜成分的能力。DeepSeek-V3-0324以0.82的顯著總體準確率優於所有模型。該框架提供了一個簡單易用、用戶友好的現成工具包,用於從文獻中挖掘高度複雜的實驗數據,以構建機器學習或深度學習數據集。
近期探測研究表明,大型語言模型存在能區分真假陳述的線性子空間,但其形成機制尚不明確。我們提出一個透明化的單層Transformer玩具模型,端到端重現了這類真理子空間,並揭示了其形成的具體路徑。我們研究了一種可能產生真理編碼的簡單情境:數據分佈中事實陳述與其他事實陳述共現(反之亦然),這種分佈促使模型學習區分真偽以降低對後續詞元的語言建模損失。我們通過預訓練語言模型的實驗驗證了這一模式。最後在玩具設定中,我們觀察到雙階段學習動態:網絡先通過少量步驟記憶個別事實關聯,隨後在更長訓練週期中學會線性區分真偽,從而進一步降低語言建模損失。這些結果共同從機制實證和實驗動機兩方面,闡明了線性真理表徵在語言模型中形成的方式與原因。