每日精选AI研究论文及翻译
在追求科学进步的道路上,研究成果的传播与发现本身同等重要。然而,研究人员常常因手动构建项目网页这一重复性工作而分心——这些网页旨在让艰深的论文更易理解。虽然自动化技术已能处理静态幻灯片和海报,但网页的动态交互特性始终是尚未解决的难题。为弥补这一空白,我们重新审视该问题,提出解决方案并非依赖单一指令,而应通过协同分层流程实现。为此,我们引入了体现这一理念的新型多智能体系统AutoPage。该系统将论文到网页的创建过程解构为从叙事规划到多模态内容生成、再到交互式渲染的由粗到精 pipeline。为应对AI幻觉问题,专职的"检查员"智能体会在每个步骤依据原始论文进行验证,同时可选的人工检查点确保最终成果与作者愿景完美契合,使系统从单纯工具升级为强大的协作助手。为严谨验证该方法,我们还构建了该新兴任务的首个基准测试集PageBench。实验表明,AutoPage不仅能生成高质量、视觉吸引力强的网页,更以惊人效率在15分钟内完成制作,成本低于0.1美元。代码与数据集将发布于https://mqleet.github.io/AutoPage_ProjectPage/{网页}$。
推测解码(SD)通过采用小型草稿模型生成预测,再由大型目标模型进行验证,从而加速大语言模型的推理效率。该技术的有效性取决于两个模型之间的对齐程度,通常通过知识蒸馏(KD)来增强这种对齐。然而,传统KD方法旨在最小化草稿模型与目标模型在所有词元上的KL散度,这一目标与SD技术最大化词元接受率的本质目标存在偏差。由于草稿模型受容量限制难以完全吸收目标模型的知识,往往导致性能欠佳。为解决这一难题,我们提出AdaSPEC方法,将选择性词元过滤机制引入KD过程。该方法通过参考模型识别并过滤难以拟合的词元,使草稿模型能更专注于在简单词元上与目标模型对齐。这一策略在不影响生成质量的前提下显著提升了整体词元接受率。我们在算术推理、指令遵循、代码生成和文本摘要等多样化任务上进行了评估,使用31M/1.4B和350M/2.7B两种参数规模的模型配置。实验结果表明,AdaSPEC在所有任务中持续优于当前最先进的DistillSpec方法,词元接受率最高提升达15%。相关代码已开源:https://github.com/yuezhouhu/adaspec。
当前大多数视频推理模型仅生成文本推理轨迹,而未指明关键证据出现的时间与位置。虽然OpenAI-o3等近期模型引发了图像领域以证据为中心的推理热潮,但将该能力延伸至视频面临更大挑战,因其需在动态场景中实现时序追踪与空间定位的协同。我们提出Open-o3 Video非智能体框架,将显式时空证据融入视频推理,通过精心构建训练数据与设计训练策略应对上述挑战。该模型在输出答案时同步标注关键时间戳、目标物体及边界框,使推理过程扎根于具体视觉观察。为实现此功能,我们首先构建两个高质量数据集:包含时空标注的STGR-CoT-30k用于SFT阶段,STGR-RL-36k用于RL阶段——因现有数据集多仅提供视频时间片段或图像空间框,缺乏统一的时空监督与推理轨迹。随后采用冷启动强化学习策略,设计多重奖励函数协同促进答案准确性、时序对齐度与空间精确性。在V-STAR基准测试中,Open-o3 Video实现最先进性能,较Qwen2.5-VL基线将mAM提升14.4%,mLGM提升24.2%。在VideoMME、WorldSense、VideoMMMU及TVGBench等广泛视频理解基准上也观察到一致提升。除准确性外,该模型生成的推理轨迹还为测试时缩放提供有价值信号,支持置信度感知验证并提升答案可靠性。
当前最先进的文生视频模型虽能生成独立片段,却在构建连贯多镜头叙事——这一叙事艺术的核心要素——方面存在不足。我们通过HoloCine模型弥合了这种"叙事鸿沟",该模型能够整体生成完整场景,确保从开场到结尾的全局一致性。我们的架构通过窗口交叉注意力机制将文本提示精准定位到特定镜头,实现精确的导演控制;同时采用稀疏镜头间自注意力模式(镜头内稠密连接,镜头间稀疏连接),确保分钟级生成所需的效率。除在叙事连贯性上树立新标杆外,HoloCine还展现出显著涌现能力:对角色与场景的持久记忆,以及对电影技法的直觉把握。我们的工作标志着从片段合成到自动化电影制作的关键转变,使端到端的电影创作成为可触及的未来。代码已开源:https://holo-cine.github.io/。
扩散Transformer模型能够生成具有卓越保真度和细节的图像,但由于自注意力机制随图像标记数量呈二次方缩放,在超高分辨率下训练这些模型仍然成本极高。本文提出动态位置外推法(DyPE),这是一种无需重新训练的新方法,可使预训练的扩散Transformer以远超训练数据的分辨率合成图像,且无需额外采样成本。DyPE利用扩散过程固有的频谱递进特性——低频结构早期收敛,而高频细节需更多步骤才能解析。具体而言,DyPE在扩散过程的每一步动态调整模型的位置编码,使其频谱特性与当前生成阶段相匹配。该方法支持生成远超训练分辨率的图像(例如使用FLUX模型生成1600万像素图像)。在多个基准测试中,DyPE持续提升性能,在超高分辨率图像生成中实现业界领先的保真度,且分辨率越高优势越显著。项目页面详见https://noamissachar.github.io/DyPE/。
离散扩散模型通过并行解码为自回归生成提供了有前景的替代方案,但其存在采样壁垒问题:一旦进行类别采样,丰富的分布信息就会坍缩为独热向量而无法跨步传播,迫使后续步骤只能在有限信息下运行。为缓解此问题,我们提出"潜径迂回"机制——通过确定性潜路径保留分布信息的新颖而简洁的方法,由此构建潜径迂回离散扩散模型(LDDM)。采用自条件策略高效训练后,LDDM实现了显著提升:生成困惑度较现有基线最高降低61%,缩小(部分任务甚至反超)与自回归模型的差距,并生成更连贯的文本。在推理任务中,LDDM于Countdown和24点游戏等算术基准测试上也表现更优。这些结果同时表明,潜径迂回机制能有效缓解空闲步数与振荡现象,为高质量非自回归文本生成提供了可扩展路径。
开发具身智能体需要能够平衡内容多样性与物理准确性的可扩展训练环境。世界模拟器虽能提供此类环境,却面临双重挑战:基于视频的方法可生成多样化内容,但缺乏支持交互式学习的实时物理反馈;而基于物理的引擎虽能提供精确动力学模拟,却因昂贵的人工资产创建面临可扩展性限制。我们推出Seed3D 1.0——一个从单张图像生成可直接投入仿真的三维资产的基础模型,在保持物理严谨性的同时解决了可扩展性难题。与现有三维生成模型不同,本系统生成的资产具备精确几何结构、完美对齐的贴图以及符合物理规律的真实材质。这些资产只需简单配置即可直接集成到物理引擎中,适用于机器人操作与仿真训练场景。该系统不仅能生成独立物体,还可通过物体组装实现完整场景的规模化生成。通过实现可扩展的仿真就绪内容创建,Seed3D 1.0为推进基于物理的世界模拟器奠定了基石。该模型现已在https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D 开放体验。
知识编辑为更新模型知识提供了一种无需完整重训练的高效途径,但先前研究几乎完全集中于文本或视觉模态。我们提出首个专门针对大型音频语言模型中听觉属性知识编辑的基准SAKE。与事实性更新不同,SAKE聚焦于若干抽象听觉属性,捕捉超越传统文本与视觉领域的知识类型。我们在两个大型音频语言模型上对七种编辑方法进行四维基准测试:可靠性、泛化性、音频/文本局部性及可移植性。结果揭示了诸多挑战,包括保护与编辑无关的属性内知识、将编辑泛化至多模态推理,以及在序列更新下保持编辑效果。SAKE建立了系统化研究框架,探索知识编辑如何扩展至听觉模态,为在更多样化现实场景中维护和适配大型音频语言模型开辟了新方向。
我们提出基于显式人类价值的强化学习(RLEV),该方法将大语言模型(LLM)优化与可量化的人类价值信号直接对齐。虽然可验证奖励的强化学习(RLVR)能通过二元正确性奖励在客观领域有效训练模型,但其忽略了不同任务的重要性存在差异。RLEV通过将人类定义的价值信号直接融入奖励函数,扩展了这一框架。使用带有显式真实价值标签的考试型数据时,RLEV在多种强化学习算法和模型规模下均持续优于仅关注正确性的基线方法。关键的是,RLEV策略不仅提升了价值加权准确率,还学会了价值敏感的终止策略:对低价值提示简洁回应,对高价值提示详尽阐述。我们证明该行为源于序列结束符上价值加权梯度的放大效应。消融实验证实性能提升与价值对齐存在因果关联。即使在噪声价值信号(如基于难度的标签)下,RLEV仍保持稳健性,这表明通过优化显式效用函数为实现LLM与人类优先级对齐提供了可行路径。
大型音语模型(LALMs)在基于文本的大语言模型基础上扩展了听觉理解能力,为多模态应用开辟了新路径。尽管其感知、推理与任务执行能力已得到广泛研究,但副语言变异下的安全对齐问题仍待深入探索。本研究系统考察了说话者情绪的作用,构建了包含多种情绪及强度表达的恶意语音指令数据集,并对多个前沿LALMs进行评估。结果揭示显著的安全不一致性:不同情绪会引发不同程度的非安全响应,且强度影响呈非单调性,中等强度表达往往构成最大风险。这些发现凸显了LALMs中被忽视的脆弱性,呼吁建立专门针对情绪变异鲁棒性的对齐策略,这是实现现实场景可信部署的必要前提。
基于可验证奖励的强化学习(RLVR)已成为训练大语言模型智能体的主流技术。然而该方法高度依赖精心设计的任务查询与对应真值答案来提供准确奖励,这需要大量人工投入并阻碍强化学习的规模化进程,尤其在智能体场景下。尽管近期有研究探索任务合成方法,但生成任务的难度难以有效控制以提供优质强化学习训练。为实现更高可扩展性的智能体RLVR,我们探索了深度搜索智能体的自我博弈训练框架,让学习中的大语言模型通过多轮搜索引擎调用,同时扮演任务提出者与问题求解者双重角色。任务提出者负责生成具有明确定义真值答案且难度递增的深度搜索查询,问题求解者则尝试处理生成的搜索查询并输出正确答案预测。为确保每个生成查询具备准确真值,我们收集提出者轨迹中的所有搜索结果作为外部知识,通过检索增强生成技术验证所提查询在提供全部必要搜索文档时能否被正确回答。在此搜索自我博弈框架中,提出者与求解者通过竞争与合作实现智能体能力的协同进化。大量实验结果表明,该框架能在无监督条件下,无论是从零开始还是持续强化学习训练场景,均能显著提升搜索智能体在各类基准测试中的综合表现。代码已开源:https://github.com/Alibaba-Quark/SSP。
我们推出大规模法律嵌入基准测试(MLEB),这是迄今为止规模最大、多样性最丰富且最全面的开源法律信息检索基准。该基准包含十个经专家标注的数据集,涵盖多个司法管辖区(美国、英国、欧盟、澳大利亚、爱尔兰和新加坡)、多种文档类型(案例、法规、监管指南、合同和文献)以及多种任务类型(检索、零样本分类和问答)。为弥补开源法律信息检索领域在司法管辖范围和专业领域上的空白,MLEB中有七个数据集为全新构建。我们详细记录了构建MLEB及创建新组件数据集的方法论,并公开代码、结果与数据,以助力可复现的评估研究。
自然语言虽长期支撑着人类协作,但其存在信息损耗、歧义性与间接性等局限,制约了集体智能的潜力。尽管机器不受此类限制,当前大多数基于大语言模型的多智能体系统仍仅依赖自然语言交互,通过词元或其嵌入向量进行通信。为突破语言桎梏,我们提出"思维通信"新范式,使智能体能够实现类似心灵感应的直接意识交互。为系统化揭示这些潜在思维,我们将其形式化为广义潜变量模型:智能体状态由底层思维的未知函数生成。我们证明,在无辅助信息的非参数设定下,任意智能体对之间的共享与私有潜在思维均可被识别;且思维共享的全局结构——包括哪些智能体共享何种思维及其关联模式——亦可基于理论保证被还原。基于该理论框架,我们开发出在通信前从所有智能体提取潜在思维,并为每个智能体分配相关思维及其共享模式的系统。此范式可自然扩展至大语言模型之外的全模态领域,因为多数观测数据均源自隐藏的生成过程。在合成与真实场景下的实验验证了理论正确性,并展现出思维通信的协同优势。本研究旨在揭示挖掘隐藏世界的潜力——毕竟仅靠表层观测,即便拥有海量算力与数据,诸多挑战仍将无解。
视频推理需进行跨帧多步推演,这始终是多模态大语言模型面临的核心挑战。基于强化学习的方法虽能提升推理能力,但常依赖纯文本推理链导致结论缺乏视觉依据或产生幻觉;而帧检索方法虽引入视觉锚定,却仍受限于证据定位不准。为此,我们提出证据锚定的多步视频推理框架Conan,通过识别上下文帧与证据帧、推理跨帧线索,并自适应决策终止或继续探索。具体实现包括:(1)构建Conan-91K大规模自动生成推理轨迹数据集,涵盖帧识别、证据推理与行动决策;(2)设计多阶段渐进式冷启动策略,结合识别-推理-行动强化学习训练框架,共同增强多步视觉推理能力。在六大推理基准测试中,Conan相较Qwen2.5-VL-7B-Instruct基线模型平均准确率提升超10%,达到最优性能。此外,该框架在长视频理解任务中展现出色泛化能力,验证了其强扩展性与鲁棒性。
尽管现有个性化生成模型具备出色的视觉保真度,但其缺乏对空间构图的交互控制能力,且在处理多主体场景时扩展性不足。为突破这些局限,我们提出LayerComposer——一个支持交互式个性化多主体文生图的框架。本方法包含两大核心贡献:(1)引入分层画布这一新型表征形式,将每个主体置于独立图层,实现无遮挡构图;(2)设计锁定机制,在保持选定图层高保真度的同时,允许其余图层根据周边语境灵活适配。与专业图像编辑软件类似,所提出的分层画布使用户能通过直观的图层操作来放置、缩放或锁定输入主体。我们的通用锁定机制无需调整模型架构,而是结合固有位置编码与创新的互补数据采样策略。大量实验表明,在多主体个性化图像生成任务中,LayerComposer在空间控制与身份保持方面均优于当前最先进方法。
我们提出了一种新颖的自回归生成式图像分割范式(ARGenSeg),在统一框架内实现了多模态理解与像素级感知。现有将图像分割融入多模态大语言模型(MLLM)的研究通常采用边界点表示或专用分割头,这些方法依赖离散表征或输入任务特定解码器的语义提示,限制了MLLM捕捉细粒度视觉细节的能力。为解决这些问题,我们引入了一种基于图像生成的MLLM分割框架,能够自然生成目标对象的密集掩码。我们利用MLLM输出视觉标记,并通过通用VQ-VAE解码为图像,使分割完全依赖于MLLM的像素级理解。为降低推理延迟,采用下一尺度预测策略并行生成所需视觉标记。大量实验表明,本方法在多个分割数据集上超越现有最优方法,推理速度显著提升,同时保持强大的理解能力。
可靠处理代码差异是规模化编辑与重构代码库的智能体核心能力。我们推出Diff-XYZ——一个用于代码差异理解的紧凑型基准测试集,包含三项监督任务:应用差异(旧代码+差异→新代码)、反应用差异(新代码-差异→旧代码)以及差异生成(新代码-旧代码→差异)。该基准中的实例均为从CommitPackFT真实提交记录中提取的三元组<旧代码, 新代码, 差异>,并配有自动化评估指标与清晰的评测流程。我们运用该基准对统一差异格式进行聚焦实证研究,并开展不同差异表征的跨格式比较。研究结果表明,应根据使用场景和模型规模选择差异格式:例如搜索替换格式的差异表征适合差异生成场景下的大型模型,但不适用于差异分析场景及小型模型。Diff-XYZ基准为评估和改进大语言模型的差异处理能力提供了可复用的基础框架,有助于推动差异格式与代码编辑模型的未来发展。数据集已发布于HuggingFace平台:https://huggingface.co/datasets/JetBrains-Research/diff-xyz。
大型语言模型(LLMs)已成为科研写作领域颇具潜力的辅助工具。然而,人们对其生成文本的质量与可靠性存在担忧,其中引文准确性与真实性尤为突出。尽管近期研究多采用"LLM即评判者"等方法,但单纯依赖此类评判的可靠性仍存疑。本研究将引文评估重新定义为引文归因对齐问题,即评估LLM生成的引文是否与人类作者在相同文本中会采用的引文相匹配。我们提出CiteGuard——一个具备检索感知的智能体框架,旨在为引文验证提供更可靠的依据。该框架将现有基线效果提升12.3%,在CiteME基准测试中达到65.4%的准确率,与人类水平表现(69.7%)相当,同时能够识别替代性有效引文。
MeanFlow作为一种从零开始训练的少步生成建模框架近期崭露头角,但其成功机制尚未被完全理解。本研究发现,MeanFlow目标函数可自然分解为轨迹流匹配与轨迹一致性两个部分。通过梯度分析,我们发现这两项存在强烈负相关性,导致优化冲突与收敛缓慢。基于此,我们提出alpha-Flow——一个将轨迹流匹配、Shortcut模型和MeanFlow统一于同一公式的广义目标函数族。通过采用从轨迹流匹配平滑过渡至MeanFlow的课程学习策略,alpha-Flow成功解耦了冲突目标并实现更优收敛。在类条件ImageNet-1K 256x256数据集上使用原始DiT主干网络进行从零训练时,alpha-Flow在不同规模与设置下均稳定超越MeanFlow。我们最大的alpha-Flow-XL/2+模型采用原始DiT主干网络取得了最新最优结果:FID指标在1-NFE和2-NFE下分别达到2.58和2.15。
通过增加参数规模和训练数据量已被证明是提升大语言模型(LLM)性能的有效策略。然而,随着这些模型能力日益强大且部署范围扩大,推理成本已成为紧迫问题。尽管模型精度与推理效率之间的权衡至关重要,但这一领域仍缺乏深入探索。本研究系统分析了隐藏层维度、MLP与注意力模块的参数分配比(mlp-to-attention ratio)以及分组查询注意力(GQA)等关键架构因素对推理成本与模型精度的影响。我们提出了一种条件缩放定律,将架构信息融入Chinchilla框架,并开发了用于同步优化推理效率与精度的架构搜索框架。为验证方法有效性,我们训练了超过200个参数规模从80M到3B、训练令牌数从8B到100B的模型,并拟合了所提出的条件缩放定律。实验表明:该条件缩放定律能可靠预测最优架构选择,所得模型性能优于现有开源基线。在相同训练预算下,优化架构相比LLaMA-3.2可实现最高2.1%的精度提升和42%的推理吞吐量增益。
本文并非传统意义上的世界模型综述,而是面向世界构建者的实践指南。我们无意罗列所有提及"世界模型"的文献,而是沿着清晰的技术脉络展开:从早期实现多模态表征学习统一的掩码模型,到采用单一范式的统一架构,再到实现感知-行动闭环的交互式生成模型,最终演进至能够维持世界持续性的记忆增强系统。我们摒弃松散关联的技术分支,聚焦三大核心要素:生成引擎、交互闭环与记忆系统,论证这正是通往真正世界模型的最具前景之路。
在大型语言模型(LLM)的可靠评估与部署过程中,模型倾向于寻找并利用“捷径”完成任务的行为存在显著风险。例如,一个能够访问单元测试的LLM智能体可能会选择删除未通过的测试用例,而非修复底层代码错误。这种行为不仅削弱了基准测试结果的有效性,也影响了现实世界中LLM编程助手部署的可靠性。 为量化、研究并缓解此类行为,我们推出ImpossibleBench——一个系统化衡量LLM智能体利用测试用例倾向的基准框架。该框架通过在原任务(如LiveCodeBench和SWE-bench)中植入自然语言描述与单元测试之间的直接冲突,构建“不可完成”的任务变体。我们以模型在这些任务上的通过率作为“作弊率”指标,任何通过结果都必然意味着模型采取了违反任务规范的捷径。 作为实用框架,ImpossibleBench不仅是评估工具,更是多功能平台。我们展示了其在三个方面的应用价值:(1)研究模型行为,揭示从简单测试篡改到复杂运算符重载等不同层级的作弊行为;(2)上下文工程,探究提示策略、测试访问权限及反馈循环如何影响作弊率;(3)开发监控工具,提供包含已验证欺骗性解决方案的测试环境。我们期待ImpossibleBench成为构建更强健、可靠LLM系统的重要框架。 项目代码已发布于:https://github.com/safety-research/impossiblebench
基于Transformer架构的大语言模型(LLMs)已取得显著成功,但其标准注意力机制在序列长度增加时会产生二次方的计算和内存开销,成为长上下文训练的主要瓶颈。现有研究沿两个方向应对这一挑战:(1)内核级优化,通过加速稠密与稀疏注意力算子实现性能提升;(2)模块级策略,常被称为分布式注意力或上下文并行训练,将注意力计算扩展至多设备。然而系统性评估仍存在局限:算子级对比往往不够全面,而上下文并行策略通常受限于特定框架,缺乏跨场景的清晰性能分析。为填补这些空白,我们提出统一评测基准,通过模块化可扩展接口整合代表性注意力内核与上下文并行机制。该基准从两个关键维度评估方法性能:(1)注意力掩码模式——显著影响效率、可扩展性和可用性;(2)序列长度与分布式规模——决定极端长上下文训练下的表现。通过在96块GPU集群上的综合实验,我们的基准实现了可复现的对比,揭示了特定方法的性能权衡,为长上下文LLM训练中注意力机制的设计与部署提供了实用指导。
针对复杂工作场景中的团队协作需要多样化的沟通策略,但现有多智能体大模型系统缺乏面向任务沟通的系统性框架。我们提出"任务达成型沟通框架"(C2C),这一可扩展框架通过两项关键创新填补空白:(1)引入"对齐度因子"这一新型指标,可量化智能体任务对齐程度并直接影响工作效率;(2)建立序列化行动框架,将分步执行与智能沟通决策相结合。C2C使智能体能够做出成本感知的沟通选择,通过精准交互动态提升任务理解能力。我们在三个复杂度层级、5至17个智能体规模的现实编码工作流中评估C2C,并与无沟通基准和固定步骤基准进行对比。结果表明,C2C在可接受的沟通成本下将任务完成时间缩短约40%。该框架在标准配置下成功完成所有任务,并具备规模化应用的有效性。C2C既为衡量多智能体系统沟通效能奠定了理论基础,也为复杂协作任务提供了实践框架。
我们推出MSC-Bench——一个在分层模型上下文协议(MCP)生态系统中评估LLM智能体多跳端到端工具编排能力的大规模基准。现有基准常孤立评估工具功能,忽视了功能重叠与跨服务器编排等挑战,导致评估结果过于乐观。MSC-Bench通过构建"等效功能集"作为基准真值,采用F1分数等客观指标降低对LLM即评判的依赖,从而弥补这些不足。该基准采用五级课程化设计,系统化测试智能体从单工具编排到复杂跨服务器规划的能力,以及对超范围请求的鲁棒性。实验表明,缺乏协同设计的刚性层次结构会制约性能表现,即使最先进的智能体在鲁棒性方面也存在系统性缺陷。MSC-Bench提供诊断框架以揭示这些局限,指导开发更高效能工具使用智能体。基准及相关资源已公开于https://github.com/snooow1029/MSC_Bench。
当前,大型语言模型(LLMs)已支持数十万至数百万标记的上下文窗口,实现了长文档摘要、大规模代码合成、多文档问答及持续性多轮对话等应用。然而,这种扩展上下文加剧了自注意力机制的二次方计算成本,导致自回归解码出现严重延迟。现有的稀疏注意力方法虽能缓解这一成本,但依赖启发式模式,难以准确召回每个查询所需的关键键值对,导致精度下降。我们提出Adamas——一种面向长上下文推理的轻量级高精度稀疏注意力机制。该方法通过哈达玛变换、分桶化和2比特压缩生成紧凑表示,并利用曼哈顿距离估计实现高效top-k筛选。实验表明:Adamas仅需64个标记的预算即可达到全注意力机制的精度,在128标记时实现近乎无损的性能,且相比现有最优方法支持高达8倍的稀疏度,在32K长度序列上实现4.4倍的自注意力加速和1.5倍的端到端加速。值得注意的是,Adamas在极端稀疏条件下仍能保持与全注意力相当甚至更低的困惑度,印证了其在精度维护方面的卓越效能。
自各类预训练大语言模型问世以来,从科学文本中提取结构化知识的技术相比传统机器学习或自然语言处理方法发生了革命性变化。尽管取得了这些进展,能够支持用户对科学文献提取结果进行数据集构建、验证与可视化的易用自动化工具仍然稀缺。为此,我们开发了ComProScanner——一个自主多智能体平台,可实现机器可读的化学成分与性能的提取、验证、分类及可视化,并与期刊论文中的合成数据相集成,以构建综合性数据库。我们针对100篇期刊论文,以10种不同的开源及专有大语言模型对该框架进行了评估,旨在提取与陶瓷压电材料相关的高度复杂成分及其对应的压电应变系数(d33),此举源于此类材料大规模数据集的匮乏。DeepSeek-V3-0324模型以0.82的显著总体准确率优于所有模型。该框架为从海量文献中提取高度复杂的实验数据,以构建机器学习或深度学习数据集,提供了一个简洁、用户友好且即插即用的工具包。
近期探测研究表明,大型语言模型呈现出能区分真假陈述的线性子空间,但其形成机制尚不明确。我们引入一个透明的单层Transformer玩具模型,端到端复现此类真值子空间,并揭示其形成的具体路径。我们研究了一种真值编码可能出现的简单场景:在事实陈述与其它事实陈述共现(错误陈述同理)的数据分布下,模型为降低未来词元的语言建模损失而学习这种区分机制。我们通过预训练语言模型的实验验证了这一模式。最后在玩具场景中,我们观察到双阶段学习动态:网络首先通过少量步骤记忆个体事实关联,随后在更长时间跨度内学习线性区分真伪,从而降低语言建模损失。这些结果共同从机制层面和实证角度揭示了线性真值表征在语言模型中形成的方式与动因。