HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

28 papers found

MiroThinker：通过模型扩展、上下文增强与交互优化突破开源研究智能体的性能边界
MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

Nov 14

ByMiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu

187

我们推出MiroThinker v1.0——一款专为推进工具增强推理与信息检索能力而设计的开源研究智能体。与先前仅扩大模型规模或上下文长度的智能体不同，MiroThinker开创性地探索模型层级的交互式扩展，通过系统性训练使模型能够处理更深层次、更高频次的智能体-环境交互，将其作为性能提升的第三维度。相较于孤立运行且长推理链易出现性能衰减的大语言模型测试时扩展，交互式扩展充分利用环境反馈与外部信息获取来修正错误并优化决策轨迹。通过强化学习，该模型实现了高效的交互扩展：在256K上下文窗口支持下，单任务可执行高达600次工具调用，支撑持续多轮推理与复杂现实研究流程。在GAIA、HLE、BrowseComp和BrowseComp-ZH四个代表性基准测试中，72B参数版本分别达到81.9%、37.7%、47.1%和55.6%的准确率，超越既往开源智能体并逼近GPT-5-high等商业模型。我们的分析表明，MiroThinker始终受益于交互式扩展：随着模型参与更深入频繁的智能体-环境交互，研究性能呈现可预测的提升，证明交互深度具有与模型规模、上下文长度类似的扩展规律。这些发现确立了交互扩展作为构建下一代开源研究智能体的第三关键维度，与模型容量和上下文窗口形成互补。

Souper-Model：简单算术如何解锁大型语言模型的顶尖性能
Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

Nov 17

ByShalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach

136

大型语言模型（LLMs）已在多个领域展现出卓越能力，但其训练过程仍需要消耗大量资源和时间，不仅依赖大规模算力支撑，还需精细协调训练流程。模型融合（model souping）——即对同架构多个模型的权重进行平均化处理——已成为一种颇具前景的训练前/后优化技术，可在避免昂贵重复训练的前提下提升模型性能。本文提出类别专家融合法（SoCE），该方法通过基准测试组合识别最优模型候选集，并采用非均匀加权平均来最大化性能，为模型融合提供了系统化实现路径。与先前采用均匀加权的方法不同，我们的方法基于一个重要发现：不同基准测试类别在模型性能表现上往往具有低相关性。SoCE通过识别弱相关类别簇中的“专家”模型，采用优化后的非均匀加权策略进行融合。实验表明，该方法在多语言能力、工具调用、数学推理等多个领域均能提升模型性能与鲁棒性，并在伯克利函数调用排行榜上取得了最先进的结果。

P1：运用强化学习攻克物理奥林匹克竞赛
P1: Mastering Physics Olympiads with Reinforcement Learning

Nov 17

ByJiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui

134

近期，大型语言模型（LLMs）的进展已将其前沿从解决谜题推进至科学级推理——这种推理能力旨在应对那些答案必须经得起自然检验，而不仅仅是符合评分标准的问题。物理学是这一转变最为严苛的测试场，它以根本的方式将符号与现实紧密相连，成为多数现代技术的基石。在本研究中，我们通过开发具备卓越物理推理能力的大型语言模型，成功推动了物理学研究，特别是在解决奥林匹克级别的物理问题上表现突出。我们推出了P1系列，这是一组完全通过强化学习（RL）训练的开源物理推理模型。其中，P1-235B-A22B是首个在最新国际物理奥林匹克竞赛（IPhO 2025）中达到金牌表现的开源模型，并在2024/2025年间的13项国际/地区物理竞赛中斩获12枚金牌。P1-30B-A3B同样在IPhO 2025上超越了几乎所有其他开源模型，获得银牌。进一步配备代理框架PhysicsMinions后，P1-235B-A22B+PhysicsMinions在IPhO 2025上综合排名第一，并在13项物理竞赛中取得最高平均分。除物理外，P1系列模型在数学、编程等其他推理任务上也展现出优异性能，彰显了P1系列强大的泛化能力。

Uni-MoE-2.0-Omni：基于先进MoE架构、训练与数据的大规模语言核心全模态模型
Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

Nov 16

ByYunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang

105

我们推出荔枝家族系列新品Uni-MoE 2.0。作为完全开源的全模态大模型（OLM），该模型在语言核心的多模态理解、推理与生成能力上显著推进了荔枝Uni-MoE系列的技术边界。基于Qwen2.5-7B稠密架构，我们通过三大核心贡献从零构建了Uni-MoE-2.0-Omni：动态容量的混合专家（MoE）设计、结合迭代强化策略的渐进式训练方法，以及精心构建的多模态数据匹配技术。该模型具备全模态理解能力，并可生成图像、文本与语音。在架构层面，新型MoE框架通过共享专家、路由专家与空置专家的协同机制，在10种跨模态输入场景中平衡计算效率与模型能力；而全模态3D旋转位置编码（Omni-Modality 3D RoPE）则确保自注意力层的时空跨模态对齐。训练策略上，在跨模态预训练后采用渐进式监督微调，激活模态专属专家模块，并通过均衡数据组合与迭代式GSPO-DPO方法增强训练稳定性与推理能力。数据方面，基座模型在约750亿token的开源多模态数据上训练，配备专用语音与图像生成标记，使其能基于语言线索学习生成任务。在85个基准测试的广泛评估中，本模型在领先全模态大模型中实现SOTA或极具竞争力的性能，在76个基准中超过50项超越Qwen2.5-Omni（训练token量1.2万亿）。核心优势包括视频理解（8项任务平均提升7%）、全模态理解（4项任务平均提升7%）及音视频推理（提升4%），同时实现了长语音处理（词错误率降低4.2%）的突破，并在5项指标上领跑底层图像处理与可控生成任务。

Part-X-MLLM：具备部件感知能力的3D多模态大语言模型
Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Nov 17

ByChunshi Wang, Junliang Ye, Yunhan Yang, Yang Li, Zizhuo Lin, Jun Zhu, Zhuo Chen, Yawei Luo, Chunchao Guo

我们推出Part-X-MLLM——一个原生3D多模态大语言模型，通过将多样化3维任务构建为结构化可执行语法中的程序，实现了任务统一。给定RGB点云与自然语言提示，该模型能自回归生成单一连贯的标记序列，编码部件级边界框、语义描述及编辑指令。这种结构化输出作为通用接口，可驱动下游几何感知模块进行基于部件的生成与编辑。通过将符号规划与几何合成解耦，我们的方法使得任何兼容的几何引擎都能通过单一的语言原生前端进行控制。我们预训练了双编码器架构以实现结构与语义的分离，并在大规模部件中心数据集上对模型进行指令微调。实验表明，该模型能生成高质量的结构化方案，通过统一接口在具身问答、组合生成及局部化编辑任务中实现最先进性能。项目页面：https://chunshi.wang/Part-X-MLLM/

MMaDA-并行：面向思维感知编辑与生成的多模态大扩散语言模型
MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Nov 12

ByYe Tian, Ling Yang, Jiongfan Yang, Anran Wang, Yu Tian, Jiani Zheng, Haochen Wang, Zhiyang Teng, Zhuochen Wang, Yinjie Wang, Yunhai Tong, Mengdi Wang, Xiangtai Li

在思维感知生成技术致力于提升复杂任务性能的同时，我们发现现有序列化自回归方法存在关键失效模式——由于错误传播反而可能导致性能下降。为系统分析该问题，我们提出ParaBench基准测试框架，专门用于评估文本与图像两种输出模态。基于ParaBench的分析表明，这种性能退化与生成推理过程和最终图像之间的错位高度相关。为此，我们提出并行多模态扩散框架MMaDA-Parallel，通过在完整去噪轨迹中实现文本与图像的持续双向交互来解决该问题。该框架先通过监督微调进行训练，再采用新型并行强化学习策略（ParaRL）进行优化——该策略沿轨迹施加语义奖励以强化跨模态一致性。实验验证表明，我们的模型显著提升了跨模态对齐与语义一致性，在ParaBench上相比最先进的Bagel模型实现了6.9%的输出对齐度提升，为思维感知图像合成建立了更稳健的范式。代码已开源：https://github.com/tyfeld/MMaDA-Parallel

返璞归真：让去噪生成模型专注去噪
Back to Basics: Let Denoising Generative Models Denoise

Nov 17

ByTianhong Li, Kaiming He

当今的去噪扩散模型并非传统意义上的"去噪"，即它们并不直接预测干净图像。相反，神经网络预测的是噪声或含噪量。本文提出，预测干净数据与预测含噪量存在本质区别。根据流形假设，自然数据应位于低维流形上，而含噪量则不然。基于此假设，我们倡导直接预测干净数据的模型，这使得表观容量不足的网络能在极高维空间中有效运作。我们证明，在像素层面使用简单的大尺寸补丁Transformer即可成为强大的生成模型：无需标记器、预训练或额外损失函数。我们的方法在概念上仅是"纯图像Transformer"（简称JiT）。通过在ImageNet数据集256×256和512×512分辨率上使用16和32的大补丁尺寸，JiT取得了具有竞争力的结果——而在这些场景下预测高维含噪量可能导致灾难性失败。通过让网络回归流形的基本原理，我们的研究返璞归真，为基于Transformer的原始自然数据扩散建立了一个自包含的范式。

GroupRank：一种基于强化学习的群体重排序新范式
GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

Nov 10

ByDuolin Sun, Meixiu Long, Dan Yang, Yihan Jiao, Zhehao Tan, Jie Feng, Junjie Wang, Yue Shen, Peng Wei, Jian Wang, Jinjie Gu

大型语言模型展现出作为重排序器的强大潜力，能够有效提升RAG系统的整体性能。然而现有重排序范式始终受困于一个核心的理论与实践困境：点式方法虽简单灵活，但独立评估文档的特性使其易陷入"排序短视陷阱"，难以捕捉文档间的相对重要性；而列式方法虽能感知全局排序上下文，却存在固有的"列表刚性缺陷"，在处理大规模候选集时面临严重的可扩展性与灵活性挑战。为突破这些局限，我们提出分组式重排序新范式。该方法将查询与候选文档组共同输入模型，通过组内比较为每个文档分配独立相关性分数，在保留点式方法灵活性的同时兼具列式方法的对比能力。我们进一步采用GRPO进行模型训练，配备融合排序指标与分布奖励的异构奖励函数，以实现跨组分数分布的对齐。针对高质量标注数据稀缺的瓶颈，我们创新性地提出高质量检索排序数据合成流程，生成的数据不仅可用于训练重排序器，还能用于训练检索器。大量实验验证了方法的有效性：在BRIGHT和R2MED两个推理密集型检索基准测试中均取得显著提升。

PhysX-Anything：基于单张图像的仿真就绪物理三维资产生成
PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image

Nov 17

ByZiang Cao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu

三维建模正从静态视觉呈现转向可直接用于仿真与交互的物理化可动资产。然而，现有三维生成方法大多忽视了关键的物理属性与可动结构，限制了其在具身智能领域的应用价值。为弥补这一空白，我们推出PhysX-Anything——首个面向仿真应用的物理三维生成框架，能够基于单张真实场景图像生成具备显式几何、可动结构与物理属性的高质量仿真就绪三维资产。具体而言，我们提出首个基于视觉语言模型（VLM）的物理三维生成模型，并创新性地设计了一种高效表征几何信息的三维表示方法。该方法将表征所需标记数量降低193倍，使得在标准VLM标记预算内实现显式几何学习成为可能，且无需在微调阶段引入特殊标记，显著提升了生成质量。此外，为克服现有物理三维数据集多样性不足的问题，我们构建了PhysX-Mobility数据集，将原有物理三维数据集的物体类别扩展2倍以上，包含2000余个常见真实物体并附带丰富物理标注。在PhysX-Mobility数据集和真实场景图像上的大量实验表明，PhysX-Anything具有出色的生成性能与稳健的泛化能力。基于MuJoCo风格环境的仿真实验进一步验证了我们的仿真就绪资产可直接用于接触密集型的机器人策略学习。我们相信PhysX-Anything将有力推动下游应用的发展，特别是在具身智能与物理仿真领域。

TiViBench：面向视频生成模型的视频内思维推理基准测试
TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Nov 17

ByHarold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen

视频生成模型的快速发展已使其关注点从产生视觉上合理的结果转向处理需要物理合理性和逻辑一致性的任务。然而，尽管近期出现了如Veo 3的帧链推理等突破性进展，这些模型是否能展现类似大语言模型（LLMs）的推理能力仍不明确。现有基准主要评估视觉保真度和时序连贯性，未能捕捉高阶推理能力。为填补这一空白，我们提出TiViBench——一个专门评估图像到视频（I2V）生成模型推理能力的分层基准。TiViBench系统性地从四个维度评估推理能力：i)结构推理与搜索、ii)空间与视觉模式推理、iii)符号与逻辑推理、iv)行动规划与任务执行，涵盖3个难度级别下的24个多样化任务场景。通过广泛评估，我们发现商业模型（如Sora 2、Veo 3.1）展现出更强的推理潜力，而开源模型虽存在未开发潜力，但仍受限于训练规模和数据多样性的不足。为释放这种潜力，我们受偏好优化启发提出了VideoTPO——一种简单有效的测试时策略。该方法通过LLM对生成候选结果进行自我分析以识别优劣，无需额外训练、数据或奖励模型即可显著提升推理性能。TiViBench与VideoTPO共同为评估和推进视频生成模型的推理能力开辟了新路径，为这一新兴领域的未来研究奠定了基础。

进化方法而非提示：针对大型语言模型越狱攻击的进化式合成
Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

Nov 16

ByYunhao Chen, Xin Wang, Juncheng Li, Yixu Wang, Jie Li, Yan Teng, Yingchun Wang, Xingjun Ma

针对大型语言模型（LLMs）的自动化红队测试框架已日趋精密，但它们存在一个根本性局限：其越狱逻辑仅局限于选择、组合或优化既有攻击策略。这种约束限制了框架的创造性，使其无法自主发明全新的攻击机制。为突破这一局限，我们提出EvoSynth——一种将范式从攻击规划转变为越狱方法进化合成的自主框架。与优化提示词不同，EvoSynth采用多智能体系统自主设计、进化并执行基于代码的新型攻击算法。其核心特性在于代码级自我修正循环，能够根据失败反馈迭代重写自身攻击逻辑。通过大量实验，我们证明EvoSynth不仅在对Claude-Sonnet-4.5等高鲁棒性模型的测试中达到85.5%的攻击成功率（ASR），刷新当前最佳水平，而且生成的攻击方法多样性显著超越现有技术。我们开源此框架以促进越狱方法进化合成这一新方向的研究。代码地址：https://github.com/dongdongunique/EvoSynth。

UFO^3：编织数字智能体银河
UFO^3: Weaving the Digital Agent Galaxy

Nov 14

ByChaoyun Zhang, Liqun Li, He Huang, Chiming Ni, Bo Qiao, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

基于大语言模型（LLM）的智能体正将数字设备从被动工具转变为主动智能协作伙伴。然而现有框架大多局限于单一操作系统或设备，导致跨设备工作流脆弱且高度依赖人工操作。我们提出UFO^3系统，它将异构终端、桌面端、服务器、移动设备与边缘计算节点统一整合为协同编排架构。该系统将用户请求建模为可动态演化的任务星群：即通过显式控制流与数据依赖关系（TaskStarLines）连接的原子化子任务（TaskStars）所构成的分布式有向无环图（DAG）。随着分布式设备的结果流持续输入，任务星群实时演化，支持异步执行、自适应恢复与动态优化。星群协调器在实施动态DAG更新的同时安全异步执行任务，而智能体交互协议（AIP）则通过持久化低延迟通道实现可靠的任务调度与结果流传输。这些设计打破了设备与平台间的传统壁垒，使智能体能够无缝协作并放大集体智能。我们在NebulaBench基准测试集上评估UFO^3，该数据集涵盖5类设备、10个应用场景的55项跨设备任务。实验表明：UFO^3实现83.3%的子任务完成率与70.9%的整体任务成功率，平均并行宽度达1.72，端到端延迟较串行基线降低31%。故障注入实验验证系统在瞬时性与永久性智能体故障下仍能实现优雅降级与恢复。这些结果证明UFO^3能够在异构设备间实现精准、高效、鲁棒的任务编排，将孤立智能体融合为横跨普适计算领域的协同自适应计算架构。

NORA-1.5：基于世界模型与行为偏好奖励训练的视觉-语言-行为模型
NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

Nov 18

ByChia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria

视觉-语言-动作（VLA）模型近期在各类具身任务中展现出良好性能，但其可靠性与泛化能力仍存在不足，尤其在跨智能体部署或真实环境应用时表现明显。本研究基于预训练的NORA主干网络，通过引入基于流匹配的动作专家模块，构建了NORA-1.5模型。仅此架构增强就带来了显著的性能提升，使NORA-1.5在仿真与真实场景基准测试中均超越原NORA模型及多个前沿VLA模型。为进一步增强鲁棒性与任务完成率，我们开发了一套用于后训练VLA策略的奖励模型。该奖励体系融合了：（i）动作条件世界模型（WM），用于评估生成动作是否导向目标；（ii）基于真实轨迹偏差的启发式规则，用于区分动作优劣。利用这些奖励信号，我们构建偏好数据集，并通过直接偏好优化（DPO）使NORA-1.5适配目标智能体。大量实验表明，奖励驱动的后训练能持续提升模型在仿真与真实机器人环境中的表现，通过简洁高效的奖励模型显著增强VLA模型的可靠性。我们的研究证明，NORA-1.5结合奖励引导的后训练是开发现实场景适用、高可信度具身智能体的有效路径。

UnSAMv2：自监督学习实现任意粒度下的通用分割
UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

Nov 17

ByJunwei Yu, Trevor Darrell, XuDong Wang

Segment Anything Model（SAM）系列已成为广泛采用的视觉基础模型，但其分割粒度控制能力仍存在局限。用户常需通过手动添加提示或从预生成掩码中选择来细化结果，以实现理想细节水平。这一过程存在模糊性——相同提示可能对应多个合理掩码，且全粒度密集标注成本高昂，使得监督式解决方案难以实现。为突破此限制，我们提出UnSAMv2模型，无需人工标注即可实现任意粒度分割。该模型延展了UnSAM的分治策略，通过发掘海量掩码-粒度配对关系，引入新型粒度控制嵌入模块，实现对分割尺度的精准连续调控。值得注意的是，仅使用6千张无标注图像和0.02%的附加参数量，UnSAMv2就显著增强了SAM-2模型，在交互式、全图像及视频分割任务中实现任意粒度分割。在超过11个基准测试中，UnSAMv2将NoC₉₀（5.69→4.75）、1-IoU（58.0→73.1）和AR₁₀₀₀（49.6→68.3）等指标显著提升，证明结合粒度感知自监督学习方法，少量无标注数据即可释放视觉基础模型的潜力。

WebCoach：具备跨会话记忆引导能力的自我进化网络智能体
WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

Nov 17

ByGenglin Liu, Shijie Geng, Sha Li, Hejie Cui, Sarah Zhang, Xin Liu, Tianyi Liu

近日，多模态大语言模型智能体在网络浏览任务中展现出卓越能力，能够完成跨领域的复杂网页操作。然而现有智能体仍存在重复性错误问题，且缺乏跨会话经验学习能力，制约了其长期鲁棒性与样本效率。我们提出WebCoach——一种与模型无关的自进化框架，通过赋予网页浏览智能体持续性的跨会话记忆能力，在不重新训练的前提下实现长期规划、反思与持续学习。该框架包含三大核心组件：（1）WebCondenser模块，将原始浏览日志标准化为精简摘要；（2）外部记忆存储库，将完整操作轨迹组织为情景化经验；（3）教练模块，基于相似度与时效性检索相关经验，并通过运行时钩子决定是否向智能体注入任务建议。该设计使网页智能体能够突破原生上下文窗口限制，访问长期记忆资源，从而提升复杂浏览任务的稳定性。此外，WebCoach通过持续整理新导航轨迹中的情景记忆实现自我进化，使智能体无需重训练即可持续优化。在WebVoyager基准测试中，WebCoach在三种不同大语言模型基座上均显著提升浏览智能体性能：使用38B参数模型时，任务成功率从47%提升至61%，同时保持或减少平均操作步数。值得注意的是，搭载WebCoach的较小基座模型可实现与使用GPT-4o的同类网页智能体相媲美的性能表现。

OlmoEarth：面向多模态地球观测的稳定潜在图像建模
OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

Nov 17

ByHenry Herzog, Favyen Bastani, Yawen Zhang, Gabriel Tseng, Joseph Redmon, Hadrien Sablon, Ryan Park, Jacob Morrison, Alexandra Buraczynski, Karen Farley, Joshua Hansen, Andrew Howe, Patrick Alan Johnson, Mark Otterlee, Ted Schmitt, Hunter Pitelka, Stephen Daspit, Rachel Ratner, Christopher Wilhelm, Sebastian Wood, Mike Jacobi, Hannah Kerner, Evan Shelhamer, Ali Farhadi, Ranjay Krishna, Patrick Beukema

地球观测数据呈现出独特的挑战性：它既具备图像的空间特性，又拥有视频或文本的序列特征，且具有高度多模态性。我们推出OlmoEarth——一个专为地球观测领域设计的多模态时空基础模型，其创新性地采用了自监督学习框架、掩码策略与损失函数。在与12种其他基础模型的多项研究基准及外部合作伙伴实际任务对比中，OlmoEarth实现了最先进的性能表现。在嵌入评估中，该模型在24项任务中的15项取得最佳性能；经全参数微调后，更在29项任务中的19项位列第一。我们将OlmoEarth部署为端到端平台的核心引擎，该平台集成了地球观测模型的数据采集、标注、训练与推理全流程。OlmoEarth平台将前沿基础模型与强大数据管理工具赋能给致力于解决全球重大问题的非营利组织与非政府机构。项目开源代码、训练数据及预训练权重已发布于https://github.com/allenai/olmoearth_pretrain。

实时软件工程智能体：软件工程智能体能否实现动态自我演进？
Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

Nov 17

ByChunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang

大型语言模型（LLM）正在重塑包括软件工程在内的几乎所有行业。近年来，研究者提出了多种LLM智能体来解决现实世界的软件问题。这类软件智能体通常配备一套编码工具，能够自主决定后续动作以形成完整轨迹，从而解决端到端的软件任务。尽管前景广阔，但由于彻底穷尽智能体框架设计空间极具挑战且成本高昂，现有方案通常需要专门设计且可能仍非最优。考虑到软件智能体本质上是可进一步优化/修改的软件，研究者近期提出了多种自改进软件智能体，包括达尔文-哥德尔机（DGM）。然而，这类自改进智能体需要在特定基准测试上进行昂贵的离线训练，且可能难以在不同LLM或基准测试间良好泛化。本文提出Live-SWE-agent——首个能在解决现实软件问题过程中实时自主持续演化的在线软件智能体。具体而言，Live-SWE-agent从仅配备bash工具的最基础智能体框架（如mini-SWE-agent）起步，在解决实际软件问题时自主演化其框架实现。在广泛研究的SWE-bench Verified基准测试中，Live-SWE-agent无需测试时扩展即可达到75.4%的惊人解决率，超越所有现有开源软件智能体，逼近最佳专有方案的性能。此外，在最新的SWE-Bench Pro基准测试中，Live-SWE-agent以45.8%的解决率超越最先进的人工设计软件智能体，创下当前最佳纪录。

基因组下一标记预测器具备上下文学习能力
Genomic Next-Token Predictors are In-Context Learners

Nov 16

ByNathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi

情境学习（ICL）——即模型从输入中的示例推断并应用抽象模式的能力——已在基于人类文本进行下一词预测训练的大语言模型中得到广泛研究。事实上，先前研究常将这种涌现能力归因于人类语言独特的统计特性。这引出一个根本性问题：情境学习能否通过纯大规模预测训练，在其他序列领域自然涌现？为探究此问题，我们转向基因组序列这一富含统计结构的替代符号领域。具体而言，我们研究了以下一核苷酸（A/T/C/G）预测为主要训练目标、规模与中型LLM相当的Evo2基因组模型。我们构建了受控实验框架，包含语言和基因组形式下的符号推理任务，从而实现对基因组与语言模型情境学习的直接比较。研究结果表明，随着情境示例数量的增加，基因组模型与语言模型类似，在模式归纳上表现出对数线性增益。据我们所知，这是基因组序列中自然涌现情境学习的首个证据，支持了“情境学习是大规模预测建模在丰富数据上的必然产物”这一假说。这些发现将涌现元学习拓展至语言之外，为构建跨模态的情境学习统一理论指明了方向。

评估大型语言模型在知识图谱中的偶然发现能力：以药物重定位为例
Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing

Nov 16

ByMengying Wang, Chenhui Ma, Ao Jiao, Tuo Liang, Pengjun Lu, Shrinidhi Hegde, Yu Yin, Evren Gurkan-Cavusoglu, Yinghui Wu

大型语言模型（LLMs）显著推动了知识图谱问答（KGQA）的发展，然而现有系统通常针对返回高相关性但可预测的答案进行优化。当前缺失但亟需的能力是利用LLMs提供令人惊喜的新颖（"意外发现"式）答案。本文正式定义了具备意外发现感知能力的KGQA任务，并提出SerenQA框架以评估LLMs在科学KGQA任务中挖掘意外洞察的能力。SerenQA包含基于相关性、新颖性和惊喜度的严谨意外发现度量标准，以及源自临床知识图谱、聚焦于药物重定位的专家标注基准。该框架还设计了结构化评估流程，涵盖知识检索、子图推理和意外发现探索三个子任务。实验表明，尽管前沿LLMs在检索任务上表现良好，但在识别真正具有惊喜度与价值的新发现方面仍存在不足，这凸显了未来改进的重要空间。我们整理的资源及扩展版本已发布于：https://cwru-db-group.github.io/serenQA。

MicroVQA++：面向多模态大语言模型的高质量显微图像推理数据集与弱监督图结构
MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

Nov 14

ByManyu Li, Ruian He, Chenxi Ma, Weimin Tan, Bo Yan

多模态大语言模型在生物医学影像领域的应用日益广泛，但显微成像领域的科学推理仍受限于大规模高质量训练数据的稀缺。我们推出MicroVQA++——一个基于BIOMEDICA档案构建的三阶段、大规模高质量显微视觉问答语料库。第一阶段通过同行评审论文中专家验证的图注对实现监督引导；第二阶段应用HiCQA-Graph新型异质图（覆盖图像、图注和问答），融合基于NLI的文本蕴含、CLIP驱动的视觉-语言对齐以及智能体信号，以识别并过滤不一致样本；第三阶段采用多模态大语言模型智能体生成多选题，并经过人工筛查。最终发布版本包含大规模训练集和经人工校验的测试集，其布鲁姆分类难度样本分布超越MicroVQA基准。本研究的贡献包括：（i）通过专家文献与图过滤及人工精校相结合的质量控制数据集；（ii）首个联合建模（图像、图注、问答）三元组以实现跨模态一致性过滤的HiCQA-Graph；（iii）证明精细数据构建能使40亿参数级MLLM达到媲美GPT-5的显微推理性能，并在开源MLLM中实现最优效果。代码与数据集将在评审结束后公开。

Instella：全开放语言模型，展现卓越性能
Instella: Fully Open Language Models with Stellar Performance

Nov 13

ByJiang Liu, Jialian Wu, Xiaodong Yu, Yusheng Su, Prakamya Mishra, Gowtham Ramesh, Sudhanshu Ranjan, Chaitanya Manem, Ximeng Sun, Ze Wang, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum

大型语言模型（LLMs）已在广泛任务中展现出卓越性能，但多数高性能模型仍保持闭源或部分开放，限制了研究的透明度和可复现性。本研究推出Instella系列——一个完全基于开放数据和代码库训练的三百亿参数全开源语言模型家族。依托AMD Instinct MI300X GPU的算力支持，Instella通过大规模预训练、通用指令微调以及与人类偏好的对齐训练得以开发。尽管预训练词元数量显著少于同期多数模型，Instella在全开源模型中取得了领先性能，并与同规模的主流开放权重模型相媲美。我们进一步发布两个专用变体：支持128K词元长上下文处理的Instella-Long，以及通过数学任务监督微调和强化学习增强的推理专用模型Instella-Math。这些成果共同确立了Instella作为透明、高效、多用途社区替代方案的定位，推动了开放可复现语言模型研究的发展。

测试时频谱感知隐空间导向实现视觉语言模型的零样本泛化
Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models

Nov 12

ByKonstantinos M. Dafnis, Dimitris N. Metaxas

视觉语言模型在零样本推理方面表现卓越，但面对测试时的域偏移时常出现性能下降。为此，基于片段的测试时自适应策略近期成为将VLMs适配至单张无标注图像的有效方法。然而现有自适应策略（如测试时提示调优）通常需要对大型编码器权重进行反向传播或修改核心模型组件。本研究提出频谱感知测试时导向框架，该轻量化自适应框架从文本嵌入中提取频谱子空间以定义主语义方向，通过适配少量样本偏移参数来最小化增强视图间的信息熵，实现频谱感知的隐空间表征导向。STS完全在推理阶段于隐空间运行，无需对冻结编码器进行反向传播或结构修改。基于标准评估协议的综合实验表明，STS在多数情况下显著超越或媲美最先进的测试时自适应方法，同时仅引入极少额外参数，推理速度提升高达8倍，内存占用较传统测试时提示调优减少12倍。代码已开源：https://github.com/kdafnis/STS。

动态反射：基于文本对齐的视频表征探析
Dynamic Reflections: Probing Video Representations with Text Alignment

Nov 4

ByTyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov

近期研究表明，不同模态表征的对齐能够揭示跨数据类型编码器的结构相似性与下游任务能力。尽管图像-文本对齐已取得显著进展，但视频数据的时序特性在此领域的探索仍显不足。本研究首次对视频-文本表征对齐展开系统性探索，深入剖析现代视频与语言编码器的能力。我们的发现揭示了若干关键洞见：首先，实验证明跨模态对齐高度依赖于测试时提供的视觉（静态图像vs多帧视频）与文本（单句描述vs文本集合）数据的丰富度，这一现象在使用前沿视频编码器时尤为显著。我们提出的参数化测试规模定律精准捕捉了该规律，并显示出对实证结果的卓越预测能力。其次，我们探究了语义对齐与语义/非语义下游任务性能的关联性，初步证据表明与文本编码器的强对齐可能关联着通用视频表征与理解能力。最后，我们将时序推理与跨模态对齐建立关联，为视觉-语言模型提供了具有挑战性的测试基准。总体而言，本研究提出视频-文本对齐作为一种零样本评估方法，可有效探测编码器对时空数据的表征能力。项目页面详见：https://video-prh.github.io/

SafeGRPO：基于规则引导策略优化的自奖励多模态安全对齐
SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

Nov 17

ByXuankun Rong, Wenke Huang, Tingfeng Wang, Daiguo Zhou, Bo Du, Mang Ye

多模态大语言模型（MLLMs）已展现出卓越的推理与指令跟随能力，但其扩展的多模态空间引入了由复杂图文交互产生的新型组合式安全风险。这种跨模态耦合即使在各输入内容无害时仍可能生成不安全语义，暴露出当前MLLMs脆弱的安全意识。尽管近期研究通过引导模型推理潜在风险来增强安全性，但未经规制的推理轨迹可能破坏对齐效果；虽然群体相对策略优化（GRPO）可实现无需人工监督的自奖励优化，但其缺乏可验证的推理安全信号。为此，我们提出SafeGRPO——一种融合规则化奖励构建机制的自奖励多模态安全对齐框架，通过将可解释的奖励建构融入GRPO，实现可验证的推理安全优化。基于构建的包含显式视觉、文本及组合安全标签的SafeTag-VL-3K数据集，SafeGRPO执行步骤引导的安全思维以强化结构化推理和行为对齐，在保持通用能力的同时，显著提升了多模态安全意识、组合鲁棒性及跨基准测试的推理稳定性。

LoCoBench-Agent：面向长上下文软件工程的智能体交互式基准测试框架
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

Nov 17

ByJielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang

随着大语言模型（LLM）逐渐演变为能够执行复杂软件开发任务的自主智能体，评估其实际能力变得至关重要。现有基准测试（如LoCoBench~qiu2025locobench）虽能评估长上下文代码理解能力，但仅关注单轮评估，无法捕捉现实编码智能体所需的多轮交互特性、工具使用模式和自适应推理能力。我们推出LoCoBench-Agent——一个专为评估LLM智能体在真实长上下文软件工程工作流中表现而设计的综合评估框架。该框架将LoCoBench的8,000个场景扩展为交互式智能体环境，系统评估多轮对话、工具使用效率、错误恢复能力以及长周期开发中的架构一致性。我们还提出包含9项评估指标的方法论，涵盖理解力与效率维度。框架为智能体提供8种专用工具（文件操作、搜索、代码分析），并在10K至1M令牌的上下文长度范围内进行评估，实现对长上下文性能的精准度量。通过对前沿模型的系统评估，我们获得关键发现：（1）智能体展现出显著的长上下文鲁棒性；（2）理解力与效率存在负相关的权衡关系，深入探索会提升理解力但降低效率；（3）不同模型的对话效率差异显著，策略性工具使用模式是高性能智能体的关键区分点。作为首个面向软件工程的长上下文LLM智能体基准，LoCoBench-Agent为衡量智能体能力、识别性能差距及推进规模化自主软件开发奠定了严谨基础。

AI销售员：构建可信赖的大语言模型驱动电话营销系统
AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing

Nov 15

ByQingyu Zhang, Chunlei Xin, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Qing Ye, Qianlong Xie, Xingxing Wang

面向目标驱动的说服性对话（如电话销售场景）需要复杂多轮规划与严格事实遵循，这对当前最先进的大语言模型仍构成重大挑战。现有研究常受限于领域数据匮乏，而直接应用大语言模型存在策略脆弱性和事实幻觉问题。本文首先构建并发布了业界首个基于真实场景的电话销售对话数据集TeleSalesCorpus，继而提出具有双阶段架构的创新框架AI-Salesman。在训练阶段，我们设计了贝叶斯监督强化学习算法，从含噪对话中学习稳健销售策略；在推理阶段，引入动态大纲引导智能体（DOGA），通过预建脚本库实现动态分轮次策略指导。此外，我们构建了结合细粒度销售技能指标与LLM-as-a-Judge范式的综合评估体系。实验表明，AI-Salesman在自动指标和综合人工评估中均显著优于基线模型，展现了其在复杂说服场景中的卓越效能。

基于区块链保障信源可靠性的去中心化检索增强生成系统
A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain

Nov 10

ByYining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang

现有的检索增强生成（RAG）系统通常采用集中式架构，导致数据收集、整合与管理成本高昂，并引发隐私担忧。业界亟需一种去中心化的RAG系统，使基础模型能够直接从数据所有者处获取信息，同时确保数据源完全由所有者掌控。然而去中心化带来了一项挑战：大量独立数据源的可靠性差异显著，可能降低检索精度和响应质量。为此，我们提出的去中心化RAG系统创新性地引入了可信度评分机制，该机制根据各数据源对生成响应的贡献质量进行动态评估，并在检索过程中优先选择高质量数据源。为确保透明度和可信度，评分流程通过基于区块链的智能合约进行安全管理，无需中央机构即可生成可验证、防篡改的可信度记录。我们使用两个Llama模型（3B和8B）在模拟环境中评估系统性能，其中六个数据源具有不同可信度。在模拟真实世界不可靠数据环境时，本系统相较集中式系统实现了10.7%的性能提升；在理想可靠数据环境下，其性能更接近集中式系统的理论上限。该去中心化基础设施通过批量更新操作实现了约56%的边际成本节约，同时保障了评分管理的安全可信。我们的代码与系统已在github.com/yining610/Reliable-dRAG开源。

OpenUS：基于自适应掩码对比学习的全开源超声图像分析基础模型
OpenUS: A Fully Open-Source Foundation Model for Ultrasound Image Analysis via Self-Adaptive Masked Contrastive Learning

Nov 14

ByXiaoyu Zheng, Xu Chen, Awais Rauf, Qifan Fu, Benedetta Monosi, Felice Rivellese, Myles J. Lewis, Shaogang Gong, Gregory Slabaugh

超声成像(US)凭借其低成本、便携性、实时反馈和无电离辐射等优势，已成为应用最广泛的医学影像技术之一。然而，超声图像解读高度依赖操作者经验，且在不同解剖区域、采集协议和设备类型间存在显著差异。这些变异以及斑点噪声、低对比度和标准化标注稀缺等独特挑战，制约了可泛化、低标注依赖的超声AI模型的开发。本文提出首个基于大规模公共数据的可复现开源超声基础模型OpenUS，其采用视觉Mamba架构，能同时捕捉图像的局部特征与全局长程依赖关系。为在预训练阶段提取丰富特征，我们创新性地结合对比学习与掩码图像建模，提出自适应掩码框架——通过融合教师模型的注意力图与学生模型的重建损失，动态优化临床相关区域的掩码策略以提升预训练效能。该模型还采用动态学习调度机制，逐步调整预训练任务难度。为构建基础模型，我们整合了迄今最大的公共超声数据集，涵盖42个公开来源的30.8万张图像，涉及多解剖部位、医疗机构、成像设备及疾病类型。预训练完成的OpenUS模型可作为骨干网络，通过少量标注数据微调即可快速适配下游任务。代码已开源：https://github.com/XZheng0427/OpenUS。