每日精选AI研究论文及翻译
大型语言模型(LLMs)能够生成流畅复杂的输出,却往往无法识别自身的错误与幻觉。现有方法通常依赖外部评判器、多样本一致性或基于文本的自我批判,这些方式要么增加计算开销,要么与真实正确性关联微弱。我们提出核心问题:LLMs能否通过推理过程中对内部状态的监测来预测自身失败?我们推出Gnosis——一种轻量级自我感知机制,使冻结参数的大型语言模型能够通过解码隐藏状态和注意力模式的信号,实现内在的自我验证。Gnosis被动观察内部轨迹,将其压缩为固定预算的描述符,并以可忽略的推理成本预测正确性,仅增加约500万参数且运算独立于序列长度。在数学推理、开放域问答和学术知识基准测试中,针对1.7B至20B参数的冻结模型骨干,Gnosis在准确性和校准度上持续超越强内部基线及大型外部评判器。此外,该机制能零样本泛化至部分生成结果,实现错误轨迹的早期检测与计算感知控制。这些结果表明,可靠的正确性线索内生于生成过程,且无需外部监督即可高效提取。
我们推出NextFlow——一个基于6万亿交错图文离散令牌训练的统一解码器自回归Transformer。通过将统一视觉表征融入统一自回归架构,NextFlow原生激活了多模态理解与生成能力,解锁了图像编辑、交错内容生成和视频生成等潜能。针对文本严格序列化而图像本质分层化的模态特性,我们保留文本的下一令牌预测机制,但对视觉生成采用下一尺度预测范式。这一创新突破了传统光栅扫描方法,仅需5秒即可生成1024x1024图像,比同类自回归模型快数个数量级。我们通过稳健的训练方案解决了多尺度生成的不稳定性问题,并引入面向强化学习的前缀调优策略。实验表明,NextFlow在统一模型中实现最先进性能,其视觉质量可与专业扩散模型相媲美。
本技术报告介绍了由LG AI Research开发的大规模多语言语言模型K-EXAONE。该模型基于混合专家架构构建,总参数量达2360亿,推理时激活参数为230亿。其支持256K令牌的上下文窗口,涵盖韩语、英语、西班牙语、德语、日语及越南语六种语言。我们在涵盖推理、智能体、通用能力、韩语及多语言能力的综合基准测试集上对K-EXAONE进行评估。各项评估表明,K-EXAONE展现出与同类规模开源模型相媲美的性能。K-EXAONE以"推动人工智能实现更美好生活"为设计理念,旨在成为适用于广泛工业与科研场景的强大专有AI基础模型。
视频换脸技术旨在将源身份无缝注入目标视频,同时精准保持原始姿态、表情、光照、背景及动态信息。现有方法难以在保持时序一致性的同时兼顾身份相似度与属性保留。为此,我们提出一个综合性框架,将图像换脸技术的优势无缝迁移至视频领域。我们首先设计新型数据流水线SyncID-Pipe,通过预训练身份锚定视频合成器并与图像换脸模型结合,构建双向身份四元组以实现显式监督。基于配对数据,我们提出首个基于扩散变换器的框架DreamID-V,其核心模态感知调节模块能 discriminatively 注入多模态条件。同时,我们提出合成到真实的课程学习机制与身份一致性强化学习策略,以增强复杂场景下的视觉真实感与身份一致性。针对基准数据匮乏的问题,我们构建了涵盖多样场景的综合评测基准IDBench-V。大量实验表明,DreamID-V在性能上超越现有最优方法,并展现出卓越的泛化能力,可无缝适配多种换脸相关任务。
视觉生成领域主要由三大范式主导:自回归模型、扩散模型以及视觉自回归模型。与自回归和扩散模型不同,VAR模型在生成过程中处理异构输入结构,这导致了严重的异步策略冲突。该问题在强化学习场景中尤为突出,易引发训练不稳定与目标对齐欠佳。为解决此问题,我们提出一种创新框架,通过显式管理这些冲突来增强分组相对策略优化。该方法融合了三个协同组件:1)用于引导早期生成阶段的稳定化中间奖励;2)实现精确信用分配的动态时间步重加权机制;3)基于奖励反馈学习原理设计的新型掩码传播算法,可在空间与时间维度同步隔离优化效应。实验表明,相较于原始GRPO基线,我们的方法在生成样本质量与目标对齐度上均取得显著提升,为VAR模型实现了稳健高效的优化。
通过在线强化学习对扩散模型进行微调,在提升文本-图像对齐方面展现出巨大潜力。然而,由于视觉任务中精确指定真实目标仍具挑战性,模型通常使用仅部分反映真实目标的代理奖励进行优化。这种不匹配常导致奖励破解现象——代理分数上升的同时真实图像质量下降,且生成多样性崩溃。现有方案通常通过添加针对参考策略的正则化来防止奖励破解,但由于参考策略通常非最优,这种做法会牺牲样本效率并阻碍对高奖励新区域的探索。为平衡样本效率、有效探索和奖励破解缓解这三重需求,我们提出门控自适应正则化与多样性感知优化框架(GARDO)。该通用框架可兼容多种强化学习算法,其核心思想在于:正则化无需普遍适用,而选择性惩罚高不确定性样本子集效果显著。针对探索难题,GARDO引入自适应正则化机制,定期更新参考模型以匹配在线策略能力,确保正则化目标始终相关。针对强化学习中的模式崩溃问题,GARDO通过放大兼具高质量与高多样性样本的奖励,在保持优化稳定性的同时促进模式覆盖。在多种代理奖励和留出未见指标上的实验表明,GARDO能有效缓解奖励破解并提升生成多样性,且不会牺牲样本效率或探索能力,彰显了其有效性与鲁棒性。
我们推出VINO——一个在单一框架内实现图像与视频生成及编辑的统一视觉生成器。不同于依赖任务专用模型或独立模态模块的传统方案,VINO采用共享的扩散主干网络,能够同时接受文本、图像和视频作为条件输入,从而在单一模型中实现广泛的视觉创作与编辑任务。具体而言,VINO将视觉语言模型(VLM)与多模态扩散Transformer(MMDiT)相结合,将多模态输入编码为交错的条件标记,进而引导扩散过程。该设计支持多参考锚定、长指令跟随以及静态动态内容间的连贯身份保持,同时避免了模态专用的架构组件。为训练这一统一系统,我们提出了多阶段训练流程,逐步将基础视频生成模型扩展为能同时处理图像与视频输入输出的统一多任务生成器。在多样化生成与编辑基准测试中,VINO展现出卓越的视觉质量、精准的指令跟随能力、优化的参考与属性保持效果,以及更可控的多身份编辑性能。我们的研究成果揭示了可扩展统一视觉生成的实际路径,并验证了交错式上下文计算作为通用视觉创作基础框架的巨大潜力。
实现持久、大规模三维视觉几何理解的宏伟愿景,长期以来受制于可扩展性与长期稳定性之间的根本性矛盾。虽然VGGT等离线模型展现出卓越的几何建模能力,但其批处理特性使其无法应用于实时系统。流式架构虽为实时运算而生,却存在固有缺陷:现有方法或无法支持真正无限时长的输入序列,或在长时序上面临灾难性漂移问题。我们提出的InfiniteVGGT突破了这一困境,该因果视觉几何变换器通过有界且自适应、持续表达性的KV缓存机制,实现了滚动内存的可操作化。基于此,我们设计了一种免训练、注意力机制无关的剪枝策略,智能淘汰过时信息,随着每帧新数据的输入实现内存的"滚动"更新。该架构完全兼容FlashAttention,最终消解了传统权衡,在实现无限时长流式处理的同时,其长期稳定性超越现有流式方法。此类系统的终极考验在于无限时长下的性能表现,由于极度缺乏长时序连续基准测试,该能力一直无法被严格验证。为此我们推出Long3D基准测试集,首次实现对约10,000帧连续序列的三维几何估计进行严格评估,为长期三维几何理解研究提供了权威验证平台。代码已开源:https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
我们从推理时扩展的视角出发,研究如何使大语言模型(LLM)能够处理任意长度的提示文本。我们提出递归语言模型(RLM),这是一种通用推理策略:将长提示文本视为外部环境的一部分,允许LLM以编程方式检查、分解提示片段,并递归调用自身进行处理。研究发现,RLM能成功处理超出模型上下文窗口两个数量级的输入;即使在较短提示场景下,其在四项不同的长上下文任务中也显著优于基础LLM和常见的长上下文框架,同时单次查询成本相当(或更低)。
本研究推出Falcon-H1R——一个70亿参数规模的推理优化模型,证明了小型语言模型(SLM)同样能实现具有竞争力的推理性能。该模型以参数效率著称,在多项推理密集型基准测试中,持续达到或超越参数量为其2至7倍的最先进推理模型的表现。这些成果凸显了精细数据筛选与针对性训练策略(通过高效监督微调与强化学习扩展相结合)的重要性,表明无需增加模型规模即可实现显著性能提升。此外,Falcon-H1R通过融合更快推理速度(基于混合并行架构设计)、更高令牌效率及更优精度,将推理效率的立体边界推向新高度。这种独特组合使Falcon-H1R-7B成为扩展高级推理系统的实用基础架构,尤其适用于需要大量思维链生成与并行测试时扩展的场景。借助最新提出的DeepConf方法,该模型实现了最先进的测试时扩展效率,在精度与计算成本方面均取得显著改进。Falcon-H1R由此证明:通过针对性模型训练与架构优化,紧凑模型同样能提供强大且可扩展的推理性能。
我们推出Talk2Move——一种基于强化学习的扩散框架,用于实现场景中物体的文本指令式空间变换。通过自然语言对场景中的物体进行空间操控,是多模态生成系统面临的一大挑战。现有基于文本的操控方法虽能调整物体外观或风格,但由于缺乏配对监督数据和像素级优化的限制,难以实现物体级别的几何变换(如平移、旋转或缩放)。Talk2Move采用群组相对策略优化(GRPO),通过输入图像和轻量级文本变体生成多样化推演来探索几何动作,无需昂贵的配对数据。空间奖励引导模型将几何变换与语言描述对齐,同时离轨步数评估和主动步数采样通过聚焦于信息丰富的变换阶段来提升学习效率。此外,我们设计了以物体为中心的空间奖励机制,直接评估位移、旋转和缩放行为,从而实现可解释且连贯的变换。在精选基准测试上的实验表明,Talk2Move能够实现精确、一致且语义保真的物体变换,在空间准确性和场景连贯性方面均优于现有文本引导编辑方法。
尽管置信度估计是缓解大语言模型幻觉现象的重要方向,但现有研究主要集中于单轮对话场景。在多轮对话中,随着上下文累积和歧义逐步消解,模型置信度的动态变化机制仍属研究空白。可靠的多轮置信度估计对自主智能体和人在回路的系统等下游应用至关重要。本研究首次对多轮交互中的置信度估计进行系统性探索,建立了基于双重核心诉求的正式评估框架:单轮校准性以及信息递增时置信度的单调性。为此我们提出了创新指标(包括长度归一化的预期校准误差InfoECE)和受控评估数据集生成的"提示者-猜测者"新范式。实验表明,主流置信度技术在多轮对话中难以保持校准性和单调性。我们提出的基于逻辑概率的探测方法P(Sufficient)取得了相对更优的性能,但该任务远未彻底解决。本研究为开发更可靠、可信的对话智能体奠定了方法论基础。
尽管大语言模型是强大的嵌入骨干网络,但在免训练场景中的应用面临两大结构性问题:因果注意力机制限制了早期令牌获取后续上下文的能力,而下一令牌预测目标使表征偏向生成任务而非语义压缩。为突破这些局限,我们提出KV-Embedding框架,旨在激活冻结大语言模型的潜在表征能力。该方法基于关键发现:每一层最终令牌的键值状态编码了序列的压缩视图。通过将这些状态重新路由为前置前缀,我们实现了所有令牌在单次前向传播中获取序列级上下文的能力。为确保模型无关的适用性,我们提出了基于本征维度的自动化层级选择策略。在Qwen、Mistral和Llama骨干网络上的MTEB评估表明,KV-Embedding相较现有免训练基线最高提升10%性能,且在长达4,096个令牌的序列上保持稳健表现。这些结果证明,内部状态操作为输入修改提供了高效替代方案,我们期待本研究能推动基于大语言模型内部机制的表示学习探索。
我们提出对比感知策略优化(CPPO),一种用于微调视觉语言模型(VLM)的新方法。虽然强化学习(RL)已推动语言模型的推理能力发展,但将其扩展至多模态推理需同时提升感知与推理能力。现有研究主要依赖显式感知奖励应对这一挑战,但解耦感知标记与推理标记存在困难:需要额外的大语言模型、真实标注数据、强制策略模型分离感知与推理功能,或对全部输出标记 indiscriminately 施加奖励。CPPO通过分析输入图像扰动下模型输出的熵变来检测感知标记,并在RL目标函数中引入对比感知损失(CPL)。该损失函数要求模型在信息保持型扰动下保持输出一致性,在信息消除型扰动下体现敏感性。实验表明,CPPO在无需额外模型的情况下超越了现有感知奖励方法,使训练更高效且具备扩展性。
从多视角图像中恢复人体网格面临一个根本性挑战:真实世界数据集包含有缺陷的真实标注,会导致模型训练产生偏差,而具有精确标注的合成数据又存在领域差异。本文提出DiffProxy这一创新框架,通过生成多视角一致的人体代理模型来解决网格恢复问题。该框架的核心在于利用基于扩散模型的生成先验,弥合合成数据训练与真实场景泛化之间的差距。其关键创新包括:(1) 多条件机制生成多视角一致、像素对齐的人体代理;(2) 结合灵活视觉提示的手部细化模块以增强局部细节;(3) 不确定性感知的测试时缩放方法,在优化过程中提升对挑战性案例的鲁棒性。这些设计确保网格恢复过程能有效利用精确的合成数据真值,同时发挥扩散模型流程的生成优势。仅使用合成数据训练的DiffProxy在五个真实世界基准测试中达到最先进性能,尤其在存在遮挡和局部视角的挑战性场景下展现出强大的零样本泛化能力。项目页面:https://wrk226.github.io/DiffProxy.html
随着大语言模型在从医疗到金融等高风险企业应用中的部署,确保其遵循组织特定政策已变得至关重要。然而现有安全评估仅聚焦于普适性风险。我们提出COMPASS(企业/组织政策对齐评估)框架,这是首个系统化评估LLM是否遵守组织白名单与黑名单政策的方法。通过应用于八大行业场景,我们生成并验证了5,920个测试查询,既检验常规合规性,又通过战略设计的边缘案例评估对抗鲁棒性。在对七个前沿模型的评估中,我们发现根本性不对称现象:模型能可靠处理合法请求(准确率>95%),却在执行禁令时出现灾难性失效,仅能拒绝13-40%的对抗性黑名单违规行为。这些结果表明当前LLM缺乏政策关键型部署所需的鲁棒性,COMPASS由此成为组织AI安全不可或缺的评估框架。
半监督遥感图像语义分割为缓解详尽标注负担提供了可行方案,但其本质上受困于伪标签漂移问题——这种因确认偏差导致训练过程中误差累积的现象。本文提出Co2S,一种融合视觉语言模型与自监督模型先验的稳定半监督遥感分割框架。具体而言,我们构建了异构双学生架构,包含分别基于预训练CLIP和DINOv3初始化的两种ViT视觉基础模型,以抑制误差累积和伪标签漂移。为有效整合这些异质先验,引入显式-隐式语义协同引导机制:利用文本嵌入和可学习查询分别提供显式与隐式类别级引导,从而协同增强语义一致性。此外,开发了全局-局部特征协同融合策略,将CLIP捕获的全局上下文信息与DINOv3提取的局部细节有效融合,使模型能生成高精度分割结果。在六个主流数据集上的大量实验表明,该方法在不同划分协议和多样场景下均能保持领先性能,彰显其优越性。项目页面详见https://xavierjiezou.github.io/Co2S/。
我们提出SWE-Lego——一种旨在实现软件工程问题解决领域最先进性能的监督微调方案。与依赖复杂训练范式(如预训练、监督微调、强化学习及其组合)的主流方法不同,我们探索如何将轻量级纯监督微调方法在软件工程任务中的性能推向极致。SWE-Lego包含三个核心构建模块,关键发现如下:1)SWE-Lego数据集包含3.2万个高质量任务实例和1.8万条已验证轨迹,融合真实数据与合成数据实现质量与数量的互补;2)采用错误掩码和难度分级课程的改进型监督微调流程,可显著提升动作质量与整体性能。实证结果表明,仅凭这两个构建模块,监督微调即可使SWE-Lego模型在同类规模开源模型中达到最优水平——在SWE-bench Verified基准上,SWE-Lego-Qwen3-8B达到42.2%,SWE-Lego-Qwen3-32B达到52.6%。3)我们在监督微调基础上进一步评估并改进测试时扩展策略。基于训练有素的验证器,SWE-Lego模型性能可获得显著提升:8B和32B模型在TTS@16设置下分别从42.2%提升至49.6%、从52.6%提升至58.8%。
在同行评审中,新颖性评估至关重要却充满挑战,评审人需要在海量且快速更新的文献中对投稿成果进行评判。本报告提出OpenNovelty——一个基于大语言模型的智能代理系统,能够实现透明化、基于证据的新颖性分析。该系统通过四阶段流程运作:(1)提取核心任务与贡献声明以生成检索查询;(2)通过语义搜索引擎基于查询获取相关已有研究;(3)构建核心任务相关工作的层次化分类体系,并从贡献层面进行全文对比;(4)整合所有分析形成结构化新颖性报告,附带明确引证与证据片段。与简单基于大语言模型的方法不同,OpenNovelty将所有评估锚定于真实检索到的论文,确保判断可验证。我们在500余篇ICLR 2026投稿中部署该系统,所有报告均公开于项目网站。初步分析表明,该系统能有效识别相关已有研究,包括作者可能忽略的密切关联文献。OpenNovelty旨在为科研社区提供可扩展的工具,推动公平、一致且基于证据的同行评审。
我们提出"物质音乐"这一生成框架,将物质的层级结构与音乐的创作逻辑相联结。从蛋白质、蜘蛛网到火焰动力学,振动与建筑原理以音阶层级、和声进行及长程音乐形式反复呈现。通过可逆映射——从分子光谱到乐音,从三维网络到可演奏乐器——我们揭示声音如何作为科学探针,实现认知反转:聆听成为观照方式,音乐创作化为物质蓝图。这些映射发掘深时:源自飞秒分子振动或亿年进化史的模式变得可闻。我们主张,当约束无法在现有自由度内满足时,科学与艺术的新颖性便随之涌现,迫使可行构型空间扩展。选择性不完美提供了恢复连贯性与适应性平衡的机制。对全部2^12种音阶的穷举枚举给出量化支持:具有文化意义的系统聚集于中熵-中缺陷通道,与霍尔-佩奇最优区间直接对应——中等缺陷密度使材料强度最大化。迭代这些映射在人类创造力与物理规律间催生创造性碰撞,当音乐结构遭遇进化约束时便生成新信息。我们展示基于群体智能的AI模型如何创作出具有类人结构特征的音乐,如小世界连通性、模块化整合、长程连贯性,这为超越插值迈向发明指明路径。科学和艺术皆是在约束下进行世界建构的生成行为,振动则是跨尺度组织结构的共享语法。
多标注者医学图像分割是重要的研究课题,但需要耗费高昂成本构建标注数据集。皮肤镜病灶成像技术使得人类专家和人工智能系统能够观察到常规临床照片无法辨别的形态学结构。然而目前尚缺乏包含标注者标签的大规模公开多标注者皮肤病灶分割数据集。我们推出ISIC MultiAnnot++——基于ISIC档案图像的大型公开多标注者皮肤病灶分割数据集。该最终数据集包含覆盖14,967张皮肤镜图像的17,684个分割掩码,其中2,394张图像每幅包含2-5个分割标注,使其成为当前最大的公开SLS数据集。此外,数据集还包含关于分割的元数据(如标注者技能水平与分割工具),支持开展标注者特异性偏好建模、标注者元数据分析等研究。我们对该数据集特征、整理的数据分区及共识分割掩码进行了系统性分析。
地理基础模型(GFMs)在语义分割、分类与回归等下游任务中已展现卓越性能。然而在基于Sen1Flood11数据集进行洪涝制图的任务中,GFMs难以超越基准U-Net模型,暴露出其捕捉关键局部细节的局限性。为此,我们提出Prithvi互补自适应融合编码器(CAFE),该架构将Prithvi GFM预训练编码器与卷积注意力模块增强的并行CNN残差分支相结合。Prithvi-CAFE通过适配器实现快速微调,并执行多尺度、多层次的CNN特征融合,在保持长程依赖关系的同时捕获关键局部特征。我们在Sen1Flood11和FloodPlanet两大洪涝制图数据集上取得领先成果:在Sen1Flood11测试集上,Prithvi-CAFE(交并比83.41)优于原始Prithvi(82.50)及其他主流GFMs(TerraMind 82.90、DOFA 81.54、spectralGPT 81.02);在保留测试区域表现更为突出,Prithvi-CAFE交并比达81.37,显著超越基准U-Net(70.57)和原始Prithvi(72.42)。在FloodPlanet数据集上,Prithvi-CAFE(交并比64.70)同样优于U-Net(60.14)、Terramind(62.33)、DOFA(59.15)和Prithvi 2.0(61.91)。这种简洁高效的架构证明,在多通道多模态数据提供互补信息且局部细节至关重要的分割任务中具有巨大潜力。代码已发布于https://github.com/Sk-2103/Prithvi-CAFE。
随着大语言模型(LLM)智能体越来越多地承担高风险自主决策任务,其推理过程的透明度已成为关键的安全问题。尽管思维链(CoT)提示技术能生成人类可读的推理轨迹,但这些轨迹究竟是模型输出的真实生成驱动力,抑或是事后合理化解释,目前尚不明确。我们推出Ariadne项目——一个创新可解释人工智能(XAI)框架,利用结构因果模型(SCMs)与反事实逻辑来审计智能体推理的因果完整性。与依赖表层文本相似度的现有可解释性方法不同,该项目通过对中间推理节点实施硬干预(do-演算),系统性地进行逻辑逆转、前提否定和事实主张反转,以量化终端答案的因果敏感度(φ)。针对前沿模型的实证研究揭示了持续存在的忠实性差距:我们定义并检测到一种普遍存在的故障模式“因果解耦”,在事实与科学领域智能体的违规密度(ρ)高达0.77。这些案例中,智能体在内部逻辑矛盾的情况下仍得出相同结论,证明其推理轨迹实为“推理剧场”,而决策过程实则受潜在参数先验支配。我们的研究表明当前智能体架构存在固有的事后解释风险,并提出将Ariadne评分作为衡量陈述逻辑与模型行动一致性的新基准。
文本到图像扩散模型可能生成有害或受版权保护的内容,这推动了概念擦除技术的研究。然而,现有方法主要集中于从文本提示中消除概念,忽视了在图像编辑和个性化生成等实际应用中日益重要的其他输入模态。这些模态可能成为攻击面,导致已擦除的概念绕过防御机制重新出现。为弥补这一空白,我们提出M-ErasureBench——一个新颖的多模态评估框架,系统性地在文本提示、学习嵌入和反转潜空间这三种输入模态下对概念擦除方法进行基准测试。针对后两种模态,我们分别评估白盒与黑盒访问场景,共形成五种测试情境。分析表明,现有方法对文本提示具有强擦除效果,但在学习嵌入和反转潜空间场景下大多失效,白盒设置中的概念复现率(CRR)超过90%。为解决这些漏洞,我们提出IRECE(推理时概念擦除鲁棒性增强),这是一种即插即用模块,通过交叉注意力定位目标概念并在去噪过程中扰动相关潜变量。实验证明,IRECE能持续恢复鲁棒性,在最具挑战性的白盒潜空间反转场景下将CRR降低达40%,同时保持视觉质量。据我们所知,M-ErasureBench首次建立了超越文本提示的全面概念擦除基准。结合IRECE,我们的研究为构建更可靠的保护性生成模型提供了实用保障方案。