每日精选AI研究论文及翻译
从单张图像中理解物体的三维结构是空间智能的基石。实现这一目标的关键步骤是单目三维目标检测——从输入的RGB图像中还原物体的尺寸、位置和朝向。为在开放世界中具备实用价值,此类检测器必须突破封闭类别限制实现泛化,支持多样化的提示模态,并能有效利用可用的几何线索。当前进展面临两大瓶颈:现有方法仅针对单一提示类型设计,缺乏融入额外几何线索的机制;现有三维数据集仅覆盖受控环境下的有限类别,制约了开放世界的迁移应用。本研究同时解决了这两个问题。首先,我们提出WildDet3D这一统一的地理感知架构,原生支持文本、点和框三种提示方式,并能在推理时融合辅助深度信号。其次,我们构建了迄今最大的开放三维检测数据集WildDet3D-Data,通过从现有二维标注生成候选三维框并仅保留人工验证结果,最终涵盖13.5万个类别超过100万张图像,覆盖多样化的真实场景。WildDet3D在多个基准测试和设定下均实现了最先进性能:在开放世界设定下,新提出的WildDet3D-Bench基准上文本/框提示分别达到22.6/24.8 AP3D;在Omni3D数据集上文本/框提示分别达到34.2/36.4 AP3D;在零样本评估中,于Argoverse 2和ScanNet上分别实现40.3/48.9 ODS。值得注意的是,推理时引入深度线索能带来显著性能提升(各设定平均提升+20.7 AP)。
制造业正加速采用多模态大语言模型(MLLMs)以实现从简单感知到自主执行的转型,然而现有评估方法难以反映真实制造环境的严苛需求。数据稀缺与现有数据集缺乏细粒度领域语义的问题制约了该领域发展。为弥补这一空白,我们推出FORGE框架。我们首先构建了融合真实世界二维图像与三维点云的高质量多模态数据集,并标注了细粒度领域语义(如精确型号)。随后在工件验证、结构面检测与装配验证三项制造任务中评估了18个前沿MLLMs,揭示了显著性能差距。与传统认知相反,瓶颈分析表明视觉定位并非主要限制因素,领域特定知识不足才是关键瓶颈,这为未来研究指明了方向。除评估外,我们还证明结构化标注可作为有效的训练资源:基于我们数据对紧凑型30亿参数模型进行监督微调后,其在未参与训练的制造场景中准确率最高提升90.8%,为领域自适应制造MLLMs的实践路径提供了初步证据。代码与数据集详见https://ai4manufacturing.github.io/forge-web。
本技术报告介绍了LG AI Research发布的首个开放权重视觉语言模型EXAONE 4.5。该模型通过在现有EXAONE 4.0框架中集成专用视觉编码器,实现了视觉与文本模态的原生多模态预训练。经过对大规模数据的精细筛选与训练,特别是重点采用与LG战略应用领域契合的文档中心型语料,该模型在文档理解及相关任务上取得显著性能提升,同时通用语言能力也获得全面增强。EXAONE 4.5将上下文长度扩展至256K标记,可支持长上下文推理与企业级应用场景。对比评估表明,该模型在通用基准测试中展现出竞争力,同时在文档理解和韩语语境推理任务上超越了同规模的最先进模型。作为LG持续推进工业级实际部署的一部分,EXAONE 4.5将持续扩展更多领域和应用场景,以"推进人工智能,创造更美好生活"为愿景。
随着交互式视频生成技术的进步,扩散模型日益展现出作为世界模型的潜力。然而,现有方法仍难以同时实现具备记忆能力的长时序一致性及高分辨率实时生成,这限制了其在实际场景中的应用。为此,我们推出Matrix-Game 3.0——一个专为720p长视频实时生成设计的记忆增强型交互世界模型。在Matrix-Game 2.0基础上,我们从数据、模型和推理三个维度进行了系统性升级。首先,我们开发了升级版工业级无限数据引擎,通过整合基于虚幻引擎的合成数据、AAA游戏大规模自动化采集以及真实世界视频增强技术,实现了高质量“视频-姿态-动作-提示词”四元组数据的规模化生产。其次,我们提出了长时序一致性训练框架:通过建模预测残差并在训练中重新注入不完美生成帧,使基础模型学会自我校正;同时,相机感知的记忆检索与注入机制使基础模型能够实现长跨度时空一致性。第三,我们基于分布匹配蒸馏(DMD)设计了多段自回归蒸馏策略,结合模型量化和VAE解码器剪枝,实现了高效实时推理。实验结果表明,Matrix-Game 3.0在5B参数规模下可实现720p分辨率下最高40 FPS的实时生成,并在分钟级序列中保持稳定的记忆一致性。将模型扩展至2x14B规模后,生成质量、动态效果和泛化能力得到进一步提升。本方法为构建可工业部署的世界模型提供了可行路径。
我们提出区域特定图像精细化作为一个专门的问题设定:给定输入图像和用户指定区域(如涂鸦掩码或边界框),目标是在严格保持所有未编辑像素不变的同时恢复细粒度细节。尽管图像生成技术发展迅速,现代模型仍常出现局部细节崩塌问题(如扭曲的文字、标识和纤细结构)。现有的指令驱动编辑模型侧重于粗粒度语义编辑,往往忽略细微局部缺陷或意外改变背景,尤其在感兴趣区域仅占固定分辨率输入图像一小部分时更为明显。基于反直觉的观察——裁剪缩放能显著改善固定VAE输入分辨率下的局部重建效果,我们提出Focus-and-Refine策略:通过区域聚焦的精细化-粘贴回方法,将分辨率预算重新分配给目标区域,同时采用混合掩码粘贴回机制确保严格背景保留。我们还引入边界感知的边界一致性损失函数来减少接缝伪影并提升粘贴自然度。为支持这一新设定,我们构建了Refine-30K数据集(含2万参考样本和1万无参考样本),并提出RefineEval基准测试,同时评估编辑区域保真度与背景一致性。在RefineEval上,RefineAnything相较于基线模型实现显著改进,达到近乎完美的背景保留效果,为高精度局部精细化提供了实用解决方案。项目页面:https://limuloo.github.io/RefineAnything/。
我们提出弹性循环变换器(ELT)——基于循环变换器架构的高参数效率视觉生成模型。传统生成模型依赖深层堆叠的独立变换器层,而我们的方法采用迭代式权重共享变换器块,在保持高合成质量的同时大幅降低参数量。为有效训练这些图像与视频生成模型,我们提出"循环内自蒸馏"(ILSD)方法,通过从教师配置(最大训练循环数)蒸馏至学生配置(中间循环数),确保单步训练中模型深度的一致性。该框架通过单次训练即可获得弹性模型家族,实现具备"任意时刻"推理能力的动态计算成本与生成质量权衡,且参数量保持不变。ELT显著推动了视觉合成的效率边界:在等推理计算量设置下参数量减少4倍的同时,在类别条件ImageNet 256×256数据集上达到2.0的竞争性FID分数,在类别条件UCF-101数据集上实现72.8的FVD分数。
胸部X光报告生成(CXR-RG)技术有望显著减轻放射科医生的工作负担。然而,传统自回归视觉语言模型(VLM)因采用序列化令牌解码而存在高推理延迟问题。基于扩散的模型通过并行生成提供了有前景的替代方案,但仍需多次去噪迭代。将多步去噪压缩至单步可进一步降低延迟,但令牌分解去噪器引入的均值场偏差往往会导致文本连贯性下降。为解决这一挑战,我们提出ECHO——一种高效的基于扩散的视觉语言模型(dVLM),专用于胸部X光报告生成。ECHO通过新型直接条件蒸馏(DCD)框架实现稳定的单步分块推理,该框架通过从策略内扩散轨迹构建非分解监督来编码令牌联合依赖关系,从而克服均值场限制。此外,我们引入响应非对称扩散(RAD)训练策略,在保持模型效能的同时进一步提升训练效率。大量实验表明,ECHO在RaTE和SemScore指标上分别超越现有最优自回归方法64.33%和60.58%,在实现8倍推理加速的同时保持了临床准确性。
大型语言模型(LLM)及基于LLM的智能体正日益作为规划与决策助手被广泛应用,然而现有系统大多隐式遵循单一主体交互范式——模型被设计为满足单一主导用户的目标,其指令被视为唯一权威来源与效用标准。但随着这些系统被整合到团队工作流和组织工具中,它们越来越多地需要同时服务多个用户,每个用户都具有不同的角色、偏好和权限级别,从而形成多用户、多主体场景,不可避免地引发目标冲突、信息不对称和隐私约束等问题。本研究首次对多用户LLM智能体展开系统性探索。我们首先将多用户与LLM智能体的交互形式化为多主体决策问题,即单个智能体需协调多个潜在利益冲突用户及其相关挑战。随后提出统一的多用户交互协议,并设计三种针对性压力测试场景,以评估现有LLM在指令遵循、隐私保护和协同协作方面的能力。实验结果表明系统性缺陷:前沿LLM在用户目标冲突时难以保持稳定的优先级排序,在多轮交互中隐私泄露风险递增,且在需要迭代信息收集的协同场景中出现效率瓶颈。
基于去中心化数据并行与流水线并行技术,大语言模型的分布式后训练实现了数据和模型的分割处理。然而这种去中心化后训练模式容易遭受单个或多个恶意参与者的投毒攻击与后门攻击。目前已有若干研究针对去中心化数据并行或联邦学习的攻防机制展开探讨,但现有关于流水线并行鲁棒性的研究仍局限于投毒攻击范畴。据我们所知,本文首次提出了针对流水线并行的后门攻击方案,旨在诱导训练后的模型产生行为偏差。在我们的设定中,攻击者仅控制流水线的中间阶段而非整个模型或数据集,这使得数据投毒等传统攻击手段失效。实验结果表明,即使受限于局部攻击能力,攻击者仍能在后训练阶段成功植入后门并导致模型行为失准,且该攻击效果与所学领域或数据集无关。通过实施我们的攻击,触发词的引入使模型对齐率从80%降至6%。我们进一步通过对最终模型施加安全对齐训练来验证攻击鲁棒性,实验证明该后门攻击在60%的案例中依然有效。
随着大语言模型(LLMs)逐渐演变为面向长期信息搜索的自主智能体,有限上下文容量的管理已成为关键瓶颈。现有上下文管理方法通常在整个任务轨迹中采用单一固定策略,此类静态设计在某些状态下可能表现良好,但无法适应长期搜索过程中累积上下文的有用性与可靠性动态演变的特性。为系统化这一挑战,我们提出了一个概率框架,通过搜索效率与终端精度这两个互补维度来刻画长期任务的成功机制。基于此视角,我们提出AgentSwing——一种状态感知的自适应并行上下文管理路由框架。在每个触发点,AgentSwing并行扩展多个上下文管理分支,并通过前瞻式路由选择最具潜力的延续路径。在多样化基准测试和智能体骨干网络上的实验表明,AgentSwing始终优于强力的静态上下文管理方法,通常能以最多减少3倍的交互轮次达到或超越其性能,同时提升长期网络智能体的终极性能上限。除实证优势外,该概率框架为分析和设计面向长期智能体的上下文管理策略提供了理论视角。
人类对视频动态的理解通常基于对实体、动作及时间关系的结构化心理表征,而非单纯依赖即时演绎推理。相比之下,现有视频大语言模型多采用非结构化推理模式,关键视觉证据被淹没在冗长的文本描述中,时间因果关系建模也较为薄弱,导致推理效率低下且因果推断脆弱。为弥合这一认知差距,我们提出在推理阶段前构建包含关键事件及其因果关系的紧凑表征——"结构化事件事实"。这种结构化先验通过显式约束促进简洁且因果可溯的推理,同时使中间证据更易于验证。 为有效训练基于此类结构化事实的模型,我们开发了CausalFact-60K数据集及四阶段训练流程,包括事实对齐、格式预热、思维预热和基于强化学习的后训练。在强化学习阶段,我们发现该框架存在目标冲突:结构完整性与因果保真度需与推理长度进行权衡,导致优化困难。为此,我们将优化问题构建为多目标强化学习任务,通过显式优化帕累托前沿来平衡这些权衡。最终推出的Factum-4B模型在需要细粒度时间推理的复杂视频理解任务中,实现了更可靠的推理能力和更优异的性能表现。
视觉语言模型(VLM)在空间理解和视角识别等视觉感知任务上仍存在明显不足。一个关键原因在于自然图像数据集对底层视觉技能提供的监督信息有限。这引出了一个现实问题:仅通过任务关键词(如深度顺序)生成的定向合成监督能否解决这些缺陷?为探究此问题,我们提出VisionFoundry——一种任务感知型合成数据生成流程,仅需输入任务名称即可利用大语言模型(LLM)生成问题、答案和文生图提示,再通过文生图模型合成图像,并借助专有VLM验证一致性,整个过程无需参考图像或人工标注。基于该流程,我们构建了包含10个任务、1万组图像-问题-答案三元组的合成视觉问答数据集VisionFoundry-10K。使用该数据集训练的模型在视觉感知基准测试中取得显著提升:MMVP指标提升7%,CV-Bench-3D指标提升10%,同时保持广泛能力,并随数据量增加呈现良好的扩展性。研究结果表明,缺乏任务定向监督是当前瓶颈的重要成因,而合成监督为构建更系统化的VLM训练路径提供了可行方案。
当前,许多学科领域都需要对大规模文档集进行自然语言研究提问,其答案通常需要结构化证据支撑。传统方法依赖人工设计标注框架并对语料库进行穷尽式标注,这一过程既缓慢又易出错。我们推出的ScheMatiQ系统,通过调用核心大语言模型,能够根据问题与语料库自动生成结构化框架及基于证据的数据库,并配备可引导和修正提取过程的网络交互界面。通过与领域专家合作,我们证明ScheMatiQ在法学与计算生物学领域的实际分析中能有效产出支持性成果。现将ScheMatiQ作为开源项目发布,提供公共网络接口,诚邀各学科专家使用自有数据进行探索。所有资源(包括网站、源代码及演示视频)均可在以下网址获取:www.ScheMatiQ-ai.com
要精准预测复杂多样场景的演化过程,需要模型具备表征不确定性的能力、执行长序列交互仿真的能力,以及高效探索多种合理未来的能力。然而现有方法大多依赖稠密视频或潜空间预测,将大量计算资源耗费在稠密外观特征上,而非关注场景中稀疏的点轨迹这一本质要素。这导致大规模未来假设探索成本高昂,且在长时程、多模态运动预测任务中性能受限。我们通过将开放集场景动态预测构建为基于稀疏点轨迹的逐步推理来解决该问题。我们的自回归扩散模型通过局部可预测的短时状态推进这些轨迹,显式建模随时间增长的不确定性。这种以动力学为核心的表征方式能够从单张图像快速推演出数千种不同未来,并支持通过运动初始约束进行定向生成,同时保持物理合理性与长程一致性。我们还提出了OWM基准数据集——基于多样化真实世界视频的开放集运动预测评估体系,用于衡量真实不确定性环境下轨迹分布预测的准确性与多样性。本方法在预测精度上媲美甚至超越稠密仿真器,同时实现数量级级的采样加速,使开放集未来预测兼具可扩展性与实用性。项目页面:http://compvis.github.io/myriad。
大型语言模型(LLM)经过对齐训练以避免有害行为,但由此产生的安全防护仍显脆弱:越狱攻击常能绕过防护,而针对特定领域的微调可能引发广泛泛化的"突发错位"现象。这种脆弱性是否反映了模型内部缺乏对有害性的连贯组织结构尚不明确。本研究通过定向权重剪裁作为因果干预手段,探究LLM内部有害性的组织机制。我们发现有害内容生成依赖于一组跨危害类型通用、且与良性能力相区分的紧凑权重。对齐模型相较于未对齐模型表现出更强的有害生成权重压缩特性,表明对齐过程在内部重构了有害表征——尽管表层安全防护存在脆弱性。这种压缩现象解释了突发错位:若有害能力权重被压缩,在某一领域微调激活这些权重可能引发广泛错位。与此一致的是,在特定领域剪裁有害生成权重可显著缓解突发错位。值得注意的是,LLM的有害生成能力与其识别解释此类内容的能力存在解耦。这些发现共同揭示了LLM内部存在连贯的有害性组织结构,或可为构建更系统的安全方法奠定基础。
提示优化通过搜索更优的系统提示词来改进语言模型,而无需更新其权重,但其效果在不同任务间差异显著。本研究旨在探究任务适合提示优化的关键因素。我们发现不同系统提示词间的奖励方差可分解为两个部分:响应间方差(反映生成随机性)和系统提示词间方差(反映提示词质量差异)。当系统提示词间方差足够大时提示优化容易成功,但当响应间方差占主导地位时优化则会失败。令人惊讶的是,进一步研究表明扩大用户提示词规模反而可能削弱优化效果——这会降低系统提示词间方差,尤其在异构数据集上(不同用户提示词适配不同系统提示词)。基于此发现,我们提出p1方法:通过筛选在候选系统提示词上表现方差较大的用户提示词构成小型子集。该子集能有效区分优质与劣质系统提示词,从而简化系统优化流程。在推理基准测试上的实验表明,p1相较于全数据集训练显著提升提示优化效果,并超越GEPA等强基线方法。值得注意的是,仅使用AIME 24中的两个提示词进行训练,所得系统提示词就能良好泛化至其他推理基准测试。
随着SE(3)等变图神经网络成为三维原子建模的核心工具,提升其效率、表达能力和物理一致性已成为大规模应用的核心挑战。本文推出第三代SE(3)等变图注意力Transformer模型EquiformerV3,该模型在效率、表达能力和通用性三个维度实现同步突破。基于EquiformerV2的架构,我们实现了三项关键改进:首先通过软件实现优化获得1.75倍加速;其次引入简洁有效的架构改进,包括等变融合层归一化、优化的前馈网络超参数以及平滑截断注意力机制;最后提出SwiGLU-S^2激活函数,通过引入多体相互作用提升理论表达能力,在降低S^2网格采样复杂度的同时保持严格等变性。SwiGLU-S^2激活与平滑截断注意力机制共同实现了对平滑变化势能面(PES)的精确建模,使EquiformerV3可推广至需要能量守恒模拟和PES高阶导数的任务。结合非平衡结构去噪(DeNS)辅助训练策略,改进后的模型在OC20、OMat24和Matbench Discovery基准测试中达到了最先进水平。
在知识密集型领域进行推理仍具挑战性,因为中间步骤往往无法局部验证:与数学或代码不同,评估步骤正确性可能需要综合来自大型外部知识源的线索。这导致细微错误可能通过推理链传播,且难以被察觉。先前研究提出了过程奖励模型(PRM)及其检索增强变体,但这些方法均采用事后评分机制,无法融入动态推理过程。本文提出过程奖励智能体(PRA),一种在推理时为冻结策略提供领域化、在线式、逐步骤奖励的新方法。与现有检索增强PRM不同,PRA支持基于搜索的解码方式,能在每个生成步骤对候选推理路径进行排序和剪枝。在多个医学推理基准测试上的实验表明,PRA始终优于强基线模型,在MedQA数据集上使用千问3-4B模型达到80.8%的准确率,创下4B参数规模的新纪录。值得注意的是,PRA可泛化至参数规模从0.5B到8B的未知冻结策略模型,无需更新策略模型即可最高提升25.7%的准确率。更广泛地说,PRA开创了将冻结推理器与领域特定奖励模块解耦的新范式,使得新骨干模型无需重新训练即可部署于复杂领域。
说话人脸生成作为生成模型的核心应用已获得广泛关注。为提升合成视频的表现力与真实感,情感编辑在其中起着关键作用。然而现有方法常受限于表现灵活性,难以生成复杂延伸情感。基于标签的方法使用离散类别表征情感,无法捕捉广泛的情感谱系;基于音频的方法虽能利用富含情感的语音信号(甚至受益于富有表现力的文本转语音合成),但由于情感与语言内容在情感语音中相互纠缠,难以准确表达目标情感;基于图像的方法依赖目标参考图像引导情感迁移,但需要高质量正面人脸视图,且在获取复杂延伸情感(如讽刺)的参考数据时面临挑战。为解决这些局限,我们提出跨模态情感迁移框架C-MET,该方法通过建模语音与视觉特征空间之间的情感语义向量,实现基于语音驱动的人脸表情生成。C-MET利用大规模预训练音频编码器与解耦的面部表情编码器,学习表征跨模态不同情感嵌入差异的情感语义向量。在MEAD和CREMA-D数据集上的大量实验表明,本方法的情感准确率较现有最优技术提升14%,并能生成富有表现力的说话人脸视频——即使对于未见的复杂延伸情感亦有效。代码、检查点及演示见https://chanhyeok-choi.github.io/C-MET/。
本研究揭示了先进视觉语言模型(VLMs)在基础几何变换下的根本脆弱性。尽管现代VLM在语义任务(如识别标准方向的对象和描述复杂场景)上表现出色,但在更基础的层面却存在系统性缺陷:缺乏可靠判断物体在简单旋转、缩放及恒等变换下身份所需的空间不变性与等变性。通过跨符号草图、自然照片和抽象艺术等多视觉领域的系统评估,我们验证了这一局限性。当语义内容趋于稀疏时,模型性能急剧下降,且该现象普遍存在于不同架构、模型容量及提示策略中。总体而言,我们的结果揭示了当前VLM在语义理解与空间推理之间存在的系统性差距,凸显了未来多模态系统亟需加强几何基础能力建设。
诠释是解读艺术语言的关键:观众通过从视觉作品中复原意义来与艺术家进行交流。然而当前生成艺术(GenArt)的评估方法仍局限于表面图像质量或对文本提示的字面遵循,未能考量创作者意图传递的深层象征或抽象意义。为弥补这一不足,我们通过形式化皮尔士符号学理论,将人机艺术交互(HGI)建模为级联符号过程。该框架揭示艺术意义通过三种模式传递——像似性、象征性和指示性,而现有评估方法主要停留在像似性模式,对后两者存在结构性盲区。为突破这种结构性局限,我们提出SemJudge评估器。该方法通过分层符号图(HSG)重构从文本提示到生成作品的意义建构过程,显式评估HGI中的象征性与指示性意义。大量定量实验表明,在注重诠释的精细艺术基准测试中,SemJudge比现有评估方法更贴近人类判断。用户研究进一步证明SemJudge能产生更具深度和洞察力的艺术解读,从而推动GenArt从生成"美观"图像向表达复杂人类经验的媒介演进。项目页面:https://github.com/songrise/SemJudge。
创造性思维是人类认知的基本特征,而作为其核心生成引擎的发散性思维——即产生新颖多元想法的能力——已获得广泛认同。大型语言模型(LLM)近期在发散性思维测试中展现出卓越表现,先前研究亦表明任务性能越高的模型与人类大脑活动越趋一致。然而现有脑-LML对齐研究多聚焦于被动型非创造性任务。本研究利用170名参与者执行替代用途任务(AUT)时的功能磁共振成像数据,探索创造性思维过程中的脑模型对齐机制。我们提取了不同规模(2.7亿-720亿参数)LLM的表征,通过表征相似性分析(RSA)测量其与大脑反应的对齐度,重点关注与创造力相关的默认模式网络和额顶网络。研究发现:脑-LML对齐度随模型规模(仅默认模式网络)和想法原创性(双网络)提升而增强,且在创造性过程初期效应最为显著。我们进一步揭示训练后目标会以功能选择性方式塑造对齐模式:经过创造力优化的Llama-3.1-8B-Instruct模型能保持与高创造力神经响应的对齐,同时降低与低创造力响应的关联;经人类行为微调的模型则提升与两者的对齐度;而推理训练变体呈现相反模式,表明思维链训练会使表征偏离创造性神经几何结构转向分析性处理。这些结果证实,训练后目标能针对人类创造性思维的神经几何特征,对LLM表征进行选择性重塑。
扩散模型及其变体(如整流流)能够生成多样化且高质量的图像,但因其学习到的高度弯曲生成路径导致的迭代采样速度缓慢问题仍待解决。先前研究表明,高曲率的重要成因在于源分布(标准高斯分布)与数据分布之间的独立性。本研究通过两项互补性贡献突破这一局限:首先提出κ-FC通用框架,通过引入与数据分布更匹配的任意信号κ来打破标准高斯假设;随后推出MixFlow训练策略——该策略通过在固定无条件分布与基于κ-FC的分布之间进行线性混合来训练流模型,有效降低生成路径曲率并显著提升采样效率。这种混合方法不仅增强了源分布与数据分布的匹配度,还能以更少采样步骤获得更优生成质量,并大幅加速训练收敛。在固定采样预算下,我们的训练方案相比标准整流流将FID指标平均提升12%,较现有基线方法提升7%。代码详见:https://github.com/NazirNayal8/MixFlow
尽管大语言模型(LLMs)在标准数学基准测试中表现出色,但其底层推理过程仍高度依赖于标准文本格式。我们提出一个包含14种扰动技术的评估流程,用于检验LLM推理的鲁棒性。该流程应用于AIME 2024数据集,并对8个前沿模型进行测试。结果显示:前沿模型展现出较强韧性,而开源权重推理模型出现灾难性崩溃(扰动场景下平均准确率最高下降55%,部分情况达100%),暴露出结构性缺陷。为区分机械解析失败与下游推理失败,我们通过强制模型在单一上下文窗口中连续求解多个未扰动数学问题,严格隔离其工作记忆容量。实验表明,从7B到120B参数的开源权重模型及Claude Opus 4.6在后续问题中均出现准确率衰减。这种退化证明中间推理步骤会永久污染标准的稠密注意力机制。我们主张,要实现可靠推理,未来推理架构必须在模型自身的思维链中整合显式上下文重置机制,由此引发出关于原子推理任务最优粒度的根本性开放问题。
传统的大语言模型基准测试主要评估助手轮次:模型根据输入生成回复,验证器评判正确性后分析即告结束。这种范式无法衡量LLM是否对其回复后的对话发展具有认知能力。我们提出用户轮生成作为这一空白的探测方法:给定包含用户查询和助手回复的对话上下文,让模型以用户角色生成内容。若模型参数编码了交互意识,所生成的用户轮次应能基于前述上下文作出接地气的延续回应。通过对11个开源权重LLM(Qwen3.5、gpt-oss、GLM等)和5个数据集(数学推理、指令遵循、对话等)的实验表明,交互意识与任务准确性相互解耦。以Qwen3.5系列为例,GSM8K准确率从41%(0.8B)提升至96.8%(397B-A17B),但确定性生成下的真实延续率仍接近零;而采用更高温度采样时,交互意识呈潜伏态显现,延续率可达22%。受控扰动实验验证了该探测方法确实衡量了模型的真实属性,对Qwen3.5-2B进行协作导向的后训练则使延续率提升。我们的结果表明,用户轮生成捕捉到了LLM行为的新维度——交互意识,这一维度在当前仅关注助手表现的基准测试中尚未被探索且不可见。
文本到音视频生成技术正迅速成为媒体创作的核心交互方式,但其评估体系仍存在碎片化问题。现有基准大多孤立评估音频或视频质量,或依赖粗糙的嵌入相似度,难以捕捉现实提示词所要求的细粒度联合准确性。我们推出AVGen-Bench——一个面向T2AV生成的任务驱动型基准测试平台,涵盖11个现实场景类别的高质量提示词。为支持全面评估,我们提出多粒度评估框架,将轻量级专家模型与多模态大语言模型相结合,实现从感知质量到细粒度语义可控性的全方位评估。实验结果表明,当前系统在强视听美学表现与弱语义可靠性之间存在显著差距,包括文本渲染持续失效、语音连贯性不足、物理推理缺陷,以及音乐音高控制的普遍失准。代码与基准资源详见http://aka.ms/avgenbench。
相机可控视频生成技术旨在合成具有灵活且物理合理的摄像机运动的视频。然而,现有方法要么通过文本提示提供不精确的相机控制,要么依赖费时费力的人工设定相机轨迹参数,限制了其在自动化场景中的应用。为解决这些问题,我们提出了一种新颖的视觉-语言-相机模型CT-1(相机变换器1),该专用模型通过精确估计相机轨迹,将空间推理知识迁移至视频生成领域。基于视觉语言模块和扩散变换器模型构建的CT-1,在频域采用基于小波变换的正则化损失函数,有效学习复杂的相机轨迹分布。这些轨迹被集成到视频扩散模型中,实现符合用户意图的空间感知相机控制。为支持CT-1的训练,我们设计了专门的数据处理流程,构建了包含超4700万帧的大规模数据集CT-200K。实验结果表明,我们的框架成功弥合了空间推理与视频合成之间的鸿沟,生成忠实且高质量的相机可控视频,并将相机控制精度较现有方法提升25.7%。
加法量化技术通过O(1)查表反量化实现了大语言模型的极致压缩,使其在边缘部署中极具吸引力。然而在2比特精度下,即使经过大量搜索和微调,该技术仍常出现灾难性失效。我们发现其核心瓶颈在于码本初始化——贪婪序列初始化常使模型陷入不良优化区域,后续的波束搜索和参数微调难以修正。通过表征比率ho=N/KM(表征权重组与码本容量的关系)分析这一现象后,我们提出OA-EM:一种基于Hessian加权马氏距离的输出感知EM初始化方法。在多种压缩率、搜索预算及三种架构(Llama 3.2 3B/ Llama 3.1 8B/ Qwen 2.5 3B)的测试中,OA-EM经参数微调后始终能获得更优解,并在质量-计算效率边界上保持领先。该瓶颈的严重程度随ho值变化:3比特每参数时表现中等,但在2比特每参数时极为突出——不当初始化会使困惑度恶化数个数量级。更广泛而言,我们的研究揭示了压缩模型空间中优化几何的重要性:初始化可能主导后续搜索与微调的效果。
推测性采样(SpS)通过利用较小的草稿模型,成功提升了自回归大语言模型的解码吞吐量。该技术严格约束生成分布与验证器LLM的分布保持一致,但这种约束存在不必要的严格性——验证器分布的轻微变动(如采用top-k或温度采样)通常也可被接受。典型接受采样(TAS)通过基于熵的启发式方法接受更多标记来缓解此问题,然而这种方法会扭曲验证器分布,当验证器编码关键信息时可能降低输出质量。本研究从约束优化的角度形式化推断了性采样算法,基于此提出Cactus(约束接受推测性采样),该方法能保证受控偏离验证器分布的同时提升接受率。跨多个基准测试的实证结果验证了我们方法的有效性。