每日精选AI研究论文及翻译
我们推出LongLive,一种帧级自回归(AR)框架,用于实时交互式长视频生成。长视频生成在效率和质量方面均面临挑战。扩散模型和扩散强制模型虽能生成高质量视频,但由于双向注意力机制导致效率低下。因果注意力AR模型支持KV缓存以实现更快推理,但在长视频训练中因内存问题往往导致质量下降。此外,超越静态提示生成,交互能力(如流式提示输入)对于动态内容创作至关重要,使用户能实时引导叙事。这一交互需求显著增加了复杂性,特别是在提示转换期间确保视觉一致性和语义连贯性方面。为应对这些挑战,LongLive采用因果帧级AR设计,集成了KV重缓存机制,通过新提示刷新缓存状态以实现平滑、紧密的切换;流式长调优支持长视频训练并实现训练与推理对齐(长训长测);以及短窗口注意力与帧级注意力汇聚点(简称帧汇聚)相结合,在保持长程一致性的同时加速生成。凭借这些关键设计,LongLive仅用32个GPU天便将一个13亿参数的短片段模型微调至分钟级生成。在推理时,LongLive在单个NVIDIA H100上维持20.7 FPS,在VBench上无论是短视频还是长视频均表现出色,支持单个H100 GPU上长达240秒的视频生成,并进一步支持INT8量化推理,仅带来轻微质量损失。
在多回合稀疏奖励环境中训练大型语言模型(LLM)代理,其中完成单个任务需要在一个回合内进行30次以上的交互,这对强化学习提出了根本性挑战。我们识别出这一场景下特有的关键失败模式:探索-利用级联失效。这一级联始于早期策略的过早收敛,稀疏反馈导致代理固守有缺陷、低熵的策略。随后,代理进入晚期策略崩溃阶段,此时传统的熵正则化反而适得其反,鼓励混乱的探索,从而破坏训练稳定性。我们提出了熵正则化策略优化(EPO),一个通过三种协同机制打破这一失败循环的通用框架:(1)在多回合设置中采用熵正则化以增强探索,(2)引入熵平滑正则化器,将策略熵限制在历史平均值范围内,防止剧烈波动,(3)自适应阶段权重调整,在训练过程中平衡探索与利用。我们的分析证明,EPO在保证收敛的同时,确保熵方差单调递减。在ScienceWorld上,EPO实现了高达152%的性能提升,在ALFWorld上提升了19.8%。我们的研究表明,多回合稀疏奖励环境需要与传统强化学习截然不同的熵控制方法,这对LLM代理训练具有广泛意义。
基于可验证奖励的强化学习(RLVR)增强了大型语言模型(LLM)的推理能力,但训练过程常在“熵崩溃”与“熵爆炸”之间波动。我们将这两种风险归因于无价值强化学习(如GRPO和DAPO)中采用的均值基线,其在奖励异常值下对负优势样本进行了不当惩罚。为此,我们提出了“分位数优势估计”(QAE),以分组K分位数基线取代均值。QAE引入了一种响应层面的双机制门控:对于难题(p ≤ 1 - K),它强化罕见成功;对于易题(p > 1 - K),则针对剩余失败。在一阶softmax更新下,我们证明了“双向熵安全性”,为单步熵变提供了上下界,既遏制了爆炸又防止了崩溃。实证表明,这一微小改动稳定了熵值,稀疏化了信用分配(通过调整K,约80%的响应获得零优势),并在Qwen3-8B/14B-Base模型上实现了AIME 2024/2025和AMC 2023的持续pass@1提升。这些结果揭示了“基线设计”——而非词级启发式——作为扩展RLVR的主要机制。
我们推出MinerU2.5,这是一个拥有12亿参数的文档解析视觉语言模型,在保持卓越计算效率的同时,实现了最先进的识别精度。我们的方法采用了一种由粗到细的两阶段解析策略,将全局布局分析与局部内容识别解耦。在第一阶段,模型对下采样图像进行高效的布局分析,以识别结构元素,从而避免了处理高分辨率输入带来的计算开销。在第二阶段,在全局布局的指导下,模型对从原始图像中提取的原分辨率裁剪区域进行针对性内容识别,保留了密集文本、复杂公式和表格中的精细细节。为了支持这一策略,我们开发了一个全面的数据引擎,为预训练和微调生成了多样化的大规模训练语料库。最终,MinerU2.5展现了强大的文档解析能力,在多个基准测试中实现了最先进的性能,在各种识别任务上超越了通用模型和领域专用模型,同时保持了显著更低的计算开销。
我们提出了一种面向语言模型的变分推理框架,该框架将思维轨迹视为潜在变量,并通过变分推理对其进行优化。从证据下界(ELBO)出发,我们将其扩展为多轨迹目标以获得更紧的界限,并提出了一种前向KL公式,以稳定变分后验的训练。我们进一步表明,拒绝采样微调和二元奖励强化学习(包括GRPO)可被解释为局部前向KL目标,其中模型准确性的隐式加权自然地从推导中产生,并揭示了对较简单问题的一种先前未被注意到的偏好。我们在Qwen 2.5和Qwen 3模型家族上,针对广泛的推理任务,实证验证了我们的方法。总体而言,我们的工作提供了一个原则性的概率视角,将变分推理与强化学习风格的方法统一起来,并产生了稳定的目标,以提升语言模型的推理能力。我们的代码可在https://github.com/sail-sg/variational-reasoning获取。
同行评审是学术研究的基石,然而在大多数人工智能会议中,随着投稿数量的激增,评审质量正逐渐下降。为了可靠地识别低质量评审,我们将误导性评审点定义为评审中基于错误前提的“弱点”,或论文中已明确解答的“问题”。经核实,15.2%的弱点和26.4%的问题存在误导性,并引入ReviewScore指标来标识评审点是否误导。为评估每个弱点前提的真实性,我们提出了一种自动化引擎,用于重构弱点中的每一个显性和隐性前提。我们构建了一个由人类专家标注的ReviewScore数据集,以检验大语言模型(LLMs)在自动化ReviewScore评估中的能力。随后,我们利用八种当前最先进的LLMs测量了人类与模型在ReviewScore上的一致性,验证了中等程度的一致性。我们还证明,评估前提层面的真实性相比评估弱点层面的真实性,显示出显著更高的一致性。深入的差异分析进一步支持了实现完全自动化ReviewScore评估的潜力。
大型语言模型(LLMs)常通过人类或AI反馈进行强化学习训练,然而这类方法通常将细致的反馈压缩为标量奖励,舍弃了其丰富性并引发尺度失衡问题。我们提出将语言反馈视为一种条件信号。受文本到图像生成中语言先验的启发,该先验能够从未见过的提示中产生新颖输出,我们引入了反馈条件策略(FCP)。FCP直接从响应-反馈对中学习,通过离线数据的最大似然训练来近似反馈条件下的后验分布。我们进一步开发了一个在线自举阶段,在此阶段,策略在积极条件下生成响应并接收新的反馈以自我优化。这重新定义了反馈驱动的学习,将其视为条件生成而非奖励优化,为LLMs提供了一种更富表现力的方式直接从语言反馈中学习。我们的代码可在https://github.com/sail-sg/feedback-conditional-policy获取。
图像描述是一项连接视觉与语言领域的基础任务,在大型视觉-语言模型(LVLMs)的预训练中扮演着关键角色。当前最先进的描述模型通常通过监督微调(SFT)进行训练,这一范式依赖于昂贵且难以扩展的人工或专有模型标注数据。这种方法往往导致模型记忆特定标准答案,限制了其泛化能力及生成多样化、创造性描述的能力。为克服SFT的局限,我们提出将可验证奖励的强化学习(RLVR)范式应用于开放式的图像描述任务。然而,主要挑战在于为“优质”描述这一主观性极强的概念设计客观的奖励函数。我们引入了描述强化学习(CapRL),这是一个新颖的训练框架,通过描述的实际效用重新定义描述质量:高质量的描述应能使非视觉语言模型准确回答关于对应图像的问题。CapRL采用解耦的两阶段流程,其中LVLM生成描述,而客观奖励则基于仅依赖该描述回答多项选择题的独立、无视觉大语言模型(LLM)的准确率得出。作为首个将RLVR应用于主观图像描述任务的研究,我们展示了CapRL在多种设置下显著提升性能。使用由CapRL-3B标注的CapRL-5M描述数据集进行预训练,在12个基准测试中取得了显著进步。此外,在描述质量评估的Prism框架内,CapRL的表现与Qwen2.5-VL-72B相当,同时平均超出基线8.4%。代码可在此获取:https://github.com/InternLM/CapRL。
基于可验证奖励的强化学习(RLVR)是提升大型语言模型(LLMs)推理能力的有力框架。然而,当前方法如GRPO仅依赖于模型对同一输入的不同响应在正确性上存在差异的问题,而忽略了所有响应获得相同奖励的情况——即所谓的零方差提示。在本研究中,我们认为这类提示并非无用,实际上能为策略优化提供有意义的反馈。为此,我们引入了零方差提示强化学习(RL-ZVP),这是一种新颖的算法,能够从零方差提示中提取学习信号。RL-ZVP直接奖励正确性并惩罚错误,即使在没有对比响应的情况下,也能通过词元级别的特征调节反馈,以保留信息丰富且细致的信号。在六个数学推理基准测试中,RL-ZVP相较于GRPO在准确率上实现了高达8.61分的显著提升,在通过率上提升了7.77分,同时持续优于其他过滤掉零方差提示的基线方法。这些结果凸显了在RLVR中从零方差提示学习的未开发潜力。
大型语言模型(LLMs)正从对话系统演变为解决奥数及编程竞赛等任务的高效推理者。尽管参数规模与测试时计算的扩展推动了进展,但高质量训练问题的匮乏成为关键瓶颈:人工整理的数据集成本高且有限,而现有合成语料库往往过于简单或狭窄。PromptCoT 1.0 展示了将推理链注入提示合成可提升问题难度。在此基础上,我们推出 PromptCoT 2.0,一个可扩展的框架,它用期望最大化(EM)循环替代了手工设计的启发式方法,通过迭代优化推理链来指导提示构建,从而生成比以往语料库更困难且更多样化的问题。这些合成提示支持两种后训练模式:(1)自我对弈,强模型通过可验证反馈自主提升,无需更强导师;(2)监督微调(SFT),弱模型从教师提炼的轨迹中学习。大量实验验证了该方法的有效性。在自我对弈中,将 PromptCoT 2.0 应用于 Qwen3-30B-A3B-Thinking-2507,在 30B 规模上创下新纪录,AIME 24/25 和 HMMT 25 分别提升 +4.4、+4.8 和 +5.3,LiveCodeBench v5/v6 提升 +6.1 和 +5.0,Codeforces 上 Elo 分数增加 35。在 SFT 中,仅用合成提示训练 Qwen2.5-7B-Instruct,准确率提升至 73.1(AIME 24)、65.6(AIME 25)和 53.4(LiveCodeBench v5),超越基于人类或混合数据训练的模型。进一步分析证实,PromptCoT 2.0 生成的问题本质上更困难且分布独特。这些成果确立了提示合成作为扩展推理能力的新维度,并将 PromptCoT 2.0 定位为未来开源模型的可扩展基础。实现代码已发布于 https://github.com/inclusionAI/PromptCoT。
机器人解析人类指令并执行操控任务的能力,依赖于可获得的任务相关桌面场景用于训练。然而,传统创建这些场景的方法依赖于耗时的手动布局设计或完全随机的布局,这些方法在场景的合理性或与任务的对齐方面存在局限。本文中,我们提出了一项新颖任务,即面向任务的桌面场景生成,由于高级任务指令与桌面场景之间存在显著差距,该任务带来了重大挑战。为支持这一具有挑战性的任务研究,我们引入了MesaTask-10K,一个包含约10,700个合成桌面场景的大规模数据集,这些场景采用手工设计的布局,确保了布局的真实性和物体间复杂关系的体现。为弥合任务与场景之间的鸿沟,我们提出了一种空间推理链,将生成过程分解为物体推断、空间相互关系推理以及最终3D布局的场景图构建。我们展示了MesaTask,一个基于大语言模型(LLM)的框架,该框架利用此推理链,并进一步通过DPO算法增强,以生成与给定任务描述高度契合且物理上合理的桌面场景。详尽的实验表明,MesaTask在生成符合任务要求且布局真实的桌面场景方面,相较于基线方法展现出卓越性能。项目页面位于https://mesatask.github.io/。
我们推出LLaVA-OneVision-1.5,这是一个新型的大型多模态模型(LMMs)家族,在显著降低计算和财务成本的同时,实现了业界领先的性能。与现有工作不同,LLaVA-OneVision-1.5提供了一个开放、高效且可复现的框架,用于从零开始构建高质量的视觉-语言模型。LLaVA-OneVision-1.5版本包含三大核心组件:(1)大规模精选数据集:我们构建了一个包含8500万概念平衡的预训练数据集LLaVA-OneVision-1.5-Mid-Traning,以及一个精心策划的2600万指令数据集LLaVA-OneVision-1.5-Instruct,两者共同涵盖了640亿压缩后的多模态标记。(2)高效训练框架:我们开发了一套完整的端到端高效训练框架,采用离线并行数据打包策略,使得LLaVA-OneVision-1.5的训练能在16,000美元预算内完成。(3)顶尖性能表现:实验结果显示,LLaVA-OneVision1.5在广泛的下游任务中展现出极具竞争力的性能。具体而言,LLaVA-OneVision-1.5-8B在27个基准测试中的18个上超越了Qwen2.5-VL-7B,而LLaVA-OneVision-1.5-4B则在全部27个基准测试上均优于Qwen2.5-VL-3B。我们预计不久将发布LLaVA-OneVision-1.5-RL,并鼓励社区持续关注后续更新。
近期,自主智能体在多个领域取得了显著进展,然而大多数评估仍集中于短期、完全可观测的任务。相比之下,许多现实世界中的关键任务,如大规模软件开发、商业投资和科学发现,都是在长期、部分可观测的场景中展开的,其成功依赖于持续的推理、规划、记忆管理及工具使用。现有基准测试很少涵盖这些长期挑战,导致系统性评估存在空白。为填补这一空白,我们推出了UltraHorizon这一新颖的基准测试,旨在衡量应对复杂现实挑战所需的核心能力。我们以探索作为统一任务,在三个不同环境中验证这些核心能力。智能体被设计用于长期发现任务,在此过程中,它们必须通过持续的推理、规划、记忆与工具管理,以及与环境互动,逐步揭示隐藏的规则。在最严苛的规模设置下,轨迹平均超过20万标记和400次工具调用,而在标准配置中,仍平均超过3.5万标记和60次工具调用。我们的大量实验表明,在这些设置下,LLM智能体表现持续不佳,而人类参与者则获得更高分数,凸显了智能体在长期能力上的持续差距。我们还观察到,简单的规模扩展在我们的任务中并不奏效。为了更好地说明智能体的失败原因,我们对收集的轨迹进行了深入分析,识别出八类错误,并将其归因于两大主要原因:上下文锁定和功能基础能力差距。 https://github.com/StarDewXXX/UltraHorizon{我们的代码将在此处提供。}
我们提出了“看、指、飞”(See, Point, Fly, SPF),这是一个无需训练的空中视觉与语言导航(AVLN)框架,构建于视觉语言模型(VLMs)之上。SPF能够根据任何形式的自由指令,在任何类型的环境中导航至任意目标。与现有将动作预测视为文本生成任务的VLM方法不同,我们的核心洞见是将AVLN的动作预测视为二维空间定位任务。SPF利用VLMs将模糊的语言指令分解为输入图像上二维航点的迭代标注。结合预测的飞行距离,SPF将预测的二维航点转化为三维位移向量,作为无人机的动作指令。此外,SPF还自适应调整飞行距离,以促进更高效的导航。值得注意的是,SPF以闭环控制方式执行导航,使无人机能够在动态环境中跟随动态目标。在DRL模拟基准测试中,SPF创下了新的技术标杆,较之前的最佳方法绝对提升了63%。在广泛的现实世界评估中,SPF大幅超越强基线。我们还进行了全面的消融研究,以凸显我们设计选择的有效性。最后,SPF展示了对于不同VLMs的显著泛化能力。项目页面:https://spf-web.pages.dev
大型语言模型(LLMs)的训练后压缩主要依赖于低秩权重近似,即将权重矩阵的每一列表示在一个共享的低维子空间中。尽管这是一种计算效率高的策略,但所施加的结构约束较为僵化,可能导致模型精度显著下降。在本研究中,我们提出了CoSpaDi(通过稀疏字典学习进行压缩),这是一种无需重新训练的新型压缩框架,它用更灵活的结构化稀疏分解替代了低秩分解,其中每个权重矩阵由一个密集字典和一个列稀疏系数矩阵表示。这种表述实现了子空间联合表示:原始权重矩阵的不同列在由自适应选择的字典原子张成的不同子空间中进行近似,相比单一不变基,提供了更强的表达能力。关键在于,CoSpaDi利用一个小型校准数据集优化分解,使得压缩后的投影层输出激活与原始层高度一致,从而最小化功能重构误差而非单纯的权重近似。这种数据感知策略在合理的压缩比下,无需微调即可更好地保持模型保真度。此外,由此产生的结构化稀疏性支持高效的稀疏-稠密矩阵乘法,并与训练后量化兼容,进一步节省内存和降低延迟。我们在20-50%压缩比下,针对Llama和Qwen系列模型,在逐层和逐组设置中评估了CoSpaDi,结果显示其在准确性和困惑度上均优于当前最先进的数据感知低秩方法。我们的研究结果确立了结构化稀疏字典学习作为传统低秩方法的有力替代,为高效部署LLM提供了新途径。
随着大型语言模型和多模态系统能力的不断提升,语音优先的AI助手引发了广泛关注,然而现有基准测试难以全面评估这些系统的综合能力。为此,我们推出了VoiceAssistant-Eval,一个旨在全方位评估AI助手在听、说、看三方面表现的综合性基准。VoiceAssistant-Eval包含了10,497个精选示例,覆盖13个任务类别,其中包括自然声音、音乐及口语对话的听力测试;多轮对话、角色扮演模仿及多种情境的说话能力评估;以及高度异质性的图像视觉理解任务。为验证其有效性,我们对21个开源模型及GPT-4o-Audio进行了评估,重点考察了回答内容与语音的质量及其一致性。评估结果揭示了三大关键发现:(1) 专有模型并非在所有方面均优于开源模型;(2) 多数模型在说话任务上表现出色,但在音频理解方面仍有不足;(3) 设计精良的小型模型能够与规模大得多的模型相媲美。特别值得一提的是,中等规模的Step-Audio-2-mini(7B)在听力准确率上超过了LLaMA-Omni2-32B-Bilingual的两倍。然而,挑战依然存在:当前模型在处理多模态(音频加视觉)输入及角色扮演语音模仿任务时表现欠佳,且在鲁棒性和安全对齐方面仍有显著差距。VoiceAssistant-Eval不仅识别了这些差距,还为评估和指导下一代AI助手的开发建立了严谨的框架。代码与数据将在https://mathllm.github.io/VoiceAssistantEval/ 发布。
我们提出了一种新颖的方法,用于从预训练扩散模型的主干中解耦视觉与语义特征,从而实现与已确立的语义对应相类似的视觉对应。尽管已知扩散模型主干编码了丰富的语义特征,它们也必须包含视觉特征以支持其图像合成能力。然而,由于缺乏标注数据集,分离这些视觉特征颇具挑战。为此,我们引入了一个自动化流程,该流程基于现有的主题驱动图像生成数据集构建带有标注语义和视觉对应的图像对,并设计了一种对比架构以区分这两种特征类型。利用解耦后的表示,我们提出了一种新指标——视觉语义匹配(VSM),用于量化主题驱动图像生成中的视觉不一致性。实证结果表明,我们的方法在量化视觉不一致性方面优于基于全局特征的指标,如CLIP、DINO及视觉-语言模型,同时还能实现不一致区域的空间定位。据我们所知,这是首个同时支持主题驱动生成中不一致性的量化与定位的方法,为推进这一任务提供了宝贵的工具。项目页面:https://abdo-eldesokey.github.io/mind-the-glitch/
通用图像修复(UIR)旨在恢复因未知混合因素而退化的图像,同时保持语义完整性——在此条件下,判别式修复器和基于UNet的扩散先验往往会导致过度平滑、幻觉或漂移。我们提出了LucidFlux,一个无需图像描述的UIR框架,它适配了一个大型扩散变换器(Flux.1)而无需依赖图像描述。LucidFlux引入了一种轻量级的双分支条件器,该条件器从退化输入和轻度修复的代理中分别注入信号,以锚定几何结构并抑制伪影。随后,设计了一种时间步和层级自适应的调制调度策略,将这些线索在骨干网络层次结构中传递,从而生成从粗到细且上下文感知的更新,在恢复纹理的同时保护全局结构。此外,为了避免文本提示或多模态大语言模型描述带来的延迟和不稳定性,我们通过从代理中提取的SigLIP特征强制执行无描述语义对齐。一个可扩展的筛选管道进一步过滤大规模数据,以提供结构丰富的监督。在合成和真实场景的基准测试中,LucidFlux始终优于强大的开源和商业基线,消融研究验证了每个组件的必要性。LucidFlux表明,对于大型扩散变换器而言,何时、何地以及基于什么进行条件化——而非增加参数或依赖文本提示——是实现鲁棒且无需描述的通用图像修复的关键杠杆。
微调作为适应大型语言模型的基础方法,长期以来被认为在模型编辑方面效果不佳。本文挑战了这一观点,指出所报告的失败并非源于微调本身固有的局限性,而是源于将其应用于编辑任务的顺序性质——一种单次深度优先的流程,即在继续之前将每个样本优化至收敛。尽管这种深度优先流程结合逐样本更新看似直观,但它过度优化了每次编辑,并引发了编辑间的干扰。我们的对照实验表明,只需将微调恢复为标准广度优先(即基于轮次)的流程,并采用小批量优化,就能显著提升其在模型编辑中的有效性。此外,编辑中的微调还因继承自先前方法的次优调参位置而受限。通过对调参位置的系统分析,我们提出了LocFT-BF,这是一种建立在恢复微调框架之上的简单而有效的局部化编辑方法。跨多种大型语言模型和数据集的广泛实验表明,LocFT-BF大幅超越了现有最先进方法。值得注意的是,据我们所知,它是首个在不牺牲通用能力的情况下,支持10万次编辑和720亿参数模型的方法,将实践边界扩展了十倍。通过澄清长期存在的误解并引入原则性的局部化调优策略,我们将微调从被低估的基线提升为模型编辑的领先方法,为未来研究奠定了坚实基础。
基于大型语言模型(LLMs)的代理系统在仓库级代码生成任务中展现了卓越性能。然而,对于如网站代码库生成这类高度依赖视觉效果和用户交互反馈的任务,当前代码代理仅依赖简单的代码执行进行反馈与验证,这种方法无法准确捕捉生成代码的实际质量。本文提出WebGen-Agent,一种创新的网站生成代理,它利用全面且多层次的视觉反馈,迭代生成并优化网站代码库。通过视觉语言模型(VLM),我们生成了关于网站截图和GUI代理测试的详细且富有表现力的文本描述与建议,并辅以量化其质量的评分。截图与GUI代理评分进一步与回溯及择优机制相结合,提升了代理的性能。借助WebGen-Agent工作流程中固有的精确视觉评分,我们进一步引入了带有截图与GUI代理反馈的Step-GRPO,以增强LLMs作为WebGen-Agent推理引擎的能力。通过将每一步的截图与GUI代理评分作为Step-GRPO的奖励,我们提供了密集且可靠的过程监督信号,有效提升了模型的网站生成能力。在WebGen-Bench数据集上,WebGen-Agent将Claude-3.5-Sonnet的准确率从26.4%提升至51.9%,外观评分从3.0提升至3.9,超越了先前的最先进代理系统。此外,我们的Step-GRPO训练方法使Qwen2.5-Coder-7B-Instruct的准确率从38.9%提升至45.4%,外观评分从3.4提升至3.7。
近期的大型语言模型(LLMs)和大型视觉语言模型(LVLMs)越来越多地采用强化学习(RL)进行预训练后优化,例如针对客观任务的可验证奖励强化学习(RLVR)和针对主观任务的人类反馈强化学习(RLHF)。然而,RLHF因依赖人类偏好而成本高昂且存在奖励策略不匹配的风险,而RLVR则在每次更新后丢弃探索轨迹和正确性信号,导致监督资源的浪费。为解决这些问题,我们提出了协同策略与奖励共进化框架(SPARK),这是一种基于RLVR的高效、在线且稳定的方法。SPARK不再丢弃探索轨迹和正确性数据,而是回收这些宝贵信息,同时将模型自身训练为生成式奖励模型。这一辅助训练采用多种目标,如点状奖励评分、成对比较以及基于进一步反思响应的评估,教导模型评估并改进其自身响应。我们的流程消除了对独立奖励模型和昂贵人类偏好数据的需求。SPARK创造了一个积极的共进化反馈循环:奖励准确性的提升带来更优的策略梯度,进而产生更高质量的探索轨迹,进一步精炼奖励模型。这一统一框架支持通过自我反思进行测试时扩展,无需外部奖励模型及其相关成本。我们展示了SPARK在多个LLM和LVLM模型以及多项推理、奖励模型和通用基准测试上取得的显著性能提升。例如,SPARK-VL-7B在7个推理基准上平均提升9.7%,在2个奖励基准上提升12.1%,在8个通用基准上提升1.5%,展现了其鲁棒性和广泛的泛化能力。
检索增强生成(RAG)及基于图的RAG已成为利用外部知识增强大型语言模型(LLMs)的重要范式。然而,现有方法面临一个根本性的权衡。虽然基于图的方法本质上依赖于高质量的图结构,但它们在实际应用中受到显著限制:手动构建的知识图谱扩展成本高昂,而从语料库自动提取的图谱则受限于底层LLM提取器的性能,尤其是在使用较小、本地部署的模型时。本文提出了Think-on-Graph 3.0(ToG-3),一个引入多智能体上下文演化与检索(MACER)机制的新颖框架,以克服这些局限。我们的核心创新在于动态构建并优化一个Chunk-Triplets-Community异构图索引,首次融合了查询演化与子图演化的双重机制,实现精确的证据检索。这一方法解决了先前基于图的RAG方法的关键限制,即通常一次性构建静态图索引而不适应实际查询。一个由构造器、检索器、反思器与响应器智能体组成的多智能体系统,协作进行证据检索、答案生成、充分性反思,以及至关重要的查询与子图演化。这一双演化的多智能体系统使ToG-3能够在推理过程中自适应地构建目标图索引,缓解了静态一次性图构建的固有缺陷,即便使用轻量级LLM也能实现深度精确的推理。大量实验表明,ToG-3在深度与广度推理基准上均优于对比基线,消融研究也证实了MACER框架各组成部分的有效性。
布局估计与三维物体检测是室内场景理解中的两项基础任务。当二者结合时,能够构建出紧凑且语义丰富的场景空间表示。现有方法通常依赖点云输入,这带来了一个主要限制,因为大多数消费级相机缺乏深度传感器,而纯视觉数据仍然更为普遍。我们通过TUN3D解决了这一问题,这是首个在真实扫描中处理联合布局估计与三维物体检测的方法,仅需多视角图像作为输入,且无需真实相机姿态或深度监督。我们的方法基于轻量级稀疏卷积骨干网络,并采用两个专用头:一个用于三维物体检测,另一个用于布局估计,后者利用了新颖且有效的参数化墙体表示。大量实验表明,TUN3D在三个具有挑战性的场景理解基准测试中均达到了最先进的性能:(i)使用真实点云,(ii)使用带姿态的图像,以及(iii)使用无姿态图像。在性能上与专门的三维物体检测方法相当的同时,TUN3D在布局估计方面取得了显著进展,为整体室内场景理解设立了新标杆。代码可在https://github.com/col14m/tun3d 获取。
大型语言模型通过在大规模语料库上的训练,成功地将多样化的语言任务统一于单一的生成框架之中。受此启发,近期如大型视觉模型(LVM)等研究将这一范式扩展至视觉领域,通过将任务组织成连续的视觉句子,其中视觉提示作为上下文引导输出。然而,此类建模需要跨模态和跨来源的任务特定预训练,成本高昂且限制了向未见任务的扩展性。鉴于预训练的视频生成模型本质上已捕捉到时序依赖关系,我们探索了一种更为统一且可扩展的替代方案:预训练的视频生成模型能否适应多样的图像与视频任务?为此,我们提出了UniVid框架,它通过微调视频扩散变换器来处理多种视觉任务,而无需针对特定任务进行修改。任务被表示为视觉句子,其中上下文序列既定义了任务也指明了期望的输出模态。我们从两个角度评估UniVid的泛化能力:(1) 跨模态推理,上下文由图像和视频共同构成,超越了LVM的单模态设定;(2) 跨来源任务,从自然数据到标注数据,无需多源预训练。尽管仅基于自然视频数据进行训练,UniVid在这两种情境下均展现出良好的泛化性能。值得注意的是,在此范式中,理解与生成任务可通过简单反转视觉句子的顺序轻松切换。这些发现凸显了预训练视频生成模型作为视觉建模可扩展统一基础的潜力。我们的代码将在https://github.com/CUC-MIPG/UniVid 发布。
图形用户界面(GUI)代理旨在通过模拟用户交互来自动化广泛的人类任务。尽管进展迅速,当前方法仍面临几个关键挑战:端到端训练中的数据瓶颈、延迟错误检测的高成本以及矛盾指导的风险。受人类认知循环——思考、对齐和反思的启发,本文提出了D-Artemis——一种新颖的审慎框架。D-Artemis利用细粒度的、应用特定的提示检索机制来指导其决策过程。它还采用了主动的预执行对齐阶段,其中思想-行动一致性(TAC)检查模块和行动校正代理(ACA)协同工作,以减少执行失败的风险。执行后的状态反思代理(SRA)完成了认知循环,实现了从经验中战略学习。重要的是,D-Artemis增强了通用多模态大语言模型(MLLMs)在GUI任务中的能力,而无需在复杂的轨迹数据集上进行训练,展示了强大的泛化能力。D-Artemis在主要基准测试中均取得了新的最先进(SOTA)成果,在AndroidWorld上达到了75.8%的成功率,在ScreenSpot-V2上达到了96.8%。广泛的消融研究进一步证明了框架中每个组件的显著贡献。
强化微调(RFT)常面临奖励过度优化的问题,即策略模型通过操纵奖励信号获取高分,却生成低质量输出。我们的理论分析揭示,关键在于高奖励尾部的奖励误设:无法可靠地区分“卓越”与“优秀”响应。这促使我们聚焦于高奖励区域。然而,在基础大语言模型(LLM)下,此类尾部样本稀缺。虽然非策略范例(如来自更强模型或重写版本)更易获取,但直接在其上训练会导致我们试图对齐的策略奖励误设。为此,我们研究了基于评分标准的奖励机制。设计上,评分标准能利用非策略样本,同时对其人为痕迹保持不敏感。为了提取能捕捉高奖励尾部的评分标准,我们强调了区分优秀且多样化响应的重要性,并引入了一套实现此理念的工作流程。实证表明,基于评分标准的奖励显著缓解了奖励过度优化,并有效提升了LLM的后续训练效果。我们的代码可在https://github.com/Jun-Kai-Zhang/rubrics.git 获取。
人类通过与世界的主动互动发展出对直觉物理的理解。这一方式与当前视频模型(如Sora)形成鲜明对比,后者依赖被动观察,因而难以把握物理因果关系。这一观察引出了我们的核心假设:世界模型真实的物理直觉必须建立在与现实世界广泛且因果丰富的互动基础之上。为验证这一假设,我们提出了WoW,一个拥有140亿参数的生成式世界模型,该模型基于200万条机器人交互轨迹进行训练。我们的研究发现,模型对物理的理解表现为可能结果的概率分布,这导致了随机不稳定性和物理幻觉。进一步,我们展示了通过SOPHIA,这种新兴能力能够被主动约束以实现物理真实性,其中视觉-语言模型代理评估DiT生成的输出,并通过迭代演化语言指令来指导其优化。此外,一个共同训练的反向动力学模型将这些优化后的计划转化为可执行的机器人动作,从而闭合了从想象到行动的循环。我们建立了WoWBench,一个专注于视频中物理一致性和因果推理的新基准,WoW在人类和自动化评估中均达到了最先进的性能,展现了在物理因果性、碰撞动力学和物体持久性方面的强大能力。我们的工作系统性地证明了大规模现实世界互动是发展AI物理直觉的基石。模型、数据和基准将全部开源。
强化学习(RL)是提升大语言模型(LLMs)在长期、稀疏奖励的智能体任务中策略工具使用能力的主导范式,然而它面临着探索与利用之间权衡的根本性挑战。现有研究通过策略熵的视角来激励探索,但这种机械化的熵最大化容易因多轮分布偏移而导致RL训练不稳定。本文旨在不陷入熵崩溃或失控发散的情况下,基于智能体自身经验的指导下实现渐进式的探索与利用平衡。我们提出了SPEAR,一种基于课程的自模仿学习(SIL)方案,用于训练具备自主能力的LLMs。该方法扩展了基础的SIL框架,其中回放缓冲区存储自生成的优质轨迹以供离策略更新,通过分阶段逐步引导策略演化,使其保持在良好平衡的熵范围内。具体而言,我们的方法结合了课程管理探索过程,利用内在奖励促进技能层面的探索,并通过SIL促进动作层面的探索。初期,辅助工具调用奖励在工具使用技能的积累中起关键作用,使智能体能够广泛接触环境反馈的陌生分布,伴随熵的上升趋势。随着训练的推进,自模仿学习得到加强,从回放经验中挖掘现有成功模式,进行对比性的动作层面探索,加速解决方案的迭代,同时避免熵的无限制增长。为进一步稳定训练,我们重新校准回放缓冲区中经验的优势值,以应对可能的策略漂移。在轨迹层面的熵控制中引入了正则化措施,如对概率与优势值之间高协方差的标记进行裁剪,以抑制过度自信。
得益于Dense O2O和MAL的简洁高效,DEIM已成为实时DETR训练的主流框架,显著超越了YOLO系列。在本研究中,我们将其扩展至包含DINOv3特征,推出了DEIMv2。DEIMv2涵盖从X到Atto的八种模型规模,适配GPU、边缘及移动设备部署。针对X、L、M、S版本,我们采用DINOv3预训练或蒸馏的骨干网络,并引入空间调谐适配器(STA),该组件高效地将DINOv3的单尺度输出转化为多尺度特征,并通过细粒度细节补充强语义信息,从而提升检测性能。对于超轻量级模型(Nano、Pico、Femto、Atto),我们采用HGNetv2并结合深度与宽度剪枝,以满足严格的资源限制。配合简化解码器与升级版Dense O2O,这一统一设计使DEIMv2在多样场景下实现了卓越的性能成本比,树立了新的技术标杆。特别地,我们的最大模型DEIMv2-X仅需5030万参数即达到57.8 AP,超越了此前需超过6000万参数仅获56.5 AP的X级模型。在紧凑型方面,DEIMv2-S成为首个在COCO上突破50 AP大关的千万级以下模型(971万),达到50.9 AP。即便是超轻量级的DEIMv2-Pico,仅150万参数便实现了38.5 AP,与YOLOv10-Nano(230万)持平,而参数数量减少了约50%。我们的代码与预训练模型已发布于https://github.com/Intellindust-AI-Lab/DEIMv2。
我们推出X-Streamer,一个端到端的多模态人类世界建模框架,旨在构建能够在单一统一架构下实现文本、语音和视频无限交互的数字人类代理。仅需一张肖像,X-Streamer便能驱动实时、开放式的视频通话,响应流式多模态输入。其核心是Thinker-Actor双Transformer架构,统一了多模态理解与生成,将静态肖像转化为持久且智能的视听交互。Thinker模块感知并推理流式用户输入,而Actor模块则实时将这些隐藏状态转化为同步的多模态流。具体而言,Thinker利用预训练的大型语言-语音模型,而Actor则采用分块自回归扩散模型,通过交叉注意力机制关注Thinker的隐藏状态,生成时间对齐的多模态响应,包括交错的离散文本与音频标记以及连续视频潜在表示。为确保长期稳定性,我们设计了跨块与块内注意力机制,结合时间对齐的多模态位置嵌入,实现细粒度的跨模态对齐与上下文保留,并通过分块扩散强制与全局身份参考进一步强化。X-Streamer在两块A100 GPU上实时运行,支持从任意肖像出发的长时间一致视频聊天体验,为交互式数字人类的统一世界建模开辟了道路。
高效处理高分辨率图像对于现实世界的视觉-语言应用至关重要。然而,现有的大型视觉-语言模型(LVLMs)因处理大量视觉标记而产生了巨大的计算开销。随着“图像思维”模型的出现,推理已从文本领域扩展至视觉领域。这一能力促使我们开发了两阶段“由粗到细”的推理流程:首先,对下采样图像进行分析以识别任务相关区域;随后,仅对这些区域进行全分辨率裁剪并在后续推理阶段处理。该方法在降低计算成本的同时,保留了必要的细粒度视觉细节。一个主要挑战在于推断哪些区域真正与给定查询相关。最近的相关方法在输入图像下采样后的第一阶段常常失败,原因在于感知驱动的推理需要清晰的视觉信息才能有效进行。为解决这一问题,我们提出了ERGO(高效推理与引导观察),它执行推理驱动的感知,利用多模态上下文来确定关注点。我们的模型能够考虑感知不确定性,扩展裁剪区域以覆盖视觉模糊区域,从而回答问题。为此,我们在强化学习框架中开发了简单而有效的奖励组件,用于实现由粗到细的感知。在多个数据集上,我们的方法不仅比原始模型和竞争方法具有更高的准确性,而且效率更高。例如,ERGO在V*基准测试中超越了Qwen2.5-VL-7B,得分高出4.7分,同时仅使用了23%的视觉标记,实现了3倍的推理加速。代码和模型可在以下网址找到:https://github.com/nota-github/ERGO。
现有的大多数指代分割方法通常仅通过微调或组合多个预训练模型来实现强劲性能,这往往以额外的训练和架构修改为代价。与此同时,大规模生成式扩散模型编码了丰富的语义信息,使其作为通用特征提取器颇具吸引力。在本研究中,我们提出了一种新方法,直接利用扩散变换器中的特征——注意力分数,用于下游任务,既无需架构改动,也无需额外训练。为了系统评估这些特征,我们扩展了基准测试,涵盖了图像和视频的视觉-语言定位任务。我们的核心发现是,停用词充当了注意力磁铁:它们积累过剩的注意力,可以通过过滤来减少噪声。此外,我们识别出在深层出现的全局注意力汇聚点(GAS),并证明它们可以被安全地抑制或重定向到辅助标记上,从而生成更清晰、更准确的定位图。我们进一步提出了一种注意力再分配策略,其中附加的停用词将背景激活分割成更小的簇,产生更锐利、更局部化的热图。基于这些发现,我们开发了RefAM,一个无需训练的简单定位框架,它结合了交叉注意力图、GAS处理及再分配技术。在零样本指代图像和视频分割基准测试中,我们的方法持续超越先前的方法,无需微调或额外组件,便确立了新的技术标杆。
基于扩散模型的文本引导图像编辑技术虽已取得显著质量提升,但其高昂的延迟阻碍了实际应用。我们推出FlashEdit,这一创新框架旨在实现高保真、实时的图像编辑。其高效性源于三大关键创新:(1) 一步式反演与编辑(OSIE)流程,绕过了耗时的迭代过程;(2) 背景保护(BG-Shield)技术,通过仅在编辑区域内选择性修改特征,确保背景不变;(3) 稀疏化空间交叉注意力(SSCA)机制,通过抑制语义向背景的泄露,保证精确、局部的编辑。大量实验表明,FlashEdit在保持卓越背景一致性和结构完整性的同时,能在0.2秒内完成编辑,相比之前的多步方法实现了超过150倍的加速。我们的代码将公开于https://github.com/JunyiWuCode/FlashEdit。
开发能够在多语言环境中有效运作且保持文化根基的AI系统,是一个长期存在的挑战,尤其是在资源匮乏的环境中。合成数据提供了一条充满希望的途径,但其在多语言和多文化背景下的有效性仍未得到充分探索。我们通过一种自下而上的生成策略,研究了为印度语言创建和评估合成、文化情境化数据集的影响,该策略促使大型开源LLM(参数≥235B)基于特定语言的维基百科内容进行数据生成。这一方法补充了当前主流的自上而下范式,即从高资源语言(如英语)翻译合成数据集。我们推出了Updesh,这是一个高质量的大规模合成指令跟随数据集,包含13种印度语言的950万条数据点,涵盖多样化的推理和生成任务,特别强调长上下文、多轮对话能力,以及与印度文化背景的契合度。通过结合自动化指标和人工标注的全面评估,涉及10,000次评估,结果表明生成的数据质量较高;然而,人工评估也指出了进一步改进的空间。此外,我们通过在数据集上微调模型,并在15个多样化的多语言数据集上评估性能,进行了下游评估。使用Updesh训练的模型在生成任务上持续取得显著提升,并在多项选择式自然语言理解任务中保持竞争力。值得注意的是,相对改进在低资源和中资源语言中最为显著,缩小了它们与高资源语言之间的差距。这些发现为实证证据表明,有效的多语言AI需要采用多方面的数据策展和生成策略,这些策略应融入情境感知、文化根基的方法论。
自回归(AR)变换器已成为视觉生成领域的一股强大力量,这主要得益于其可扩展性、计算效率以及与语言和视觉相统一的架构。其中,基于下一尺度预测的视觉自回归生成(VAR)近期展现了卓越性能,甚至超越了基于扩散的模型。在本研究中,我们重新审视VAR并揭示了一个理论洞见:当配备马尔可夫注意力掩码时,VAR在数学上等价于离散扩散。我们将这一重新诠释命名为“基于离散扩散的可扩展视觉精炼”(SRDD),从而在AR变换器与扩散模型之间建立了一座原则性的桥梁。借助这一新视角,我们展示了如何直接将扩散模型的优势,如迭代精炼和减少架构低效性,引入VAR,从而实现更快的收敛、更低的推理成本以及改进的零样本重建。在多个数据集上,我们证明了基于扩散视角的VAR在效率和生成质量上均带来了持续提升。
多模态大语言模型(MLLMs)在将视觉输入与自然语言输出对齐方面展现了卓越的能力。然而,生成词汇对视觉模态的依赖程度仍鲜为人知,这限制了模型的可解释性和可靠性。本研究提出了EAGLE,一个轻量级的黑箱框架,用于解释MLLMs中的自回归词汇生成过程。EAGLE能够将任何选定词汇归因于紧凑的感知区域,同时量化语言先验与感知证据的相对影响。该框架引入了一个统一充分性(洞察分数)与必要性(必需分数)的目标函数,通过稀疏化图像区域的贪婪搜索进行优化,以实现忠实且高效的归因。除了空间归因外,EAGLE还执行模态感知分析,解构词汇依赖的基础,为模型决策提供细粒度的可解释性。跨开源MLLMs的广泛实验表明,EAGLE在忠实度、定位能力及幻觉诊断方面持续优于现有方法,同时显著减少GPU内存需求。这些结果凸显了其在提升MLLMs可解释性方面的有效性和实用性。代码已发布于https://github.com/RuoyuChen10/EAGLE。
尽管扩散模型在图像生成领域取得了显著进展,但其输出仍可能显得不够真实且缺乏精细细节,尤其是在使用较少的神经网络函数评估次数(NFEs)或较低的引导尺度时。为解决这一问题,我们提出了一种新颖的基于动量的采样技术,称为历史引导采样(HiGS),该技术通过将最近的模型预测整合到每个推理步骤中,提升了扩散采样的质量和效率。具体而言,HiGS利用当前预测与过去预测的加权平均值之间的差异,引导采样过程生成更加真实、细节和结构更优的输出。我们的方法几乎不引入额外计算,并能无缝集成到现有的扩散框架中,无需额外训练或微调。大量实验表明,HiGS在不同模型和架构下,以及在不同采样预算和引导尺度条件下,均能持续提升图像质量。此外,使用预训练的SiT模型,HiGS在无引导的256×256 ImageNet生成任务中,仅需30个采样步骤(而非标准的250步),便实现了1.61的最新FID记录。因此,我们提出HiGS作为一种即插即用的标准扩散采样增强方法,能够实现更快且更高保真度的图像生成。
准确识别历史文献中的文字,对于推进文化遗产的研究与保护具有重大意义。然而,现有的视觉-语言模型(VLMs)主要针对现代标准化文本设计,难以应对历史材料中多样的语言与书写体系、不规则的版面布局以及常见的退化现象。 本文介绍了CHURRO,一个专为历史文本识别设计的、拥有30亿参数的开源权重视觉-语言模型。该模型基于CHURRO-DS进行训练,这是迄今为止最大的历史文本识别数据集。CHURRO-DS整合了155个历史语料库,涵盖99,491页文献,跨越22个世纪,涉及46种语言群体,包括历史变体和已消亡的语言。 我们对多个开源及闭源的视觉-语言模型以及光学字符识别(OCR)系统在CHURRO-DS上的表现进行了评估,发现CHURRO在所有视觉-语言模型中表现最优。在CHURRO-DS测试集上,CHURRO在印刷体和手写体文本上的归一化Levenshtein相似度分别达到82.3%和70.1%,分别比第二名的Gemini 2.5 Pro高出1.4%和6.5%,同时成本效益提高了15.5倍。 通过公开发布模型和数据集,我们旨在促进社区驱动的研究,以提升历史文本的可读性,加速学术探索。
尽管基于Transformer的模型在语言建模任务中展现了卓越的性能,但其高复杂度导致在处理长上下文时成本高昂。相比之下,诸如线性注意力机制和状态空间模型等循环神经网络(RNNs)因其恒定的每词元复杂度而广受欢迎。然而,这些循环模型在需要从长上下文中准确回忆上下文信息的任务上表现欠佳,因为所有上下文信息都被压缩到一个固定大小的循环状态中。先前的研究表明,回忆能力与循环状态大小呈正相关,但直接训练具有更大循环状态的RNNs会导致高昂的训练成本。本文中,我们提出了StateX,一种通过后训练高效扩展预训练RNNs状态的训练流程。针对线性注意力机制和状态空间模型这两类流行的RNNs,我们设计了后训练架构修改方案,以在不增加或仅轻微增加模型参数的情况下扩大状态规模。在参数规模高达1.3B的模型上的实验表明,StateX有效提升了RNNs的回忆能力和上下文学习能力,且未带来高昂的后训练成本或损害其他能力。
当前主流的文本到视频检索系统主要采用嵌入模型进行特征提取,并通过计算余弦相似度进行排序。然而,这一设计存在两个局限性:低质量的文本-视频数据对可能影响检索效果,却难以识别和检验;仅依赖余弦相似度无法解释排序结果,限制了模型的可解释性。我们提出,能否通过解释排序结果来评估检索模型并检验文本-视频数据?本工作提出了X-CoT,一种基于大语言模型(LLM)链式推理(CoT)的可解释检索框架,以替代基于嵌入模型的相似度排序。我们首先扩展了现有基准数据集,增加了视频注释以支持语义理解并减少数据偏差。同时,我们设计了一种包含成对比较步骤的检索链式推理,生成详细的推理过程和完整的排序结果。X-CoT在实证中提升了检索性能,并提供了详尽的推理依据。此外,它还促进了模型行为分析和数据质量评估。代码与数据已公开于:https://github.com/PrasannaPulakurthi/X-CoT。
基于人类反馈的强化学习(RLHF)与基于可验证奖励的强化学习(RLVR)是大型语言模型(LLM)后训练阶段采用的主要强化学习范式,各自具备独特优势。然而,RLHF因依赖缺乏明确标准的人类判断,在可解释性和奖励操纵方面面临挑战;而RLVR则因其专注于基于正确性的验证机制,应用范围受限。为此,我们提出了基于二元灵活反馈的强化学习(RLBFF),它融合了人类驱动偏好的灵活性与基于规则验证的精确性,使奖励模型能够捕捉超越单纯正确性的回答质量细微之处。RLBFF从自然语言反馈中提取可二元化回答的原则(如信息准确性:是,或代码可读性:否),进而将这些原则作为奖励模型训练的基础,将其转化为一个蕴含任务(回答满足或不满足任意原则)。研究表明,在数据匹配的情况下,以此方式训练的奖励模型优于Bradley-Terry模型,并在RM-Bench(86.2%)和JudgeBench(81.4%,截至2025年9月24日位居榜首)上取得顶尖性能。此外,与Bradley-Terry模型不同,用户可在推理时指定关注原则,以定制奖励模型的关注点。最后,我们提供了一套完全开源的方案(包括数据),利用RLBFF及我们的奖励模型对齐Qwen3-32B,在MT-Bench、WildBench和Arena Hard v2等通用对齐基准测试中,以低于5%的推理成本,达到或超越o3-mini和DeepSeek R1的性能。
计算机辅助设计(CAD)是工业原型制作的基础组成部分,其模型并非通过原始坐标定义,而是通过诸如草图和拉伸等构建序列来定义。这种序列化结构既支持高效的原型初始化,也便于后续编辑。文本引导的CAD原型制作,将文本到CAD生成与CAD编辑统一起来,有望简化整个设计流程。然而,先前的研究尚未深入探索这一领域,主要原因在于标准的大语言模型(LLM)分词器将CAD序列分解为自然语言词汇片段,未能捕捉到CAD的基元级语义,阻碍了注意力模块对几何结构的建模。我们推测,一种与CAD基元及结构特性相匹配的多模态分词策略,能够提供更为有效的表示方法。为此,我们提出了CAD-Tokenizer框架,该框架利用基于序列的VQ-VAE,结合基元级池化和约束解码,以模态特定的令牌表示CAD数据。这一设计生成了紧凑且具备基元意识的表示,与CAD的结构特性相契合。应用于统一的文本引导CAD原型制作时,CAD-Tokenizer显著提升了指令遵循和生成质量,在定量和定性评估上均优于通用大语言模型及特定任务基线。
基于连续相机测量的三维物体定位对于安全关键监控任务至关重要,例如无人机森林火灾监测。通常,通过密集深度估计或三维场景重建可以解决相机检测到的物体定位问题。然而,在远距离物体或计算资源受限的任务背景下,这两种方案均不可行。本文展示了如何利用粒子滤波器解决单目标和多目标场景下的定位问题。该方法通过三维模拟和基于全球导航卫星系统(GNSS)相机姿态估计的无人机图像分割序列进行了研究。结果表明,在其他方法失效的情况下,粒子滤波器能够基于相机姿态和图像分割完成实际定位任务。粒子滤波器独立于检测方法,使其能够灵活适应新任务。研究还表明,结合现有的图像分割模型,采用所提方法可实现无人机森林火灾监测。
函数调用是大型语言模型的核心能力,对AI代理至关重要。现有的基准测试,如伯克利函数调用排行榜(BFCL)、tau^2-Bench(arXiv:2506.07982)和ACEBench(arXiv:2501.12851),主要评估参数的正确性,但未测试对参数描述中嵌入的格式指令的遵循情况,例如将值用双引号括起或使用ISO日期格式。 我们引入了IFEval-FC,这是一个受IFEval(arXiv:2311.07911)启发的基准测试,用于评估函数调用中的精确指令遵循。IFEval-FC直接在JSON模式描述中编码可验证的格式,例如指定值不得包含标点符号。它包含750个测试用例,每个用例由一个函数及其输入参数中嵌入的格式以及相应的用户查询组成。评估完全基于算法,确保了客观性、可重复性和可扩展性。 我们的结果表明,即使是包括GPT-5和Claude 4.1 Opus在内的最先进的专有模型,也经常无法遵循基本的格式规则,这突显了现实世界代理系统的一个实际限制。完整的代码库和数据公开在https://github.com/Skripkon/IFEval-FC。