每日精选AI研究论文及翻译
大型推理模型(LRMs)已具备潜在的长链思维推理能力。先前研究表明,基于结果的强化学习(RL)能够偶然引发高级推理行为,如自我修正、回溯及验证现象,这些常被喻为模型的“顿悟时刻”。然而,这些涌现行为的时机与一致性仍难以预测和控制,制约了LRMs推理能力的可扩展性与可靠性。为克服这些局限,我们不再依赖提示与偶然的“顿悟时刻”,而是通过自动生成、可自我验证的任务,明确地将模型与三大元能力——演绎、归纳与溯因——对齐。我们的三阶段流程包括个体对齐、参数空间融合及领域特定强化学习,相较于指令调优基线,性能提升超过10%。此外,从对齐检查点出发的领域特定RL在数学、编程及科学基准测试中平均带来额外2%的性能上限提升,表明明确的元能力对齐为推理提供了可扩展且可靠的基础。代码已发布于:https://github.com/zhiyuanhubj/Meta-Ability-Alignment。
普遍认为,扩展语言模型需要付出显著的空间或时间成本,这通常通过增加模型参数(参数扩展)或输出标记(推理时扩展)来实现。我们引入了第三种更为高效的扩展范式:在训练和推理期间增加模型的并行计算能力。我们对输入应用P种多样且可学习的变换,并行执行模型的前向传播,并动态聚合P个输出结果。这种方法,即并行扩展(ParScale),通过复用现有参数来扩展并行计算,可应用于任何模型结构、优化过程、数据或任务。我们从理论上提出了一种新的扩展定律,并通过大规模预训练验证了其有效性,表明具有P个并行流的模型在效果上类似于将参数扩展了O(log P)倍,同时展现出更优的推理效率。例如,与达到相同性能提升的参数扩展相比,ParScale可减少高达22倍的内存增长和6倍的延迟增长。此外,它还能通过少量标记的后训练,将现成的预训练模型转化为并行扩展版本,进一步降低训练成本。我们发现的这一新扩展定律,有望在资源有限的环境中促进更强大模型的部署,并为计算在机器学习中的作用提供了新的视角。
大型语言模型(LLMs)展现了卓越的能力,其中优化其输入提示对于最大化性能起着关键作用。然而,尽管LLM提示包含任务无关的系统提示和任务特定的用户提示,现有的提示优化研究主要集中在针对个别查询或任务的用户提示上,而很大程度上忽视了系统提示——一旦优化,它便适用于不同任务和领域。基于此,我们提出了双层系统提示优化这一新问题,其目标是设计出对多样用户提示具有鲁棒性且可迁移至未见任务的系统提示。为解决此问题,我们进而提出了一种元学习框架,该框架通过在多个数据集上的各种用户提示中优化系统提示来进行元学习,同时以迭代方式更新用户提示,确保二者之间的协同作用。我们在涵盖5个不同领域的14个未见数据集上进行了实验,结果表明,我们的方法生成的系统提示能有效泛化至多样用户提示。此外,我们的研究发现,优化后的系统提示即便面对未见任务也能快速适应,测试时用户提示所需的优化步骤更少,同时实现了性能的提升。
尽管人类能够灵活运用交互式视觉认知解决复杂问题,但让大型视觉语言模型(LVLMs)通过视觉工具学习类似的适应性行为仍面临挑战。当前缺乏标准化基础设施是一个主要障碍,这阻碍了多样化工具的整合、丰富交互数据的生成以及有效训练鲁棒智能体。为填补这些空白,我们推出了OpenThinkIMG,这是首个开源、全面的端到端工具增强型LVLM框架。该框架具备标准化的视觉工具接口、可扩展的策略初始化轨迹生成机制以及灵活的训练环境。此外,考虑到在静态演示上进行监督微调(SFT)对动态工具调用的策略泛化能力有限,我们提出了一种新颖的强化学习(RL)框架V-ToolRL,用于训练LVLMs学习调用外部视觉工具的自适应策略。V-ToolRL通过直接优化任务成功率,利用工具交互反馈,使LVLMs能够自主发现最佳工具使用策略。我们在具有挑战性的图表推理任务上对V-ToolRL进行了实证验证。基于Qwen2-VL-2B构建的RL训练智能体,显著优于其SFT初始化的版本(+28.83分),并平均超越Taco和CogCo等现有监督工具学习基线+12.7分。值得注意的是,它还以+8.68的准确率优势超越了GPT-4.1等知名闭源模型。我们希望OpenThinkIMG能成为推动动态、工具增强型视觉推理的基础框架,助力社区开发真正能够“用图像思考”的AI智能体。
受语言建模中规模定律的启发,该定律展示了测试损失如何随模型和数据集规模呈幂律关系扩展,我们发现偏好建模中也存在类似的规律。我们提出世界偏好建模(WorldPM)以强调这种扩展潜力,其中世界偏好体现了人类偏好的统一表征。本文中,我们从涵盖多样化用户社区的公共论坛收集偏好数据,并在参数规模从15亿到720亿不等的模型上进行了1500万规模数据的广泛训练。我们观察到不同评估指标间的显著模式:(1)对抗性指标(识别欺骗性特征的能力)随着训练数据和基础模型规模的增加而持续提升;(2)客观性指标(具有明确答案的客观知识)在更大语言模型中展现出涌现行为,凸显了WorldPM的可扩展性潜力;(3)主观性指标(来自有限数量人类或AI的主观偏好)并未显示出扩展趋势。进一步实验验证了WorldPM作为偏好微调基础的有效性。通过对7个基准测试的20个子任务进行评估,我们发现WorldPM在规模各异的人类偏好数据集(7K、100K和800K样本)上普遍提升了泛化性能,许多关键子任务的性能提升超过5%。将WorldPM整合进我们的内部RLHF流程后,我们在内部和公共评估集上均观察到显著改进,内部评估中的提升幅度达到4%至8%。
长链思维(CoT)是有效运用现代大型语言模型的关键要素,然而我们对这些能力背后的推理策略的理解仍显不足。尽管先前的一些研究尝试通过预定义的策略类型对CoT进行分类,但这类方法受限于人类直觉,无法全面捕捉模型行为的多样性。在本研究中,我们引入了CoT百科全书,一个自下而上的框架,用于分析和引导模型推理。我们的方法自动从模型生成的CoT中提取多样化的推理标准,将其嵌入语义空间,聚类成代表性类别,并推导出对比性评分标准以解释推理行为。人类评估表明,该框架比现有方法提供了更具解释性和全面性的分析。此外,我们证明这种理解能够带来性能提升:我们能够预测模型可能采用的策略,并引导其转向更有效的替代方案。最后,我们提供了一些实用见解,例如训练数据格式(如自由形式与多项选择)对推理行为的影响远大于数据领域,这强调了格式感知模型设计的重要性。
人工智能的发展受限于评估质量,而强大的LLM-as-a-Judge模型已被证明是核心解决方案。通过增强的链式思维推理能力,提升了判断力,这促使我们寻找训练此类思维模型的最佳方法。在本研究中,我们引入了J1,一种强化学习方法来训练此类模型。我们的方法将可验证与不可验证的提示转化为带有可验证奖励的判断任务,激励思考并减少判断偏差。特别地,当在8B或70B规模下训练时,我们的方法超越了所有现有的同规模模型,包括从DeepSeek-R1蒸馏而来的模型。J1在某些基准测试上甚至超越了o1-mini,以及R1,尽管训练的是更小的模型。我们提供了分析与消融实验,比较了Pairwise-J1与Pointwise-J1模型、离线与在线训练方法、奖励策略、种子提示以及思维长度和内容的变化。我们发现,通过学习制定评估标准、与自我生成的参考答案进行比较以及重新评估模型响应的正确性,我们的模型能够做出更优的判断。
机器人模仿学习已从解决静态任务发展到应对动态交互场景,但由于需要与动态环境进行实时交互,测试和评估仍然成本高昂且具有挑战性。我们提出了EnerVerse-AC(EVAC),一种基于动作条件的世界模型,该模型根据智能体预测的动作生成未来的视觉观测,从而实现逼真且可控的机器人推理。在现有架构的基础上,EVAC引入了多层次动作条件机制和射线图编码,用于动态多视角图像生成,同时通过扩展包含多样失败轨迹的训练数据来提升泛化能力。作为数据引擎和评估工具,EVAC将人类收集的轨迹扩展为多样化数据集,并生成逼真的、基于动作条件的视频观测用于策略测试,无需物理机器人或复杂仿真。这一方法在保持机器人操作评估高保真度的同时,显著降低了成本。大量实验验证了我们方法的有效性。代码、检查点和数据集可在<https://annaj2178.github.io/EnerverseAC.github.io>获取。
现有的视觉分词方法将视觉分词器的优化与下游训练过程割裂开来,隐含地假设视觉分词结果能够在各种任务(如图像生成和视觉问答)中良好泛化。然而,专为低层次重建优化的视觉分词器,对需要多样化表示和语义的下游任务并不敏感。这种解耦范式引入了一个关键的不匹配问题:视觉分词过程中的损失可能成为目标任务中的表示瓶颈。例如,在给定图像中对文本进行分词时的错误,会导致识别或生成这些文本时效果不佳。为解决这一问题,我们提出了ETT,一种端到端的视觉分词器调优方法,实现了视觉分词与目标自回归任务之间的联合优化。与以往仅使用冻结视觉分词器离散索引的自回归模型不同,ETT利用分词器码本的视觉嵌入,并通过重建和描述目标对视觉分词器进行端到端优化。ETT能够以最小的架构修改无缝集成到现有训练流程中,其实现和集成简单,无需调整所采用大型语言模型的原始码本或架构。大量实验表明,我们提出的端到端视觉分词器调优方法带来了显著的性能提升,在多模态理解和视觉生成任务上相比冻结分词器基线提高了2-6%,同时保持了原有的重建能力。我们希望这一简单而强大的方法能够赋能除图像生成和理解之外的多模态基础模型。
近期,创意AI领域的突破使得基于语言指令合成高保真图像和视频成为可能。在此基础上,文本到视频扩散模型已进化为具身世界模型(EWMs),能够从语言命令生成物理上可信的场景,有效连接了具身AI应用中的视觉与行动。本研究聚焦于一个关键挑战:超越通用感知指标来评估EWMs,以确保生成的行为既物理真实又行动一致。我们提出了具身世界模型基准(EWMBench),这是一个专门设计的框架,用于从三个核心维度评估EWMs:视觉场景一致性、运动正确性及语义对齐。我们的方法利用了一个精心策划的数据集,涵盖多样化的场景与运动模式,并配备了一套全面的多维度评估工具包,用以测评和比较候选模型。该基准不仅揭示了现有视频生成模型在满足具身任务独特需求方面的局限,还为该领域未来的发展提供了宝贵的指导。数据集与评估工具已公开于https://github.com/AgibotTech/EWMBench。
我们推出MLE-Dojo,一个Gym风格的框架,旨在系统地进行强化学习、评估和改进自主大型语言模型(LLM)代理在迭代机器学习工程(MLE)工作流程中的表现。与现有主要依赖静态数据集或单次评估的基准不同,MLE-Dojo提供了一个互动环境,使代理能够通过结构化的反馈循环迭代实验、调试和优化解决方案。基于200多个真实世界的Kaggle挑战构建,MLE-Dojo涵盖了多样化的开放式MLE任务,这些任务经过精心策划,以反映数据预处理、架构搜索、超参数调优和代码调试等实际工程场景。其完全可执行的环境支持通过监督微调和强化学习进行全面的代理训练,促进迭代实验、真实数据采样和实时结果验证。对八个前沿LLM的广泛评估表明,尽管当前模型实现了有意义的迭代改进,但在自主生成长期解决方案和高效解决复杂错误方面仍存在显著局限。此外,MLE-Dojo灵活且可扩展的架构无缝集成了多种数据源、工具和评估协议,独特地支持基于模型的代理调优,并促进了互操作性、可扩展性和可重复性。我们开源了该框架和基准,以促进社区驱动的创新,推动下一代MLE代理的发展。
本文介绍了Unilogit,一种用于大语言模型机器遗忘的新型自蒸馏方法。Unilogit解决了在保持模型整体效用的同时选择性遗忘特定信息的挑战,这是遵守GDPR等数据隐私法规的关键任务。与依赖静态超参数或初始模型输出的现有方法不同,Unilogit动态调整目标logits,以实现目标token的均匀概率分布,利用当前模型输出来获得更精确的自蒸馏目标。这种方法不仅消除了对额外超参数的需求,还增强了模型逼近理想目标的能力。在公开基准和内部电商数据集上的大量实验表明,Unilogit在平衡遗忘与保留目标方面表现出色,超越了NPO和UnDIAL等最先进方法。我们的分析进一步揭示了Unilogit在各种场景下的鲁棒性,突显了其在实现高效机器遗忘方面的实际适用性和有效性。
可缩放矢量图形(SVG)因其分辨率独立性和层次分明的结构而深受设计师青睐。尽管现有的文本到矢量(T2V)生成方法能够根据文本提示创建SVG,但它们往往忽视了实际应用中的一个重要需求:风格定制,这对于生成视觉外观一致、美学连贯的矢量图形集合至关重要。扩展现有T2V方法以实现风格定制面临一定挑战。基于优化的T2V模型虽可利用文本到图像(T2I)模型的先验进行定制,但在保持结构规整性方面存在困难。另一方面,前馈式T2V模型虽能确保结构规整,却因SVG训练数据有限,在分离内容与风格时遇到难题。 针对这些挑战,我们提出了一种新颖的两阶段风格定制流程,用于SVG生成,充分利用了前馈式T2V模型和T2I图像先验的优势。在第一阶段,我们训练了一个采用路径级表示的T2V扩散模型,以确保SVG的结构规整性,同时保留多样化的表达能力。在第二阶段,通过蒸馏定制化的T2I模型,我们将T2V扩散模型适配到不同风格。通过整合这些技术,我们的流程能够以前馈方式高效地根据文本提示生成高质量且风格多样的定制SVG。大量实验验证了我们方法的有效性。项目页面请访问https://customsvg.github.io。
本研究提出了Prior Depth Anything框架,该框架将深度测量中不完整但精确的度量信息与深度预测中相对但完整的几何结构相结合,为任意场景生成准确、密集且细致的度量深度图。为此,我们设计了一个由粗到精的流程,逐步整合这两种互补的深度来源。首先,我们引入了像素级度量对齐和距离感知加权,通过显式利用深度预测来预先填充多样化的度量先验。这有效缩小了先验模式之间的领域差距,增强了跨不同场景的泛化能力。其次,我们开发了一个条件化的单目深度估计(MDE)模型,以细化深度先验中的固有噪声。通过以归一化的预填充先验和预测为条件,该模型进一步隐式地融合了这两种互补的深度来源。我们的模型在7个真实世界数据集上的深度补全、超分辨率和修复任务中展示了令人印象深刻的零样本泛化能力,匹配甚至超越了之前的任务特定方法。更重要的是,它在具有挑战性的、未见过的混合先验上表现良好,并通过切换预测模型实现了测试时的改进,在MDE模型不断进步的同时,提供了灵活的精度-效率权衡。
指向作为一种基础且直观的机制,在视觉语境中为语言提供锚定,其应用遍及机器人技术、辅助技术和交互式人工智能系统。尽管最近的多模态模型已开始支持指向功能,但现有基准测试通常仅聚焦于指代性物体定位任务。我们推出了PointArena,一个全面评估多模态指向在多样化推理场景中表现的平台。PointArena包含三个组成部分:(1) Point-Bench,一个精心策划的数据集,涵盖五个推理类别下约1,000项指向任务;(2) Point-Battle,一个基于网络的互动竞技场,支持盲测、成对模型比较,已收集超过4,500次匿名投票;(3) Point-Act,一个现实世界中的机器人操作系统,允许用户直接评估多模态模型在实际环境中的指向能力。我们对当前最先进的开源及专有多模态模型进行了广泛评估。结果显示,Molmo-72B持续优于其他模型,尽管专有模型逐渐展现出与之相当的性能。此外,我们发现专门针对指向任务的有监督训练显著提升了模型表现。在我们的多阶段评估流程中,我们还观察到强烈的相关性,这突显了精确指向能力在使多模态模型有效连接抽象推理与具体现实世界行动中的关键作用。项目页面:https://pointarena.github.io/
本研究深入辨析了AI代理(AI Agents)与代理式AI(Agentic AI)之间的差异,通过构建系统的概念分类体系、应用映射及挑战分析,阐明了二者在设计理念与能力上的显著区别。首先,我们概述了研究策略与基础定义,将AI代理描述为由大型语言模型(LLMs)和大型图像模型(LIMs)驱动的模块化系统,专注于特定任务的自动化。生成式AI被视为其前身,而AI代理则通过工具集成、提示工程和推理增强不断进化。相比之下,代理式AI系统标志着一场范式转变,其特征体现在多代理协作、动态任务分解、持久记忆及协调自主性上。通过对架构演进、操作机制、交互方式及自主层级的顺序评估,我们对这两种范式进行了对比分析。在应用领域方面,如客户支持、日程安排和数据摘要等,与代理式AI在科研自动化、机器人协调及医疗决策支持中的部署形成鲜明对比。此外,我们探讨了各自范式中的独特挑战,包括幻觉现象、脆弱性、涌现行为及协调失败,并提出了针对性的解决方案,如ReAct循环、RAG(检索增强生成)、协调层及因果建模。本工作旨在为开发健壮、可扩展且可解释的AI代理及代理式AI驱动系统提供一份明确的路线图。>AI代理,代理驱动,视觉-语言模型,代理式AI决策支持系统,代理式AI应用
本文并未提出新方法,而是深入探讨了文本到图像合成领域一个重要却研究不足的设计空间——特别是大型语言模型(LLMs)与扩散变换器(DiTs)在多模态生成中的深度融合。以往研究多集中于整体系统性能,而缺乏与替代方法的详细对比,关键设计细节和训练方案也常未公开。这些空白使得该方法的真正潜力存在不确定性。为填补这些空白,我们对文本到图像生成进行了实证研究,与现有基线进行受控对比,分析重要设计选择,并提供了一套清晰、可复现的大规模训练方案。我们期望这项工作能为多模态生成的未来研究提供有价值的数据参考和实践指导。
预训练语言模型(LLMs)常受限于其固定的分词方案,导致效率低下和性能受限,尤其是在多语言或专业应用场景中。这种分词器锁定现象带来了显著挑战。传统的克服方法往往需要极高的计算资源。尽管通过启发式初始化进行分词器替换旨在减轻这一负担,但现有方法通常需要进行详尽的残差微调,且可能无法完全保留语义细微差别或有效解决底层的压缩效率问题。我们的框架引入了两项创新:首先,Tokenadapt,一种模型无关的分词器移植方法;其次,新颖的多词超分词预学习技术,以增强压缩效果并减少碎片化。Tokenadapt通过结合两种方法的混合启发式策略来初始化新的唯一分词嵌入:一是基于旧分词器的子词分解进行局部估计,二是利用原始词汇表中语义最接近的前k个分词进行全局估计。该方法旨在保留语义的同时,显著减少重新训练的需求。实证研究验证了这两项贡献:移植启发式成功初始化了唯一分词,明显优于包括Transtokenizer和ReTok在内的传统基线方法和复杂方法,而我们的超分词则实现了显著的压缩增益。我们的零样本困惑度结果显示,与ReTok和TransTokenizer基线相比,TokenAdapt混合初始化在不同基础模型和新训练的目标分词器上均能持续产生更低的困惑度比率。TokenAdapt通常显著降低了整体困惑度比率,与ReTok相比,这些综合得分至少提高了2倍。
手术场景分割在计算机辅助手术中至关重要,对提升手术质量和患者预后具有重大意义。近年来,参考式手术分割技术因其能为外科医生提供交互式目标分割体验的优势而崭露头角。然而,现有方法受限于低效性和短期跟踪能力,难以应对复杂现实手术场景的挑战。本文提出ReSurgSAM2,一种两阶段手术参考分割框架,该框架利用Segment Anything Model 2进行文本引导的目标检测,随后通过可靠的初始帧识别与多样性驱动的长期记忆进行跟踪。在检测阶段,我们提出了一种跨模态时空Mamba模型,以生成精确的检测与分割结果。基于这些结果,我们的可信初始帧选择策略为后续跟踪确定了可靠帧。选定初始帧后,方法转入跟踪阶段,采用多样性驱动记忆机制,维护一个可信且多样化的记忆库,确保长期跟踪的一致性。大量实验表明,ReSurgSAM2在准确性和效率上较现有方法均有显著提升,实时运行速度达到61.2 FPS。我们的代码与数据集将发布于https://github.com/jinlab-imvr/ReSurgSAM2。
尽管通过扩散模型在图像先验建模方面取得了显著进展,3D感知的图像编辑仍然面临挑战,部分原因在于对象仅通过单张图像进行指定。为应对这一挑战,我们提出了3D-Fixup,一个基于学习到的3D先验指导的2D图像编辑新框架。该框架支持诸如物体平移和3D旋转等复杂编辑场景。为此,我们采用了一种基于训练的方法,充分利用扩散模型的生成能力。鉴于视频数据天然编码了现实世界的物理动态,我们转向视频数据以生成训练数据对,即源帧与目标帧。不同于仅依赖单一训练模型来推断源帧与目标帧之间的变换,我们引入了来自图像到3D模型的3D指导,通过将2D信息显式投影至3D空间,有效弥合了这一难题。我们设计了一套数据生成流程,确保在整个训练过程中提供高质量的3D指导。实验结果表明,通过整合这些3D先验,3D-Fixup能够有效支持复杂且保持身份一致性的3D感知编辑,实现了高质量的结果,并推动了扩散模型在真实图像处理中的应用。代码可在https://3dfixup.github.io/获取。
混合量子-经典机器学习(HQML)模型的出现为计算智能开辟了新视野,但其固有的复杂性往往导致黑箱行为,削弱了应用中的透明度和可靠性。尽管量子系统的可解释人工智能(XAI)仍处于起步阶段,但在为采用量子特征编码后接经典学习的HQML架构设计的全局与局部解释方法上,存在显著的研究空白。本文聚焦这一空白,引入了基于Q-MEDLEY的QuXAI框架,用于解释这些混合系统中的特征重要性。我们的模型包括构建包含量子特征映射的HQML模型,运用Q-MEDLEY结合基于特征的推理,保留量子变换阶段并可视化所得归因。结果表明,Q-MEDLEY不仅能够识别HQML模型中有影响力的经典因素,还能有效分离噪声,并在经典验证环境中与现有XAI技术相媲美。消融研究进一步揭示了Q-MEDLEY复合结构的优势。本工作的意义重大,它为提升HQML模型的可解释性和可靠性提供了途径,从而增强了对量子增强AI技术的信心,促进了更安全、更负责任的使用。
通用视觉异常检测旨在无需额外微调的情况下,从新颖或未见过的视觉领域中识别异常,这在开放场景中至关重要。近期研究表明,如CLIP等预训练的视觉-语言模型仅需零样本或少量正常图像即可展现出强大的泛化能力。然而,现有方法在设计提示模板、处理复杂令牌交互或需要额外微调方面存在困难,导致灵活性受限。本研究中,我们提出了一种名为AdaptCLIP的简单而有效的方法,基于两个关键洞见:首先,视觉与文本的适应性表示应交替而非联合学习;其次,查询与正常图像提示之间的对比学习应结合上下文特征与对齐的残差特征,而非仅依赖残差特征。AdaptCLIP将CLIP模型视为基础服务,仅在其输入或输出端添加三个简单适配器——视觉适配器、文本适配器及提示-查询适配器。AdaptCLIP支持跨领域的零样本/少样本泛化,并在基础数据集上训练后,在目标领域上无需训练即可应用。AdaptCLIP在工业和医疗领域的12个异常检测基准测试中取得了最先进的性能,显著超越了现有竞争方法。我们将在https://github.com/gaobb/AdaptCLIP上公开AdaptCLIP的代码与模型。
扩展机器人学习需要大量且多样化的数据集。然而,当前主流的数据收集方式——人类远程操控——仍然成本高昂,并受限于人工操作和物理机器人的可及性。我们提出了Real2Render2Real(R2R2R),一种无需依赖物体动力学模拟或机器人硬件远程操控即可生成机器人训练数据的新方法。该方法输入为智能手机扫描的一个或多个物体以及一段人类示范视频。R2R2R通过重建精细的3D物体几何与外观,并追踪6自由度物体运动,渲染出数千个高视觉保真度、与机器人无关的示范。R2R2R利用3D高斯溅射(3DGS)技术,为刚性和铰接物体实现灵活的资产生成与轨迹合成,并将这些表示转换为网格,以保持与可扩展渲染引擎如IsaacLab的兼容性,但关闭了碰撞建模。R2R2R生成的机器人示范数据可直接集成到基于机器人本体感知状态和图像观测的模型中,如视觉-语言-动作模型(VLA)和模仿学习策略。物理实验表明,仅用一次人类示范生成的R2R2R数据训练模型,其性能可媲美基于150次人类远程操控示范训练的模型。项目页面:https://real2render2real.com
基于自注意力变换器的无监督重建网络在单一模型下实现了多类别(统一)异常检测的最先进性能。然而,这些自注意力重建模型主要针对目标特征进行操作,由于与上下文高度一致,可能导致对正常和异常特征的完美重建,从而在异常检测上失效。此外,这些模型通常在低空间分辨率的潜在空间中进行重建,导致异常分割不准确。为了在保持重建模型高效性的同时增强其对统一异常检测的泛化能力,我们提出了一种简单而有效的方法,仅需一张正常图像提示(OneNIP)即可重建正常特征并恢复异常特征。与以往工作不同,OneNIP首次实现了仅凭一张正常图像提示就能重建或恢复异常,显著提升了统一异常检测的性能。此外,我们提出了一种监督式精炼器,通过使用真实的正常图像和合成的异常图像来回归重建误差,极大地改善了像素级异常分割。OneNIP在三个工业异常检测基准测试(MVTec、BTAD和VisA)上均超越了先前的方法。代码和预训练模型可在https://github.com/gaobb/OneNIP获取。
零样本和少样本视觉异常分割依赖于强大的视觉-语言模型,这些模型通过手动设计的文本提示来检测未见过的异常。然而,视觉表示本质上独立于语言。本文中,我们探索了纯视觉基础模型作为广泛使用的视觉-语言模型替代方案,用于通用视觉异常分割的潜力。我们提出了一种新颖的范式,将异常分割统一为变化分割。这一范式使我们能够利用从现有图像数据集中衍生的大规模合成图像对,这些图像对包含对象级别和局部区域的变化,且独立于目标异常数据集。我们提出了一种用于通用异常分割的单提示元学习框架(MetaUAS),该框架在此合成数据集上训练,随后能够很好地泛化以分割现实世界中的任何新颖或未见过的视觉异常。为了处理提示图像与查询图像之间的几何变化,我们提出了一个软特征对齐模块,该模块桥接了成对图像的变化感知与单图像语义分割。这是首个不依赖特殊异常检测数据集和预训练视觉-语言模型,仅使用纯视觉模型实现通用异常分割的工作。我们的方法仅需一张正常图像提示即可高效地分割任何异常,且无需语言指导即可实现无训练。我们的MetaUAS显著优于以往的零样本、少样本甚至全样本异常分割方法。代码和预训练模型可在https://github.com/gaobb/MetaUAS获取。
异常检测在工业检测中是一项实用且具有挑战性的任务,主要由于异常样本的稀缺性。现有的一些异常检测方法通过引入噪声或外部数据来合成异常以应对这一问题。然而,合成异常与真实异常之间始终存在较大的语义鸿沟,导致异常检测性能不佳。为解决此问题,我们提出了一种少样本异常驱动生成方法(AnoGen),该方法引导扩散模型仅利用少量真实异常生成逼真且多样化的异常,从而提升异常检测模型的训练效果。具体而言,我们的工作分为三个阶段。第一阶段,我们基于少量给定的真实异常学习异常分布,并将所学知识注入一个嵌入向量中。第二阶段,利用该嵌入向量及给定的边界框,指导扩散模型在特定对象(或纹理)上生成逼真且多样的异常。最后阶段,我们提出了一种弱监督异常检测方法,利用生成的异常训练更强大的模型。我们的方法以DRAEM和DesTSeg为基础模型,并在工业异常检测常用数据集MVTec上进行了实验。实验结果表明,我们生成的异常有效提升了模型在异常分类和分割任务上的性能,例如,DRAEM和DesTSeg在分割任务的AU-PR指标上分别提升了5.8%和1.5%。代码及生成的异常数据可在https://github.com/gaobb/AnoGen获取。
人类视频为训练机器人操作策略提供了一种可扩展的方式,但缺乏标准模仿学习算法所需的动作标签。现有的跨实体映射方法试图将人类动作转化为机器人动作,但在实体差异显著时往往失效。我们提出了X-Sim,一个从真实到模拟再到真实的框架,它利用物体运动作为密集且可迁移的信号来学习机器人策略。X-Sim首先从RGBD人类视频中重建出逼真的模拟环境,并追踪物体轨迹以定义以物体为中心的奖励。这些奖励用于在模拟环境中训练强化学习(RL)策略。随后,通过使用不同视角和光照渲染的合成数据,将学习到的策略蒸馏为基于图像条件的扩散策略。为了迁移到现实世界,X-Sim引入了一种在线域适应技术,在部署过程中对齐真实与模拟的观测。重要的是,X-Sim不需要任何机器人遥操作数据。我们在2个环境中的5个操作任务上对其进行了评估,结果表明:(1) 相比手动追踪和模拟到真实基线,平均任务进度提高了30%;(2) 在数据收集时间减少10倍的情况下,与行为克隆效果相当;(3) 能够泛化到新的相机视角和测试时的变化。代码和视频可在https://portal-cornell.github.io/X-Sim/获取。