每日精選AI研究論文及翻譯
大型推理模型(LRMs)已具备进行长链思维推理的潜在能力。先前的研究表明,基于结果的强化学习(RL)能够偶然引发诸如自我修正、回溯及验证等高级推理行为,这些现象常被喻为模型的“顿悟时刻”。然而,这些涌现行为的时机与一致性仍难以预测和控制,从而限制了LRMs推理能力的可扩展性与可靠性。为克服这些局限,我们不再依赖提示语与偶然的“顿悟时刻”,而是通过自动生成、可自我验证的任务,明确地将模型与三种元能力——演绎、归纳及溯因——对齐。我们的三阶段流程包括个体对齐、参数空间融合及领域特定强化学习,相较于指令调优基线,性能提升超过10%。此外,从对齐检查点出发的领域特定RL在数学、编程及科学基准测试中,平均性能上限再获2%的提升,证实了明确的元能力对齐为推理提供了可扩展且可靠的基础。代码已发布于:https://github.com/zhiyuanhubj/Meta-Ability-Alignment。
普遍認為,擴展語言模型應當付出顯著的空間或時間代價,這通常通過增加模型參數(參數擴展)或輸出標記(推理時擴展)來實現。我們引入了第三種更為高效的推理擴展範式:在訓練和推理期間同步提升模型的並行計算能力。我們對輸入施加P種多樣且可學習的變換,並行執行模型的前向傳播,並動態聚合這P個輸出。此方法,即並行擴展(ParScale),通過重用現有參數來擴展並行計算,可應用於任何模型結構、優化過程、數據或任務。我們從理論上提出了一種新的擴展定律,並通過大規模預訓練進行了驗證,結果表明,具有P個並行流的模型相當於將參數擴展了O(log P)倍,同時展現出更優的推理效率。例如,與達到相同性能提升的參數擴展相比,ParScale可減少多達22倍的內存增長和6倍的延遲增長。它還能通過對少量標記進行後訓練,將現成的預訓練模型轉化為並行擴展版本,進一步降低訓練成本。我們發現的這一新擴展定律,有望在資源受限的環境中促進更強大模型的部署,並為計算在機器學習中的角色提供了另一種視角。
大型语言模型(LLMs)展现了卓越的能力,其中优化其输入提示在最大化性能方面起着关键作用。然而,尽管LLM提示包括任务无关的系统提示和任务特定的用户提示,现有的提示优化工作主要集中在针对个别查询或任务的用户提示上,而很大程度上忽视了系统提示,一旦优化,便可适用于不同任务和领域。受此启发,我们引入了双层系统提示优化这一新颖问题,其目标是设计出对多样用户提示具有鲁棒性且可迁移至未见任务中的系统提示。为解决此问题,我们随后提出了一个元学习框架,该框架通过在多个数据集上针对各种用户提示优化系统提示,同时以迭代方式更新用户提示,确保二者之间的协同作用。我们在涵盖5个不同领域的14个未见数据集上进行了实验,结果表明,我们的方法生成的系统提示能有效泛化至多样用户提示。此外,我们的发现揭示,优化后的系统提示即使面对未见任务也能快速适应,在测试时用户提示的优化步骤更少的同时,实现了性能的提升。
尽管人类能够灵活运用交互式视觉认知解决复杂问题,但让大型视觉语言模型(LVLMs)学习类似的自适应行为以利用视觉工具仍面临挑战。当前缺乏标准化基础设施是一个重大障碍,这阻碍了整合多样化工具、生成丰富的交互数据以及有效训练鲁棒智能体。为填补这些空白,我们推出了OpenThinkIMG,这是首个开源、全面的端到端框架,专为工具增强型LVLMs设计。该框架具备标准化的视觉工具接口、可扩展的策略初始化轨迹生成机制,以及灵活的训练环境。此外,考虑到在静态演示上进行监督微调(SFT)对动态工具调用的策略泛化能力有限,我们提出了一种新颖的强化学习(RL)框架V-ToolRL,用于训练LVLMs学习调用外部视觉工具的自适应策略。V-ToolRL通过直接优化任务成功率,利用工具交互反馈,使LVLMs能够自主发现最佳工具使用策略。我们在具有挑战性的图表推理任务上对V-ToolRL进行了实证验证。基于Qwen2-VL-2B构建的RL训练智能体,其表现显著优于SFT初始化的对照模型(提升28.83分),并平均超越如Taco和CogCom等已建立的监督式工具学习基线12.7分。尤为突出的是,它还以8.68个准确率点的优势超越了如GPT-4.1等知名闭源模型。我们希望OpenThinkIMG能成为推动动态、工具增强型视觉推理的基础框架,助力社区开发真正能够“用图像思考”的AI智能体。
受語言模型中的規模定律啟發,該定律展示了測試損失如何隨模型和數據集規模呈冪律關係擴展,我們發現偏好建模中也存在類似的定律。我們提出世界偏好建模(World Preference Modeling, WorldPM)以強調這種擴展潛力,其中世界偏好體現了人類偏好的統一表徵。在本文中,我們從涵蓋多樣化用戶群體的公共論壇收集偏好數據,並使用從15億到720億參數的模型進行大規模訓練,數據量達1500萬規模。我們在不同評估指標上觀察到明顯的模式:(1) 對抗性指標(識別欺騙特徵的能力)隨著訓練數據和基礎模型規模的增加而持續提升;(2) 客觀性指標(具有明確答案的客觀知識)在更大的語言模型中展現出湧現行為,凸顯了WorldPM的可擴展性潛力;(3) 主觀性指標(來自有限數量的人類或AI的主觀偏好)並未顯示出擴展趨勢。進一步的實驗驗證了WorldPM作為偏好微調基礎的有效性。通過在7個基準測試和20個子任務上的評估,我們發現WorldPM廣泛提升了不同規模(7K、100K和800K樣本)的人類偏好數據集的泛化性能,在許多關鍵子任務上性能提升超過5%。將WorldPM整合到我們內部的RLHF(基於人類反饋的強化學習)流程中,我們在內部評估集和公共評估集上均觀察到顯著改進,內部評估中的提升幅度達到4%至8%。
長鏈思維(CoT)是有效運用現代大型語言模型的關鍵要素,然而我們對這些能力背後的推理策略理解仍顯不足。儘管先前一些研究嘗試使用預定義的策略類型來分類CoT,但這類方法受限於人類直覺,無法全面捕捉模型行為的多樣性。在本研究中,我們引入了CoT百科全書,這是一種自下而上的框架,用於分析和引導模型推理。我們的方法自動從模型生成的CoT中提取多樣的推理標準,將其嵌入語義空間,聚類成代表性類別,並推導出對比性評分標準來解釋推理行為。人類評估顯示,該框架產生的分析比現有方法更具解釋性和全面性。此外,我們證明這種理解能夠提升性能:我們可以預測模型可能使用的策略,並引導其轉向更有效的替代方案。最後,我們提供了實用見解,例如訓練數據格式(如自由形式與多選題)對推理行為的影響遠大於數據領域,這凸顯了格式感知模型設計的重要性。
人工智能的进展受限于评估质量,而强大的LLM-as-a-Judge模型已被证明是核心解决方案。更强的链式思维推理能力提升了判断能力,这促使我们需要寻找训练此类模型思考的最佳方法。在本研究中,我们引入了J1,一种强化学习方法来训练此类模型。我们的方法将可验证和不可验证的提示转换为具有可验证奖励的判断任务,这些奖励激励思考并减少判断偏差。特别是,当在8B或70B规模下训练时,我们的方法优于所有其他现有模型,包括从DeepSeek-R1蒸馏的模型。J1在某些基准测试中甚至超越了o1-mini和R1,尽管训练的是更小的模型。我们提供了分析和消融实验,比较了Pairwise-J1与Pointwise-J1模型、离线与在线训练方法、奖励策略、种子提示以及思维长度和内容的变化。我们发现,我们的模型通过学习制定评估标准、与自我生成的参考答案进行比较以及重新评估模型响应的正确性,做出了更好的判断。
機器人模仿學習已從解決靜態任務發展到應對動態互動場景,但由於需要與動態環境進行實時互動,測試與評估仍然成本高昂且具有挑戰性。我們提出了EnerVerse-AC(EVAC),這是一種基於動作條件生成未來視覺觀測的世界模型,能夠實現真實且可控的機器人推理。在先前架構的基礎上,EVAC引入了多層次動作條件機制和射線圖編碼,用於動態多視角圖像生成,同時通過擴展多樣化失敗軌跡的訓練數據來提升泛化能力。作為數據引擎和評估工具,EVAC將人類收集的軌跡擴展為多樣化數據集,並生成真實的、基於動作條件的視頻觀測用於策略測試,從而消除了對物理機器人或複雜模擬的需求。這一方法在保持機器人操作評估高保真度的同時,顯著降低了成本。大量實驗驗證了我們方法的有效性。代碼、檢查點和數據集可在<https://annaj2178.github.io/EnerverseAC.github.io>找到。
现有的视觉标记化方法将视觉标记器的优化与下游训练过程相隔离,隐含地假设视觉标记能够良好地泛化于多种任务,如图像生成与视觉问答。专为低层次重建优化的视觉标记器,对于需要多样化表示与语义的下游任务而言,是“无意识”的。这种解耦模式引入了一个关键的不匹配问题:视觉标记化的损失可能成为目标任务中的表示瓶颈。例如,在给定图像中文本标记化时的错误,会导致识别或生成这些文本时效果不佳。为解决此问题,我们提出了ETT,一种端到端的视觉标记器调优方法,它实现了视觉标记化与目标自回归任务间的联合优化。与以往仅使用冻结视觉标记器离散索引的自回归模型不同,ETT利用标记器码本的视觉嵌入,并通过重建与描述目标共同优化视觉标记器。ETT能够以最小的架构改动,无缝融入现有的训练流程中。我们的ETT易于实现与集成,无需调整所采用大型语言模型的原始码本或架构。大量实验证明,我们提出的端到端视觉标记器调优方法,相较于冻结标记器基线,在多模态理解与视觉生成任务上带来了显著的性能提升,即2-6%的增益,同时保持了原有的重建能力。我们希望这一简单而强大的方法,除了图像生成与理解之外,还能赋能于多模态基础模型。
近期,創意型人工智慧的進展已實現了基於語言指令的高保真圖像與視頻合成。在此基礎上,文本到視頻的擴散模型已發展成為具身世界模型(EWMs),能夠從語言命令生成物理上合理的場景,有效連接了具身人工智慧應用中的視覺與行動。本研究針對評估EWMs超越一般感知指標的關鍵挑戰,以確保生成物理基礎紮實且行動一致的行為。我們提出了具身世界模型基準(EWMBench),這是一個專為評估EWMs而設計的框架,基於三個關鍵方面:視覺場景一致性、運動正確性及語義對齊。我們的方法利用精心策劃的數據集,涵蓋多樣化的場景與運動模式,並配備全面的多維度評估工具包,來評估與比較候選模型。該基準不僅揭示了現有視頻生成模型在滿足具身任務獨特需求方面的局限,還為指導該領域未來發展提供了寶貴見解。數據集與評估工具已公開於https://github.com/AgibotTech/EWMBench。
我們推出MLE-Dojo,這是一個Gym風格的框架,旨在系統性地進行強化學習、評估並改進自主大型語言模型(LLM)代理在迭代式機器學習工程(MLE)工作流程中的表現。與現有主要依賴靜態數據集或單次評估的基準不同,MLE-Dojo提供了一個互動環境,使代理能夠通過結構化的反饋循環進行迭代實驗、調試和優化解決方案。基於200多個真實世界的Kaggle挑戰,MLE-Dojo涵蓋了多樣化且開放式的MLE任務,這些任務經過精心策劃,以反映數據處理、架構搜索、超參數調優和代碼調試等現實工程場景。其完全可執行的環境支持通過監督微調和強化學習進行全面的代理訓練,促進迭代實驗、真實數據採樣和實時結果驗證。對八個前沿LLM的廣泛評估表明,雖然當前模型在迭代改進方面取得了有意義的進展,但在自主生成長期解決方案和高效解決複雜錯誤方面仍存在顯著限制。此外,MLE-Dojo靈活且可擴展的架構無縫整合了多樣化的數據源、工具和評估協議,獨特地支持基於模型的代理調優,並促進互操作性、可擴展性和可重現性。我們開源了我們的框架和基準,以促進社區驅動的創新,推動下一代MLE代理的發展。
本文介紹了Unilogit,一種針對大型語言模型機器遺忘的新型自我蒸餾方法。Unilogit解決了在保持模型整體效用的同時選擇性遺忘特定信息的挑戰,這對於遵守如GDPR等數據隱私法規至關重要。與依賴靜態超參數或初始模型輸出的先前方法不同,Unilogit動態調整目標logits,以實現目標token的均勻概率,利用當前模型的輸出來獲得更精確的自我蒸餾目標。這種方法不僅消除了對額外超參數的需求,還增強了模型逼近黃金目標的能力。在公共基準和內部電子商務數據集上的廣泛實驗表明,Unilogit在平衡遺忘與保留目標方面表現優異,超越了如NPO和UnDIAL等最先進的方法。我們的分析進一步揭示了Unilogit在各種情境下的魯棒性,凸顯了其實際應用性和在實現有效機器遺忘方面的效能。
可缩放矢量图形(SVGs)因其分辨率独立性和层次分明的结构而深受设计师青睐。尽管现有的文本到矢量(T2V)生成方法能够根据文本提示创建SVGs,但它们往往忽略了一个实际应用中的重要需求:风格定制,这对于生成一系列视觉外观一致、美学连贯的矢量图形至关重要。扩展现有T2V方法以实现风格定制面临一定挑战。基于优化的T2V模型虽可利用文本到图像(T2I)模型的先验进行定制,但在保持结构规整性方面存在困难。另一方面,前馈式T2V模型虽能确保结构规整,却因SVG训练数据有限而在分离内容与风格时遇到难题。 为应对这些挑战,我们提出了一种新颖的两阶段风格定制流程,用于SVG生成,充分利用了前馈式T2V模型和T2I图像先验的优势。在第一阶段,我们训练了一个采用路径级表示的T2V扩散模型,以确保SVGs的结构规整性,同时保留多样化的表达能力。在第二阶段,通过蒸馏定制的T2I模型,我们将T2V扩散模型定制为不同风格。通过整合这些技术,我们的流程能够以前馈方式高效地基于文本提示生成高质量且风格多样的SVGs。我们方法的有效性已通过大量实验得到验证。项目页面请访问https://customsvg.github.io。
本研究提出了Prior Depth Anything框架,該框架將深度測量中不完整但精確的度量信息與深度預測中相對但完整的幾何結構相結合,為任何場景生成準確、密集且細緻的度量深度圖。為此,我們設計了一個由粗到精的流程,逐步整合這兩種互補的深度來源。首先,我們引入了像素級度量對齊和距離感知加權,通過顯式使用深度預測來預填充多樣的度量先驗。這有效縮小了先驗模式之間的領域差距,增強了在不同場景下的泛化能力。其次,我們開發了一個條件化的單目深度估計(MDE)模型,以精煉深度先驗中的固有噪聲。通過對標準化的預填充先驗和預測進行條件化,該模型進一步隱式地融合了這兩種互補的深度來源。我們的模型在7個真實世界數據集上展示了令人印象深刻的零樣本泛化能力,涵蓋深度補全、超分辨率和修復任務,與甚至超越了之前的特定任務方法。更重要的是,它在具有挑戰性的、未見的混合先驗上表現良好,並通過切換預測模型實現了測試時的改進,提供了靈活的精度-效率權衡,同時隨著MDE模型的進步而不斷演進。
指向作为一种基础且直观的机制,在视觉语境中为语言提供基础,其应用范围涵盖机器人技术、辅助技术和交互式人工智能系统。尽管最近的多模态模型已开始支持指向功能,但现有的基准测试通常仅关注于指代性物体定位任务。我们引入了PointArena,一个用于评估多模态指向在多样化推理场景中的综合平台。PointArena包含三个组成部分:(1) Point-Bench,一个精心策划的数据集,包含约1,000个指向任务,覆盖五个推理类别;(2) Point-Battle,一个基于网络的互动竞技场,支持盲目的成对模型比较,已收集超过4,500次匿名投票;(3) Point-Act,一个现实世界的机器人操作系统,允许用户在实际环境中直接评估多模态模型的指向能力。我们对最先进的开源和专有多模态模型进行了广泛评估。结果表明,Molmo-72B持续优于其他模型,尽管专有模型逐渐展现出可比的性能。此外,我们发现针对指向任务的有监督训练显著提升了模型性能。在我们的多阶段评估流程中,我们还观察到强烈的相关性,强调了精确指向能力在使多模态模型有效连接抽象推理与具体现实世界行动中的关键作用。项目页面:https://pointarena.github.io/
本研究精確區分了AI代理(AI Agents)與代理型AI(Agentic AI),提供了一個結構化的概念分類、應用映射及挑戰分析,以釐清它們在設計哲學與能力上的差異。我們首先概述了搜索策略與基礎定義,將AI代理描述為由大型語言模型(LLMs)和大型圖像模型(LIMs)驅動的模塊化系統,專注於狹窄、任務特定的自動化。生成式AI被定位為先驅,而AI代理則通過工具集成、提示工程和推理增強向前推進。相比之下,代理型AI系統代表了一種範式轉變,其特徵是多代理協作、動態任務分解、持久記憶和協調自主性。通過對架構演進、操作機制、交互風格和自主層次的順序評估,我們對這兩種範式進行了比較分析。諸如客戶支持、日程安排和數據摘要等應用領域與代理型AI在研究自動化、機器人協調和醫療決策支持中的部署形成對比。我們進一步探討了每種範式中的獨特挑戰,包括幻覺、脆弱性、湧現行為和協調失敗,並提出了針對性的解決方案,如ReAct循環、RAG、協調層和因果建模。本工作旨在為開發健壯、可擴展且可解釋的AI代理及代理型AI驅動系統提供明確的路線圖。>AI代理,代理驅動,視覺-語言模型,代理型AI決策支持系統,代理型AI應用
本文并未阐述一种新方法,而是对近期文本至图像合成技术进展中一个重要却鲜有研究的设计领域进行了深入探讨——具体而言,即大型语言模型(LLMs)与扩散变换器(DiTs)深度融合以实现多模态生成。既往研究多聚焦于系统整体性能,而缺乏与替代方法的细致对比,且关键设计细节与训练方案常未公开,这些空白使得该方法的真实潜力存疑。为填补这些空白,我们开展了一项关于文本至图像生成的实证研究,通过与既定基线进行受控对比,分析重要设计决策,并提供一套清晰、可复现的大规模训练方案。我们期望本工作能为未来多模态生成研究提供有价值的数据参考与实践指导。
預訓練語言模型(LLMs)常受制於其固定的分詞方案,導致效率低下和性能限制,特別是在多語言或專業應用中。這種分詞器的鎖定效應帶來了重大挑戰。標準的解決方法通常需要極高的計算資源。儘管通過啟發式初始化來替換分詞器旨在減輕這一負擔,但現有方法往往需要進行繁瑣的殘差微調,且可能無法完全保留語義細微差別或有效解決底層的壓縮效率問題。我們的框架引入了兩項創新:首先,Tokenadapt,一種模型無關的分詞器移植方法;其次,新穎的預分詞學習,用於多詞超詞(Supertokens)以增強壓縮並減少碎片化。Tokenadapt通過結合兩種方法的混合啟發式來初始化新的唯一詞嵌入:基於舊分詞器的子詞分解的局部估計,以及利用原始詞彙表中語義相似度最高的前k個詞的全局估計。該方法旨在保留語義的同時顯著減少重新訓練的需求。實證研究驗證了這兩項貢獻:移植啟發式成功初始化了唯一詞,明顯優於傳統基線和包括Transtokenizer和ReTok在內的複雜方法,而我們的超詞則實現了顯著的壓縮增益。我們的零樣本困惑度結果表明,與ReTok和TransTokenizer基線相比,TokenAdapt混合初始化在不同基礎模型和新訓練的目標分詞器上始終產生更低的困惑度比率。TokenAdapt通常顯著降低了總體困惑度比率,與ReTok相比,在這些綜合評分上至少實現了2倍的改進。
手術場景分割在計算機輔助手術中至關重要,對於提升手術質量和患者預後具有重大意義。近年來,基於參考的手術分割技術逐漸興起,其優勢在於能為外科醫生提供交互式體驗以分割目標對象。然而,現有方法受限於效率低下和短期追蹤,阻礙了其在複雜現實手術場景中的應用。本文提出ReSurgSAM2,這是一個兩階段的手術參考分割框架,利用Segment Anything Model 2進行文本參考的目標檢測,隨後通過可靠的初始幀識別和多樣性驅動的長期記憶進行追蹤。在檢測階段,我們提出了一種跨模態時空Mamba模型,以生成精確的檢測和分割結果。基於這些結果,我們的可信初始幀選擇策略識別出後續追蹤的可靠幀。選定初始幀後,我們的方法轉入追蹤階段,其中引入了一種多樣性驅動的記憶機制,維護一個可信且多樣的記憶庫,確保了長期追蹤的一致性。大量實驗表明,ReSurgSAM2在準確性和效率上相較現有方法取得了顯著提升,實時運行速度達61.2 FPS。我們的代碼和數據集將在https://github.com/jinlab-imvr/ReSurgSAM2上公開。
尽管通过扩散模型在图像先验建模方面取得了显著进展,三维感知的图像编辑仍然面临挑战,部分原因在于对象仅通过单一图像进行指定。为应对这一挑战,我们提出了3D-Fixup,一个基于学习到的三维先验指导二维图像编辑的新框架。该框架支持诸如物体平移和三维旋转等复杂编辑场景。为实现这一目标,我们采用了一种基于训练的方法,充分利用扩散模型的生成能力。鉴于视频数据自然编码了现实世界的物理动态,我们转向视频数据以生成训练数据对,即源帧与目标帧。我们不仅依赖单一训练模型来推断源帧与目标帧之间的变换,还引入了来自图像到三维模型的三维指导,通过将二维信息显式投影至三维空间,架起了这一挑战性任务的桥梁。我们设计了一套数据生成流程,以确保在整个训练过程中提供高质量的三维指导。结果表明,通过整合这些三维先验,3D-Fixup有效支持了复杂且身份一致的三维感知编辑,实现了高质量的结果,并推动了扩散模型在真实图像处理中的应用。代码可在https://3dfixup.github.io/获取。
混合量子-經典機器學習(HQML)模型的出現開闢了計算智能的新視野,但其固有的複雜性往往導致黑箱行為,從而削弱了其應用中的透明度和可靠性。儘管針對量子系統的可解釋人工智能(XAI)仍處於起步階段,但在為採用量子特徵編碼後接經典學習的HQML架構設計的穩健全局和局部可解釋性方法方面,存在明顯的研究空白。這一空白正是本工作的焦點,我們引入了基於Q-MEDLEY的QuXAI框架,這是一種用於解釋這些混合系統中特徵重要性的解釋器。我們的模型包括創建結合量子特徵映射的HQML模型,使用Q-MEDLEY,它結合了基於特徵的推理,保留了量子轉換階段並可視化最終的歸因結果。我們的結果表明,Q-MEDLEY不僅能勾勒出HQML模型中具有影響力的經典方面,還能分離其噪聲,並在經典驗證設置中與現有的XAI技術競爭良好。消融研究更顯著地揭示了Q-MEDLEY中使用的複合結構的優點。這項工作的意義至關重要,因為它提供了一條提高HQML模型可解釋性和可靠性的途徑,從而促進更大的信心,並能夠更安全、更負責任地使用量子增強的人工智能技術。
通用視覺異常檢測旨在無需額外微調的情況下,從新穎或未見過的視覺領域中識別異常,這在開放場景中至關重要。最近的研究表明,像CLIP這樣的預訓練視覺語言模型僅需零張或少數正常圖像即可展現出強大的泛化能力。然而,現有方法在設計提示模板、處理複雜的標記交互或需要額外微調方面存在困難,導致靈活性受限。在本研究中,我們提出了一種簡單而有效的方法,名為AdaptCLIP,基於兩個關鍵見解。首先,視覺和文本表示應交替而非聯合學習。其次,查詢與正常圖像提示之間的比較學習應結合上下文和對齊的殘差特徵,而非僅依賴於殘差特徵。AdaptCLIP將CLIP模型視為基礎服務,僅在其輸入或輸出端添加三個簡單的適配器:視覺適配器、文本適配器和提示查詢適配器。AdaptCLIP支持跨領域的零樣本/少樣本泛化,並在基礎數據集上訓練後,在目標領域上具有無需訓練的特性。AdaptCLIP在來自工業和醫療領域的12個異常檢測基準測試中達到了最先進的性能,顯著超越了現有的競爭方法。我們將在https://github.com/gaobb/AdaptCLIP上提供AdaptCLIP的代碼和模型。
擴展機器人學習需要龐大且多樣化的數據集。然而,當前主流的數據收集範式——人類遙控操作——仍然成本高昂,並受到人工努力和物理機器人訪問的限制。我們引入了Real2Render2Real(R2R2R),這是一種新穎的方法,用於生成機器人訓練數據,而無需依賴物體動力學模擬或機器人硬件的遙控操作。其輸入為智能手機捕捉的一個或多個物體的掃描以及一段人類示範的單一視頻。R2R2R通過重建詳細的3D物體幾何形狀和外觀,並追蹤6自由度物體運動,渲染出數千個高視覺保真度的機器人無關示範。R2R2R利用3D高斯潑濺(3DGS)來實現靈活的資產生成和軌跡合成,適用於剛性和關節物體,並將這些表示轉換為網格,以保持與可擴展渲染引擎(如IsaacLab)的兼容性,但關閉碰撞建模。由R2R2R生成的機器人示範數據可直接與基於機器人本體感知狀態和圖像觀測的模型集成,例如視覺-語言-動作模型(VLA)和模仿學習策略。物理實驗表明,基於單一人類示範的R2R2R數據訓練的模型,其性能可與基於150次人類遙控操作示範訓練的模型相媲美。項目頁面:https://real2render2real.com
基於自注意力機制的無監督重建網絡在單一模型的多類別(統一)異常檢測中已達到了最先進的性能。然而,這些自注意力重建模型主要針對目標特徵進行操作,這可能導致對正常和異常特徵的完美重建,由於與上下文的高度一致性,從而導致異常檢測失敗。此外,這些模型由於在低空間分辨率的潛在空間中進行重建,往往會產生不準確的異常分割。為了使重建模型在保持高效率的同時增強其對統一異常檢測的泛化能力,我們提出了一種簡單而有效的方法,即僅使用一張正常圖像提示(OneNIP)來重建正常特徵並恢復異常特徵。與之前的工作相比,OneNIP首次實現了僅需一張正常圖像提示即可重建或恢復異常,有效提升了統一異常檢測的性能。此外,我們提出了一種監督式精煉器,通過使用真實的正常圖像和合成的異常圖像來迴歸重建誤差,顯著改善了像素級的異常分割。OneNIP在三個工業異常檢測基準測試(MVTec、BTAD和VisA)上均超越了先前的方法。代碼和預訓練模型可在https://github.com/gaobb/OneNIP獲取。
零樣本和少樣本視覺異常分割依賴於強大的視覺-語言模型,這些模型通過手動設計的文本提示來檢測未見過的異常。然而,視覺表徵本質上與語言無關。本文探討了純視覺基礎模型作為廣泛使用的視覺-語言模型替代方案,用於通用視覺異常分割的潛力。我們提出了一種新範式,將異常分割統一為變化分割。這一範式使我們能夠利用從現有圖像數據集生成的大規模合成圖像對,這些圖像對具有對象級和局部區域的變化,且獨立於目標異常數據集。我們提出了一種用於通用異常分割的一提示元學習框架(MetaUAS),該框架在這一合成數據集上進行訓練,然後能夠很好地泛化以分割現實世界中的任何新穎或未見過的視覺異常。為處理提示圖像和查詢圖像之間的幾何變化,我們提出了一個軟特徵對齊模塊,該模塊橋接了成對圖像的變化感知和單圖像的語義分割。這是首次使用純視覺模型實現通用異常分割,而不依賴於特殊異常檢測數據集和預訓練的視覺-語言模型。我們的方法僅需一張正常圖像提示即可有效且高效地分割任何異常,並且無需語言指導即可實現無訓練。我們的MetaUAS顯著優於之前的零樣本、少樣本甚至全樣本異常分割方法。代碼和預訓練模型可在https://github.com/gaobb/MetaUAS獲取。
異常檢測在工業檢測中是一項實用且具挑戰性的任務,這主要歸因於異常樣本的稀缺性。現有的一些異常檢測方法通過引入噪聲或外部數據來合成異常,以此應對這一問題。然而,合成異常與真實世界異常之間始終存在著顯著的語義鴻溝,導致異常檢測性能不佳。為解決這一難題,我們提出了一種少樣本驅動的異常生成方法(AnoGen),該方法引導擴散模型僅需少量真實異常樣本即可生成逼真且多樣化的異常,從而有效提升異常檢測模型的訓練效果。具體而言,我們的工作分為三個階段:在第一階段,我們基於少量給定的真實異常樣本學習異常分佈,並將所學知識注入到嵌入表示中;第二階段,利用該嵌入表示及給定的邊界框,指導擴散模型在特定物體(或紋理)上生成逼真且多樣化的異常;最後階段,我們提出了一種弱監督的異常檢測方法,利用生成的異常樣本訓練出更為強大的模型。我們的方法以DRAEM和DesTSeg作為基礎模型,並在工業異常檢測常用數據集MVTec上進行了實驗。實驗結果表明,我們生成的異常顯著提升了模型在異常分類與分割任務上的性能,例如,DRAEM和DseTSeg在分割任務的AU-PR指標上分別實現了5.8%和1.5%的提升。相關代碼及生成的異常數據已開源於https://github.com/gaobb/AnoGen。
人类视频为训练机器人操作策略提供了一种可扩展的方法,但缺乏标准模仿学习算法所需的动作标签。现有的跨实体映射方法试图将人类动作转化为机器人动作,但在实体差异显著时往往失效。我们提出了X-Sim,一个从真实到模拟再到真实的框架,利用物体运动作为密集且可转移的信号来学习机器人策略。X-Sim首先从RGBD人类视频中重建出逼真的模拟环境,并追踪物体轨迹以定义以物体为中心的奖励。这些奖励用于在模拟中训练强化学习(RL)策略。随后,通过使用不同视角和光照渲染的合成轨迹,将学习到的策略提炼为基于图像的扩散策略。为了迁移到现实世界,X-Sim引入了一种在线领域适应技术,在部署过程中对齐真实与模拟的观察。重要的是,X-Sim不需要任何机器人遥操作数据。我们在两个环境中的5个操作任务上对其进行了评估,结果表明:(1)与手动追踪和模拟到真实的基线相比,平均提高了30%的任务进度;(2)在数据收集时间减少10倍的情况下,与行为克隆相匹配;(3)能够泛化到新的相机视角和测试时的变化。代码和视频可在https://portal-cornell.github.io/X-Sim/获取。