每日精選AI研究論文及翻譯
大型语言模型(LLMs)已成为实现人工通用智能(AGI)的关键基础设施,然而其缺乏明确的内存管理系统,阻碍了长上下文推理、持续个性化及知识一致性的发展。现有模型主要依赖静态参数和短暂的情境状态,限制了其追踪用户偏好或长期更新知识的能力。尽管检索增强生成(RAG)引入了外部知识作为纯文本,它仍是一种无状态的临时解决方案,缺乏生命周期控制或与持久化表示的整合。近期研究从内存层次结构的角度建模了LLMs的训练与推理成本,表明在参数内存与外部检索之间引入显式内存层,可通过外部化特定知识显著降低这些成本。除了计算效率,LLMs还面临信息随时间与上下文分布带来的更广泛挑战,需要能够管理跨越不同时间尺度与来源的异构知识的系统。为应对这一挑战,我们提出了MemOS,一个将内存视为可管理系统资源的内存操作系统。它统一了纯文本、基于激活及参数级内存的表示、调度与进化,实现了成本高效的存储与检索。作为基本单元,MemCube封装了内存内容及元数据,如来源与版本控制。MemCube可随时间进行组合、迁移与融合,支持内存类型间的灵活转换,并桥接检索与基于参数的学习。MemOS建立了一个以内存为中心的系统框架,为LLMs带来了可控性、可塑性及可进化性,为持续学习与个性化建模奠定了基础。
學習高質量的文本表示是眾多自然語言處理任務的基礎。雖然編碼器預訓練傳統上依賴於掩碼語言建模(MLM),但最近的證據表明,通過因果語言建模(CLM)預訓練的解碼器模型可以有效地轉化為編碼器,在文本表示基準測試中往往超越傳統編碼器。然而,這些性能提升是否反映了CLM目標的固有優勢,還是源於模型和數據規模等混淆因素,仍不明確。在本論文中,我們通過一系列大規模、嚴格控制的預訓練消融實驗來探討這一問題,總共訓練了30個模型,參數量從2.1億到10億不等,並進行了超過15,000次的微調和評估運行。我們發現,雖然使用MLM訓練通常能在文本表示任務中獲得更好的性能,但CLM訓練的模型更具數據效率,並展現出更優的微調穩定性。基於這些發現,我們通過實驗證明,在固定的計算訓練預算下,依次應用CLM和MLM的雙階段訓練策略能實現最佳性能。此外,我們還展示,當從現有的大型語言模型生態系統中現成的CLM預訓練模型初始化時,這一策略變得更加吸引人,因為它減少了訓練頂級編碼器模型所需的計算負擔。我們在https://hf.co/MLMvsCLM上發布了所有項目成果,以促進進一步的研究。
隨著語言代理處理日益複雜的任務,它們在有效錯誤修正和跨領域經驗重用方面面臨挑戰。我們引入了Agent KB,這是一個分層次的經驗框架,通過新穎的「推理-檢索-精煉」流程實現複雜的代理問題解決。Agent KB解決了一個核心限制:傳統上,代理無法從彼此的經驗中學習。通過捕捉高層次策略和詳細執行日誌,Agent KB創建了一個共享知識庫,實現了跨代理的知識轉移。在GAIA基準測試中,Agent KB將成功率提高了最多16.28個百分點。在最具挑戰性的任務上,Claude-3的成功率從38.46%提升至57.69%,而GPT-4在中級任務上的成功率從53.49%提升至73.26%。在SWE-bench代碼修復任務中,Agent KB使Claude-3的成功率從41.33%提升至53.33%。我們的結果表明,Agent KB提供了一個模塊化、框架無關的基礎設施,使代理能夠從過去的經驗中學習,並將成功策略推廣到新任務中。
大型语言模型(LLMs)在通用任务上展现了卓越的性能,然而,由于高质量领域数据的稀缺性,将其适应于特定领域仍面临挑战。现有的数据合成工具往往难以从异构文档中有效提取可靠的微调数据。针对这一局限,我们提出了Easy Dataset,一个通过直观的图形用户界面(GUI)从非结构化文档中合成微调数据的统一框架。具体而言,Easy Dataset允许用户轻松配置文本提取模型和分块策略,将原始文档转化为连贯的文本块。随后,它利用角色驱动的提示方法,借助公开可用的LLMs生成多样化的问答对。在整个流程中,人机交互的可视化界面促进了中间结果的审查与优化,以确保数据质量。在金融问答任务上的实验表明,基于合成数据集微调的LLMs显著提升了领域特定性能,同时保留了通用知识。源代码及可安装包已发布于https://github.com/ConardLi/easy-dataset,并获得了超过9,000个GitHub星标。
近期,視覺-語言-動作(VLA)模型的進展展現了將圖像生成與動作預測相結合以提升機器人操作中的泛化與推理能力的潛力。然而,現有方法僅限於挑戰性的基於圖像的預測,這存在信息冗餘且缺乏全面且關鍵的世界知識,包括動態、空間及語義信息。為解決這些限制,我們提出了DreamVLA,一種新穎的VLA框架,它整合了全面的世界知識預測,從而實現逆動力學建模,為操作任務建立感知-預測-動作的閉環。具體而言,DreamVLA引入了動態區域引導的世界知識預測,結合空間與語義線索,為動作規劃提供緊湊而全面的表示。這一設計符合人類與世界互動的方式,即在行動前先形成抽象的多模態推理鏈。為減輕訓練過程中動態、空間及語義信息間的相互干擾,我們採用了分塊結構化注意力機制,遮蔽它們之間的相互注意力,防止信息洩露並保持每種表示的純淨與解耦。此外,為建模未來動作的條件分佈,我們採用了基於擴散的變壓器,將動作表示從共享的潛在特徵中解耦出來。在真實世界與模擬環境中的大量實驗表明,DreamVLA在真實機器人任務上達到了76.7%的成功率,並在CALVIN ABC-D基準測試中取得了4.44的平均長度。
從多視角視頻中重建快速動態場景對於高速運動分析及逼真的四維重建至關重要。然而,大多數四維捕捉系統的幀率限制在30 FPS(每秒幀數)以下,直接從低幀率輸入進行高速運動的四維重建可能導致不理想的結果。本研究提出了一種僅使用低幀率相機的高速四維捕捉系統,通過創新的捕捉與處理模塊實現。在捕捉方面,我們提出了一種異步捕捉方案,通過錯開相機的啟動時間來提高有效幀率。通過分組相機並利用25 FPS的基礎幀率,我們的方法在不需專用高速相機的情況下,達到了100至200 FPS的等效幀率。在處理方面,我們還提出了一種新穎的生成模型,以修復由四維稀疏視角重建引起的偽影,因為異步性減少了每個時間戳的視點數量。具體而言,我們建議訓練一個基於視頻擴散的偽影修復模型,用於稀疏四維重建,該模型能夠精細化缺失細節、保持時間一致性,並提升整體重建質量。實驗結果表明,與同步捕捉相比,我們的方法顯著增強了高速四維重建的效果。
我們提出了一種新穎的獎勵建模視角,將其形式化為策略鑑別器,該鑑別器量化兩種策略之間的差異以生成獎勵信號,從而引導訓練策略向具有期望行為的目標策略靠攏。基於這一概念洞察,我們提出了一種名為策略鑑別學習(POLAR)的可擴展預訓練方法,該方法訓練獎勵模型(RM)來識別相同策略並區分不同策略。與依賴絕對偏好的傳統獎勵建模方法不同,POLAR捕捉了一種策略與任意目標策略之間的相對差異,這是一種適合建模通用排序關係的可擴展高層次優化目標。利用POLAR預訓練範式,我們展示了一系列參數規模從1.8B到7B的RM。實證結果顯示,POLAR顯著優於傳統的非預訓練方法,大幅提升了RM的性能。例如,與SOTA基線相比,POLAR-7B在STEM任務上的偏好準確率從54.8%提升至81.0%,在創意寫作任務上從57.9%提升至85.5%。POLAR在使用強化微調(RFT)的RLHF中也展現出強大的泛化能力,提供可靠的獎勵信號並顯著提升策略性能——在20個基準測試中,LLaMa3.1-8B的平均性能從47.36%提升至56.33%,Qwen2.5-32B從64.49%提升至70.47%。此外,擴展實驗揭示了計算與性能之間明顯的冪律關係,線性相關係數接近0.99。這些令人印象深刻的性能、強大的泛化能力以及擴展特性表明,POLAR是開發通用且強大獎勵模型的一個有前景的方向。
我们推出RoboBrain 2.0,这是最新一代的具身视觉-语言基础模型,旨在统一物理环境中复杂具身任务的感知、推理与规划。该模型提供两种版本:轻量级的7B模型与全规模的32B模型,采用包含视觉编码器与语言模型的异构架构。尽管体积紧凑,RoboBrain 2.0在广泛的具身推理任务中展现出强劲性能。在空间与时间基准测试上,32B版本均取得领先成绩,超越了以往的开源及专有模型。尤为突出的是,它支持关键的现实世界具身AI能力,包括空间理解(如功能预测、空间指代、轨迹预测)与时间决策(如闭环交互、多智能体长程规划、场景图更新)。本报告详述了模型架构、数据构建、多阶段训练策略、基础设施及实际应用。我们期望RoboBrain 2.0能推动具身AI研究,并为构建通用具身代理迈出实用一步。代码、检查点及基准测试可在https://superrobobrain.github.io获取。
近期,通过将基于Transformer的扩散模型扩展至数十亿参数规模,文本到视频(T2V)生成领域取得了显著进展,能够生成高质量视频。然而,现有模型通常仅能离线生成短视频片段,限制了其在交互式及实时应用中的使用场景。本文针对这些挑战,提出了StreamDiT,一种流式视频生成模型。StreamDiT的训练基于流匹配技术,并引入了移动缓冲区。我们设计了混合训练策略,采用不同的缓冲帧划分方案,以提升内容一致性和视觉质量。StreamDiT的建模基于adaLN DiT,结合了变化的时间嵌入和窗口注意力机制。为实践所提方法,我们训练了一个拥有40亿参数的StreamDiT模型。此外,我们提出了一种专为StreamDiT定制的多步蒸馏方法。在选定划分方案的每个片段中进行采样蒸馏。蒸馏后,函数评估总次数(NFEs)减少至缓冲区中的块数。最终,我们的蒸馏模型在单GPU上实现了16 FPS的实时性能,能够生成512p分辨率的视频流。我们通过定量指标和人工评估两种方式验证了方法的有效性。我们的模型支持实时应用,如流式生成、交互式生成及视频到视频转换。更多视频结果及示例请访问我们的项目网站:<a href="https://cumulo-autumn.github.io/StreamDiT/">此https链接。</a>
本文介紹了BMMR,這是一個大規模的雙語、多模態、多學科推理數據集,旨在為社區開發和評估大型多模態模型(LMMs)提供支持。BMMR包含110,000道大學水平的問題,涵蓋300個由聯合國教科文組織定義的學科,並以多種形式呈現——包括選擇題、填空題和開放式問答——數據來源於印刷和數字媒體,如書籍、考試和測驗。所有數據均通過人機協作的可擴展框架進行篩選和整理,每個實例均配備高質量的推理路徑。該數據集分為兩部分:BMMR-Eval包含20,458個高質量實例,用於全面評估LMMs在中文和英文跨多學科的知識和推理能力;BMMR-Train則包含88,991個實例,以支持進一步的研究和開發,將當前對數學推理的關注擴展到多樣化的學科和領域。此外,我們提出了基於過程的多學科驗證器(即BMMR-Verifier),用於對推理路徑進行精確且細粒度的評估。在24個模型上的廣泛實驗表明:(i)即使是SOTA模型(如o3和Gemini-2.5-Pro)在BMMR-Eval上仍有顯著的提升空間;(ii)推理模型表現出學科偏見,僅在特定學科上優於LMMs;(iii)開源模型仍落後於其專有對應模型;(iv)在BMMR-Train上進行微調可縮小這一差距。此外,我們使用BMMR-Verifier進行了推理鏈分析及其他深入研究,揭示了LMMs目前在多學科推理方面面臨的挑戰。我們將公開數據,並希望我們的工作能為社區提供洞見和貢獻。
大型语言模型(LLMs)的基础能力深受其预训练语料库质量的影响。然而,大规模提升数据质量仍面临重大挑战,主要在于精炼效果与处理效率之间的权衡。尽管基于规则的过滤仍是主导范式,但其通常在文档层面操作,缺乏对文档内特定内容进行精细化处理的能力。受ProX等新兴工作的启发,我们提出了RefineX,一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。RefineX能够在高效且细粒度地精炼数据的同时,可靠地保留原始文本的多样性与自然性。RefineX的核心优势在于将高质量、专家指导的端到端精炼结果提炼为基于最小编辑的删除程序。这一高精度提炼流程用于训练一个高效且可靠的精炼模型,该模型能够系统地大规模提升语料库中的每个实例。我们在多个模型规模上从头开始预训练评估RefineX,发现其在多样化的下游任务中始终优于基于原始、过滤或其他方式精炼数据训练的模型。在750M模型上,RefineX在lighteval任务上平均提升了2.6%-7.2%,并且使用显著更少的训练标记实现了可比的性能。进一步分析表明,RefineX以高效率和精度可靠地提升了文本质量,超越了端到端生成和Prox-C等先前方法。这些成果确立了RefineX作为现代LLM流程中优化预训练数据的可扩展、有效且可靠的解决方案。
多模態嵌入模型在實現語義相似性、信息檢索及跨模態聚類等多種下游任務中發揮了關鍵作用。然而,現有的多模態嵌入模型如VLM2Vec、E5-V、GME等主要集中於自然圖像,對視頻及視覺文檔等其他視覺形式的支持有限,這限制了它們在AI代理、多模態搜索與推薦、以及檢索增強生成(RAG)等實際場景中的應用。為彌補這一不足,我們提出了VLM2Vec-V2,一個跨多樣視覺形式的統一嵌入學習框架。首先,我們引入了MMEB-V2,這是一個擴展了MMEB的綜合基準,新增了五種任務類型:視覺文檔檢索、視頻檢索、時間定位、視頻分類及視頻問答——涵蓋文本、圖像、視頻及視覺文檔輸入。隨後,我們訓練了VLM2Vec-V2,這是一個支持文本、圖像、視頻及視覺文檔輸入的通用嵌入模型。大量實驗表明,VLM2Vec-V2不僅在新引入的視頻與文檔檢索任務上表現出色,還在原有圖像基準上超越了先前的基線。通過廣泛評估,我們的研究揭示了多種多模態嵌入模型的泛化能力,並強調了統一嵌入學習的有效策略,為研究與實際應用中更具可擴展性與適應性的表示學習奠定了基礎。
本研究探討視覺嵌入模型是否能夠沿著線性方向捕捉連續且有序的屬性,我們稱之為_等級軸_。若將嵌入投影到此類軸上能保持屬性的順序,我們便定義該模型對該屬性具有_可排序性_。通過對7種流行編碼器及9個涵蓋年齡、人群數量、頭部姿態、美學評價和新近性等屬性的數據集進行分析,我們發現許多嵌入本質上具備可排序性。令人驚訝的是,僅需少量樣本,甚至僅需兩個極端例子,往往就足以恢復出有意義的等級軸,而無需全面的監督。這些發現為向量數據庫中的圖像排序開闢了新的應用場景,並激勵了對可排序嵌入結構與學習的進一步研究。我們的代碼已公開於https://github.com/aktsonthalia/rankable-vision-embeddings。
推測解碼通常要求配備一個小型且高效的草稿模型,該模型需預先訓練或離線蒸餾至特定目標模型系列,例如Llama或Qwen模型。然而,在線上部署環境中,存在兩大挑戰:一是使用與草稿模型不相容的目標模型;二是期望在使用過程中及隨時間推移能改善延遲。本研究提出OmniDraft,這是一個統一框架,使單一草稿模型能與任何目標模型協同工作,並動態適應用戶數據。我們引入了一種在線n-gram緩存結合混合蒸餾微調的方法,以解決草稿模型與目標模型之間的跨詞彙表不匹配問題;並通過利用自適應推測技術進一步提升解碼速度。OmniDraft尤其適用於設備端大型語言模型(LLM)應用,其中模型成本、效率及用戶定制化是主要爭議點。這進一步凸顯了應對上述挑戰的必要性,並推動了“一草稿模型適用所有”的範式轉變。我們通過在數學推理、編碼及文本生成任務上進行在線學習,展示了OmniDraft框架的卓越能力。值得注意的是,OmniDraft使單一的Llama-68M模型能夠與包括Vicuna-7B、Qwen2-7B及Llama3-8B在內的多種目標模型配對進行推測解碼;並額外提供了高達1.5至2倍的加速效果。
歷史文獻作為無價的文化遺產,歷經歲月侵蝕,因撕裂、水漬及氧化等現象遭受了顯著損壞。現有的歷史文獻修復(HDR)方法多聚焦於單一模態或小規模修復,難以滿足實際需求。為填補此空白,我們提出了一個全頁面HDR數據集(FPHDR)及一套創新的自動化HDR解決方案(AutoHDR)。具體而言,FPHDR包含1,633張真實與6,543張合成圖像,涵蓋字符級與行級定位,以及不同損壞等級下的字符標註。AutoHDR通過三階段流程模擬歷史學家的修復工作:OCR輔助的損壞定位、視覺-語境文本預測,以及基於補丁的自迴歸外觀修復。AutoHDR的模塊化架構實現了人機協作的無縫對接,允許在每一修復階段靈活介入與優化。實驗表明,AutoHDR在HDR任務中表現卓越。處理嚴重損壞文獻時,本方法將OCR準確率從46.83%提升至84.05%,通過人機協作更進一步提升至94.25%。我們相信,此項工作在自動化歷史文獻修復領域邁出了重要一步,對文化遺產保護貢獻顯著。模型與數據集已公開於https://github.com/SCUT-DLVCLab/AutoHDR。
近期针对大型语言模型(LLM)代理的基准测试主要集中于评估其推理、规划与执行能力,而另一关键组成部分——记忆,即代理如何记忆、更新及检索长期信息——由于缺乏相应的基准测试而未能得到充分评估。我们将具备记忆机制的代理称为记忆代理。本文中,我们识别出记忆代理所必需的四大核心能力:准确检索、实时学习、长程理解及冲突解决。现有数据集要么依赖于有限的上下文长度,要么专为静态的长上下文场景(如基于书籍的问答)设计,这些均未能体现记忆代理在交互式、多轮对话中逐步积累信息的特性。此外,尚无现有基准测试全面覆盖上述四项能力。因此,我们引入了MemoryAgentBench,这是一个专为记忆代理设计的新基准测试。我们的基准测试结合了重新构建的现有数据集与新构建的数据集,覆盖了上述四项记忆能力,为评估记忆质量提供了一个系统且具挑战性的测试平台。我们评估了从简单的基于上下文及检索增强生成(RAG)系统到配备外部记忆模块与工具集成的高级代理在内的多种记忆代理。实证结果表明,当前方法在掌握所有四项能力方面均存在不足,这凸显了进一步研究LLM代理全面记忆机制的必要性。
基於神經輻射場(NeRF)的分割方法專注於物體語義,並僅依賴RGB數據,缺乏內在的材料屬性。這一限制阻礙了精確的材料感知,而這對於機器人技術、增強現實、模擬及其他應用至關重要。我們提出了UnMix-NeRF,一個將光譜解混融入NeRF的框架,實現了聯合高光譜新視角合成與無監督材料分割。我們的方法通過漫反射和鏡面反射分量來建模光譜反射率,其中學習到的全局端元字典代表純材料特徵,而每點豐度則捕捉其分佈。對於材料分割,我們利用沿學習端元的光譜特徵預測,實現無監督材料聚類。此外,UnMix-NeRF通過修改學習到的端元字典,支持場景編輯,實現靈活的基於材料的外觀操控。大量實驗驗證了我們的方法,展示了在光譜重建和材料分割上相較現有方法的優越性。項目頁面:https://www.factral.co/UnMix-NeRF。
我們介紹PresentAgent,這是一款多模態代理,能夠將長篇文檔轉化為帶有旁白的演示視頻。現有方法僅限於生成靜態幻燈片或文本摘要,而我們的方法超越了這些限制,產出完全同步的視覺與口語內容,極其接近人類風格的演示。為實現這一整合,PresentAgent採用模塊化流程,系統地分割輸入文檔,規劃並渲染幻燈片風格的視覺框架,利用大型語言模型和文本轉語音模型生成上下文相關的口語敘述,並精確地將音視頻對齊,無縫合成最終視頻。考慮到評估此類多模態輸出的複雜性,我們引入了PresentEval,這是一個由視覺-語言模型驅動的統一評估框架,通過基於提示的評估,全面評分視頻在三個關鍵維度上的表現:內容忠實度、視覺清晰度和觀眾理解度。我們在精選的30對文檔-演示數據集上進行的實驗驗證表明,PresentAgent在所有評估指標上均接近人類水平。這些結果凸顯了可控多模態代理在將靜態文本材料轉化為動態、有效且易於訪問的演示格式方面的巨大潛力。代碼將於https://github.com/AIGeeksGroup/PresentAgent提供。
大型語言模型(LLMs)的生成能力正迅速從靜態代碼擴展到動態、互動的視覺產物。這一進展受到一個關鍵評估瓶頸的制約:現有的基準測試主要關注算法的正確性,而忽視了定義現代用戶體驗的視覺保真度和互動完整性。為彌補這一差距,我們引入了ArtifactsBench,這是一個用於視覺代碼生成自動化、多模態評估的新基準和範式。我們的框架通過程序化渲染每個生成的產物,並通過時間序列的屏幕截圖捕捉其動態行為。這些視覺證據與源代碼一起,由一個多模態LLM(MLLM)作為評判者進行評估,該評判者嚴格遵循細緻的任務檢查表,以確保全面且可重複的評分。我們構建了一個包含1,825個多樣化任務的新基準,並評估了超過30個領先的LLMs。我們的自動化評估與WebDev Arena(網頁開發領域人類偏好的黃金標準)達到了驚人的94.4%排名一致性,並與人類專家達成了超過90%的成對一致性。這使得ArtifactsBench成為首個能夠可靠地大規模自動化評估人類感知質量的框架。我們的分析提供了當前技術水平的高分辨率圖譜,揭示了通用模型往往優於特定領域模型。我們開源了ArtifactsBench,包括基準、評估工具和基線結果,網址為https://artifactsbenchmark.github.io/,為社區提供了一個可擴展且準確的工具,以加速以用戶為中心的生成模型的開發。
背景:臨床文件記錄對醫療服務提供者而言是一項重大負擔,醫師每天需花費高達2小時於行政任務上。近期大型語言模型(LLMs)的進展提供了有前景的解決方案,但隱私顧慮與計算需求限制了其在醫療環境中的應用。目的:開發並評估一種基於精調Llama 3.2 1B模型的隱私保護、設備端醫療轉錄系統,該系統能從醫療轉錄中生成結構化病歷,同時確保數據完全在瀏覽器內自主控制。方法:我們利用參數高效精調(PEFT)結合LoRA技術,在1,500對合成醫療轉錄至結構化病歷的數據集上對Llama 3.2 1B模型進行了精調。該模型與基礎Llama 3.2 1B模型在兩個數據集上進行了對比評估:100份內分泌學轉錄稿及140例修改後的ACI基準案例。評估採用了統計指標(ROUGE、BERTScore、BLEURT)及LLM作為評判者的多維臨床質量評估。結果:精調後的OnDevice模型相較於基礎模型展現出顯著提升。在ACI基準測試中,ROUGE-1分數從0.346提升至0.496,而BERTScore F1則從0.832提高至0.866。臨床質量評估顯示,主要幻覺案例大幅減少(從85例降至35例),事實準確性顯著增強(5分制下從2.81提升至3.54)。在內部評估數據集上亦觀察到類似改進,綜合評分從3.13上升至4.43(+41.5%)。結論:針對醫療轉錄精調緊湊型LLMs,不僅實現了臨床意義上的顯著改進,還支持完全在設備端瀏覽器部署。此方法有效應對了AI在醫療領域應用的關鍵障礙:隱私保護、成本降低及資源受限環境下的可及性。
訓練原生3D紋理生成模型仍然是一個基礎但具有挑戰性的問題,這主要歸因於大規模、高質量3D紋理數據集的有限可用性。這種稀缺性阻礙了模型在現實場景中的泛化能力。為了解決這一問題,現有的大多數方法通過微調基礎圖像生成模型來利用其學習到的視覺先驗知識。然而,這些方法通常僅生成多視角圖像,並依賴後處理來生成UV紋理貼圖——這是現代圖形管線中的一個關鍵表示。這種兩階段流程往往會導致錯誤累積和3D表面上的空間不一致性。在本文中,我們介紹了SeqTex,這是一種新穎的端到端框架,它利用預訓練視頻基礎模型中編碼的視覺知識直接生成完整的UV紋理貼圖。與之前孤立地建模UV紋理分佈的方法不同,SeqTex將任務重新表述為序列生成問題,使模型能夠學習多視角渲染和UV紋理的聯合分佈。這一設計有效地將視頻基礎模型中的一致圖像空間先驗知識轉移到UV域。為了進一步提升性能,我們提出了幾項架構創新:解耦的多視角和UV分支設計、幾何引導的注意力機制以指導跨域特徵對齊,以及自適應的令牌分辨率以在保持計算效率的同時保留精細的紋理細節。這些組件共同使得SeqTex能夠充分利用預訓練的視頻先驗知識,無需後處理即可合成高保真度的UV紋理貼圖。大量實驗表明,SeqTex在圖像條件和文本條件的3D紋理生成任務上均達到了最先進的性能,具有優越的3D一致性、紋理-幾何對齊和現實世界泛化能力。
關係抽取(RE)是自然語言處理中的一項核心任務。傳統方法通常將RE視為一個監督學習問題,直接將上下文映射到標籤——這種方法往往在跨領域(OOD)泛化上表現不佳。受人類註釋者工作流程的啟發,我們將RE重新定義為由註釋指南引導的推理任務,並引入了R1-RE,這是首個用於RE任務的帶有可驗證獎勵的強化學習(RLVR)框架。我們的方法激發了小規模語言模型在註釋任務中的推理能力,從而顯著提升了OOD的魯棒性。我們在公開的Sem-2010數據集和私有的MDKG數據集上評估了我們的方法。R1-RE-7B模型達到了約70%的平均OOD準確率,與GPT-4o等領先的專有模型相當。此外,我們全面的分析為RLVR範式在RE中的訓練動態和新興推理行為提供了新的見解。
本文介绍了VLAI,一种基于Transformer的模型,可直接从文本描述中预测软件漏洞的严重程度等级。VLAI建立在RoBERTa基础之上,通过对超过60万个现实世界中的漏洞进行微调,在预测严重性类别方面达到了超过82%的准确率,从而在人工CVSS评分之前实现更快、更一致的分类。该模型及数据集已开源,并整合至Vulnerability-Lookup服务中。
近期基於擴散模型的圖像編輯方法在文本引導任務上取得了顯著進展,但在解讀複雜、間接的指令時往往力不從心。此外,現有模型常面臨身份特徵保存不佳、非預期編輯或過度依賴手動遮罩等問題。為應對這些挑戰,我們推出了X-Planner,這是一個基於多模態大型語言模型(MLLM)的規劃系統,它能有效橋接用戶意圖與編輯模型能力。X-Planner採用思維鏈推理,將複雜指令系統性地分解為更簡單、明確的子指令。針對每個子指令,X-Planner自動生成精確的編輯類型和分割遮罩,無需人工干預,確保局部化且保持身份特徵的編輯。此外,我們提出了一種新穎的自動化流程,用於生成大規模數據來訓練X-Planner,該方法在現有基準測試及我們新引入的複雜編輯基準上均達到了業界領先水平。
大型語言模型(LLMs)越來越多地被賦予調用企業API的任務,然而當近乎重複的工具爭奪同一用戶意圖或所需參數未明確指定時,它們往往表現不佳。我們引入了DiaFORGE(對話框架用於有機響應生成與評估),這是一個以消歧為核心的三階段流程,它(i)合成基於角色的多輪對話,其中助手必須區分高度相似的工具,(ii)對開源模型進行監督微調,涵蓋3B至70B參數範圍的推理軌跡,以及(iii)通過動態套件評估現實世界的準備情況,該套件將每個模型重新部署在實時代理循環中,並報告端到端目標完成情況以及傳統的靜態指標。在我們的動態基準DiaBENCH上,使用DiaFORGE訓練的模型在工具調用成功率上比GPT-4o提高了27個百分點,比Claude-3.5-Sonnet提高了49個百分點,兩者均在優化提示下進行。為了促進進一步研究,我們發布了一個包含5000個生產級企業API規範的開放語料庫,並配備了經過嚴格驗證、以消歧為重點的對話,為構建可靠、企業就緒的工具調用代理提供了實用藍圖。
隨著人工智慧系統從單一模型發展為專業代理的生態系統,標準化通信協議的需求變得日益關鍵。本文介紹了MOD-X(模組化開放去中心化交換),這是一種針對代理互操作性提出的新穎架構框架,旨在解決現有協議的關鍵限制。與當前方法不同,MOD-X提出了一種分層架構,包含通用消息匯流排、全面的狀態管理、翻譯能力以及基於區塊鏈的安全機制。我們展示了MOD-X的架構,將其與現有協議進行比較,並通過一個實例演示其如何實現異構專業代理(具有不同架構、供應商、能力和知識表示的代理——包括基於規則的系統、神經網絡、符號推理引擎以及帶有代理封裝的遺留軟體)之間的整合。MOD-X的關鍵創新包括發布-訂閱通信模型、語義能力發現和動態工作流編排——提供了一個將理論形式化與實際實現相結合的框架。該架構滿足了對真正去中心化、可互操作的代理生態系統日益增長的需求,這些生態系統能夠有效擴展,而無需中央協調。
大型語言模型(LLMs)在多樣化的任務中展現了卓越的能力,但其預測未來事件的能力仍未被充分研究。一年前,大型語言模型在準確性上難以接近人類群體的預測水平。我評估了最先進的LLMs在Metaculus上的464個預測問題,並將其表現與人類超級預測者進行比較。前沿模型所獲得的Brier分數表面上超越了人類群體,但仍顯著落後於一組超級預測者。