每日精選AI研究論文及翻譯
大型推理模型已展現出強大的問題解決能力,然而現實世界的任務往往需要外部工具與長時程互動。現有的智能體框架通常遵循預定義流程,這限制了自主性與全域任務的完成。本文提出DeepAgent——一種端到端的深度推理智能體,能在單一連貫的推理過程中實現自主思考、工具發現與動作執行。為應對長時程互動的挑戰(特別是多次工具調用導致的上下文長度爆炸及互動歷史積累問題),我們引入自主記憶折疊機制,將過往互動壓縮為結構化的情節記憶、工作記憶與工具記憶,在保留關鍵信息的同時減少錯誤積累。為高效穩定地訓練通用工具使用能力,我們開發了端到端強化學習策略ToolPO,該策略利用LLM模擬的API介面,並通過工具調用優勢歸因方法對工具調用標記進行細粒度信用分配。在八個基準測試(含通用工具使用任務ToolBench、API-Bank、TMDB、Spotify、ToolHop及下游應用ALFWorld、WebShop、GAIA、HLE)上的廣泛實驗表明,DeepAgent在標註工具與開放集工具檢索場景中均持續優於基線模型。本工作為構建適用於現實世界的通用智能體邁出重要一步。程式碼與演示見https://github.com/RUC-NLPIR/DeepAgent。
前沿推理模型在強化學習(RL)對大型語言模型(LLMs)進行後訓練的驅動下,已在多個學科領域展現出卓越能力。然而,儘管此範式已取得廣泛成功,現有文獻多聚焦於釐清RL訓練過程中湧現、但基礎模型原本不具備的全新行為。本研究從不同角度切入,探討能否在推理階段僅通過純採樣方法,從基礎模型中激發出與RL相當的推理能力。受馬可夫鏈蒙地卡羅(MCMC)技術中從銳化分佈採樣的啟發,我們提出一種利用基礎模型自身似然率的簡潔迭代採樣演算法。實驗顯示,該演算法在多種基礎模型上能顯著提升推理性能,於MATH500、HumanEval、GPQA等多項單次推理任務中接近甚至超越RL後訓練的效果。更重要的是,我們的採樣方法避免了RL後訓練常見的多樣性衰減問題。關鍵在於,本方法無需額外訓練、精選資料集或驗證器,展現出在易驗證領域之外的廣泛應用潛力。
統一的、可泛化的語義控制影片生成仍是關鍵的開放性挑戰。現有方法要麼因強加基於結構控制的失真像素級先驗而產生偽影,要麼依賴不可泛化的條件特定微調或任務專用架構。我們提出「影片即提示」(VAP)新範式,將此問題重新定義為情境內生成。VAP利用參考影片作為直接語義提示,透過即插即用的混合專家變換器(MoT)引導凍結的影片擴散變換器(DiT)。此架構能防止災難性遺忘,並透過具時間偏置的位置嵌入進行引導,消除虛假映射先驗以實現穩健的情境檢索。為支持此方法並推動未來研究,我們構建了VAP-Data——目前最大的語義控制影片生成數據集,涵蓋100種語義條件下超過10萬組配對影片。作為單一統一模型,VAP為開源方法設立了新標竿,達成38.7%的用户偏好率,可媲美領先的條件專用商業模型。VAP強大的零樣本泛化能力與對多種下游應用的支持,標誌著通用可控影片生成邁出重要一步。
我們致力於解決可無限擴展的三維世界生成難題——即創建具有連貫幾何結構與逼真外觀的大規模連續環境。現有方法面臨關鍵挑戰:二維升維技術存在多視角間的幾何與外觀不一致問題,三維隱式表示難以擴展規模,而當前三維基礎模型大多以物體為中心,限制了其在場景級生成中的應用。我們的核心洞見在於利用預訓練三維模型的強生成先驗來實現結構化場景塊生成。為此,我們提出WorldGrow——一個用於無邊界三維場景合成的分層框架。該方法具備三大核心組件:(1)數據篩選流程,可提取高質量場景塊用於訓練,使三維結構化潛在表徵適用於場景生成;(2)三維場景塊修補機制,實現上下文感知的場景擴展;(3)由粗到精的生成策略,確保全局佈局合理性與局部幾何/紋理保真度。在大規模3D-FRONT數據集上的評估表明,WorldGrow在幾何重建方面達到頂尖性能,同時獨特支持具有照片級真實感與結構一致性的無限場景生成。這些成果凸顯了其構建大規模虛擬環境的能力,以及為未來世界模型建設提供的潛力。
當前人工智慧通用智能(AGI)缺乏具體定義,導致現今專用型人工智慧與人類水平認知之間的差距難以釐清。本文提出一個可量化的框架來解決此問題,將AGI定義為需達到受過良好教育的成年人之認知廣度與熟練度。為實現此目標,我們以卡泰爾-霍恩-卡羅爾理論(目前實證最完備的人類認知模型)作為方法論基礎。該框架將通用智能分解為十大核心認知領域(包含推理、記憶與感知等),並改編成熟的人類心理計量測驗組來評估人工智慧系統。應用此框架分析發現,當代模型呈現高度「鋸齒狀」的認知剖面:雖然在知識密集型領域表現優異,現有人工智慧系統卻在基礎認知機制(特別是長期記憶儲存)存在關鍵缺陷。據此得出的AGI分數(如GPT-4達27%、GPT-5達58%)具體量化了當前技術的快速進展與實現AGI尚存的顯著差距。
群組相對策略優化(GRPO)在基於流匹配的文字轉圖像(T2I)生成中展現出強大潛力,但其面臨兩大關鍵限制:優勢歸因不精準,以及忽略生成的時序動態特性。本研究主張,將優化範式從步驟層級轉向區塊層級,能有效緩解這些問題。基於此理念,我們提出Chunk-GRPO——首個基於GRPO的區塊層級T2I生成方法。其核心思路是將連續步驟分組為具連貫性的「區塊」,以捕捉流匹配的內在時序動態,並在區塊層級進行策略優化。此外,我們引入可選的加權抽樣策略以進一步提升效能。大量實驗表明,Chunk-GRPO在偏好對齊與影像品質方面均達成優異成果,彰顯了區塊層級優化對GRPO類方法的應用前景。
離散擴散模型在視覺語言任務領域嶄露頭角,憑藉其雙向上下文建模能力和理論上的並行化優勢展現出巨大潛力。然而,訓練與推斷間的顯著差異嚴重阻礙了其實際應用,這種差異會引發災難性的錯誤級聯:並行解碼過程中初始符號的錯誤會污染生成上下文,觸發錯誤疊加的連鎖反應,最終導致語法錯誤和語義幻覺。為解決這一根本性挑戰,我們將生成過程重新定義為從被動去噪轉向主動精煉。本文提出ReDiff——一種增強精煉的擴散框架,該框架教導模型識別並修正自身錯誤。我們的方法採用兩階段訓練流程:首先通過訓練模型修正合成錯誤來奠定基礎修訂能力;隨後實施新穎的線上自校正循環,讓模型通過學習專家校正結果來明確訓練其修正自身缺陷草稿的能力。這種錯誤驅動的學習賦予模型關鍵能力,使其能夠重新審視並優化已生成的輸出,從而有效阻斷錯誤級聯。大量實驗表明,ReDiff顯著提升了生成內容的連貫性與事實準確性,實現了遠超傳統去噪方法的穩定高效並行生成。相關代碼與模型已開源於https://rediff-hku.github.io/。
擴增大語言模型(LLM)的上下文長度雖能帶來顯著優勢,但計算成本高昂。這種開銷主要源於自注意力機制——其相對於序列長度的 O(N²) 複雜度成為記憶體與延遲的主要瓶頸。所幸注意力矩陣通常具有稀疏性,尤其在長序列中更為明顯,這為優化提供了契機。區塊稀疏注意力應運而生,其將序列分割為多個區塊,並跳過部分區塊的計算。然而,該方法的有效性高度依賴底層注意力模式,可能導致次優的區塊級稀疏度。例如,單一區塊內查詢所需的關鍵詞元可能分散於多個其他區塊,從而引發計算冗餘。本文提出置換區塊稀疏注意力(PBS-Attn),這是一種即插即用的方法,利用注意力的置換特性提升區塊級稀疏度,進而增強LLM預填充階段的計算效率。我們在具挑戰性的真實長上下文數據集上進行全面實驗,結果表明PBS-Attn在模型準確度上持續優於現有區塊稀疏注意力方法,並與完整注意力基準線表現相當。透過我們自研的置換FlashAttention核心驅動,PBS-Attn在長上下文預填充中實現端到端最高2.75倍的加速,證實其實際可行性。程式碼已開源於:https://github.com/xinghaow99/pbs-attn
圖形使用者介面基礎定位(GUI Grounding)作為將自然語言指令映射至可操作UI元素的核心能力,是GUI代理的關鍵技術。現有研究大多將指令視為用戶意圖的靜態代理,忽略了指令多樣性與質量對基礎定位性能的影響。透過對現有基礎定位資料集的細緻分析,我們發現其中23.3%的指令存在缺陷,並證實推理階段利用指令多樣性能帶來高達76%的相對性能提升。本文提出「指令即推理」範式,將指令視為提供獨特視角的動態分析路徑,使模型能在推理過程中選擇最有效的路徑。為實現此目標,我們設計兩階段訓練框架:首先透過合成多樣化指令的監督微調(SFT)注入多視角推理能力,再通過強化學習(RL)優化路徑選擇與組合策略。由此產生的UI-Ins-7B與UI-Ins-32B模型在五項高難度基礎定位基準測試中取得最先進成果,並展現出新興推理能力——在推理時選擇性組合與合成新型指令路徑。其中UI-Ins-32B以87.3%的準確率創下UI-I2E-Bench最佳成績,在ScreenSpot-Pro與MMBench-GUI L2分別達到57.0%與84.9%。此外,我們的模型展現出強大的智能體潛力,以UI-Ins-7B作為執行器在AndroidWorld任務中實現74.1%的成功率。深度分析揭示了更多洞見:如何構建推理機制以增強而非阻礙基礎定位性能,以及我們的方法如何緩解SFT+RL框架中的策略崩潰問題。所有程式碼與模型檢查點將公開於https://github.com/alibaba/UI-Ins。
本文首次证明视觉扩散模型可作为有效的几何求解器:其能直接在像素空间中对几何问题进行推理。我们首先以内接正方形问题为例验证这一观点——该几何学难题长期探讨是否所有若尔当曲线都包含可构成正方形的四个点。随后将方法拓展至另外两个著名几何难题:斯坦纳树问题与简单多边形问题。 我们的方法将每个问题实例视为图像,并训练标准视觉扩散模型使其将高斯噪声转换为能紧密逼近精确解的有效近似解图像。该模型通过学习将含噪几何结构转换为正确配置,成功将几何推理重构为图像生成任务。 与先前研究在应用扩散模型至参数化几何表征时需专门架构及领域适配不同,我们采用标准视觉扩散模型直接处理问题的视觉表征。这种简洁性凸显了生成建模与几何问题求解间令人惊喜的桥梁。除本文研究的特定问题外,我们的成果指向更广泛的范式:在图像空间中操作为逼近著名难题提供了通用实用框架,并为攻克更庞大类别的几何难题开启新途径。
视频大语言模型(VideoLLMs)将视觉语言模型的能力拓展至时空输入领域,实现了视频问答等任务。尽管视频大语言模型近期取得显著进展,但其内部关于视频与文本信息的提取及传播机制仍待深入探索。本研究运用机理可解释性技术,系统剖析了视频大语言模型的内部信息流。分析发现不同视频问答任务中存在一致的模式:(1)时序推理过程始于中低层神经元的跨帧交互激活;(2)随后通过中层实现渐进式的视频-语言融合,该过程依赖于视频表征与含有时序概念的语义嵌入之间的对齐;(3)完成融合后,模型在中高层已具备生成正确答案的能力;(4)基于此发现,我们证明通过筛选有效信息路径(如LLaVA-NeXT-7B-Video-FT模型可削减58%注意力边)即可保持视频问答性能。这些发现揭示了视频大语言模型进行时序推理的内在机制,为提升模型可解释性与下游泛化能力提供了实践依据。项目主页及源代码详见https://map-the-flow.github.io。
模型融合是一种高效的后训练策略,能够整合共享基础模型多个微调检查点的知识。现有方法在参数空间中进行操作,通过组合任务向量来缓解冲突,但仍受限于参数不一致性。我们提出功能双重锚点(FDA)框架,该方法转而对输入表征空间进行建模。FDA是合成的输入样本,其诱导出的梯度与任务向量对齐,能够捕捉相对于预训练模型的任务特定功能偏移。这一视角搭建了联合多任务训练与事后融合之间的桥梁,兼具鲁棒性与灵活性。我们进一步提出一种理论驱动的初始化方案,并证明FDA与参数空间模型融合具有互补性。综合实验结果表明了FDA在模型融合中的有效性。
提示词设计在文本到视频(T2V)生成中至关重要,然而用户提供的提示词往往简短、非结构化且与训练数据失配,这限制了基于扩散模型的T2V生成潜力。我们提出RAPO++,一个跨阶段提示词优化框架,通过统一训练数据对齐优化、测试时迭代缩放和大语言模型(LLM)微调,在不修改生成主干网络的情况下显著提升T2V生成质量。第一阶段采用检索增强提示词优化(RAPO),通过从关系图谱中检索语义相关的修饰词丰富用户提示,并重组提示结构以匹配训练数据分布,从而增强组合性与多对象保真度。第二阶段引入样本特定提示词优化(SSPO),该闭环机制利用多源反馈(包括语义对齐度、空间保真度、时间连贯性及光流等任务特定信号)迭代优化提示词,实现视频生成质量的渐进式提升。第三阶段利用SSPO产生的优化提示词对微调重写器LLM,将任务特定的优化模式内化至模型中,实现推理前即可生成高效优质的提示词。在五种前沿T2V模型和五个基准测试上的大量实验表明,RAPO++在语义对齐、组合推理、时间稳定性和物理合理性方面取得显著提升,以较大优势超越现有方法。研究成果凸显RAPO++作为模型无关、成本高效且可扩展的解决方案,为T2V生成领域的提示词优化树立了新标准。代码已开源:https://github.com/Vchitect/RAPO。
我們揭示大型語言模型(LLMs)的內部表徵可作為所學知識的可靠代理,並提出RECALL——一種無需歷史數據、基於表徵感知的持續學習模型融合新框架。該框架通過聚類典型樣本上的層級隱藏表徵計算模型間相似度,執行自適應的層次化參數融合以實現知識對齊。此設計既能保留淺層的領域通用特徵,又允許深層進行任務特定適配。有別於需任務標籤或犧牲性能的既有方法,RECALL實現了無縫多領域整合與強大的災難性遺忘抵抗能力。在五項NLP任務與多種持續學習場景下的廣泛實驗表明,RECALL在知識保留與泛化能力上均超越基線方法,為LLMs的演進提供了可擴展的無數據解決方案。
傳統資訊檢索(IR)指標(如nDCG、MAP和MRR)基於一個假設:人類使用者會依序審閱文件,且對低排名內容的注意力遞減。這一假設在檢索增強生成(RAG)系統中並不成立,因為檢索結果是由大型語言模型(LLM)處理的。與人類不同,LLM會將所有檢索到的文件作為整體處理,而非依序審閱。此外,傳統IR指標未能考量「相關但無效文件」對生成品質的主動損害作用(而非僅被忽略)。由於兩大關鍵錯配——人類與機器的位置衰減差異、人類相關性與機器效用標準的區別——經典IR指標無法準確預測RAG效能。我們提出一種基於效用的註解框架,可同時量化相關段落的正面貢獻與干擾段落的負面影響。在此基礎上,我們設計了UDCG(效用與干擾感知累計增益)指標,採用面向LLM的位置衰減機制,直接優化與端到端答案準確度的關聯性。在五個資料集和六種LLM上的實驗表明,UDCG相較傳統指標最高可提升36%的關聯性。本研究為對齊IR評估與LLM消費需求邁出關鍵一步,為RAG組件提供了更可靠的評估方法。
近期诸如检索增强生成与思维链推理等技术导致上下文长度增加及推理成本上升。上下文压缩技术虽能降低此类成本,但最有效的方法需对目标模型进行微调甚至修改其架构。这可能导致模型在非特定应用场景下通用能力下降。本文探索一种替代方案:通过编码器将上下文压缩为连续表征,以替代解码器型大语言模型中的词元嵌入。首先,我们对编码器的训练策略与架构选择展开系统性研究,据此设计出名为ARC-Encoder的自适应文本表征压缩器,其输出的连续表征数量可比原始文本词元减少x倍(通常x∈{4,8})。我们在从上下文学习到上下文窗口扩展等多种大语言模型应用场景中,对指令调优型及基础型解码器进行了全面评估。结果表明,ARC-Encoder在多项基准测试中达到先进性能,同时提升了推理时的计算效率。最后,我们验证了该模型可同时适配多个解码器,实现单一编码器跨不同大语言模型解码器的泛化能力。这使ARC-Encoder成为可与多种大语言模型无缝协作的便携式编码器解决方案。训练代码已发布于https://github.com/kyutai-labs/ARC-Encoder ,微调数据集与预训练模型详见https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047。
近日,多模态持续学习领域取得重要进展,其目标是在多模态环境中顺序学习新任务,同时保持对已学任务的性能。然而现有方法主要关注粗粒度任务,在解决细粒度持续学习场景中的模态纠缠问题上存在局限。为弥补这一空白,我们提出了新颖的持续音视频分割任务(CAVS),旨在通过音频引导持续分割新类别。通过全面分析,我们识别出两大关键挑战:1)多模态语义漂移,即发声物体在连续任务中被错误标注为背景;2)共现混淆,即频繁共同出现的类别易产生混淆。本研究设计了基于碰撞的多模态回放框架(CMR)应对这些挑战。具体而言,针对多模态语义漂移问题,提出多模态样本选择策略(MSS),筛选具有高模态一致性的样本进行回放;针对共现混淆现象,设计基于碰撞的样本回放机制(CSR),在训练过程中增加易混淆类别的回放样本频率。此外,我们构建了三种音视频增量场景以验证方法的有效性。综合实验表明,本方法显著优于单模态持续学习方法。
大型语言模型(LLMs)正日益频繁地被部署于与外部环境交互的智能体系统中,这使得其在处理不可信数据时容易受到提示注入攻击。为突破此局限,我们提出SIC(软指令控制)——一种面向工具增强型LLM智能体的简易而高效的迭代式提示净化循环机制。该方法通过多重循环检测输入数据中可能破坏智能体行为的指令内容,若发现恶意内容则进行重写、屏蔽或删除操作,并对处理结果进行再次评估。该流程将持续至输入内容被完全净化或达到最大迭代次数;若仍有强制性指令类内容残留,智能体会终止运行以确保安全。通过允许多轮次处理,我们的方法认识到单次重写可能失败,但系统能在后续步骤中捕获并修正遗漏的注入攻击。尽管SIC具有即时实用性,但最坏情况分析表明其并非无懈可击——强大攻击者仍可通过嵌入非强制性工作流程实现15%的攻击成功率。尽管如此,该技术显著提升了安全防护门槛。
近期大型推理模型(LRMs)的技术进展在生成最终答案前引入了中间"思考"过程,显著提升了处理复杂下游任务的推理能力。然而,LRMs作为机器翻译质量评估工具的潜力尚未得到充分探索。我们首次对LRMs作为翻译评估工具进行了系统性分析,发现其面临三大关键挑战:需要定制化评估材料、对简单实例容易"过度思考"、评分机制存在高估倾向。为解决这些问题,我们提出通过训练模型学习合成类人思考轨迹来校准LRM的思考过程。在WMT24度量基准测试中,该方法在7B至32B不同规模的LRMs上实现评估性能全面提升(例如R1-Distill-Qwen-7B模型相关性提升8.7个百分点),同时将思考预算大幅降低约35倍。这些发现表明,经过高效校准的LRMs有望推动细粒度自动机器翻译评估的发展。
能够模拟物体动态的交互式世界模型对于机器人技术、虚拟现实和增强现实至关重要。然而,从有限的真实世界视频数据中学习物理一致性动力学模型仍面临重大挑战,特别是针对具有空间变化物理属性的可变形物体。为克服数据稀缺的难题,我们提出PhysWorld——一种创新框架,通过利用模拟器合成物理合理且多样化的演示数据来学习高效的世界模型。具体而言,我们首先通过本构模型选择和物理属性全局-局部优化,在MPM模拟器中构建物理一致的数字孪生体;随后对物理属性施加部件感知扰动,为数字孪生体生成多样化运动模式,从而合成大规模异构演示数据;最后基于这些演示数据训练嵌入物理属性的轻量级图神经网络世界模型。真实视频数据可进一步用于优化物理属性。PhysWorld实现了对各类可变形物体的精准快速未来预测,并展现出良好的新交互泛化能力。实验表明,PhysWorld在保持竞争力的同时,推理速度较当前最先进方法PhysTwin提升47倍。
我们运用范畴论来提取多模态文档结构,由此发展出信息理论度量方法、内容摘要与扩展技术,以及大型预训练模型的自监督改进方案。首先,我们建立了将文档表示为问答对范畴的数学框架;其次,开发了正交化程序以将单文档或多文档信息分解为互不重叠的组成部分。前两步提取的结构特征引导我们创建了文档信息度量与枚举方法,并以此为基础开发出新型摘要技术,同时解决了文献诠释这一新问题,实现对原始文档的扩展。我们的问答对方法论为摘要技术提供了全新的率失真分析视角。基于大型预训练模型实现了相关技术,并提出了整体数学框架的多模态扩展方案。最后,通过RLVR开发出创新的自监督方法,利用组合性及特定运算下的封闭性等一致性约束(这些约束自然衍生自我们的范畴论框架)来优化大型预训练模型。
强化学习(RL)已成为提升大语言模型能力的关键方法。然而在混合专家(MoE)模型中,路由机制常引发训练不稳定性,甚至导致灾难性的强化学习训练崩溃。我们通过分析MoE模型的训练-推理一致性,发现两个阶段的路由行为存在显著差异。更关键的是,即使在相同条件下,路由框架在多次前向传播中也可能产生不同的专家选择结果。为解决这一根本性不一致问题,我们提出滚动路由重放(R3)方法,通过记录推理引擎的路由分布并在训练阶段重放,显著降低了训练-推理策略的KL散度,在保持训练速度的同时有效缓解了极端差异。多场景实验表明,R3能成功稳定RL训练,避免崩溃现象,其性能优于GSPO和TIS等方法。我们相信这项研究能为MoE模型的RL训练稳定性提供新的解决方案。
拟音控制(Foley Control)是一种轻量级的视频引导拟音方法,该方法保持预训练的单模态模型参数冻结,仅学习模型间的小型交叉注意力桥接模块。我们通过将V-JEPA视频嵌入与冻结的Stable Audio Open DiT文声转换(T2A)模型相连接,在原有文本交叉注意力层之后插入紧凑的视频交叉注意力层,使得文本提示设定全局语义,而视频则细化时间动态与局部特征。冻结的主干网络保留了强大的边缘分布特性(视频特征;基于文本的音频先验),桥接模块则学习了同步所需的音视频依赖关系——无需重新训练音频先验模型。为降低内存消耗并稳定训练,我们在条件化前对视频标记进行池化处理。在精选的音视频基准测试中,拟音控制以远少于当前多模态系统的可训练参数量,实现了具有竞争力的时序对齐与语义对齐效果,同时保留了提示驱动的可控性及生产友好的模块化特性(无需端到端重训练即可替换/升级编码器或T2A主干网络)。尽管本研究聚焦于视频拟音生成,该桥接设计同样具备扩展至其他音频模态(如语音)的潜力。
人工智能代理有望通过自动化文献综述、实验复现、数据分析乃至提出新研究方向来彻底改变科研生产力;目前确实已涌现出众多此类代理,从通用型"深度研究"系统到专业科学代理(如AI Scientist和AIGS)不一而足。对这些代理进行严格评估对领域发展至关重要,但现有基准测试存在多重不足:其一,未能针对科学研究等实际应用场景提供整体性、产品化的衡量标准;其二,缺乏可复现的代理工具以进行核心代理能力的受控比较;其三,未考虑模型成本与工具访问权限等混杂变量;其四,未提供标准化接口以支持快速代理原型设计与评估;其五,缺乏识别真实突破所需的综合性基线代理。为此,我们确立了更严格代理基准测试的原则与工具链,并据此推出AstaBench——首个对代理执行科研任务能力进行整体评估的测试套件,包含2400余个覆盖完整科研流程与多科学领域的问题,其中诸多问题灵感来源于已部署Asta代理的实际用户需求。该套件配备首个具备生产级检索工具的科研环境,支持受控可复现的评估,更好控制混杂因素。同时我们提供九大类经科学优化的Asta代理及众多基线模型组成的综合套件。通过对22类57种代理的广泛评估,我们发现了若干重要结论,最关键的是:尽管在特定环节取得显著进展,人工智能距离真正解决科研辅助的挑战仍道阻且长。
多模态大语言模型(MLLM)的视觉推理研究目前主要集中于静态、全观测场景,这限制了其在现实环境中的有效性——现实环境中信息常因遮挡或视野受限而不完整。与之相反,人类会通过整合感知、推理与行动的闭环过程,主动探索并与环境互动(包括移动、检视和操控物体)来收集信息。受此人类能力启发,我们提出主动视觉推理(AVR)任务,将视觉推理扩展至部分可观测的交互式环境。AVR要求智能体具备三种能力:(1)通过序列化物理动作主动获取信息;(2)整合多步骤观察以进行连贯推理;(3)根据动态视觉反馈实时调整决策。为系统评估AVR,我们开发了CLEVR-AVR仿真基准测试平台,其多轮交互环境可同步评估推理正确性与信息收集效率。我们提出包含15.2万样本的大规模数据集AVR-152k,该数据集提供丰富的思维链标注,详细阐释不确定性识别、行动条件化信息增益预测及信息最大化行动选择等迭代推理过程,这对训练高阶马尔可夫决策过程中的智能体至关重要。基于此,我们开发了PhysVLM-AVR模型,该MLLM在CLEVR-AVR、具身推理(OpenEQA、RoboVQA)及被动视觉推理(GeoMath、Geometry30K)任务中均达到最先进性能。分析还表明,当前具身MLLM虽能检测信息不完整性,却难以通过交互主动获取并整合新信息,这揭示了主动推理能力的本质缺陷。
三维激光雷达传感器在遥感应用中对于自主导航、环境监测和精密测绘至关重要。为高效处理这些传感器生成的海量点云数据,激光雷达数据常被投影为二维距离图像,通过角度位置和距离对点进行组织。虽然这种距离图像表征能实现高效处理,但传统投影方法存在固有几何不一致性,会导致不可逆的信息损失,影响高保真应用。我们提出ALICE-LRI(无损距离图像自动激光雷达内参标定估算)——首个通用、传感器无关的方法,无需制造商元数据或标定文件即可从旋转式激光雷达点云实现无损距离图像生成。该算法通过推断激光束配置、角度分布及每束光校准校正等关键参数,自动逆向计算任意旋转式激光雷达传感器的内在几何特性,实现无损投影和零点数损失的完整点云重建。在完整KITTI和DurLAR数据集上的综合评估表明,ALICE-LRI实现了完美点保存,所有点云均无点数损失。几何精度严格保持在传感器精度极限内,以实时性能确立几何无损特性。我们还通过压缩案例研究验证了显著的 downstream 效益,展示了实际应用中的重大质量提升。这种从近似到无损的激光雷达投影范式转变,为需要完整几何保存的高精度遥感应用开辟了新可能。