每日精選AI研究論文及翻譯
如同面对难题的学生,大型语言模型在不确定时有时会进行猜测,产生看似合理实则错误的陈述,而非承认不确定性。这种“幻觉”现象即便在最先进的系统中依然存在,削弱了信任度。我们认为,语言模型之所以产生幻觉,是因为训练和评估过程奖励了猜测而非承认不确定性,我们分析了现代训练流程中幻觉的统计成因。幻觉并非神秘莫测——它们起源于二元分类中的简单错误。如果错误陈述无法与事实区分开来,那么预训练语言模型中的幻觉就会在自然统计压力下产生。我们进一步指出,幻觉之所以持续存在,是因为大多数评估方式的评分机制——语言模型被优化为擅长应试,在不确定时进行猜测能提高测试表现。这种“惩罚不确定回答”的“流行病”只能通过社会技术手段来缓解:调整现有基准的评分方式,这些基准虽存在偏差却主导着排行榜,而非引入额外的幻觉评估。这一改变或许能引导该领域迈向更为可信的人工智能系统。
自回归式下一令牌预测语言模型虽具备强大功能,但在实际部署中面临重大挑战,主要源于推理阶段,尤其是解码阶段的高计算与内存成本。我们提出了一种简单而灵活的范式——集合块解码(Set Block Decoding, SBD),该范式通过在同一架构内整合标准的下一令牌预测(Next Token Prediction, NTP)与掩码令牌预测(Masked Token Prediction, MATP),以加速生成过程。SBD允许模型并行采样多个未来令牌,这些令牌不必连续,这是与以往加速方法的关键区别。这种灵活性使得能够利用离散扩散文献中的高级求解器,在不牺牲准确性的前提下实现显著加速。SBD无需改变架构或增加训练超参数,保持与精确KV缓存的兼容性,并可通过微调现有的下一令牌预测模型来实现。通过对Llama-3.1 8B和Qwen-3 8B进行微调,我们展示了SBD能够在保持与等效NTP训练相同性能的同时,将生成所需的前向传递次数减少3至5倍。
大型語言模型(LLMs)在程序合成方面表現出色,但其生成符號圖形程序(SGPs)以呈現精確視覺內容的能力仍未被充分探索。我們研究符號圖形編程,其目標是從自然語言描述生成SGPs。此任務也作為一個透鏡,通過提示LLMs生成從SGPs渲染的圖像,來理解它們如何理解視覺世界。在各種SGPs中,本文專注於可縮放向量圖形(SVGs)。我們首先檢視LLMs生成SGPs的程度。為此,我們引入了SGP-GenBench,一個涵蓋對象保真度、場景保真度和組合性(屬性綁定、空間關係、數值能力)的綜合基準。在SGP-GenBench上,我們發現前沿的專有模型顯著優於開源模型,且性能與一般編碼能力高度相關。受此差距啟發,我們旨在提升LLMs生成SGPs的能力。我們提出了一種帶有可驗證獎勵的強化學習(RL)方法,其中格式有效性閘門確保可渲染的SVG,而跨模態獎勵通過強大的視覺編碼器(如用於文本-圖像的SigLIP和用於圖像-圖像的DINO)對齊文本與渲染圖像。應用於Qwen-2.5-7B,我們的方法顯著提高了SVG生成質量和語義,達到了與前沿系統相當的性能。我們進一步分析訓練動態,顯示RL誘導了(i)將對象更精細地分解為可控基元,以及(ii)提升場景連貫性的上下文細節。我們的結果表明,符號圖形編程提供了一個精確且可解釋的跨模態接地透鏡。
從單一圖像或視頻中估算場景照明一直是計算機視覺和圖形學領域的長期挑戰。基於學習的方法受到高動態範圍(HDR)環境地圖真實數據稀缺的限制,這些數據不僅捕捉成本高昂,且多樣性有限。儘管最近的生成模型為圖像合成提供了強大的先驗知識,但照明估算仍然困難重重,這歸因於其對間接視覺線索的依賴、對全局(非局部)上下文推斷的需求,以及高動態範圍輸出的恢復。我們提出了LuxDiT,這是一種新穎的數據驅動方法,它通過微調視頻擴散變壓器來生成基於視覺輸入的HDR環境地圖。我們的模型在包含多樣照明條件的大型合成數據集上進行訓練,學會從間接視覺線索中推斷照明,並能有效泛化到真實世界場景。為了提高輸入與預測環境地圖之間的語義對齊,我們引入了一種低秩適應微調策略,利用收集的HDR全景圖數據集進行訓練。我們的方法能夠生成具有真實角度高頻細節的準確照明預測,在定量和定性評估中均優於現有的最先進技術。
多模態大型語言模型(MLLMs)的最新進展在各種視覺-語言任務中展現了令人印象深刻的性能。然而,這些模型在多模態符號音樂領域的推理能力仍未被充分探索。我們引入了WildScore,這是首個面向真實場景的多模態符號音樂推理與分析基準,旨在評估MLLMs解讀現實世界樂譜並回答複雜音樂學問題的能力。WildScore中的每個實例均源自真實的音樂作品,並附有真實用戶生成的問題與討論,捕捉了實際音樂分析的細微之處。為了促進系統性評估,我們提出了一個系統化的分類法,包含高層次與細粒度的音樂學本體。此外,我們將複雜的音樂推理框架化為多選題問答,從而實現對MLLMs符號音樂理解能力的可控且可擴展的評估。在WildScore上對最先進的MLLMs進行的實證基準測試揭示了它們在視覺-符號推理中的有趣模式,既展現了MLLMs在符號音樂推理與分析中的潛力方向,也揭示了其面臨的持續挑戰。我們公開了數據集與代碼。
近期研究日益聚焦于开发能够模拟复杂现实场景的三维世界模型。此类模型在多个领域展现出广泛的应用潜力,涵盖具身人工智能、自动驾驶、娱乐产业等。通过精确的物理模拟实现更为逼真的场景再现,将有效缩小仿真与现实的差距,使我们能够便捷地获取关于现实世界的丰富信息。尽管传统的手工建模方法已能构建虚拟三维场景,现代技术则借助先进的机器学习算法进行三维世界生成,其中最新进展集中于能够根据用户指令创造虚拟世界的生成式方法。本研究探索了这一研究方向,提出了LatticeWorld——一个简洁而高效的三维世界生成框架,旨在优化三维环境的工业化生产流程。LatticeWorld结合轻量级大语言模型(如LLaMA-2-7B)与行业级渲染引擎(例如Unreal Engine 5),以生成动态环境。该框架接受文本描述与视觉指示作为多模态输入,创建包含动态智能体的大规模三维交互世界,具备竞争性的多智能体互动、高保真物理模拟及实时渲染特性。我们通过一系列综合实验评估LatticeWorld,结果表明其在场景布局生成与视觉保真度方面均表现出色。此外,相较于传统手工生产方式,LatticeWorld在保持高创意质量的同时,实现了生产效率超过90倍的提升。我们的演示视频可通过https://youtu.be/8VWZXpERR18观看。
我們提出了WinT3R,這是一種前饋重建模型,能夠在線預測精確的相機姿態並生成高質量的點雲地圖。以往的方法在重建質量與實時性能之間存在權衡。為解決這一問題,我們首先引入了一種滑動窗口機制,確保窗口內幀間有充分的信息交流,從而無需大量計算即可提升幾何預測的質量。此外,我們採用了一種緊湊的相機表示法,並維護了一個全局相機標記池,這在不犧牲效率的前提下增強了相機姿態估計的可靠性。這些設計使WinT3R在線重建質量、相機姿態估計及重建速度方面達到了最先進的水平,這一點通過在多樣化數據集上的廣泛實驗得到了驗證。代碼和模型已公開於https://github.com/LiZizun/WinT3R。
在許多任務領域中,進步往往來自於對先前解決方案嘗試的反覆修正。訓練能夠在推理時可靠地自我改進的代理,是強化學習(RL)的一個自然目標。然而,天真的方法假設了一個固定的最大迭代深度,這既可能成本高昂,又顯得武斷。我們提出了探索性迭代(ExIt),這是一類自動課程RL方法,直接利用自我改進任務的遞歸結構,訓練大型語言模型(LLMs)在推理時進行多步自我改進,同時僅在最具信息量的單步迭代上進行訓練。ExIt通過選擇性地採集在一個回合中遇到的最具信息量的中間部分歷史來擴展任務空間,將這些起點視為新的自我迭代任務實例,以訓練自我改進策略。ExIt還可以與顯式探索機制結合,以維持更大的任務多樣性。在多個領域中,包括競賽數學、多輪工具使用和機器學習工程,我們展示了ExIt策略,無論是從單個還是多個任務實例開始,都能產生在保留任務實例上表現出強推理時自我改進的策略,並且能夠在超出訓練期間平均迭代深度的步數預算內迭代向更高性能邁進。
当前针对大型语言模型(LLMs)的基准测试主要集中于性能指标,往往未能捕捉到区分它们的微妙行为特征。本文提出了一种新颖的“行为指纹”框架,旨在超越传统评估方法,通过创建模型内在认知与交互风格的多维度画像。利用精心设计的诊断提示套件及一个创新的自动化评估流程——其中强大的LLM扮演公正裁判的角色,我们分析了跨越不同能力层级的十八个模型。研究结果揭示了LLM领域的一个关键分歧:尽管顶级模型在抽象与因果推理等核心能力上趋于一致,但在诸如奉承性与语义鲁棒性等与对齐相关的行为上却表现出显著差异。我们进一步记录了一种跨模型的默认人格聚类现象(ISTJ/ESTJ),这很可能反映了普遍的对齐激励。综合来看,这表明模型的交互特性并非其规模或推理能力的自然涌现,而是开发者特定且高度可变的对齐策略的直接结果。我们的框架为揭示这些深层次的行为差异提供了一种可复现且可扩展的方法论。项目地址:https://github.com/JarvisPei/Behavioral-Fingerprinting
大型语言模型(LLMs)的有效性通常通过诸如MMLU、ARC-C或HellaSwag等基准测试来评估,这些测试中的问题以其原始措辞呈现,因而采用固定且标准化的格式。然而,现实世界的应用涉及语言多样性,要求模型能够在同一问题或查询的不同重述中保持其有效性。在本研究中,我们系统地评估了LLMs对改写后基准问题的鲁棒性,并探讨了基于基准的评估是否能够可靠地衡量模型的能力。我们系统地生成了六个不同常见基准测试中所有问题的多种改写版本,并测量了34个不同规模和有效性的顶尖LLMs在有效性上的变化。我们的研究结果显示,尽管LLMs在改写输入上的排名相对稳定,但绝对有效性分数发生变化,且显著下降。这表明LLMs在处理语言多样性方面存在困难,引发了对其泛化能力和评估方法的担忧。此外,观察到的性能下降挑战了基于基准评估的可靠性,表明高基准分数可能无法完全捕捉模型对现实世界输入变化的鲁棒性。我们讨论了这些发现对LLM评估方法的影响,强调需要开发更能反映实际部署场景的鲁棒性感知基准。
放射診斷錯誤——包括漏讀錯誤、注意力盲區及溝通失誤——在臨床實踐中依然普遍存在。這些問題往往源於局部異常的遺漏、全局語境的限制以及報告語言的多樣性。在三維影像中,這些挑戰更為突出,因為臨床醫生需要審查每次掃描的數百張切片。解決這些問題需要具備精確局部檢測、全局體積層面推理及語義一致的自然語言報告系統。然而,現有的三維視覺-語言模型無法同時滿足這三項需求,缺乏對空間推理的局部-全局理解,並且在處理未經整理的放射報告的多樣性和噪聲方面存在困難。我們提出了MedVista3D,這是一個用於三維CT分析的多尺度語義增強視覺-語言預訓練框架。為了實現疾病檢測與整體解釋的聯合,MedVista3D在全體積語境下進行局部與全局的圖像-文本對齊,以實現細粒度表示學習。針對報告的多樣性,我們應用語言模型重寫並引入放射語義匹配庫,以實現語義感知的對齊。MedVista3D在零樣本疾病分類、報告檢索及醫學視覺問答方面達到了最先進的性能,同時在器官分割和預後預測上表現良好。代碼和數據集將被公開。
我們提出了U-Arm,這是一種低成本且快速適應的領導-跟隨遠程操作框架,旨在與市面上大多數商用機械臂兼容。我們的系統通過三種結構各異的3D打印領導臂實現遠程操作,這些領導臂共享一致的控制邏輯,從而確保與多樣化的商業機器人配置無縫兼容。相比於以往開源的領導-跟隨接口,我們進一步優化了機械設計和伺服電機選擇,使得6自由度領導臂的材料成本僅為50.5美元,7自由度版本則為56.8美元。為提升易用性,我們通過機械與控制優化,有效緩解了控制冗餘自由度這一常見難題。實驗結果表明,與另一低成本遠程操作接口Joycon相比,U-Arm在多種操作場景下實現了39%的數據收集效率提升,並保持了相當的任務成功率。我們已開源了三種配置的所有CAD模型,並提供了仿真支持以驗證遠程操作流程。此外,我們還開源了使用U-Arm收集的真實世界操作數據。項目網站為https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm。