每日精选AI研究论文及翻译
测试时扩展旨在通过增加计算资源来提升大型语言模型(LLMs)的推理性能。该领域内一种普遍采用的方法是基于采样的测试时扩展技术,其在推理过程中为给定输入生成多条推理路径,从而增强推理能力。然而,尽管该方法在实践中取得了成功,其理论基础仍待深入探索。本文首次从置信度估计的视角出发,构建了一个理论框架,用于分析基于采样的测试时扩展方法。基于此框架,我们剖析了两种主流范式:自一致性与困惑度,并揭示了它们的关键局限:自一致性存在较高的估计误差,而困惑度则表现出显著的模型误差及估计误差收敛可能退化的问题。为应对这些局限,我们提出了RPC,一种融合了理论洞见的混合方法,其核心包含两个组件:困惑度一致性与推理剪枝。困惑度一致性结合了自一致性与困惑度的优势,在保持模型误差的同时,将估计误差的收敛速度从线性提升至指数级。推理剪枝则通过剔除低概率推理路径,防止性能退化。理论分析与跨七个基准数据集的实证结果均表明,RPC在降低推理错误方面展现出强大潜力。尤为突出的是,RPC在实现与自一致性相当的推理性能的同时,不仅增强了置信度的可靠性,还将采样成本降低了50%。代码与资源已发布于https://wnjxyk.github.io/RPC。
推进机器智能的发展,需要培养跨多模态的感知能力,正如人类感知世界的方式。我们推出OmniVinci项目,旨在构建一个强大、开源的全模态大语言模型。我们深入研究了模型架构与数据筛选的设计选择。在模型架构方面,我们提出了三项关键创新:(i) OmniAlignNet,用于增强视觉与音频嵌入在全模态共享潜在空间中的对齐;(ii) 时间嵌入分组,捕捉视觉与音频信号间的相对时间对齐;(iii) 受限旋转时间嵌入,在全模态嵌入中编码绝对时间信息。我们引入了一套筛选与合成流程,生成了2400万条单模态及全模态对话。研究发现,各模态在感知与推理中相互强化。我们的模型OmniVinci在DailyOmni(跨模态理解)上超越Qwen2.5-Omni达19.05分,在MMAR(音频)上提升1.7分,在Video-MME(视觉)上增加3.9分,而仅使用了0.2万亿训练token,相比Qwen2.5-Omni的1.2万亿减少了6倍。最后,我们展示了全模态在机器人、医疗AI及智能工厂等下游应用中的优势。
三维物体编辑在游戏、动画及机器人领域的交互式内容创作中至关重要,然而现有方法普遍效率低下、一致性不足,且往往难以保持未编辑区域的完整性。多数技术依赖于对多视角渲染图进行编辑后再重建,这一过程易引入伪影,限制了实际应用。为应对这些挑战,我们提出了Nano3D,一个无需训练即可实现精确、连贯三维物体编辑的无掩码框架。Nano3D将FlowEdit融入TRELLIS系统,通过前视图渲染引导局部编辑,并进一步引入了区域感知融合策略——Voxel/Slat-Merge,该策略通过确保编辑与未编辑区域间的一致性,自适应地维护结构保真度。实验表明,Nano3D在三维一致性和视觉质量上均优于现有方法。基于此框架,我们构建了首个大规模三维编辑数据集Nano3D-Edit-100k,包含超过10万对高质量三维编辑样本。本工作不仅解决了算法设计与数据可用性方面的长期难题,显著提升了三维编辑的通用性与可靠性,还为开发前馈式三维编辑模型奠定了坚实基础。项目页面:https://jamesyjl.github.io/Nano3D
基于指令的视频编辑技术有望实现内容创作的民主化,但其发展却因大规模、高质量训练数据的匮乏而严重受阻。为此,我们推出了Ditto,一个旨在解决这一根本挑战的综合性框架。Ditto的核心在于其创新的数据生成流程,该流程将领先图像编辑器的创意多样性与上下文视频生成器相结合,突破了现有模型的局限。为了确保这一流程的可行性,我们的框架通过采用一种高效、经过蒸馏的模型架构,并辅以时间增强器,有效解决了成本与质量之间的权衡问题,既降低了计算开销,又提升了时间连贯性。最终,为了实现全面可扩展性,整个流程由智能代理驱动,该代理不仅生成多样化的指令,还严格筛选输出结果,确保大规模下的质量控制。利用这一框架,我们投入了超过12,000个GPU天,构建了Ditto-1M,一个包含一百万高保真视频编辑示例的新数据集。我们采用课程学习策略,在Ditto-1M上训练了我们的模型Editto。实验结果表明,Editto在遵循指令的能力上表现卓越,确立了基于指令视频编辑的新标杆。
近期研究表明,窄域微调可能导致大语言模型(LLMs)出现广泛的错位现象,这一现象被称为“涌现性错位”(Emergent Misalignment, EM)。尽管这一发现令人担忧,但此前的研究仅限于微调和激活导向,未涵盖上下文学习(In-Context Learning, ICL)。因此,我们提出疑问:ICL中是否也会出现EM?我们的研究发现确实如此:在三个数据集上,三种前沿模型在给定64个窄域上下文示例时,产生广泛错位响应的比例介于2%至17%之间,而在256个示例时,这一比例可高达58%。我们还通过引导逐步推理(同时保持上下文示例不变)来探究EM的机制。对由此产生的思维链进行人工分析发现,67.5%的错位轨迹通过采用鲁莽或危险的“角色”,明确地为有害输出提供合理化解释,这与先前关于微调引发EM的研究结果相呼应。
合成大规模、可探索且几何精确的3D城市场景,对于提供沉浸式与具身化应用而言,是一项既具挑战性又极具价值的任务。其难点在于缺乏用于训练通用生成模型的大规模高质量真实世界3D扫描数据。本文中,我们另辟蹊径,通过整合易于获取的卫星影像(提供真实的粗略几何信息)与开放域扩散模型(用于生成高质量近景外观),来创建大规模3D场景。我们提出了Skyfall-GS,这是首个无需昂贵3D标注即可创建城市街区尺度3D场景的框架,同时支持实时沉浸式3D探索。我们定制了一套课程驱动的迭代优化策略,逐步提升几何完整性与照片级真实感纹理。大量实验表明,相较于现有最先进方法,Skyfall-GS在跨视角一致的几何结构与更逼真的纹理表现上均有显著提升。项目页面:https://skyfall-gs.jayinnn.dev/
近期,基于扩散模型的视觉生成技术主要依赖于结合变分自编码器(VAE)的潜在扩散模型。尽管这一VAE+扩散范式在高保真合成方面表现优异,但其训练效率受限、推理速度缓慢,且难以迁移至更广泛的视觉任务。这些问题的根源在于VAE潜在空间的一个关键局限:缺乏清晰的语义分离和强大的判别结构。我们的分析证实,这些特性不仅对感知和理解任务至关重要,还对潜在扩散模型的稳定高效训练不可或缺。基于这一洞见,我们提出了SVG,一种无需变分自编码器的新型潜在扩散模型,它利用自监督表示进行视觉生成。SVG通过利用冻结的DINO特征构建了一个具有明确语义判别性的特征空间,同时通过轻量级残差分支捕捉高保真重建所需的细粒度细节。扩散模型直接在这一语义结构化的潜在空间上进行训练,以促进更高效的学习。因此,SVG不仅加速了扩散训练,支持少步采样,还提升了生成质量。实验结果表明,SVG保留了底层自监督表示的语义和判别能力,为构建任务通用、高质量的视觉表示提供了一条原则性路径。
受索绪尔和乔姆斯基理论框架深刻影响的语言学界对大型语言模型(LLMs)的评论,往往流于推测且缺乏建设性。批评者质疑LLMs是否能够真正模拟语言,强调需要“深层结构”或“基础”来实现理想化的语言“能力”。我们主张彻底转变视角,采纳著名普通语言学与历史语言学家维托尔德·马恩恰克的实证主义原则。他将语言定义为“所有被说与写的内容的总和”,而非“符号系统”或“大脑的计算系统”。尤为重要的是,他认定特定语言元素的使用频率为语言的首要支配原则。基于此框架,我们对先前针对LLMs的批评提出挑战,并为语言模型的设计、评估与解读提供了建设性的指导方针。
镜头光晕显著降低图像质量,影响物体检测和自动驾驶等关键计算机视觉任务。现有的单张图像光晕去除(SIFR)方法在画面外光源不完整或缺失时表现欠佳。我们提出了LightsOut,一种基于扩散模型的画面外补全框架,专门用于通过重建画面外光源来增强SIFR效果。该方法结合了多任务回归模块和LoRA微调的扩散模型,确保生成真实且物理一致的补全结果。大量实验表明,LightsOut在各种挑战性场景下持续提升现有SIFR方法的性能,无需额外重新训练,可作为通用的即插即用预处理解决方案。项目页面:https://ray-1026.github.io/lightsout/
大型语言模型分为两大类别:以推理为核心的大语言模型(LLMs),这类模型强化了内部的链式思维推理能力,但无法调用外部工具;以及代理型大语言模型,这类模型学习与环境互动并利用工具,但在深度推理方面往往表现不足。这种分化源于根本不同的训练目标,导致在处理简单查询时,两类模型因过度思考或频繁调用工具而效率低下,优势错配。在本研究中,我们提出了自适应代理基础模型(A^2FM),一个遵循“先路由后对齐”原则的统一框架:模型首先学习任务感知的路由,然后在共享骨干下对齐模式特定的轨迹。为解决效率差距,我们引入了第三种模式——即时模式,直接处理简单查询,避免不必要的推理或工具调用,同时补充代理和推理模式。为共同提升准确性和效率,我们提出了自适应策略优化(APO),它强制跨模式的自适应采样,并应用成本正则化的奖励。在32B规模上,A^2FM在BrowseComp上达到13.4%,在AIME25上达到70.4%,在HLE上达到16.7%,在同类模型中创下新纪录,并在代理、推理及通用基准测试中与前沿大语言模型竞争激烈。尤为突出的是,自适应执行实现了每正确答案仅$0.00487的成本——相较于推理模式成本降低45.2%,相较于代理模式降低33.5%,从而在保持相当准确性的同时,大幅提升了成本效益。
学术项目网站若能清晰呈现核心内容并实现直观的导航与互动,将更有效地传播研究成果。然而,现有方法如直接使用大型语言模型(LLM)生成、模板化或直接HTML转换,均难以制作出布局合理、交互性强的网站,且针对此任务的全面评估体系尚属空白。本文提出了Paper2Web,一个用于评估学术网页生成的基准数据集与多维度评价框架。该框架融合了基于规则的指标(如连通性、完整性)、经人工验证的LLM-as-a-Judge(涵盖交互性、美观度与信息量),以及衡量论文层面知识保留的PaperQuiz。此外,我们介绍了PWAgent,一个将科学论文转化为互动性强、多媒体丰富的学术主页的自动化流程。该代理通过MCP工具迭代优化内容与布局,提升重点突出、平衡感及展示质量。实验表明,PWAgent在保持低成本的同时,大幅超越基于模板的网页及arXiv/alphaXiv版本等端到端基线方法,实现了学术网页生成的帕累托前沿。
我们推出BLIP3o-NEXT,作为BLIP3系列中一款完全开源的基础模型,它推动了原生图像生成技术的新前沿。BLIP3o-NEXT将文本到图像生成与图像编辑统一于单一架构之内,展现了强大的图像生成与编辑能力。在开发这一尖端原生图像生成模型的过程中,我们提炼出四大关键洞见:(1) 多数架构选择在性能上表现相近,只要架构能高效扩展并支持快速推理,即可视为有效;(2) 强化学习的成功应用能进一步拓展原生图像生成的边界;(3) 图像编辑仍具挑战性,但通过后训练与数据引擎,指令遵循及生成图像与参考图像间的一致性可显著提升;(4) 数据质量与规模依然是决定模型性能上限的决定性因素。基于这些洞见,BLIP3o-NEXT采用了自回归+扩散的架构,其中自回归模型首先基于多模态输入生成离散的图像令牌,其隐藏状态随后作为扩散模型的调节信号,以生成高保真图像。此架构融合了自回归模型的推理能力与指令遵循性,以及扩散模型的精细细节渲染能力,实现了前所未有的连贯性与真实感。在多项文本到图像及图像编辑基准测试中的广泛评估表明,BLIP3o-NEXT在性能上超越了现有模型。
随着大规模推理模型的快速发展,有效评估这些模型的推理能力变得愈发重要。然而,现有的用于评估大模型推理能力的基准测试往往范围有限,且缺乏根据模型推理能力演变而灵活调整难度的机制。为此,我们提出了MorphoBench,一个融合多学科问题以评估大模型推理能力的基准测试,并能根据先进模型的推理能力动态调整和更新问题难度。具体而言,我们通过从现有基准测试及奥林匹克竞赛等来源中精选和收集复杂推理问题来构建该基准。此外,MorphoBench利用模型推理过程中生成的关键陈述,自适应地调整问题的分析挑战性。同时,它还包含利用仿真软件生成的问题,使得基准测试难度能够以最小资源消耗实现动态调整。我们已收集了超过1300道测试题,并根据o3和GPT-5等模型的推理能力迭代调整了MorphoBench的难度。MorphoBench提升了模型推理评估的全面性和有效性,为提升大模型的推理能力和科学稳健性提供了可靠指导。代码已发布于https://github.com/OpenDCAI/MorphoBench。
尽管文本到视频合成技术取得了快速进展,生成视频的质量仍然高度依赖于精确的用户提示。在其他领域取得成功的现有测试时优化方法,面对视频的多维特性时显得力不从心。在本研究中,我们提出了VISTA(视频迭代自我提升代理),这是一个新颖的多代理系统,通过迭代循环中的提示优化自主提升视频生成质量。VISTA首先将用户创意分解为结构化的时间规划。生成后,通过一场稳健的成对竞赛选出最佳视频。随后,一个专注于视觉、音频和上下文保真度的三人专家小组对获胜视频进行评审。最后,一个推理代理综合这些反馈,内省式地重写并增强提示,进入下一轮生成周期。在单场景和多场景视频生成情境下的实验表明,尽管先前方法带来的提升参差不齐,VISTA却能持续提升视频质量及与用户意图的契合度,相较于最先进的基线模型,其成对胜率高达60%。人类评估者也一致认可,在66.4%的比较中更倾向于VISTA的输出。
诸如GPT-4和AlphaFold等基础模型(FMs)正在重塑科学研究的格局。它们不仅加速了假设生成、实验设计和结果解读等任务,更引发了一个根本性的问题:FMs仅仅是增强了现有的科学方法论,还是在重新定义科学实践的方式?本文主张,FMs正推动科学向新范式的转变。我们引入了一个三阶段框架来描述这一演变:(1)元科学整合阶段,FMs在传统范式内优化工作流程;(2)人机共创混合阶段,FMs成为问题构建、推理与发现过程中的积极合作者;(3)自主科学发现阶段,FMs作为独立主体,能够在极少人为干预下生成新的科学知识。通过这一视角,我们审视了FMs在现有科学范式中的当前应用与新兴能力,并进一步识别了基于FMs的科学发现所面临的风险与未来方向。本立场文件旨在帮助科学界理解FMs的变革性作用,并促进对科学发现未来的深入思考。我们的项目详情可见于https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery。
诸如OpenAI-o1、DeepSeek-R1和Qwen等推理语言模型通过扩展思维链实现了强劲的性能,但往往生成不必要的冗长输出。最大化每单位token的智能——即准确性与响应长度之比——仍是一个待解决的难题。我们重新审视了强化学习(RL),采用最简单的长度惩罚——截断——并证明准确性的下降并非源于缺乏复杂的惩罚机制,而是由于RL优化不足所致。我们识别出三大关键挑战:(i)优势估计中的显著偏差,(ii)熵的崩溃,以及(iii)稀疏的奖励信号。针对这些问题,我们提出了“正确实施长度惩罚”(DLER),这一训练方案结合了批次奖励归一化、更高截断值、动态采样及简单的截断长度惩罚。DLER在准确性与效率的权衡上达到了业界领先水平,将输出长度削减超过70%,同时超越了所有先前基线的准确性。它还提升了测试时的扩展性:与DeepSeek-R1-7B相比,DLER-7B能并行生成多个简洁响应,准确率提高28%,且延迟更低。我们进一步引入了难度感知的DLER,它根据问题难度自适应地收紧截断,以实现额外的效率提升。此外,我们提出了一种更新选择性合并方法,在保持基线准确性的同时,保留了DLER模型的简洁推理能力,这对于RL训练数据稀缺的场景尤为有用。
科学发现的自动化标志着人工智能(AI)研究领域的一个重要里程碑。然而,现有的科研代理系统存在两个根本性局限:一是僵化的预设工作流程无法根据中间发现灵活调整;二是上下文管理不足,阻碍了长期研究目标的实现。为此,我们推出了freephdlabor,一个开源的多代理框架,其特色在于完全动态的工作流程,由代理实时推理决定,并采用模块化架构,支持无缝定制——用户可根据领域特定需求修改、添加或移除代理。该框架提供全面的基础设施,包括自动上下文压缩、基于工作区的通信以防止信息衰减、跨会话的记忆持久化,以及非阻塞式的人工干预机制。这些特性共同将自动化研究从孤立的单次尝试转变为持续的研究项目,系统性地建立在先前探索之上,并融入人类反馈。通过提供构建可定制共研系统的架构原则与实用实现,本工作旨在促进自动化研究在科学各领域的广泛应用,使实践者能够部署交互式多代理系统,自主开展从构思、实验到成稿的全流程研究。
深度研究网络代理不仅能够从网页环境、文件及多模态输入等多种来源检索信息,更重要的是,它们需严谨地分析与整合知识,以进行深入的研究。然而,现有的开源深度研究代理主要集中于提升网络代理在定位特定信息方面的能力,却忽视了信息聚合这一核心需求,这限制了它们支持深度研究的能力。我们提出了一种“探索至进化”的范式,旨在为网络代理构建可验证的训练数据。该范式始于主动的在线探索,代理通过探索真实网络获取有据可依的信息。随后,利用收集到的证据,代理通过从12种高级逻辑类型中选择、组合并优化操作,自我进化出一个聚合程序,从而合成可验证的问答对。这种从高级指导到具体操作的进化过程,使我们能够规模化地生成WebAggregatorQA数据集,该数据集包含10K样本,覆盖50K个网站及11个领域。基于开源代理框架SmolAgents,我们收集了监督微调轨迹,开发了一系列基础模型——WebAggregator。其中,WebAggregator-8B在性能上媲美GPT-4.1,而32B版本在GAIA-text上超越GPT-4.1超过10%,并接近Claude-3.7-sonnet的水平。此外,鉴于评估网络代理信息聚合能力的基准测试有限,我们构建了WebAggregatorQA的人工标注评估子集作为一项挑战性测试集。在此基准上,Claude-3.7-sonnet仅得28%,GPT-4.1得分为25.8%。即便代理成功检索到所有参考资料,它们在WebAggregatorQA上仍表现不佳,凸显了强化网络代理基础信息聚合能力的必要性。
大型语言模型(LLMs)通过强化学习(RL)在特定领域取得了显著进展,尤其是在奖励可通过程序验证的领域,如数学和编程。在这些领域,模型受益于由明确规则目标引导的明确操作基础。然而,这一进展揭示了一个重大局限:在奖励模糊、主观或依赖上下文的开放领域,如创意写作、科学推理,尤其是医疗咨询,缺乏稳健的奖励函数,使得这些领域对当前的RL策略构成挑战。为弥合这一差距,我们引入了ORBIT,一个专为高风险医疗对话设计的开放式基于准则的增量训练框架。ORBIT结合了合成对话生成与动态准则创建,利用这些准则指导增量RL过程。特别地,该方法不依赖于外部医学知识或手动规则,而是通过准则引导的反馈来塑造学习。在Qwen3-4B-Instruct模型上实施时,我们的方法仅用2k样本就能将其在HealthBench-Hard基准上的表现从7.0大幅提升至27.2,从而实现了该规模模型的最先进成果。我们的分析证实,准则驱动的RL在多样化咨询场景中促进了持续的性能提升,超越了简单的数值改进。这些发现强调了基于准则的反馈作为推进LLMs在复杂、开放任务中发展的可扩展策略的重要性。
在数字内容创作中,生成艺术性强且连贯的三维场景布局至关重要。传统的基于优化的方法常受限于繁琐的手动规则,而深度生成模型则在生成内容丰富且多样化的内容方面面临挑战。此外,利用大型语言模型的方法往往缺乏鲁棒性,难以准确捕捉复杂的空间关系。为解决这些问题,本文提出了一种新颖的视觉引导三维布局生成系统。我们首先构建了一个包含2037个场景资源和147个三维场景布局的高质量资源库。随后,我们采用图像生成模型将提示表示扩展为图像,并对其进行微调以与我们的资源库保持一致。接着,我们开发了一个强大的图像解析模块,基于视觉语义和几何信息恢复场景的三维布局。最后,我们利用场景图和整体视觉语义优化场景布局,确保逻辑连贯性并与图像保持一致。广泛的用户测试表明,我们的算法在布局丰富性和质量方面显著优于现有方法。代码和数据集将在https://github.com/HiHiAllen/Imaginarium上公开。
近期,大型语言模型(LLMs)在解决金融相关问题上展现了显著潜力。然而,鉴于金融领域的高风险与高利害特性,将LLMs应用于实际金融场景仍面临诸多挑战。本文介绍了一种专门用于评估LLMs在金融应用中可信度的综合基准——FinTrust。该基准基于实际情境,聚焦于广泛的合规性问题,并为可信度评估的每个维度设计了细粒度任务。我们在FinTrust上对十一款LLMs进行了测试,发现如o4-mini等专有模型在安全性等多数任务中表现优异,而DeepSeek-V3等开源模型则在行业公平性等特定领域具有优势。然而,在诸如受托责任对齐和信息披露等挑战性任务上,所有LLMs均表现不足,显示出法律意识方面的显著差距。我们相信,FinTrust将成为金融领域评估LLMs可信度的重要基准。
随着大型语言模型(LLMs)对情感智能需求的增长,核心挑战在于理解引发情感表达的内部机制以及控制生成文本中的情感。本研究聚焦三个核心问题:(1)LLMs是否包含塑造情感表达的上下文无关机制?(2)这些机制的具体形态是什么?(3)能否利用这些机制实现普适的情感控制?我们首先构建了一个受控数据集SEV(带有情感效价的情境事件),以激发跨情感的可比内部状态。随后,我们提取了揭示情感跨上下文一致编码的上下文无关情感方向(问题1)。通过解析分解与因果分析,我们识别了局部执行情感计算的神经元与注意力头,并通过消融与增强干预验证了它们的因果作用。接着,我们量化了各子层对模型最终情感表征的因果影响,并将识别出的局部组件整合为驱动情感表达的全局情感回路(问题2)。直接调控这些回路在测试集上实现了99.65%的情感表达准确率,超越了基于提示与导向的方法(问题3)。据我们所知,这是首次系统性地揭示并验证LLMs中情感回路的研究,为可解释性与可控情感智能提供了新见解。
经验性扩展法则规定了如何分配参数、数据和计算资源,而最大更新参数化(muP)通过均衡早期更新幅度实现了跨宽度的学习率迁移。然而,在现代尺度不变架构中,训练迅速进入由优化器主导的稳态,其中归一化层引入了反向尺度敏感性,导致有效学习率依赖于宽度,从而削弱了muP的迁移效果。我们通过为AdamW引入一种权重衰减缩放规则来解决这一问题,该规则保持了跨宽度的子层增益不变。实证表明,每个矩阵参数的奇异值谱在范数上按eta/lambda缩放,且形状大致不变;在宽度缩放d下,我们观察到顶部奇异值大约按eta/lambda * d^{0.75}缩放。结合muP学习率规则eta_2∝d^{-1}对于矩阵类参数,意味着一个经验性的权重衰减缩放规则lambda_2∝d,该规则近似保持了子层增益的宽度不变性。与在eta_1=Θ_d(1)和lambda_1=0下训练的向量类参数相结合,这实现了从代理宽度到目标宽度的学习率和权重衰减的零样本迁移,消除了逐宽度搜索的需求。我们在LLaMA风格的Transformer模型和一个最小化合成环境中验证了这一规则,并提供了一个简单的诊断方法——匹配顶部奇异值,以检查子层增益的不变性。我们的成果通过显式控制优化器设定的稳态尺度,将muP的应用范围扩展到了近初始化阶段之外,为AdamW下的宽度鲁棒超参数迁移提供了实用方案。
专家混合模型(Mixture-of-Experts, MoE)通过稀疏的专家激活实现了高效扩展,但在部署过程中常因分布偏移而导致路由决策欠佳。尽管现有的测试时适应方法可能解决这些问题,但它们主要针对密集模型,且需要访问外部数据,这限制了其在MoE架构中的实际应用。然而,我们发现,无需依赖参考数据,仅基于输入上下文即可动态优化MoE专家选择。因此,我们提出了一种无需数据、在线测试时的框架,该框架在文本生成过程中持续适应MoE路由决策,无需外部监督或数据。我们的方法在两个阶段间循环:在预填充阶段及之后的定期间隔中,我们基于已生成的序列,利用自监督优化模型的路由决策;随后,正常生成文本,保持修改后的路由直至下一次适应。我们通过轻量级的加性向量实现这一点,这些向量仅更新选定层的路由逻辑,在保持计算效率的同时防止过度适应。实验结果表明,在具有挑战性的推理任务上,我们的方法持续提升了性能,同时保持了对上下文偏移的鲁棒性。例如,在HumanEval上,我们的方法结合OLMoE实现了5.5%的提升。此外,得益于其即插即用的特性,我们的方法自然补充了现有的测试时扩展技术,例如,与DeepSeek-V2-Lite上的自一致性结合时,平均提升了6%。
大型语言模型(LLMs)在信息逐步呈现的多轮对话中表现显著下降。鉴于多轮对话是日常生活中与LLMs互动的典型特征,这种性能退化对实际应用构成了严峻挑战。我们假设,模型不确定性的急剧增加标志着多轮LLM交互中的错位,并利用这一洞察力动态调整对话上下文。我们引入了ERGO(基于熵的生成优化重置机制),它通过香农熵持续量化下一令牌分布的内部不确定性,并在检测到熵值急剧上升时触发自适应提示整合。ERGO将不确定性视为首要信号而非需消除的干扰,接纳语言和建模中的变异性,代表并响应不确定性。在逐步揭示指令的多轮任务中,ERGO相较于标准基线实现了56.6%的平均性能提升,提升了24.7%的峰值性能能力,并减少了35.3%的性能波动,证明了不确定性感知干预能够提升对话AI的准确性和可靠性。
多模态大语言模型(MLLMs)持续在图像-文本描述数据与交错文档数据的混合体上进行预训练,然而,针对图像-文本交错文档数据的高质量数据筛选尚未得到充分探索。我们提出训练一个高效的多模态统一数据质量分类器(UniFilter),用以筛选高质量的图像-文本描述及交错数据。面对收集多样化标注多模态数据的挑战,我们引入了一种半合成方法,该方法利用易于获取的原始图像,并生成对应四个质量等级的文本,从而高效创建用于训练UniFilter的描述与交错文档数据的样本-评分对。我们将UniFilter应用于从DataComp描述数据集中精选高质量描述数据,以及从OBELICS图像-文本交错数据集中筛选高质量交错数据。基于筛选数据预训练的MLLMs展现出显著增强的能力,相较于基线筛选数据训练的模型,在零样本推理和上下文学习能力上表现更为突出。经过视觉监督微调后,这些由UniFilter引导的MLLMs在多项基准测试中取得了更优成绩,凸显了高质量多模态预训练的下游效益。我们向社区公开了用于训练UniFilter的合成训练数据、UniFilter模型检查点,以及由UniFilter精选的高质量交错文档子集OBELICS-HQ,以促进复现与进一步开发。
我们提出了表征分词器(RepTok),这是一种生成建模框架,它利用自监督视觉变换器生成的单一连续潜在令牌来表示图像。基于预训练的自监督学习(SSL)编码器,我们仅对语义令牌嵌入进行微调,并将其与采用标准流匹配目标联合训练的生成解码器配对。这种调整通过融入低层次、与重建相关的细节来丰富令牌,从而实现精确的图像重建。为了保持原始SSL空间的良好几何特性,我们添加了余弦相似度损失来正则化调整后的令牌,确保潜在空间保持平滑且适合生成。我们的单令牌设计解决了二维潜在空间的空间冗余问题,并显著降低了训练成本。尽管RepTok结构简单且高效,它在类别条件ImageNet生成上取得了具有竞争力的结果,并自然扩展到文本到图像合成,在极有限的训练预算下,在MS-COCO上达到了竞争性的零样本性能。我们的研究结果凸显了微调SSL表征作为紧凑且有效的潜在空间在高效生成建模中的潜力。
我们提出了DriveGen3D,一个创新框架,用于生成高质量且高度可控的动态3D驾驶场景,有效解决了现有方法中的关键局限。当前驾驶场景合成方法要么因长时间生成所需计算量过大而受限,要么仅专注于长时间视频合成而缺乏3D表示,或局限于静态单场景重建。我们的工作通过整合加速的长时视频生成与大规模动态场景重建,并采用多模态条件控制,填补了这一方法论空白。DriveGen3D引入了一个统一流程,包含两个专门组件:FastDrive-DiT,一种高效的视频扩散变换器,在文本和鸟瞰图(BEV)布局指导下实现高分辨率、时间连贯的视频合成;以及FastRecon3D,一个前馈重建模块,快速构建跨时间的3D高斯表示,确保时空一致性。这两个组件共同作用,实现了实时生成扩展驾驶视频(最高可达424×800分辨率,12帧每秒)及相应的动态3D场景,在新视角合成上达到SSIM 0.811和PSNR 22.84,同时保持了参数效率。