每日精选AI研究论文及翻译
语言模型预训练涉及在大量语料库上进行训练,其中数据质量起着关键作用。在本研究中,我们旨在直接评估预训练过程中数据的贡献,并以高效的方式选择预训练数据。具体而言,我们受到近期发现的启发,这些研究表明,当文本领域与下游基准对齐时,多样化模型在特定文本上的压缩效率(即归一化损失)与其下游性能密切相关(Huang等,2024)。基于这一观察,我们假设那些模型损失能预测下游能力的数据,同样对学习有显著贡献。为利用这一洞见,我们引入了一种基于数据预测强度(PreSelect)的数据选择方法,这是一种轻量级且高效的数据选择技术,仅需训练和部署一个基于fastText的评分器。通过在10亿和30亿参数模型上的全面实验,我们证明,使用PreSelect选出的300亿个token训练的模型,其性能超越了在3000亿个token上训练的普通基线模型,实现了计算需求10倍的降低。此外,在训练100亿个token的30亿参数模型规模上,PreSelect显著优于其他竞争性数据选择基线,如DCLM和FineWeb-Edu。我们在https://github.com/hkust-nlp/PreSelect开源了训练好的数据选择评分器及精选数据集。
大型语言模型(LLMs)通过诸如思维链(CoT)提示等机制,在解决复杂推理任务中展现了卓越性能,该机制强调详尽、逐步的推理过程。然而,人类通常采用更为高效的策略:即起草简洁的中间思考,仅捕捉关键信息。在本研究中,我们提出了一种受人类认知过程启发的新范式——草稿链(CoD),在此模式下,LLMs在解决任务时生成简约而信息丰富的中间推理输出。通过减少冗长并聚焦于关键洞察,CoD在准确性上媲美甚至超越CoT,同时仅使用7.6%的token,显著降低了各类推理任务的成本与延迟。
在人类生产活动中,为复杂工程挑战设计解决方案至关重要。然而,检索增强生成(RAG)领域的前期研究尚未充分涉及复杂工程解决方案设计的相关任务。为填补这一空白,我们引入了一个新基准——SolutionBench,用以评估系统在多重复杂约束下生成完整且可行工程解决方案的能力。为了进一步推动复杂工程解决方案的设计,我们提出了一种新颖的系统——SolutionRAG,该系统利用树形探索与双点思维机制来生成可靠解决方案。大量实验结果表明,SolutionRAG在SolutionBench上达到了最先进的(SOTA)性能,彰显了其在现实应用中提升复杂工程解决方案设计自动化与可靠性的潜力。
我们致力于解决基于多轮执行反馈的代码生成问题。现有方法要么在无反馈的情况下生成代码,要么采用复杂的层次化强化学习来优化多轮奖励。我们提出了一种简单且可扩展的方法——muCode,它仅利用单步奖励即可解决多轮代码生成问题。我们的核心洞见在于,代码生成是一个单步可恢复的马尔可夫决策过程(MDP),即从任何中间代码状态出发,都能在一轮内恢复出正确的代码。muCode通过迭代训练,一方面让生成器根据多轮执行反馈提供代码解决方案,另一方面让验证器对新生成的代码进行评分。实验评估表明,我们的方法相较于现有最先进的基线模型取得了显著提升。我们深入分析了奖励模型与策略的设计选择,并展示了muCode在利用执行反馈方面的有效性。相关代码已公开于https://github.com/portal-cornell/muCode。
近期,文本到图像(T2I)生成模型通过在数十亿规模的数据集上训练,遵循“越大越好”的范式,取得了显著成果,这一范式强调数据量而非质量。我们对此既定范式提出挑战,通过展示对小型、精心策划的数据集进行策略性数据增强,能够媲美甚至超越基于大规模网络爬取数据训练的模型。仅利用经过精心设计的文本与图像增强技术优化的ImageNet数据集,我们在GenEval评估中比SD-XL高出2分,在DPGBench上高出5分,同时仅使用了十分之一的参数和千分之一的训练图像。我们的研究结果表明,策略性数据增强,而非庞大的数据集,可能为T2I生成提供一条更为可持续的发展路径。
大型语言模型(LLMs)已在多种任务中达到人类水平,但其在严格数学问题解决方面的能力仍是一个开放性的挑战。本研究探讨了一个基础但计算上棘手的问题:判定给定多元多项式是否非负。该问题与希尔伯特第十七问题密切相关,在全球多项式优化中扮演着关键角色,并在多个领域具有应用价值。首先,我们引入了SoS-1K,这是一个精心策划的包含约1000个多项式的数据集,并附有基于五个逐步增加难度的标准设计的专家级推理指导。评估多个最先进的LLMs后,我们发现,在没有结构化指导的情况下,所有模型的性能仅略高于随机猜测的基线50%。然而,高质量的推理指导显著提升了准确率,将性能提升至81%。此外,我们的7B模型SoS-7B,仅在SoS-1K上微调4小时,便在准确率上超越了671B的DeepSeek-V3和GPT-4o-mini,同时仅需分别对应字母计算时间的1.8%和5%。我们的发现凸显了LLMs在拓展数学推理边界及应对NP难问题方面的潜力。
理解视觉丰富文档中的信息,对于传统的检索增强生成(RAG)方法而言,仍是一项重大挑战。现有基准测试主要集中于基于图像的问答(QA),却忽视了在密集视觉文档中进行高效检索、理解与推理的基本难题。为填补这一空白,我们引入了ViDoSeek,一个专为评估RAG在需要复杂推理的视觉丰富文档上的性能而设计的新颖数据集。基于此,我们识别出当前RAG方法的关键局限:(i)纯视觉检索方法难以有效整合文本与视觉特征,(ii)先前方法常分配不足的推理标记,限制了其效能。针对这些挑战,我们提出了ViDoRAG,一个专为跨视觉文档复杂推理量身定制的多代理RAG框架。ViDoRAG采用基于高斯混合模型(GMM)的混合策略,以高效处理多模态检索。为进一步激发模型的推理能力,我们引入了一个包含探索、总结与反思的迭代代理工作流程,为研究RAG领域中的测试时扩展提供了框架。在ViDoSeek上的大量实验验证了我们方法的有效性与泛化能力。值得注意的是,ViDoRAG在竞争性的ViDoSeek基准上,以超过10%的优势超越了现有方法。
强化学习在实现人类乃至超人类水平的能力方面,已在多种问题领域展现出令人瞩目的成果,但在灵巧机器人操控方面的成功仍显有限。本研究探讨了将强化学习应用于解决人形机器人上的一系列接触密集型操控任务时所面临的关键挑战。我们引入了一系列创新技术,通过实证验证来克服这些已识别的挑战。我们的主要贡献包括:一个自动化的真实到模拟调优模块,使模拟环境更贴近现实世界;一个通用的奖励设计方案,简化了针对长期接触密集型操控任务的奖励工程;一种分而治之的蒸馏过程,在保持模拟到现实性能的同时,提高了硬探索问题的样本效率;以及稀疏与密集物体表示的混合使用,以弥合模拟到现实的感知差距。我们在三项人形灵巧操控任务上展示了积极的结果,并对每项技术进行了消融研究。我们的工作展示了一种成功利用模拟到现实强化学习来掌握人形灵巧操控的方法,实现了强大的泛化能力和高性能,而无需依赖人类示范。
现代自动语音识别(ASR)模型,如OpenAI的Whisper,依赖于深度编码器-解码器架构,其编码器由于计算强度高,成为高效部署的关键瓶颈。我们推出了LiteASR,一种针对ASR编码器的低秩压缩方案,在保持转录准确性的同时显著降低了推理成本。我们的方法利用了中间激活中观察到的强低秩特性:通过使用一个小型校准数据集进行主成分分析(PCA),我们以一系列低秩矩阵乘法近似线性变换,并进一步优化自注意力机制以在降维空间中工作。评估结果表明,我们的方法能够将Whisper large-v3的编码器尺寸压缩超过50%,在达到Whisper medium尺寸的同时提供更优的转录准确性,从而在效率与性能之间确立了新的帕累托最优前沿。LiteASR的代码可在https://github.com/efeslab/LiteASR获取。
检索增强生成(RAG)通过整合外部数据源扩展了大语言模型(LLM),以提升事实准确性和领域覆盖范围。现代RAG管道依赖于大规模数据存储,这在延迟敏感的部署场景中带来了系统挑战,尤其是在GPU内存有限的情况下。为应对这些挑战,我们提出了TeleRAG,一种高效推理系统,它能在最小化GPU内存需求的同时降低RAG延迟。TeleRAG的核心创新在于前瞻性检索机制,这是一种预取策略,能够预测所需数据并在LLM生成过程中并行地将数据从CPU传输至GPU。通过利用RAG管道的模块化特性、倒排文件索引(IVF)搜索算法以及查询间的相似性,TeleRAG实现了数据移动与计算的最优重叠。实验结果表明,与最先进的系统相比,TeleRAG平均将端到端RAG推理延迟降低了最多1.72倍,从而支持更快、更内存高效的先进RAG应用部署。
视觉基础模型(VFMs)因其卓越的性能而日益受到关注。然而,在关键应用中,可解释性仍然至关重要。自解释模型(SEM)旨在提供可解释的分类器,将预测分解为可解释概念的加权和。尽管前景广阔,但近期研究表明这些解释往往缺乏忠实性。在本研究中,我们将VFMs与一种新颖的原型架构及专门的训练目标相结合。通过在冻结的VFMs之上仅训练一个轻量级头部(约100万参数),我们的方法(ProtoFM)提供了一种高效且可解释的解决方案。评估结果表明,我们的方法在保持竞争力的分类性能的同时,在一系列源自文献的可解释性指标上超越了现有模型。代码可在https://github.com/hturbe/proto-fm获取。
尽管融入了外部知识源,检索增强生成(RAG)系统仍易产生虚构答案。我们提出LettuceDetect框架,旨在解决现有幻觉检测方法中的两大关键局限:(1)传统基于编码器方法受限于上下文窗口大小,(2)基于大语言模型(LLM)的方法计算效率低下。依托ModernBERT扩展上下文处理能力(可达8k tokens)并在RAGTruth基准数据集上训练,我们的方法超越了所有先前的基于编码器模型及多数基于提示的模型,同时模型规模仅为最佳模型的约三十分之一。LettuceDetect作为一种令牌分类模型,处理上下文-问题-答案三元组,能够在令牌级别识别无依据的断言。在RAGTruth语料库上的评估显示,实例级检测的F1分数达到79.22%,较之前基于编码器的最先进架构Luna提升了14.8%。此外,该系统在单GPU上每秒可处理30至60个实例,使其更适用于现实世界的RAG应用场景。
卷积神经网络(CNNs)与Transformer模型日益增长的复杂性和参数量,在计算效率和资源需求方面带来了挑战。剪枝作为一种有效策略,通过移除冗余元素如神经元、通道或连接,能在不明显影响性能的前提下提升计算效率,已被证实能有效应对这些挑战。本文在“最优脑损伤”(Optimal Brain Damage, OBD)的基础之上,进一步发展了利用Hessian矩阵进行参数重要性评估的方法。不同于以往依赖近似的方法,我们提出了“最优脑凋亡”(Optimal Brain Apoptosis, OBA),这是一种新颖的剪枝方法,直接计算每个参数的Hessian-向量积值。通过跨网络层分解Hessian矩阵,并识别层间Hessian子矩阵非零的条件,我们提出了一种高效计算参数二阶泰勒展开的技术。该方法使得剪枝过程更为精确,特别是在CNNs和Transformer的应用中,这一点在我们的实验中得到了验证,包括在CIFAR10、CIFAR100和Imagenet数据集上对VGG19、ResNet32、ResNet50及ViT-B/16模型的测试。我们的代码已公开于https://github.com/NEU-REAL/OBA。
灵巧抓取仍然是机器人学中一个基础且具挑战性的问题。一款通用型机器人必须能够在任意场景下抓取多样化的物体。然而,现有研究通常依赖于特定假设,如单一物体设置或受限环境,导致泛化能力受限。我们的解决方案是DexGraspVLA,一个分层框架,它利用预训练的视觉-语言模型作为高层任务规划器,并学习一个基于扩散的策略作为低层动作控制器。其核心洞察在于迭代地将多样化的语言和视觉输入转化为领域不变的表示,在此过程中,由于领域偏移的缓解,模仿学习得以有效应用。因此,该方法能够在广泛的现实场景中实现稳健的泛化。值得注意的是,在“零样本”环境下,面对数千种未见过的物体、光照和背景组合,我们的方法取得了90%以上的成功率。实证分析进一步证实了模型内部行为在环境变化下的一致性,从而验证了我们的设计并解释了其泛化性能。我们希望这项工作能推动实现通用灵巧抓取的目标。我们的演示和代码可在https://dexgraspvla.github.io/找到。
将大型语言模型(LLMs)应用于心理辅导辅助是一项新兴且意义深远的方法,这一趋势源于患者需求与心理健康支持资源之间的显著差距。然而,当前的LLMs在持续有效地回应用户话语方面仍面临挑战,主要原因在于缺乏高质量真实心理辅导数据的监督,这些数据因涉及用户隐私通常难以获取。此外,现有会话中治疗师的回应质量因其专业培训与经验差异而大相径庭,评估治疗师回应质量仍是一个待解决的难题。在本研究中,我们首先提出了一套专业且全面的原则,用以评估治疗师对用户话语的回应。基于这些原则,我们构建了一个偏好数据集——PsychoCounsel-Preference,其中包含36,000个高质量偏好对比对,该数据集与专业心理治疗师的偏好保持一致,为评估和提升LLMs在心理辅导中的表现提供了坚实基础。通过奖励建模和偏好学习的实验验证,PsychoCounsel-Preference是LLMs获取辅导会话中回应用户所需关键技能的优质资源。我们最佳对齐的模型PsychoCounsel-Llama3-8B,在与GPT-4o的对比中取得了87%的胜率。我们公开发布了PsychoCounsel-Preference、PsychoCounsel-Llama3-8B及奖励模型PsychoCounsel Llama3-8B-Reward,以促进LLMs在心理辅导领域的研究,访问地址为:https://hf.co/Psychotherapy-LLM。
人类行为受规范制约。在现实世界中行动时,人类不仅遵循规范,还会权衡不同规范之间的取舍。然而,机器在训练过程中往往缺乏对规范理解与推理的明确指导,尤其是当这些规范植根于物理和社会情境时。为了提升并评估视觉-语言模型(VLMs)的规范性推理能力,我们提出了EgoNormia |epsilon|,该数据集包含1,853段以自我为中心的人类互动视频,每段视频均配有两个相关问题,旨在评估对规范性行为的预测与合理性解释。这些规范性行为涵盖七大类别:安全、隐私、空间距离、礼貌、合作、协调/主动性以及沟通/清晰度。为大规模构建此数据集,我们设计了一套创新流程,结合视频采样、自动答案生成、筛选及人工验证。我们的研究表明,当前最先进的视觉-语言模型在规范理解方面表现欠佳,在EgoNormia上的最高得分仅为45%(相比之下,人类基准为92%)。通过对各维度性能的分析,我们揭示了将此类模型应用于现实世界代理时,在安全、隐私以及协作与沟通能力方面的显著风险。此外,我们还展示了一种基于检索的生成方法,利用EgoNomia能够有效增强视觉-语言模型的规范性推理能力。
尽管基于扩散模型的图像生成取得了显著进展,但主题驱动的生成和基于指令的编辑仍然面临挑战。现有方法通常将这两者分开处理,受限于高质量数据的匮乏和泛化能力的不足。然而,这两项任务都需要在捕捉复杂视觉变化的同时,保持输入与输出之间的一致性。为此,我们提出了MIGE,一个利用多模态指令标准化任务表示的统一框架。它将主题驱动生成视为在空白画布上的创作,而将基于指令的编辑视为对现有图像的修改,从而建立了一个共享的输入-输出公式。MIGE引入了一种新颖的多模态编码器,将自由形式的多模态指令映射到一个统一的视觉-语言空间,通过特征融合机制整合视觉和语义特征。这种统一性使得两项任务能够联合训练,带来两大优势:(1) 跨任务增强:通过共享视觉和语义表示,联合训练提升了主题驱动生成和基于指令编辑中的指令遵循度和视觉一致性。(2) 泛化能力:在统一格式下学习促进了跨任务知识迁移,使MIGE能够泛化到包括基于指令的主题驱动编辑在内的新颖组合任务。实验表明,MIGE在主题驱动生成和基于指令的编辑上均表现出色,并在基于指令的主题驱动编辑这一新任务上树立了新的技术标杆。代码和模型已公开于https://github.com/Eureka-Maggie/MIGE。
近期,多模态大语言模型(MLLMs)在视频理解领域取得了显著进展。然而,在处理涉及人类行为的视频时,其性能仍受限于高质量数据的匮乏。为解决这一问题,我们引入了一个两阶段的数据标注流程。首先,我们设计了策略从互联网上收集包含清晰人类行为的视频。其次,采用标准化字幕格式对视频进行标注,该格式利用人类属性区分个体,并按照时间顺序详细描述其行为及互动。通过这一流程,我们构建了两个数据集,分别命名为HAICTrain和HAICBench。其中,HAICTrain包含由Gemini-Pro生成并经校验的126,000个视频-字幕对,专为训练目的而设计。与此同时,HAICBench则包含了500个手动标注的视频-字幕对及1,400个问答对,旨在全面评估人类行为理解能力。实验结果表明,使用HAICTrain进行训练不仅显著提升了在4个基准测试中的人类理解能力,还能改善文本到视频的生成效果。HAICTrain与HAICBench均已发布于https://huggingface.co/datasets/KuaishouHAIC/HAIC。