每日精选AI研究论文及翻译
大型语言模型(LLMs)在推理方面表现出色,但训练后的调整对于使其行为与任务目标保持一致仍然至关重要。现有的强化学习(RL)方法通常依赖于昂贵的人工标注或外部奖励模型。我们提出了基于自我置信度的强化学习(RLSC),该方法利用模型自身的置信度作为奖励信号,从而无需标签、偏好模型或奖励工程。应用于Qwen2.5-Math-7B模型时,仅需每个问题16个样本和10或20次训练步骤,RLSC在AIME2024上的准确率提升了+13.4%,在MATH500上提升了+21.2%,在Minerva Math上提升了+21.7%,在Olympiadbench上提升了+20.8%,在AMC23上提升了+9.7%。RLSC为推理模型提供了一种简单、可扩展的训练后调整方法,仅需少量样本和无标注监督。
在扩散模型领域取得的显著突破推动了视频生成技术的快速发展,然而当前的基础模型在同时兼顾提示跟随、运动合理性和视觉质量方面仍面临关键挑战。本报告中,我们介绍了Seedance 1.0,这是一款高性能且推理效率高的视频基础生成模型,集成了多项核心技术改进:(i) 通过多源数据精选与精准、有意义的视频字幕增强,实现了跨多样场景的全面学习;(ii) 采用高效架构设计及提出的训练范式,原生支持多镜头生成,并联合学习文本到视频和图像到视频任务;(iii) 精心优化的训练后方法,利用细粒度监督微调和视频特定RLHF(基于人类反馈的强化学习)结合多维奖励机制,全面提升性能;(iv) 通过多阶段蒸馏策略和系统级优化,实现了约10倍的推理加速。Seedance 1.0仅需41.4秒(NVIDIA-L20)即可生成一段5秒的1080p分辨率视频。与最先进的视频生成模型相比,Seedance 1.0以高质量和快速生成脱颖而出,具备卓越的时空流畅性与结构稳定性,在复杂多主体情境下精确遵循指令,原生支持多镜头叙事连贯性并保持主体表现一致。
自回归大语言模型(AR-LLMs)在序列生成过程中常展现出隐式的并行性。受此启发,我们提出了Multiverse,一种支持原生并行生成的新型生成模型。Multiverse内嵌了MapReduce范式,通过三个阶段自动生成:(i) Map阶段用于自适应任务分解,(ii) Process阶段并行执行子任务,(iii) Reduce阶段无损合成结果。随后,我们构建了一个现实世界的Multiverse推理模型,实现了数据、算法与系统的协同设计,从而能够快速无缝地从前沿AR-LLMs迁移。从序列推理链出发,我们利用自动化LLM辅助流程将其转化为结构化训练数据,创建了Multiverse 1K,避免了昂贵的人工标注。在算法层面,我们设计了Multiverse Attention,以分离并行推理步骤,同时保持与因果注意力的兼容性,确保高效训练。在系统层面,我们实现了Multiverse Engine以支持并行推理,其特色在于一个专用调度器,能够根据模型直接触发,在序列与并行生成间动态切换。经过3小时、1K样本的微调后,我们的Multiverse-32B成为唯一开源的非AR模型,其性能与同规模领先的AR-LLMs相当,AIME24和25得分分别为54%和46%。此外,预算控制实验显示,Multiverse-32B展现出更优的扩展性,在相同上下文长度下平均优于AR-LLMs 1.87%。这种扩展性进一步带来了实际效率提升,在不同批量大小下实现了最高2倍的加速。我们已开源整个Multiverse生态系统,包括数据、模型权重、引擎、支持工具,以及完整的数据整理提示和详细的训练与评估指南。
现有的大规模视频生成模型计算密集,难以应用于实时交互场景。本研究提出了一种自回归对抗性后训练方法(AAPT),将预训练的潜在视频扩散模型转化为实时交互式视频生成器。我们的模型通过单次神经网络函数评估(1NFE)自回归地逐帧生成潜在帧。该模型能够实时向用户流式传输生成结果,并接收交互响应作为控制信号来生成下一潜在帧。与现有方法不同,我们的方法探索了对抗训练作为自回归生成的有效范式。这不仅使我们能够设计出更高效的单步生成架构,同时充分利用KV缓存,还支持以学生强制方式进行模型训练,这在减少长视频生成过程中的误差累积方面效果显著。实验表明,我们的80亿参数模型在单块H100上实现了736x416分辨率的24fps实时流式视频生成,或在8块H100上实现1280x720分辨率、长达一分钟(1440帧)的视频生成。访问我们的研究网站https://seaweed-apt.com/2获取更多信息。
AI生成内容已从单一模型发展为模块化工作流,特别是在ComfyUI等平台上,实现了创意流程的定制化。然而,构建高效的工作流需要深厚的专业知识来协调众多专门组件,这对用户来说具有较高的学习门槛。为应对这一挑战,我们推出了ComfyUI-R1,首个用于自动化工作流生成的大型推理模型。基于我们精心整理的4K工作流数据集,我们构建了长链思维(CoT)推理数据,包括节点选择、工作流规划及代码级工作流表示。ComfyUI-R1通过两阶段框架进行训练:(1)CoT微调以适应冷启动,使模型适应ComfyUI领域;(2)强化学习以激励推理能力,由细粒度规则-指标混合奖励引导,确保格式有效性、结构完整性和节点级保真度。实验表明,我们的7B参数模型实现了97%的格式有效率,同时在高通过率、节点级和图级F1分数上显著超越采用GPT-4o和Claude系列等领先闭源模型的现有最先进方法。进一步分析强调了推理过程的关键作用及将工作流转化为代码的优势。定性对比展示了我们在合成包含多样化节点的复杂工作流方面的优势,凸显了长链CoT推理在AI艺术创作中的潜力。
我们推出PlayerOne,首个以自我为中心的逼真世界模拟器,它能够在生动动态的环境中实现沉浸式且无限制的探索。基于用户提供的自我中心场景图像,PlayerOne能够精确构建对应世界,并生成与外部摄像机捕捉到的用户真实场景人体运动严格对齐的自我中心视角视频。PlayerOne采用由粗到精的训练流程,首先在大规模自我中心文本-视频对上进行预训练,以获得粗粒度的自我中心理解,随后利用我们自动构建的流程,在从自我-外部中心视频数据集中提取的同步运动-视频数据上进行微调。此外,考虑到不同组件的重要性差异,我们设计了一种部分解耦的运动注入方案,实现了对局部运动的精确控制。同时,我们开发了一个联合重建框架,逐步建模4D场景与视频帧,确保长视频生成中的场景一致性。实验结果展示了其在精确控制多样化人体运动及世界一致性建模多种场景方面的卓越泛化能力。这一成果标志着自我中心真实世界模拟的首次尝试,为社区探索世界建模及其多样化应用的新领域铺平了道路。
近期,文本到音乐生成领域取得了显著进展,使得模型能够合成高质量的音乐片段、完整作品,甚至能响应细粒度的控制信号,如和弦进行。当前最先进的系统在多个维度上存在显著差异,例如训练数据集、建模范式以及架构选择。这种多样性使得公平评估模型并确定哪些设计选择对性能影响最大变得复杂。尽管数据和架构等因素至关重要,但在本研究中,我们仅聚焦于建模范式。我们进行了系统的实证分析,以隔离其影响,提供关于相关权衡和新兴行为的见解,这些见解能够指导未来的文本到音乐生成系统。具体而言,我们比较了两种最为常见的建模范式:自回归解码和条件流匹配。通过使用相同的数据集、训练配置和相似的骨干架构从头训练所有模型,我们进行了受控比较。性能评估涵盖了多个方面,包括生成质量、对推理配置的鲁棒性、可扩展性、对文本和时间对齐条件的遵循度,以及以音频修复形式呈现的编辑能力。这项对比研究揭示了每种范式的独特优势和局限性,提供了可操作的见解,能够在不断发展的文本到音乐生成领域中为未来的架构和训练决策提供参考。音频示例可在以下链接获取:https://huggingface.co/spaces/ortal1602/ARvsFM。
我们推出SeerAttention-R,这是一个专为推理模型长序列解码设计的稀疏注意力框架。作为SeerAttention的扩展,SeerAttention-R保留了通过自蒸馏门控机制学习注意力稀疏性的设计,同时移除了查询池化以适应自回归解码。凭借轻量级的插件式门控,SeerAttention-R具备灵活性,能够在不改动原有参数的情况下,轻松集成到现有预训练模型中。我们展示,仅用0.4B个token训练,SeerAttention-R在AIME基准测试中,面对4K token预算及大尺寸稀疏注意力块(64/128)时,仍能保持近乎无损的推理精度。借助TileLang,我们开发了高度优化的稀疏解码内核,在H100 GPU上,于90%稀疏度下,相比FlashAttention-3实现了接近理论极限的9倍加速。代码已开源:https://github.com/microsoft/SeerAttention。
我们推出**SWE-Flow**,一个基于测试驱动开发(TDD)的创新数据合成框架。与现有依赖人工提交问题的软件工程数据不同,**SWE-Flow**能够直接从单元测试中自动推断出增量开发步骤,这些测试本质上封装了高层次的需求。**SWE-Flow**的核心在于构建运行时依赖图(RDG),它精确捕捉函数间的交互,从而生成结构化的、逐步推进的*开发计划*。在每一步中,**SWE-Flow**都会生成部分代码库、相应的单元测试以及必要的代码修改,形成完全可验证的TDD任务。通过这种方法,我们从真实的GitHub项目中生成了16,061个训练实例和2,020个测试实例,创建了**SWE-Flow-Eval**基准。实验表明,在此数据集上微调开放模型显著提升了基于TDD的编码性能。为促进进一步研究,我们在[Github](https://github.com/Hambaobao/SWE-Flow)上公开了所有代码、数据集、模型及Docker镜像。
诸如o1和DeepSeek-R1等大型推理模型(LRMs)在自然语言的长链思维(CoT)推理方面展现了显著进展,但在处理复杂数学运算时仍显效率低下或准确性不足。通过计算工具(如计算库和符号求解器)来解决这些限制颇具前景,但这也引入了一个技术挑战:代码解释器(CI)带来了超越模型内部文本表示的外部知识,因此直接结合并不高效。本文提出了CoRT,一个用于教导LRMs有效且高效利用CI的后训练框架。作为第一步,我们通过提示工程(Hint-Engineering)合成代码集成的推理数据,以解决数据稀缺问题,该方法策略性地在适当位置插入不同提示,以优化LRM与CI的交互。我们手动创建了30个高质量样本,并在此基础上对参数规模从1.5B到32B的模型进行了监督微调、拒绝微调和强化学习的后训练。实验结果表明,采用提示工程的模型在DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Qwen-1.5B上,分别在五个具有挑战性的数学推理数据集上实现了4%和8%的绝对提升。此外,与自然语言模型相比,提示工程模型在32B模型上减少了约30%的token使用量,在1.5B模型上减少了50%。模型和代码可在https://github.com/ChengpengLi1003/CoRT获取。
大型语言模型(LLMs)现已成为多个领域不可或缺的一部分,并展现了卓越的性能。然而,其进展依赖于基准测试分数既准确又可复现的前提。我们揭示了LLM性能的可复现性极为脆弱:改变系统配置,如评估批次大小、GPU数量及GPU版本,均可能导致生成响应的显著差异。这一问题在推理模型中尤为突出,早期token中的微小舍入误差可能引发思维链的显著分歧,最终影响准确性。例如,在bfloat16精度下采用贪婪解码时,像DeepSeek-R1-Distill-Qwen-7B这样的推理模型,由于GPU数量、类型及评估批次大小的不同,其准确性波动可达9%,响应长度差异可达9,000个token。我们将这种变异性根源追溯至有限数值精度下浮点运算的非结合性。本研究首次系统性地探讨了数值精度如何影响LLM推理中的可复现性。通过跨多种硬件、软件及精度设置的精心控制实验,我们量化了模型输出何时及如何发生分歧。分析表明,浮点精度虽对可复现性至关重要,但在评估实践中常被忽视。受此启发,我们开发了一个轻量级推理管道,命名为LayerCast,它采用16位精度存储权重,但所有计算均在FP32下执行,从而在内存效率与数值稳定性之间取得平衡。代码已发布于https://github.com/nanomaoli/llm_reproducibility。
近年来,基于多模态条件(如文本、图像和音频)的端到端人体动画技术取得了显著进展。然而,现有方法大多仅能对单一主体进行动画处理,并以全局方式注入条件,忽视了同一视频中可能出现多个概念、包含丰富的人与人及人与物交互的场景。这种全局假设阻碍了对包括人类和物体在内的多个概念进行精确的、针对每个身份的独立控制,从而限制了应用范围。在本研究中,我们摒弃了单一实体的假设,提出了一种新颖的框架,该框架强制实现了从多模态条件到每个身份时空轨迹的强区域特异性绑定。给定多个概念的参考图像,我们的方法能够通过利用掩码预测器匹配去噪视频与每个参考外观之间的视觉线索,自动推断布局信息。此外,我们以迭代方式将局部音频条件注入其对应区域,确保布局对齐的模态匹配。这一设计实现了高质量、可控的多概念以人为中心视频生成。实证结果与消融研究验证了相较于隐式方法及其他现有技术,我们提出的显式布局控制对于多模态条件的有效性。
大型语言模型(LLMs)主要应用于同步通信场景,即人类用户与模型交替进行对话。然而,许多现实世界的情境本质上是异步的。例如,在群聊、在线团队会议或社交游戏中,并不存在固有的轮次概念;因此,决定何时发言成为参与者决策过程中的关键环节。在本研究中,我们开发了一种自适应异步LLM代理,它不仅确定要说什么,还决定何时表达。为了评估该代理,我们收集了一个独特的在线“狼人杀”游戏数据集,其中既包含人类参与者,也包含我们的异步代理。总体而言,我们的代理在游戏表现及融入其他人类玩家方面的能力与人类玩家相当。分析显示,代理在决定发言时机上的行为与人类模式高度相似,尽管在消息内容上存在差异。我们公开了所有数据和代码,以支持和鼓励进一步研究,推动LLM代理之间实现更逼真的异步通信。这项工作为将LLMs整合到真实的人类群体环境中铺平了道路,从协助团队讨论到需要应对复杂社交动态的教育和专业环境。
尽管多模态大语言模型(MLLMs)取得了快速进展,但它们在很大程度上忽视了视觉处理的重要性。在一个简单却富有启示性的实验中,我们有趣地发现,仅使用语言模型在提供图像描述的情况下,其表现可与甚至超越直接处理原始视觉输入的MLLMs相媲美。这表明当前的MLLMs或许能生成准确的视觉描述,但在推理过程中未能有效整合这些信息。受此启发,我们提出了一种简单的视觉扰动框架,该框架无需算法修改或额外训练数据即可增强感知鲁棒性。我们的方法引入了三种针对性扰动:干扰项拼接、保持主导性的混合以及随机旋转,这些扰动可轻松集成至包括SFT、DPO和GRPO在内的现有训练后流程中。通过跨多个数据集的广泛实验,我们展示了在数学推理性能上的一致提升,其增益与通过算法变更所实现的相当。此外,通过视觉扰动训练Qwen2.5-VL-7B,我们在开源7B RL调优模型中取得了竞争力表现。通过全面的消融研究,我们分析了不同扰动策略的有效性,揭示出每种扰动类型在视觉推理的不同方面均有独特贡献。我们的研究结果强调了视觉扰动在多模态数学推理中的关键作用:更好的推理始于更清晰的视觉。代码已发布于https://github.com/YutingLi0606/Vision-Matters。
尽管视觉-语言-动作模型(VLAs)在多种操作任务中展现出了颇具前景的机器人行为,但在面对全新任务时,其开箱即用的成功率仍显有限。为确保这些策略能够安全地与环境互动,我们需要一种故障检测器,它能及时发出警报,使机器人能够停止、回退或寻求帮助。然而,现有的故障检测器仅针对一项或少数特定任务进行训练与测试,而VLAs则要求检测器能够泛化,并在未见过的任务和新环境中也能有效识别故障。本文首次提出了多任务故障检测问题,并推出了SAFE——一款专为通用型机器人策略(如VLAs)设计的故障检测器。我们深入分析了VLA的特征空间,发现VLAs对任务成功与失败具备足够的高层次认知,这种认知在不同任务间具有通用性。基于这一洞察,我们设计了SAFE,使其能够从VLA内部特征中学习,并预测一个指示任务失败可能性的单一标量。SAFE在成功与失败的执行轨迹上均接受训练,并在未见任务上进行评估。SAFE兼容多种策略架构,我们已在OpenVLA、pi_0及pi_0-FAST上,在仿真与真实环境中进行了广泛测试。通过与多种基线方法对比,我们展示了SAFE在故障检测性能上达到了业界领先水平,并利用保形预测实现了准确性与检测时间的最佳平衡。更多定性结果请访问https://vla-safe.github.io/。
语言为指定和评估视觉任务性能提供了一个自然的接口。为实现这一可能性,视觉语言模型(VLMs)必须成功整合视觉与语言信息。本研究通过将VLMs与其视觉编码器的直接输出进行比较,以理解它们跨模态整合的能力。在一系列以视觉为中心的基准测试(如深度估计、对应关系)中,我们发现VLMs的表现显著低于其视觉编码器,几乎降至随机猜测的水平。我们通过一系列分析,从整个VLM的视角探讨了这些结果,具体包括:1)视觉表征的退化,2)对任务提示的脆弱性,以及3)语言模型在解决任务中的作用。我们发现,执行这些以视觉为中心的任务的瓶颈在于第三点;VLMs未能有效利用整个模型中易于获取的视觉信息,并且继承了大型语言模型(LLM)中的语言先验。本研究有助于诊断开源VLMs的失败模式,并提出了一系列评估方法,为未来深入探究VLMs中的视觉理解提供了有价值的参考。
密集图像对应是众多应用的核心,如视觉里程计、三维重建、物体关联与重识别。历史上,尽管目标均为两幅图像间内容的匹配,但密集对应问题在宽基线场景与光流估计中一直分别处理。本文提出了一种统一流与匹配模型(UFM),该模型在源图像与目标图像中共同可见的像素上进行统一数据训练。UFM采用了一种简单通用的Transformer架构,直接回归(u,v)流。相较于以往工作中典型的由粗到细的成本体积方法,UFM更易于训练,且在大流量估计上更为精确。UFM在光流方法(Unimatch)上精度提升了28%,同时相较于密集宽基线匹配器(RoMa)误差减少了62%,速度提升了6.7倍。UFM首次证明了统一训练能够在两个领域均超越专门化方法。这一成果为快速、通用的对应关系开辟了道路,并为多模态、长距离及实时对应任务指明了新方向。
近期,3D物体生成领域取得了显著进展,大幅提升了生成质量和效率。然而,现有方法大多生成的是所有部件融合在一起的单一网格,这限制了对单个部件进行编辑或操作的能力。一个关键挑战在于,不同物体可能包含数量不等的部件。为解决这一问题,我们提出了一种新的端到端框架,用于部件级别的3D物体生成。给定单一输入图像,我们的方法能够生成具有任意数量完整且语义明确部件的高质量3D物体。我们引入了一种双体积打包策略,将所有部件组织到两个互补的体积中,从而创建出完整且相互交织的部件,最终组装成完整物体。实验结果表明,与以往基于图像的部件级生成方法相比,我们的模型在质量、多样性和泛化能力上均表现更优。
在用户层面微调视频扩散模型(VDMs)以生成反映训练数据特定属性的视频,虽然具有重要的实际意义,但仍面临显著挑战且研究不足。与此同时,近期工作如表示对齐(REPA)通过将内部隐藏状态与外部预训练视觉特征对齐或融合,展现了提升基于DiT的图像扩散模型收敛性和质量的潜力,暗示了其在VDM微调中的应用前景。本研究中,我们首先提出了REPA在VDMs中的直接适配方案,并通过实验证明,尽管其对收敛有效,但在保持帧间语义一致性方面表现欠佳。针对这一局限,我们引入了跨帧表示对齐(CREPA),一种新颖的正则化技术,它通过将一帧的隐藏状态与邻近帧的外部特征对齐来优化模型。在大规模VDMs(如CogVideoX-5B和Hunyuan Video)上的实证评估显示,CREPA在使用参数高效方法(如LoRA)微调时,不仅提升了视觉保真度,还增强了帧间语义连贯性。我们进一步在具有不同属性的多样化数据集上验证了CREPA,证实了其广泛的适用性。项目页面:https://crepavideo.github.io
视线参照推理——即推断他人正在注视何物的能力——是支撑自然人机交互的心理理论中的关键组成部分。在一项控制性研究中,我们利用经过难度和多样性调整的照片,评估了111个视觉语言模型(VLMs)在这方面的技能,并将其表现与65名人类参与者进行了对比,同时采用混合效应模型分析了行为模式。研究发现,111个VLMs中有94个未能超越随机猜测的水平,而人类则接近完美准确率。VLMs甚至对每个选项的响应频率几乎均等,这是否意味着它们在随机猜测?尽管大多数VLMs表现欠佳,但当我们聚焦于五个表现优于随机水平的顶级VLMs时,发现它们的表现随任务难度增加而下降,但在不同提示和场景对象间仅略有波动。这些行为特征无法通过将其视为随机猜测者来解释。相反,它们可能结合了启发式方法和猜测,使得其表现受任务难度影响,但对感知变化保持稳健。这表明,缺乏视线推理能力的VLMs尚未成为能够自然与人交互的技术,但潜力依然存在。
大型语言模型需具备识别其知识边界的能力,即区分已知与未知查询的机制。这种认知能力有助于模型进行自适应推理,如调用检索增强生成(RAG)、深入慢思考或采用弃权机制,这对于开发高效且可信赖的人工智能至关重要。本研究提出了一种通过查询级别不确定性检测知识边界的方法,旨在无需生成任何词元即可判断模型能否解答给定查询。为此,我们引入了一种无需训练的新方法——内部置信度,该方法利用跨层和跨词元的自我评估。在事实问答和数学推理任务上的实证结果表明,我们的内部置信度方法优于多个基线模型。此外,我们展示了所提方法可用于高效的RAG和模型级联,能在保持性能的同时降低推理成本。
人工智能(AI)已成为辅助临床医生分析眼科影像(如光学相干断层扫描,OCT)的重要工具。然而,开发AI模型通常需要大量标注,且现有模型在独立、未见过的数据上表现欠佳。基础模型(FMs)——在大量未标注数据集上训练的大型AI模型——已显示出克服这些挑战的潜力。尽管如此,现有的眼科基础模型缺乏广泛验证,尤其是在分割任务上,且仅关注单一成像模式。在此背景下,我们提出了MIRAGE,一种新型多模态基础模型,用于分析OCT和扫描激光眼底成像(SLO)图像。此外,我们提出了一个新的评估基准,包含OCT/SLO分类和分割任务。与通用和专用基础模型及分割方法的比较表明,MIRAGE在两类任务中均表现出色,凸显了其作为开发稳健视网膜OCT图像分析AI系统基础的适用性。MIRAGE及评估基准均已公开:https://github.com/j-morano/MIRAGE。
尽管大规模语言模型(LLMs)正推动人工智能的快速发展,如何高效且可靠地训练这些大型模型仍是该领域面临的最重大挑战之一。为应对这一挑战,我们提出了POET,一种新颖的重参数化训练算法,它利用正交等价变换来优化神经元。具体而言,POET通过两个可学习的正交矩阵和一个固定的随机权重矩阵对每个神经元进行重参数化。由于其在理论上保证了权重矩阵谱特性的保持,POET能够稳定地优化目标函数,并提升泛化能力。我们进一步开发了高效的近似方法,使POET在训练大规模神经网络时既灵活又可扩展。大量实验验证了POET在训练LLMs中的有效性和可扩展性。
医学视觉问答(MedVQA)是开发临床决策支持系统的一个前景广阔的领域,但其进展常受限于现有数据集,这些数据集往往缺乏临床复杂性和视觉多样性。为填补这些空白,我们推出了Kvasir-VQA-x1,一个针对胃肠道(GI)内窥镜检查的新大规模数据集。我们的工作显著扩展了原始Kvasir-VQA,新增了159,549个旨在测试更深层次临床推理的问题-答案对。我们采用了一种系统化方法,利用大型语言模型生成这些问题,并按复杂性分层,以更好地评估模型的推理能力。为确保我们的数据集能帮助模型适应真实世界的临床场景,我们还引入了多种模拟常见成像伪影的视觉增强技术。该数据集结构支持两大评估轨道:一是标准VQA性能评估,二是测试模型对这些视觉扰动的鲁棒性。通过提供一个更具挑战性和临床相关性的基准,Kvasir-VQA-x1旨在加速开发更可靠、有效的多模态AI系统,应用于临床环境。该数据集完全开放,遵循FAIR数据原则,成为广大研究社区的宝贵资源。代码与数据访问:https://github.com/Simula/Kvasir-VQA-x1 和 https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1。
预测初始分布与目标分布之间的中间轨迹是生成建模中的核心问题。现有方法,如流匹配和薛定谔桥匹配,通过建模单一随机路径,有效地学习两个分布之间的映射。然而,这些方法本质上局限于单模态过渡,无法捕捉从共同起源到多个不同结果的分支或发散演化。为此,我们提出了分支薛定谔桥匹配(BranchSBM),这一新颖框架能够学习分支薛定谔桥。BranchSBM参数化多个时间依赖的速度场和增长过程,从而能够表示群体水平向多个终端分布的发散。我们证明,BranchSBM不仅更具表现力,而且对于涉及多路径表面导航、从同质祖细胞状态建模细胞命运分叉以及模拟细胞对扰动的发散响应等任务至关重要。
大型语言模型常面临参数化知识与上下文输入之间的冲突,往往导致事实不一致或产生幻觉。我们提出了面向上下文可靠性的自反思辩论框架(SR-DCR),这一轻量级框架通过整合令牌级自置信度与非对称多智能体辩论来裁决此类冲突。其中,一位缺乏上下文的批评者挑战一位基于给定段落进行辩护的捍卫者;一位裁判模型评估辩论并判定上下文的可靠性。最终答案结合裁判结果与模型置信度进行选择。在ClashEval基准测试上的实验表明,SR-DCR在保持对可信输入准确性的同时,持续增强了对误导性上下文的鲁棒性,以最小的计算开销超越了传统辩论和仅依赖置信度的基线方法。代码已发布于https://github.com/smiles724/Self-Reflective-Debates。
大型推理模型(LRMs)已在包括奥林匹克数学问题在内的广泛任务中展现出卓越的推理能力,这证明了其具备复杂的推理技能。尽管众多推理基准集中于STEM领域,但LRMs在更广泛任务领域中正确推理的能力仍待深入探索。本研究引入了TTT-Bench,一个旨在通过四款人类自幼便能轻松解决的双人井字棋类游戏,评估LRMs基本战略、空间及逻辑推理能力的新基准。我们提出了一种简单且可扩展的程序化方法,用于生成TTT-Bench中可验证的双人游戏问题。尽管这些游戏对人类而言轻而易举,但它们要求模型推理对手意图及棋盘空间布局,以确保胜利。我们对一系列顶尖LRMs进行了评估,发现那些在复杂数学问题上表现优异的模型,在这些简单推理游戏中却屡屡受挫。进一步测试显示,相较于MATH 500和AIME 2024,我们评估的推理模型在TTT-Bench上的平均得分分别下降了41%和5%,且更大模型在更短的推理轨迹上表现更佳,而大多数模型在TTT-Bench简单新任务中的长期战略推理情境中表现挣扎。
近期大型语言模型(LLMs)的进步促使许多研究者致力于构建完全自主的AI代理。本立场文件质疑这一方向是否恰当,因为这类自主系统在可靠性、透明度及理解人类实际需求方面仍存在问题。我们提出一种不同的路径:基于LLM的人机协作系统(LLM-HAS),其中AI与人类协作而非取代人类。通过保持人类的参与,提供指导、解答疑问并维持控制,这些系统能更具可信度与适应性。通过审视医疗、金融及软件开发领域的实例,我们展示了人机协作如何比AI单独工作更有效地处理复杂任务。同时,我们探讨了构建此类协作系统的挑战,并提供了实用解决方案。本文主张,AI的进步不应以系统的独立性为衡量标准,而应以其与人类协作的效能为准绳。AI最有前景的未来不在于接管人类角色的系统,而在于通过有意义的伙伴关系增强人类能力的系统。