每日精选AI研究论文及翻译
尽管大型多模态模型(LMMs)已取得显著进展,但其本质上仍以文本为核心,将语言作为主要推理模态。这导致它们在处理以视觉为主的推理任务时存在明显局限。近期研究尝试通过辅助图像、深度图或图像裁剪来监督中间视觉步骤以解决该问题,但这些策略对"有效"视觉抽象形式施加了限制性先验,增加了繁重的标注成本,且难以实现跨任务泛化。为突破这一关键局限,我们提出一种任务无关的机制,通过无显式监督的方式训练LMMs自主发现并运用视觉推理标记。这些标记能进行全局注意力计算并以任务自适应方式对图像进行重编码,使模型无需人工标注即可提取相关视觉信息。我们的方法在多样化视觉中心任务(包括难以定义中间抽象层的任务)上超越了直接微调的效果,取得了最先进的性能,同时还能泛化至多任务指令调优场景。
基于下一词元预测进行预训练、并通过强化学习微调的大规模自回归模型已在众多问题领域取得前所未有的成功。在强化学习过程中,这些模型通过逐词元生成新输出来进行探索。然而,逐词元采样行动可能导致学习效率低下,尤其在奖励稀疏的情况下。本文证明,通过利用自回归模型的内部表征进行行动与探索,能够有效解决该问题。具体而言,为发现时序抽象动作,我们引入了一种高阶非因果序列模型,其输出可控制基础自回归模型的残差流激活状态。在具有层次结构的网格世界和MuJoCo任务中,高阶模型学会将长激活序列块压缩至内部控制器。关键的是,每个控制器可执行行为意义明确且跨越长时间尺度的动作序列,并配备学习得到的终止条件,使得随时间组合多个控制器能够在新任务上实现高效探索。我们提出的"内部强化学习"方法——即直接对内部控制器进行强化激励——能够在标准强化学习微调失效的稀疏奖励场景中实现有效学习。研究结果揭示了在自回归模型中实施潜在动作生成与强化的优势,表明内部强化学习为实现基础模型中的分层强化学习提供了可行路径。
现有视频生成模型因视频信号的高维密集特性,难以保持长期时空一致性。为突破这一局限,我们提出空间记忆感知视频生成框架Spatia,其通过显式维护三维场景点云作为持久化空间记忆。Spatia基于该空间记忆迭代生成视频片段,并借助视觉SLAM技术持续更新记忆库。这种动态-静态解耦设计在保持模型生成逼真动态实体能力的同时,显著提升了生成过程中的空间一致性。此外,Spatia支持显式相机控制与三维感知交互式编辑等应用,为可扩展的记忆驱动视频生成提供了几何基础框架。
大型语言模型日益展现出推理轨迹,然而其底层的认知结构与步骤仍难以超越表层统计进行识别和分析。我们采用舍恩菲尔德的片段理论作为归纳性的中观尺度视角,提出ThinkARM(模型推理解剖)框架——一种可扩展的方法,将推理轨迹显式抽象为功能性推理步骤(如分析、探索、实施、验证等)。在应用于不同模型的数学问题求解时,这种抽象揭示了可复现的思维动态以及推理模型与非推理模型之间的结构性差异,这些差异在词元级视角下并不明显。我们进一步通过两个诊断性案例研究表明:探索步骤是影响正确率的关键分支节点,而效率导向的方法会选择性地抑制评估反馈步骤而非均匀缩短响应。这些结果共同证明,片段级表征能使推理步骤显性化,从而系统分析现代语言模型中推理结构的形成、稳定与演变机制。
视频是三维世界在二维平面上的连续投影。在大量视频数据上训练后,全局三维理解能力是否会自然涌现?我们通过量化现有视频基础模型(VidFM)的三维理解能力展开研究,这些模型已在海量视频数据上完成预训练。我们提出了首个模型无关的评估框架,通过浅层读出器从模型特征中估计多种三维属性,从而衡量不同VidFM的三维感知能力。本研究从多个维度揭示了关于VidFM三维感知能力的重要发现。特别值得注意的是,研究显示最先进的视频生成模型虽未经过任何三维数据训练,却展现出对三维物体与场景的深刻理解。这种理解能力甚至能超越专门针对三维任务训练的大型专家模型。我们的发现结合对主流VidFM的三维基准测试,为构建可扩展的三维模型提供了宝贵洞见。
基于视觉语言模型(VLM)的多模态智能体在进行多轮强化学习(RL)时,常因奖励稀疏和长期信用分配问题而受阻。现有方法通过调用提供步骤级反馈的教师模型来稠密化奖励(例如引导思维强化GTR和在线策略蒸馏),但依赖成本高昂且往往具有特权权限的教师模型,限制了实用性与可复现性。我们提出GTR-Turbo——GTR的高效升级方案,在不训练或调用昂贵教师模型的情况下实现同等性能。具体而言,GTR-Turbo融合正在进行的RL训练过程中产生的检查点权重,随后将该融合模型作为"免费"教师,通过监督微调或软逻辑蒸馏指导后续RL训练。这一设计消除了对特权VLM(如GPT或Gemini)的依赖,缓解了先前工作中观察到的"熵崩塌"现象,并保持训练稳定性。在多样化视觉智能体任务中,GTR-Turbo将基线模型准确率提升10-30%,同时相比GTR将训练时间缩短50%,计算成本降低60%。
自回归视觉生成依赖分词器将图像与离散序列相互映射。然而分词器的训练目标是基于真实标记重构清晰图像,而自回归生成器仅针对标记似然性进行优化。这种错配导致生成的标记序列可能解码为低质量图像,且缺乏像素空间的直接监督。我们提出VA-π——一种轻量级训练后优化框架,通过基于原理的像素空间目标直接优化自回归模型。VA-π将生成器-分词器对齐问题构建为变分优化,推导出统一像素重建与自回归建模的证据下界。为在离散标记空间中进行优化,VA-π引入基于强化学习的对齐策略:将自回归生成器视为策略网络,以像素空间重建质量作为内在奖励。该奖励通过教师强制模式下预测标记序列对原始图像的重建精度来衡量,无需昂贵的自由运行采样即可为模型提供像素级指导。证据下界中的正则化项作为天然约束器,维持标记的分布一致性。VA-π无需重新训练分词器或外部奖励模型,即可快速适配现有自回归生成器。仅使用1%的ImageNet-1K数据和25分钟微调,便在LlamaGen-XXL上将FID从14.36降至7.65,IS从86.55提升至116.70;同时在GenEval文本生成图像任务中,视觉生成模型(LlamaGen:0.306→0.339)与统一多模态模型(Janus-Pro:0.725→0.744)均取得显著提升。代码已开源:https://github.com/Lil-Shake/VA-Pi。