AI研究论文每日精选

每日精选AI研究论文及翻译

利用潜在推理扩展测试时间计算：一种循环深度方法
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Feb 7

ByJonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein

151

我们研究了一种新颖的语言模型架构，能够通过在潜在空间隐式推理来扩展测试时的计算能力。我们的模型通过迭代循环块来工作，在测试时可以展开到任意深度。这与主流推理模型不同，后者通过生成更多标记来扩展计算。与基于思维链的方法不同，我们的方法不需要任何专门的训练数据，可以处理小的上下文窗口，并且能够捕捉那些不容易用文字表示的推理类型。我们将一个概念验证模型扩展到了35亿参数和8000亿标记。我们展示了结果模型在推理基准测试中可以提高性能，有时甚至可以相当显著地，达到相当于500亿参数的计算负载。

Goku：基于流的视频生成基础模型
Goku: Flow Based Video Generative Foundation Models

Feb 7

ByShoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu

106

本文介绍了Goku，这是一种最先进的联合图像和视频生成模型系列，利用矫正流Transformer实现了业界领先的性能。我们详细介绍了支持高质量视觉生成的基本要素，包括数据筛选流程、模型架构设计、流程制定以及用于高效稳健大规模训练的先进基础设施。Goku模型在定性和定量评估中展现出卓越性能，在主要任务中建立了新的基准。具体来说，Goku在GenEval上达到0.76，在DPG-Bench上达到83.65用于文本到图像生成，在VBench上达到84.85用于文本到视频任务。我们相信，这项工作为研究社区在开发联合图像和视频生成模型方面提供了宝贵的见解和实用进展。

视频RoPE：什么构成了优秀的视频旋转位置嵌入？
VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Feb 7

ByXilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin

尽管旋转位置嵌入（RoPE）及其变体因其长上下文能力而被广泛采用，但将一维RoPE扩展到具有复杂时空结构的视频仍然是一个未解之谜。本研究首先引入了一项全面分析，确定了四个关键特征，这些特征对RoPE成功适应视频至关重要，而这些特征在先前的研究中尚未得到充分考虑。作为我们分析的一部分，我们引入了一个具有挑战性的V-NIAH-D（带干扰物的视觉找针在草垛中）任务，该任务在V-NIAH中添加了周期性干扰物。V-NIAH-D任务表明，先前的RoPE变体由于缺乏适当的时间维度分配而容易被干扰物误导。基于我们的分析，我们引入了VideoRoPE，其具有设计良好的三维结构，以保持时空关系。VideoRoPE具有低频时间分配，以减轻周期性振荡，对角布局以保持空间对称性，以及可调节的时间间距以解耦时间和空间索引。VideoRoPE在各种下游任务中始终优于先前的RoPE变体，如长视频检索、视频理解和视频幻觉。我们的代码将在以下网址提供：https://github.com/Wiselnn570/VideoRoPE。

滑动瓦片注意力快速视频生成
Fast Video Generation with Sliding Tile Attention

Feb 6

ByPeiyuan Zhang, Yongqi Chen, Runlong Su, Hangliang Ding, Ion Stoica, Zhenghong Liu, Hao Zhang

扩散变压器（DiTs）具有3D全注意力状态下的最先进视频生成能力，但存在计算成本过高的问题——仅生成一段5秒的720P视频时，注意力占据了总推理时间的945秒中的800秒。本文介绍了滑动瓷砖注意力（STA）来解决这一挑战。STA利用了预训练视频扩散模型中的注意力分数主要集中在局部3D窗口内的观察结果。通过在局部时空区域滑动和关注，STA消除了全注意力中的冗余。与传统的基于令牌的滑动窗口注意力（SWA）不同，STA逐个瓷砖进行操作，采用一种新颖的硬件感知滑动窗口设计，保持了表达能力同时具备了硬件效率。通过仔细的内核级优化，STA提供了第一个高效的2D/3D滑动窗口式注意力实现，实现了58.79%的MFU。具体来说，STA将注意力加速了2.8-17倍，超过了FlashAttention-2（FA2）的1.6-10倍，超过了FlashAttention-3（FA3）。在领先的视频DiT，HunyuanVideo上，STA将端到端延迟从945秒（FA3）降低到685秒，而无需降低质量，无需训练。启用微调进一步将延迟降低到268秒，仅在VBench上下降了0.09%。

QuEST：具有1比特权重和激活的LLM稳定训练
QuEST: Stable Training of LLMs with 1-Bit Weights and Activations

Feb 7

ByAndrei Panferov, Jiale Chen, Soroush Tabesh, Roberto L. Castro, Mahdi Nikdan, Dan Alistarh

减少大型语言模型（LLMs）巨大成本的一种方法是在训练或部署过程中使用量化或稀疏表示。尽管后训练压缩方法非常流行，但直接在这些表示上进行训练以获得更准确的压缩模型的问题，即量化感知训练（QAT），仍然是一个开放问题：例如，最近的一项研究（arXiv:2411.04330v2）确定了使用QAT进行训练的“最佳”比特宽度，同时保持与标准FP16/BF16精度相竞争的准确性，为8位权重和激活。我们通过一种名为QuEST的新方法推进了这一最新技术，该方法与FP16具有帕累托竞争力，即在更低的模型大小下提供更好的准确性，同时训练具有4位或更少位权重和激活的模型。此外，QuEST允许使用1位权重和激活进行稳定训练。QuEST通过改进QAT方法的两个关键方面实现了这一点：（1）通过Hadamard归一化和均方误差最优拟合准确快速地量化权重和激活的（连续）分布；（2）基于显式最小化在量化状态上计算的嘈杂梯度与“真实”（但未知）全精度梯度之间的误差的新信任梯度估计器的思想。在Llama类型的架构上进行的实验表明，QuEST在整个硬件支持的精度范围内诱导出稳定的扩展规律，并且可以扩展到稀疏表示。我们提供了GPU内核支持，显示由QuEST生成的模型可以高效执行。我们的代码可在https://github.com/IST-DASLab/QuEST 上找到。

AuraFusion360：用于基于参考的360°无边界场景修复的增强看不见区域对齐
AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Feb 7

ByChung-Ho Wu, Yang-Jung Chen, Ying-Huan Chen, Jie-Ying Lee, Bo-Hsu Ke, Chun-Wei Tuan Mu, Yi-Chuan Huang, Chin-Yang Lin, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu

三维场景修复对于从虚拟现实到建筑可视化的应用至关重要，然而现有方法在处理360度无边界场景时往往存在视角一致性和几何精度方面的困难。我们提出了AuraFusion360，这是一种新颖的基于参考的方法，能够在高斯散射表示的3D场景中实现高质量的物体去除和孔洞填充。我们的方法引入了以下特性：(1) 用于准确遮挡识别的深度感知未见掩模生成，(2) 自适应引导深度扩散，这是一种零样本方法，可实现准确的初始点放置而无需额外训练，以及(3) 基于SDEdit的细节增强，以实现多视角一致性。我们还介绍了360-USID，这是第一个针对360度无边界场景修复的全面数据集，包含地面真实数据。大量实验证明，AuraFusion360明显优于现有方法，在保持几何精度的同时实现了卓越的感知质量，适应了戏剧性视角变化。请访问我们的项目页面以查看视频结果和数据集：https://kkennethwu.github.io/aurafusion360/。

退一步，为了推动语言模型推理能力的自我回溯
Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

Feb 6

ByXiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li

将缓慢思考机制整合到大型语言模型（LLMs）中，为实现第2级AGI推理者提供了一种有前途的途径，正如OpenAI的o1系统所示。然而，仍然存在一些重要挑战，包括低效的过度思考和对辅助奖励模型的过度依赖。我们指出，这些限制源于LLMs无法内化搜索过程，这是有效推理的关键组成部分。解决这一问题的关键步骤是使LLMs能够自主确定何时何地进行回溯，这是传统搜索算法中的基本操作。为此，我们提出了一种自回溯机制，使LLMs能够在训练和推理过程中进行回溯。这种机制不仅增强了推理能力，还通过自我改进将缓慢思考过程转化为快速思考，提高了效率。实证评估表明，我们的提议显著增强了LLMs的推理能力，与最佳路径监督微调方法相比，性能提高了超过40％。我们相信这项研究为开发更先进和更强大的推理者开辟了一条新颖且有前景的途径。

FlashVideo：为高效生成高分辨率视频保持细节的流动忠实
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Feb 7

ByShilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo

DiT扩散模型在文本到视频生成中取得了巨大成功，利用其在模型容量和数据规模上的可扩展性。然而，与文本提示对齐的高内容和动态保真度通常需要大量的模型参数和大量的函数评估（NFEs）。现实和视觉上吸引人的细节通常体现在高分辨率输出中，进一步增加了计算需求，特别是对于单阶段的DiT模型。为了解决这些挑战，我们提出了一种新颖的两阶段框架，FlashVideo，该框架在各个阶段之间战略地分配模型容量和NFEs，以平衡生成的保真度和质量。在第一阶段，通过使用大参数和足够的NFEs进行低分辨率生成过程，优先考虑了提示的保真度，以增强计算效率。第二阶段建立了低分辨率和高分辨率之间的流匹配，有效地生成细节，同时最小化NFEs。定量和视觉结果表明，FlashVideo实现了最先进的高分辨率视频生成，具有卓越的计算效率。此外，两阶段设计使用户能够在承诺进行全分辨率生成之前预览初始输出，从而显著降低了计算成本和等待时间，提高了商业可行性。

代理性取决于框架。
Agency Is Frame-Dependent

Feb 6

ByDavid Abel, André Barreto, Michael Bowling, Will Dabney, Shi Dong, Steven Hansen, Anna Harutyunyan, Khimya Khetarpal, Clare Lyle, Razvan Pascanu, Georgios Piliouras, Doina Precup, Jonathan Richens, Mark Rowland, Tom Schaul, Satinder Singh

代理性是系统引导结果朝向目标的能力，是生物学、哲学、认知科学和人工智能研究的中心课题。确定系统是否表现出代理性是一个极具挑战性的问题：例如，Dennett（1989）强调了决定岩石、恒温器或机器人是否具有代理性的难题。我们从强化学习的视角探讨这一难题，认为代理性从根本上是依赖于参考框架的：对系统代理性的任何测量必须相对于一个参考框架进行。我们通过提出一个哲学论证来支持这一观点，即Barandiaran等人（2009）和Moreno（2018）提出的代理性基本属性本身是依赖于参考框架的。我们得出结论，任何关于代理性的基础科学都需要考虑参考框架的影响，并讨论了这一观点对强化学习的影响。

DuoGuard：一种用于多语言LLM的双人RL驱动框架Guardrails
DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails

Feb 7

ByYihe Deng, Yu Yang, Junkai Zhang, Wei Wang, Bo Li

大型语言模型（LLMs）的快速发展增加了对防护栏模型的需求，以确保负责任的使用，特别是在检测不安全和非法内容方面。虽然英语中存在大量安全数据，但由于其他语言开源安全数据稀缺，多语言防护栏建模仍未得到充分探索。为了填补这一空白，我们提出了一种新颖的双人强化学习（RL）框架，其中生成器和防护栏模型对抗性地共同进化，生成高质量的多语言防护栏训练合成数据。我们在理论上将这种互动形式化为一个双人博弈，证明了收敛到纳什均衡。实证评估表明，我们的模型\ours 在英语基准测试中优于最先进模型，性能提升近10%，同时在推断速度上比 LlamaGuard3（8B）快4.5倍，且模型规模显著更小（0.5B）。我们在多语言安全任务方面取得了重大进展，特别是在处理收集的真实数据集中低资源语言的不平衡。消融研究强调了合成数据生成在弥合英语和其他语言之间开源数据不平衡中的关键作用。这些发现确立了一种可扩展且高效的合成数据生成方法，为改进多语言防护栏模型以增强LLM安全铺平了道路。代码、模型和数据将在 https://github.com/yihedeng9/DuoGuard 上开源。

通过对大型语言模型进行测试时间缩放生成符号世界模型。
Generating Symbolic World Models via Test-time Scaling of Large Language Models

Feb 7

ByZhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu

解决复杂规划问题需要大型语言模型（LLMs）明确建模状态转移，以避免规则违反，遵守约束条件，并确保最优性 - 这是一项受自然语言固有歧义影响的任务。为了克服这种歧义，规划领域定义语言（PDDL）被利用作为一种规划抽象，能够实现精确和正式的状态描述。利用PDDL，我们可以生成一个符号世界模型，经典搜索算法（如A*）可以无缝应用于找到最优规划。然而，由于缺乏PDDL训练数据，直接利用当前的LLMs生成PDDL领域仍然是一个挑战。为了解决这一挑战，我们提出扩大LLMs的测试时间计算，增强其PDDL推理能力，从而实现高质量PDDL领域的生成。具体而言，我们引入了一种简单而有效的算法，首先采用最佳N采样方法改善初始解的质量，然后通过口头机器学习精细化改进解决方案。我们的方法在生成PDDL领域方面远远优于o1-mini，两项任务（即从自然语言描述或PDDL问题生成PDDL领域）的成功率超过50％，而无需额外训练。通过利用PDDL作为状态抽象，我们的方法能够在几乎所有竞赛级规划任务中胜过当前最先进的方法。

CMoE：用于高效LLM推断的快速专家混合建模
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference

Feb 6

ByZehua Pei, Lancheng Zou, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu

大型语言模型（LLMs）通过扩展模型参数取得了令人印象深刻的性能，但这也带来了显著的推理开销。主导LLM参数的前馈网络（FFNs）在隐藏神经元中表现出很高的激活稀疏性。为了利用这一点，研究人员提出了使用专家混合（MoE）架构，其中只有一部分参数被激活。然而，现有方法通常需要大量的训练数据和资源，限制了它们的实用性。我们提出了CMoE（Carved MoE），这是一个新颖的框架，可以从密集模型中高效地雕刻出MoE模型。CMoE通过高效的专家分组和轻量级调整实现了卓越的性能。首先，根据激活率将神经元分组为共享专家和路由专家。接下来，我们构建了一个无需从头训练的路由机制，结合了可微分的路由过程和负载平衡。使用适度的数据，CMoE可以在五分钟内从一个7B的密集模型中产生一个设计良好、可用的MoE。通过轻量级微调，它可以在不到一个小时内实现高性能恢复。我们将我们的代码公开发布在https://github.com/JarvisPei/CMoE。

在设备上的Sora：为移动设备实现基于扩散的文本到视频生成
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

Feb 5

ByBosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee

我们提出了On-device Sora，这是一种首创性的解决方案，用于在智能手机设备上高效运行的基于扩散的设备端文本到视频生成。在Open-Sora的基础上，On-device Sora应用了三种新技术来解决计算和内存受限移动设备上基于扩散的文本到视频生成的挑战。首先，线性比例跃迁（LPL）通过高效的跃迁方法减少了视频扩散中需要的过多去噪步骤。其次，时间维度令牌合并（TDTM）通过沿时间维度合并连续令牌来最小化注意力层中的密集令牌处理计算。第三，具有动态加载的并发推理（CI-DL）动态将大型模型分区为较小块，并将其加载到内存中进行并发模型推理，有效解决了设备内存受限的挑战。我们在iPhone 15 Pro上实现了On-device Sora，并实验评估表明，它能够在设备上生成高质量视频，与在高端GPU上运行的Open-Sora生成的视频相媲美。这些结果表明，On-device Sora在资源受限的移动设备上实现了高效且高质量的视频生成，扩大了可访问性，确保了用户隐私，减少了对云基础设施的依赖，并降低了相关成本。我们将所提出的On-device Sora视为向民主化最先进生成技术迈出的重要一步，实现了在普通移动和嵌入式设备上具备视频生成能力。代码实现可在GitHub存储库上公开获取：https://github.com/eai-lab/On-device-Sora。

不留下任何任务：使用共同和特定任务子空间的各向同性模型合并
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

Feb 7

ByDaniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer

模型合并将多个特定任务模型的权重整合到一个多任务模型中。尽管最近对这个问题产生了兴趣，但合并模型和单任务模型之间仍存在显著的性能差距。在本文中，我们研究了任务矩阵的关键特征——应用于预训练模型的权重更新矩阵，这些特征有助于有效地进行合并。我们展示了任务特定和合并矩阵的奇异分量之间的对齐与性能改进与预训练模型之间的强相关性。基于此，我们提出了一种各向同性合并框架，该框架可以拉平任务矩阵的奇异值谱，增强对齐，并减小性能差距。此外，我们还结合了通用和任务特定子空间，以进一步提高对齐和性能。我们提出的方法在多种情景下实现了最先进的性能，包括不同任务集和模型规模。这项工作推动了对模型合并动态的理解，提供了一种有效的方法来合并模型，而无需额外的训练。代码可在 https://github.com/danielm1405/iso-merging 找到。

Patchification中的缩放定律：一幅图值得50,176个标记甚至更多。
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Feb 6

ByFeng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie

自从引入了视觉Transformer（ViT）以来，分块化一直被视为普通视觉架构的一种实际图像标记方法。通过压缩图像的空间尺寸，这种方法可以有效地缩短标记序列并减少类似ViT的普通架构的计算成本。在这项工作中，我们旨在彻底研究基于分块化的压缩编码范式引起的信息丢失以及它如何影响视觉理解。我们进行了大量的分块大小缩放实验，并激动地观察到分块化中一个有趣的缩放规律：模型可以持续受益于较小的分块大小，并实现改进的预测性能，直到达到最小的1x1分块大小，即像素标记化。这一结论广泛适用于不同的视觉任务、各种输入尺度和不同架构，如ViT和最近的Mamba模型。此外，作为副产品，我们发现随着分块变小，面向任务的特定解码器头对于密集预测变得不那么关键。在实验中，我们成功地将视觉序列扩展到了一个异常长度的50,176个标记，使用基础大小的模型在ImageNet-1k基准测试上实现了竞争力强的84.6%的测试准确率。我们希望这项研究能为未来构建非压缩视觉模型的工作提供见解和理论基础。代码可在https://github.com/wangf3014/Patch_Scaling找到。

CodeSteer：通过代码/文本引导进行符号增强的语言模型
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

Feb 4

ByYongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan

现有方法未能有效引导大型语言模型（LLMs）在文本推理和代码生成之间进行平衡，导致符号计算能力被低效利用。我们引入了CodeSteer，这是一种有效的方法，用于指导LLM的代码/文本生成。我们构建了一个全面的基准SymBench，其中包含37个具有可调整复杂性的符号任务，并合成了包含12,000个多轮引导/生成轨迹和5,500个引导比较对的数据集。我们使用新设计的多轮监督微调（SFT）和直接偏好优化（DPO）对Llama-3-8B模型进行微调。得到的模型CodeSteerLLM，增加了提出的符号和自答检查器，有效地引导更大型模型的代码/文本生成。通过将CodeSteer与GPT-4o相结合，其平均性能得分从53.3提高到86.4，甚至在所有37个任务（28个已见，9个未见）上都超过了现有最佳LLM OpenAI o1（82.7）、o1-preview（74.8）和DeepSeek R1（76.8）。针对GPT-4o进行训练，CodeSteer展现出卓越的泛化能力，在Claude、Mistral和GPT-3.5上提供了平均41.8的性能提升。CodeSteer引导的LLMs充分利用符号计算，在高度复杂的任务上保持强大性能。模型、数据集和代码可在以下网址获取：https://github.com/yongchao98/CodeSteer-v1.0。

LM的组合泛化和虚构中的线性相关
Linear Correlation in LM's Compositional Generalization and Hallucination

Feb 6

ByLetian Peng, Chenyang An, Shibo Hao, Chengyu Dong, Jingbo Shang

语言模型（LMs）的泛化正在经历积极的讨论，对比它们在通用智能方面的潜力与它们在基本知识组合（例如，逆/过渡诅咒）方面的挣扎。本文揭示了LMs在知识组合过程中的线性相关现象。举例来说，存在一种线性转换，将某些相关知识映射到下一个令牌预测logits，从一个提示到另一个提示，例如，“X lives in the city of” 转变为 “X lives in the country of” 对于每个给定的X。这反映了人类知识组合中的线性关系，比如 Paris 转变为 France。我们的发现表明，这种线性转换对大规模微调具有韧性，当与现实世界关系一致时，泛化更新的知识，但当偏离时会导致幻觉。实证结果表明，线性相关性可以作为LM泛化的潜在标识符。最后，我们展示这种线性相关性可以通过单个前馈网络和预训练的词汇表示来学习，表明LM的泛化在很大程度上依赖于后者。

QLIP：文本对齐视觉标记统一自回归多模态理解与生成
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

Feb 7

ByYue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang

我们介绍了Quantized Language-Image Pretraining（QLIP），这是一种将最先进的重建质量与最先进的零样本图像理解相结合的视觉标记化方法。QLIP使用基于二进制球面量化的自动编码器进行训练，具有重建和语言-图像对齐目标。我们首次展示了这两个目标并不需要相互矛盾。我们在训练过程中动态平衡了这两个损失项，并展示了一个两阶段训练流程有效地将图像-语言预训练的大批量需求与重建目标所施加的内存瓶颈相混合。我们验证了QLIP在多模态理解和文本条件图像生成方面的有效性，使用单一模型。具体来说，QLIP可作为LLaVA的视觉编码器和LlamaGen的图像标记器的插入替换，性能相当甚至更好。最后，我们展示了QLIP实现了一个统一的混合模态自回归模型，用于理解和生成。

迷失在时间中：多模态LLM中的时钟和日历理解挑战
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

Feb 7

ByRohit Saxena, Aryo Pradipta Gema, Pasquale Minervini

从视觉表征中理解时间是一项基本的认知技能，但对于多模态大型语言模型（MLLMs）而言仍然是一个挑战。在这项工作中，我们调查了MLLMs在通过模拟时钟和年历来解释时间和日期方面的能力。为此，我们精心策划了一个结构化数据集，包括两个子集：1）ClockQA，其中包括各种类型的时钟样式-标准、黑色表盘、无秒针、罗马数字和箭头指针时钟，配对有与时间相关的问题；和2）CalendarQA，其中包含年历图片，问题涵盖了从众所周知的日期（例如圣诞节、元旦）到计算推导的日期（例如一年中的第100或第153天）。我们旨在分析MLLMs在面对与时间相关的视觉数据时如何执行视觉识别、数值推理和时间推理。我们的评估表明，尽管最近取得了进展，但对于MLLMs而言，可靠地理解时间仍然是一个重大挑战。

通过分析、检索和推理实现大型语言模型的问答系统
ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

Feb 7

ByYuwei Yin, Giuseppe Carenini

大型语言模型（LLMs）在往往以多项选择问答（QA）任务结构化的具有挑战性的基准测试中取得了显著的表现。零-shot Chain-of-Thought（CoT）提示增强了LLMs中的推理能力，但只提供了模糊和通用的指导（“逐步思考”）。本文介绍了ARR，这是一种直观有效的零-shot提示方法，明确地将QA解决中的三个关键步骤纳入其中：分析问题意图、检索相关信息和逐步推理。在各种具有挑战性的QA任务上进行的全面实验表明，ARR始终提高了基准（不使用ARR提示）的性能，并且胜过了CoT。消融和案例研究进一步验证了每个组成部分的积极贡献：分析、检索和推理。值得注意的是，意图分析在ARR中起着至关重要的作用。此外，在各种模型大小、LLM系列和生成设置上进行的广泛评估巩固了ARR的有效性、稳健性和泛化能力。

基于价值的深度强化学习能够可预测地扩展。
Value-Based Deep RL Scales Predictably

Feb 6

ByOleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar

数据和计算的扩展对机器学习的成功至关重要。然而，扩展需要可预测性：我们希望方法不仅在有更多计算或数据时表现良好，而且其性能也可以从小规模运行中预测，而无需运行大规模实验。在本文中，我们展示了基于价值的离策略强化学习方法是可预测的，尽管社区传闻其存在病态行为。首先，我们展示了实现给定性能水平所需的数据和计算要求位于由更新与数据（UTD）比率控制的帕累托前沿上。通过估计这一前沿，我们可以在给定更多计算时预测这一数据需求，以及在给定更多数据时预测这一计算需求。其次，我们确定了在给定性能情况下跨数据和计算分配总资源预算的最佳方式，并用它来确定最大化给定预算下性能的超参数。第三，这种扩展行为是通过首先估计超参数之间可预测关系来实现的，这些关系用于管理强化学习中独特的过拟合和可塑性损失效应。我们使用三种算法（SAC、BRO 和 PQL）在 DeepMind Control、OpenAI gym 和 IsaacGym 上验证了我们的方法，当对数据、计算、预算或性能进行外推时。

YINYANG-ALIGN：基于多目标优化的DPO文本到图像对齐的对立目标基准测试和提议
YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment

Feb 5

ByAmitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth

在文图一体（T2I）系统中，精确的对齐至关重要，以确保生成的视觉不仅准确地体现用户意图，而且符合严格的道德和美学标准。像谷歌双子座（Google Gemini）事件这样的事件，其中错位的输出引发了重大公众抵制，突显了强大对齐机制的关键性需求。相比之下，大型语言模型（LLMs）在对齐方面取得了显著成功。借鉴这些进展，研究人员渴望将类似的对齐技术，如直接偏好优化（DPO），应用于T2I系统，以增强图像生成的保真度和可靠性。我们提出了YinYangAlign，一个先进的基准评估框架，系统地量化T2I系统的对齐保真度，解决了六个基本且固有矛盾的设计目标。每一对代表了图像生成中的基本张力，比如在遵循用户提示与创造性修改之间保持平衡，或在视觉连贯性旁边保持多样性。YinYangAlign包括详细的公理数据集，其中包括人类提示、对齐（选定）响应、错位（被拒绝）的AI生成输出，以及对基本矛盾的解释。

具有持久状态的连续3D感知模型
Continuous 3D Perception Model with Persistent State

Jan 21

ByQianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa

我们提出了一个统一的框架，能够解决广泛的3D任务。我们的方法采用了一个具有状态的循环模型，可以持续地更新其状态表示以适应每个新观测。给定一系列图像，这个不断演化的状态可以用来以在线方式为每个新输入生成度量尺度的点地图（每像素3D点）。这些点地图位于一个共同的坐标系内，并且可以累积成一个连贯、密集的场景重建，随着新图像的到来而更新。我们的模型名为CUT3R（Continuous Updating Transformer for 3D Reconstruction），捕捉了真实世界场景丰富的先验知识：它不仅可以从图像观测中预测准确的点地图，还可以通过探测虚拟的、未观测视角来推断场景中未见的区域。我们的方法简单而高度灵活，自然地接受可能是视频流或无序照片集合的不同长度的图像，这些图像包含静态和动态内容。我们在各种3D/4D任务上评估了我们的方法，并在每个任务中展示了具有竞争力或最先进的性能。项目页面：https://cut3r.github.io/

利用VectorQ进行自适应语义提示缓存
Adaptive Semantic Prompt Caching with VectorQ

Feb 6

ByLuis Gaspar Schroeder, Shu Liu, Alejandro Cuadron, Mark Zhao, Stephan Krusche, Alfons Kemper, Matei Zaharia, Joseph E. Gonzalez

语义提示缓存通过重用缓存的大型语言模型（LLM）生成的响应来减少推理的延迟和成本，用于语义上相似提示。向量相似度度量为嵌入提示与其在缓存中最近邻居之间的相似度分配一个数值分数。现有系统依赖于静态阈值来分类相似度分数是否足够高以导致缓存命中。我们表明，这种一刀切的阈值在不同提示之间是不够的。我们提出了VectorQ，一个学习嵌入特定阈值区域的框架，以适应嵌入的复杂性和不确定性。通过对四个不同数据集的组合进行评估，我们展示了VectorQ在所有静态阈值上始终优于最先进系统，缓存命中率最多提高了12倍，错误率降低高达92%。

会议代表：对代表我们出席会议的语言模型进行基准测试
MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf

Feb 5

ByLingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

在当代工作场所，会议对于交换想法和确保团队一致性至关重要，但往往面临诸如耗时、日程冲突和参与效率低下等挑战。大型语言模型（LLMs）的最新进展展示了它们在自然语言生成和推理方面的强大能力，引发了一个问题：LLMs能否有效地委派会议参与者？为了探讨这一问题，我们开发了一个原型LLM驱动的会议代表系统，并利用真实会议记录创建了一个全面的基准。我们的评估表明，GPT-4/4o在积极和谨慎的参与策略之间保持了平衡的表现。相比之下，Gemini 1.5 Pro倾向于更加谨慎，而Gemini 1.5 Flash和Llama3-8B/70B显示出更积极的倾向。总体而言，约60\%的回复至少涉及地面真实情况中的一个关键点。然而，需要改进以减少无关或重复内容，并增强对真实世界环境中常见的转录错误的容忍度。此外，我们将该系统应用于实际环境，并收集了来自演示的真实反馈。我们的研究结果突显了利用LLMs作为会议代表的潜力和挑战，为减轻会议负担提供了宝贵的见解。

SPARC：面向LLM的鲁棒持续学习的子空间感知提示适应
SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs

Feb 5

ByDinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi

我们提出了SPARC，这是一个针对大型语言模型（LLMs）的轻量级持续学习框架，通过在较低维空间中进行提示调整实现高效的任务适应能力。通过利用主成分分析（PCA），我们确定了训练数据的一个紧凑子空间。在这个较低维空间中优化提示可以增强训练效率，因为它将更新集中在最相关的特征上，同时减少计算开销。此外，由于模型的内部结构保持不变，因此从预训练中获得的广泛知识得以完全保留，确保在适应过程中先前学到的信息不会受损。我们的方法在任务增量和领域增量的持续学习设置中实现了高知识保留率，同时仅微调了模型参数的0.04%。此外，通过集成LoRA，我们增强了对计算约束的适应性，实现了精度和训练成本之间的权衡。在SuperGLUE基准测试上的实验表明，我们基于PCA的提示调整结合LoRA可以保持完整的知识保留，同时提高准确性，仅利用了模型参数的1%。这些结果确立了我们的方法作为大型语言模型持续学习中的一种可扩展和资源高效的解决方案。

智能感知到行动：边缘端强大自治的机会与挑战
Intelligent Sensing-to-Action for Robust Autonomy at the Edge: Opportunities and Challenges

Feb 4

ByAmit Ranjan Trivedi, Sina Tayebati, Hemant Kumawat, Nastaran Darabi, Divake Kumar, Adarsh Kumar Kosta, Yeshwanth Venkatesha, Dinithi Jayasuriya, Nethmi Jayasinghe, Priyadarshini Panda, Saibal Mukhopadhyay, Kaushik Roy

在机器人技术、智慧城市和自动驾驶等领域，自主边缘计算依赖于感知、处理和执行的无缝集成，以实现在动态环境中的实时决策。其核心是感知到执行的循环，通过迭代地将传感器输入与计算模型对齐，驱动自适应控制策略。这些循环可以适应超局部条件，提高资源效率和响应性，但也面临资源约束、多模态数据融合中的同步延迟以及反馈循环中级联错误的风险等挑战。本文探讨了如何通过主动的、上下文感知的感知到执行和执行到感知的调整来增强效率，根据任务需求动态调整感知和计算，例如感知环境的极小部分并预测其余部分。通过通过控制行动引导感知，执行到感知路径可以提高任务相关性和资源利用率，但也需要强大的监控来防止级联错误并保持可靠性。多智能体感知-执行循环通过协调分布式智能体的感知和行动进一步扩展了这些能力，通过协作优化资源使用。此外，受生物系统启发，神经形态计算提供了一种高效的基于脉冲的事件驱动处理框架，节约能量、减少延迟，并支持分层控制，使其成为多智能体优化的理想选择。本文强调了端到端共同设计策略的重要性，将算法模型与硬件和环境动态相一致，并改善跨层次相互依赖关系，以提高在复杂环境中的能效边缘自主性的吞吐量、精度和适应性。

AI研究论文每日精选

每日精选AI研究论文及翻译

利用潜在推理扩展测试时间计算：一种循环深度方法
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Feb 7

ByJonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein

151

Goku：基于流的视频生成基础模型
Goku: Flow Based Video Generative Foundation Models

Feb 7

106

视频RoPE：什么构成了优秀的视频旋转位置嵌入？
VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Feb 7

ByXilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin

滑动瓦片注意力快速视频生成
Fast Video Generation with Sliding Tile Attention

Feb 6

ByPeiyuan Zhang, Yongqi Chen, Runlong Su, Hangliang Ding, Ion Stoica, Zhenghong Liu, Hao Zhang

QuEST：具有1比特权重和激活的LLM稳定训练
QuEST: Stable Training of LLMs with 1-Bit Weights and Activations

Feb 7

ByAndrei Panferov, Jiale Chen, Soroush Tabesh, Roberto L. Castro, Mahdi Nikdan, Dan Alistarh

AuraFusion360：用于基于参考的360°无边界场景修复的增强看不见区域对齐
AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Feb 7

ByChung-Ho Wu, Yang-Jung Chen, Ying-Huan Chen, Jie-Ying Lee, Bo-Hsu Ke, Chun-Wei Tuan Mu, Yi-Chuan Huang, Chin-Yang Lin, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu

退一步，为了推动语言模型推理能力的自我回溯
Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

Feb 6

ByXiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li

FlashVideo：为高效生成高分辨率视频保持细节的流动忠实
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Feb 7

ByShilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo

代理性取决于框架。
Agency Is Frame-Dependent

Feb 6

DuoGuard：一种用于多语言LLM的双人RL驱动框架Guardrails
DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails

Feb 7

ByYihe Deng, Yu Yang, Junkai Zhang, Wei Wang, Bo Li

通过对大型语言模型进行测试时间缩放生成符号世界模型。
Generating Symbolic World Models via Test-time Scaling of Large Language Models

Feb 7

ByZhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu

CMoE：用于高效LLM推断的快速专家混合建模
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference

Feb 6

ByZehua Pei, Lancheng Zou, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu

在设备上的Sora：为移动设备实现基于扩散的文本到视频生成
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

Feb 5

ByBosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee

不留下任何任务：使用共同和特定任务子空间的各向同性模型合并
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

Feb 7

ByDaniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer

Patchification中的缩放定律：一幅图值得50,176个标记甚至更多。
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Feb 6

ByFeng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie

CodeSteer：通过代码/文本引导进行符号增强的语言模型
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

Feb 4

ByYongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan

LM的组合泛化和虚构中的线性相关
Linear Correlation in LM's Compositional Generalization and Hallucination

Feb 6

ByLetian Peng, Chenyang An, Shibo Hao, Chengyu Dong, Jingbo Shang

QLIP：文本对齐视觉标记统一自回归多模态理解与生成
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

Feb 7

ByYue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang

迷失在时间中：多模态LLM中的时钟和日历理解挑战
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

Feb 7

ByRohit Saxena, Aryo Pradipta Gema, Pasquale Minervini

通过分析、检索和推理实现大型语言模型的问答系统
ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

Feb 7

ByYuwei Yin, Giuseppe Carenini

基于价值的深度强化学习能够可预测地扩展。
Value-Based Deep RL Scales Predictably

Feb 6

ByOleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar

YINYANG-ALIGN：基于多目标优化的DPO文本到图像对齐的对立目标基准测试和提议
YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment

Feb 5

ByAmitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth