HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

7 papers found

CoDeF：用于时间一致视频处理的内容变形场
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

Aug 15

ByHao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, Yujun Shen

我们提出内容变形场（CoDeF）作为一种新型视频表示形式，它包括一个规范内容场，汇总整个视频中的静态内容，以及一个时间变形场，记录从规范图像（即从规范内容场渲染而成的图像）到沿时间轴上每个单独帧的变换。针对目标视频，这两个场是联合优化的，通过精心设计的渲染流程来重建视频。我们有意在优化过程中引入一些正则化，促使规范内容场从视频中继承语义（例如对象形状）。通过这种设计，CoDeF 自然地支持将图像算法用于视频处理，即可以将图像算法应用于规范图像，然后借助时间变形场轻松地将结果传播到整个视频。我们通过实验证明，CoDeF 能够将图像到图像的转换提升到视频到视频的转换，并将关键点检测提升到关键点跟踪，而无需任何训练。更重要的是，由于我们的提升策略仅在一个图像上部署算法，与现有的视频到视频转换方法相比，我们在处理视频时实现了更优越的跨帧一致性，甚至成功跟踪非刚性物体，如水和烟雾。项目页面可在 https://qiuyu96.github.io/CoDeF/ 找到。

利用GPT-4代码解释器解决具有挑战性的数学文字问题，采用基于代码的自验证。
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification

Aug 15

ByAojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li

近期大语言模型（LLMs）如GPT-4和PaLM-2的进展在解决数学推理问题方面取得了显著进展。特别是OpenAI最新版本的GPT-4，即GPT-4代码解释器，在具有挑战性的数学数据集上展现出卓越的性能。本文探讨了代码对增强大语言模型推理能力的影响，通过对GPT-4代码解释器的“代码使用频率”引入不同约束。我们发现，其成功很大程度上归因于其在生成和执行代码、评估代码执行输出以及在接收到不合理输出时纠正解决方案方面的强大技能。基于这一观察，我们提出了一种新颖有效的提示方法，即明确的基于代码的自我验证（CSV），以进一步提升GPT-4代码解释器的数学推理潜力。该方法在GPT-4代码解释器上采用了零样本提示，鼓励其使用代码自我验证答案。在验证状态为“False”时，模型将自动修正其解决方案，类似于我们在数学考试期间纠正错误的方法。此外，我们认识到验证结果的状态表示解决方案的置信度，这可以提高多数投票的有效性。借助GPT-4代码解释器和CSV，我们在MATH数据集上实现了令人印象深刻的零样本准确率（从53.9％提高到84.3％）。

RAVEN：具有检索增强编码器-解码器的上下文学习语言模型
RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models

Aug 15

ByJie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro

本文研究了检索增强型编码器-解码器语言模型的上下文学习能力。我们首先对最先进的ATLAS模型进行了全面分析，并确定其在上下文学习方面存在的局限性，主要是由于预训练和测试之间的不匹配，以及受限的上下文长度。为了解决这些问题，我们提出了RAVEN模型，该模型结合了检索增强的掩蔽语言建模和前缀语言建模。我们进一步引入了融合上下文学习，通过增强少样本性能，使模型能够利用更多上下文示例，而无需额外的训练或模型修改。通过大量实验，我们证明了RAVEN明显优于ATLAS，并在某些情况下取得了与最先进的语言模型相媲美的结果，尽管参数明显较少。我们的工作强调了检索增强型编码器-解码器语言模型在上下文学习方面的潜力，并鼓励在这个方向进一步开展研究。

多模态LLM的链接上下文学习
Link-Context Learning for Multimodal LLMs

Aug 15

ByYan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu

在人类对话中，从上下文中学习新概念并提供适当回应的能力至关重要。尽管当前的多模态大型语言模型（MLLMs）和大型语言模型（LLMs）是在大规模数据集上训练的，但在无需训练的情况下识别未见过的图像或理解新概念仍然是一个挑战。上下文学习（ICL）探索了无需训练的少样本学习，模型被鼓励从有限任务中“学会学习”，并推广到未见过的任务。在这项工作中，我们提出了链接上下文学习（LCL），强调“从因果推理”，以增强MLLMs的学习能力。LCL超越了传统的ICL，通过明确加强支持集和查询集之间的因果关系。通过提供具有因果链接的示范，LCL引导模型不仅识别类比，还理解数据点之间的潜在因果关联，从而使MLLMs更有效地识别未见过的图像并理解新概念。为了促进对这种新方法的评估，我们引入了ISEKAI数据集，专门包含为链接上下文学习设计的未见生成图像标签对。大量实验证明，我们的LCL-MLLM展现出强大的链接上下文学习能力，能更好地适应新概念，胜过普通的MLLMs。代码和数据将在https://github.com/isekai-portal/Link-Context-Learning 上发布。

稀疏视角视频中可重新照明和动画化的神经化身
Relightable and Animatable Neural Avatar from Sparse-View Video

Aug 15

ByZhen Xu, Sida Peng, Chen Geng, Linzhan Mou, Zihan Yan, Jiaming Sun, Hujun Bao, Xiaowei Zhou

本文解决了从稀疏视角（甚至单目）动态人类视频中创建可重新照明和可动画化的神经化身的挑战，而这些视频处于未知照明下。与工作室环境相比，这种设置更为实用和可访问，但提出了一个极具挑战性的不适定问题。先前的神经人类重建方法能够使用变形的符号距离场（SDF）从稀疏视角重建可动画化的化身，但无法恢复用于重新照明的材料参数。虽然基于可微逆渲染的方法已成功恢复了静态物体的材料，但将其扩展到动态人类并不直接，因为在变形的SDF上计算像素-表面交点和光能见度对于逆渲染而言计算量巨大。为了解决这一挑战，我们提出了一种分层距离查询（HDQ）算法，以近似在任意人类姿势下的世界空间距离。具体而言，我们基于参数化人类模型估计粗略距离，并通过利用SDF的局部变形不变性计算细致距离。基于HDQ算法，我们利用球追踪来高效估计表面交点和光能见度。这使我们能够开发出第一个能够从稀疏视角（或单目）输入中恢复可动画化和可重新照明的神经化身的系统。实验证明，与最先进方法相比，我们的方法能够产生更优异的结果。我们的代码将会发布以供复现。

从视频中学习识别强化学习的关键状态
Learning to Identify Critical States for Reinforcement Learning from Videos

Aug 15

ByHaozhe Liu, Mingchen Zhuge, Bing Li, Yuhui Wang, Francesco Faccio, Bernard Ghanem, Jürgen Schmidhuber

最近关于深度强化学习（DRL）的研究指出，可以从缺乏有关执行动作明确信息的离线数据中提取有关良好策略的算法信息。例如，人类或机器人的视频可能传达了许多有关奖励动作序列的隐含信息，但想要从观看这些视频中获益的DRL机器必须首先自行学习识别和识别相关的状态/动作/奖励。在不依赖地面真实标注的情况下，我们提出了一种名为深度状态识别器的新方法，该方法学习从编码为视频的剧集中预测回报。然后使用一种基于掩码的敏感性分析来提取/识别重要的关键状态。大量实验证明了我们的方法在理解和改进代理行为方面的潜力。源代码和生成的数据集可在https://github.com/AI-Initiative-KAUST/VideoRLCS 上获得。

语音模型中的文本插入用于大写和交替预测
Text Injection for Capitalization and Turn-Taking Prediction in Speech Models

Aug 14

ByShaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath

文本注入用于自动语音识别（ASR），即使用未配对的仅文本数据来补充配对的音频-文本数据，已经显示出对词错误率有着令人期待的改进。本研究探讨了文本注入用于辅助任务，这些任务通常由端到端（E2E）模型执行而非ASR任务。在这项工作中，我们使用联合端到端和内部语言模型训练（JEIT）作为我们的文本注入算法，来训练一个执行两个辅助任务的ASR模型。第一个任务是大写处理，这是一个去规范化的任务。第二个任务是轮次预测，旨在确定用户是否已经完成了数字助手交互中的对话轮次。我们展示了结果，表明我们的文本注入方法提升了长尾数据的大写处理性能，并改善了轮次检测的召回率。