HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

17 papers found

RobustFT：在有噪声响应下针对大型语言模型的鲁棒监督微调
RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Dec 19

ByJunyu Luo, Xiao Luo, Kaize Ding, Jingyang Yuan, Zhiping Xiao, Ming Zhang

监督微调（SFT）在调整大型语言模型（LLMs）以适应特定领域或任务中发挥着关键作用。然而，根据经验实验证明，在实际应用中收集的数据不可避免地包含噪声，这给模型在下游任务中的性能带来了重大挑战。因此，迫切需要一个噪声鲁棒的SFT框架来增强模型在下游任务中的能力。为了解决这一挑战，我们引入了一个稳健的SFT框架（RobustFT），对下游任务数据进行噪声检测和重新标记。在噪声识别方面，我们的方法采用多专家协作系统和推理增强模型，实现了卓越的噪声检测。在去噪阶段，我们采用了一种上下文增强策略，该策略整合了最相关和最可信的知识，然后经过仔细评估生成可靠的注释。此外，我们引入了一种基于响应熵的有效数据选择机制，确保只有高质量样本被保留用于微调。在五个数据集上进行的大量实验表明，RobustFT在嘈杂场景中表现出色。

B-STaR：自学推理器中探索与利用的监控和平衡
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Dec 23

ByWeihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He

在复杂推理任务缺乏大量人工标注数据的情况下，自我改进成为增强性能的主要方法，即模型在自身输出上进行训练。然而，这些迭代式自我改进方法背后的关键因素仍然知之甚少，比如在什么条件下自我改进有效，当前迭代中存在哪些瓶颈等。在这项工作中，我们确定并提出了监控这一迭代过程中两个关键因素的方法：（1）模型生成足够多样化响应的能力（探索）；以及（2）外部奖励在区分高质量候选者和低质量候选者方面的有效性（开发）。以数学推理为案例研究，我们首先进行定量分析以跟踪探索和开发的动态，发现模型的探索能力在迭代过程中迅速恶化，而利用外部奖励进行开发的有效性也在减弱。受到这些发现的启发，我们引入了B-STaR，一个自学习推理框架，它在迭代中自主调整配置以平衡探索和开发，从而基于当前策略模型和可用奖励优化自我改进的效果。我们在数学推理、编码和常识推理上的实验表明，B-STaR不仅通过训练全面增强了模型的探索能力，而且实现了更有效的探索和开发平衡，从而实现了卓越的性能。

探究自我演进训练在多模态推理中的应用
Diving into Self-Evolving Training for Multimodal Reasoning

Dec 23

ByWei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He

对于大型多模态模型（LMMs）来说，推理能力至关重要。在缺乏多模态思维链注释数据的情况下，自我演化训练已经成为增强推理能力的有效且可扩展的方法。尽管自我演化训练的使用越来越广泛，特别是在多模态推理的背景下，对其全面理解仍然有限。本文深入探讨了用于多模态推理的自我演化训练的复杂性，着重指出了三个关键因素：训练方法、奖励模型和提示变化。我们系统地研究了每个因素，并探讨了各种配置如何影响训练的有效性。我们的分析得出了针对每个因素的一套最佳实践，旨在优化多模态推理。此外，我们探讨了训练过程中的自我演化动态以及自动平衡机制在提升性能方面的影响。在所有调查之后，我们提出了用于多模态推理的自我演化训练的最终配方，将这些设计选择概括为一个名为MSTaR（用于推理的多模态自我演化训练）的框架，该框架对各种基准测试上不同规模的模型都具有普遍有效性，例如，在MiniCPM-V-2.5（8B）、Phi-3.5-Vision（4B）和InternVL2（2B）等基准测试上，明显超越了预演进模型，而无需使用额外的人类注释。我们相信这项研究填补了对于多模态推理的自我演化训练的理解中的重要空白，并为未来研究提供了一个强大的框架。我们的策略和奖励模型，以及收集的数据，已发布以促进在多模态推理领域的进一步研究。

精炼解码1：使用流匹配对图像自回归模型进行一步采样
Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching

Dec 22

ByEnshu Liu, Xuefei Ning, Yu Wang, Zinan Lin

自回归（AR）模型在文本和图像生成方面取得了最先进的性能，但由于逐标记处理而导致生成速度缓慢。我们提出一个雄心勃勃的问题：能否将预训练的AR模型调整为仅需一两步即可生成输出？如果成功，这将极大推动AR模型的开发和部署。我们注意到，现有尝试通过一次生成多个标记来加快AR生成速度的作品基本上无法捕捉输出分布，因为标记之间存在条件依赖性，限制了它们在少步生成方面的有效性。为了解决这个问题，我们提出了蒸馏解码（DD），它利用流匹配从高斯分布创建确定性映射到预训练AR模型的输出分布。然后，我们训练一个网络来蒸馏这个映射，实现少步生成。DD不需要原始AR模型的训练数据，使其更加实用。我们在最先进的图像AR模型上评估了DD，并在ImageNet-256上展示了有希望的结果。对于需要10步生成的VAR，DD实现了一步生成（加速6.3倍），FID从4.19增加到9.96，但仍可接受。对于LlamaGen，DD将生成步骤从256步减少到1，实现了217.8倍的加速，FID从4.11增加到11.35，但仍可比较。在这两种情况下，基准方法完全失败，FID>100。DD在文本到图像生成方面也表现出色，将LlamaGen的生成步骤从256步减少到2，FID从25.70略微增加到28.95。作为首个展示图像AR模型一步生成可能性的工作，DD挑战了AR模型固有缓慢的普遍观念，为高效AR生成开辟了新机遇。项目网站位于https://imagination-research.github.io/distilled-decoding。

OpenAI o1 系统卡
OpenAI o1 System Card

Dec 21

ByOpenAI, Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney, Alex Iftimie, Alex Karpenko, Alex Tachard Passos, Alexander Neitz, Alexander Prokofiev, Alexander Wei, Allison Tam, Ally Bennett, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Duberstein, Andrew Kondrich, Andrey Mishchenko, Andy Applebaum, Angela Jiang, Ashvin Nair, Barret Zoph, Behrooz Ghorbani, Ben Rossen, Benjamin Sokolowsky, Boaz Barak, Bob McGrew, Borys Minaiev, Botao Hao, Bowen Baker, Brandon Houghton, Brandon McKinzie, Brydon Eastman, Camillo Lugaresi, Cary Bassin, Cary Hudson, Chak Ming Li, Charles de Bourcy, Chelsea Voss, Chen Shen, Chong Zhang, Chris Koch, Chris Orsinger, Christopher Hesse, Claudia Fischer, Clive Chan, Dan Roberts, Daniel Kappler, Daniel Levy, Daniel Selsam, David Dohan, David Farhi, David Mely, David Robinson, Dimitris Tsipras, Doug Li, Dragos Oprica, Eben Freeman, Eddie Zhang, Edmund Wong, Elizabeth Proehl, Enoch Cheung, Eric Mitchell, Eric Wallace, Erik Ritter, Evan Mays, Fan Wang, Felipe Petroski Such, Filippo Raso, Florencia Leoni, Foivos Tsimpourlas, Francis Song, Fred von Lohmann, Freddie Sulit, Geoff Salmon, Giambattista Parascandolo, Gildas Chabot, Grace Zhao, Greg Brockman, Guillaume Leclerc, Hadi Salman, Haiming Bao, Hao Sheng, Hart Andrin, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyung Won Chung, Ian Kivlichan, Ian O'Connell, Ian Osband, Ignasi Clavera Gilaberte, Ilge Akkaya, Ilya Kostrikov, Ilya Sutskever, Irina Kofman, Jakub Pachocki, James Lennon, Jason Wei, Jean Harb, Jerry Twore, Jiacheng Feng, Jiahui Yu, Jiayi Weng, Jie Tang, Jieqi Yu, Joaquin Quiñonero Candela, Joe Palermo, Joel Parish, Johannes Heidecke, John Hallman, John Rizzo, Jonathan Gordon, Jonathan Uesato, Jonathan Uesato, Jonathan Ward, Joost Huizinga, Julie Wang, Kai Chen, Kai Xiao, Karan Singhal, Karina Nguyen, Karl Cobbe, Katy Shi, Kayla Wood, Kendra Rimbach, Keren Gu-Lemberg, Keren GuLemberg, Kevin Liu, Kevin Lu, Kevin Stone, Kevin Yu, Lama Ahmad, Lauren Yang, Leo Liu, Leon Maksin, Leyton Ho, Liam Fedus, Lilian Weng, Linden Li, Lindsay McCallum, Lindsey Held, Lorenz Kuhn, Lukas Kondraciuk, Lukasz Kaiser, Luke Metz, Madelaine Boyd, Maja Trebacz, Manas Joglekar, Mark Chen, Marko Tintor, Mason Meyer, Matt Jones, Matt Kaufer, Max Schwarzer, Meghan Shah, Mehmet Yatbaz, Melody Guan, Mengyuan Xu, Mengyuan Yan, Mia Glaese, Mianna Chen, Mianna Chen, Michael Lampe, Michael Malek, Michele Wang, Michelle Fradin, Mike McClay, Mikhail Pavlov, Miles Wang, Mingxuan Wang, Mira Murati, Mo Bavarian, Mostafa Rohaninejad, Nat McAleese, Neil Chowdhury, Neil Chowdhury, Nick Ryder, Nikolas Tezak, Noam Brown, Ofir Nachum, Oleg Boiko, Oleg Murk, Olivia Watkins, Patrick Chao, Paul Ashbourne, Pavel Izmailov, Peter Zhokhov, Rachel Dias, Rahul Arora, Randall Lin, Rapha Gontijo Lopes, Raz Gaon, Reah Miyara, Reimar Leike, Renny Hwang, Rhythm Garg, Robin Brown, Roshan James, Rui Shu, Ryan Cheu, Ryan Greene, Saachi Jain, Sam Altman, Sam Toizer, Sam Toyer, Samuel Miserendino, Sandhini Agarwal, Santiago Hernandez, Sasha Baker, Scott McKinney, Scottie Yan, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shraman Ray Chaudhuri, Shuyuan Zhang, Siyuan Fu, Spencer Papay, Steph Lin, Suchir Balaji, Suvansh Sanjeev, Szymon Sidor, Tal Broda, Aidan Clark, Tao Wang, Taylor Gordon, Ted Sanders, Tejal Patwardhan, Thibault Sottiaux, Thomas Degry, Thomas Dimson, Tianhao Zheng, Timur Garipov, Tom Stasi, Trapit Bansal, Trevor Creech, Troy Peterson, Tyna Eloundou, Valerie Qi, Vineet Kosaraju, Vinnie Monaco, Vitchyr Pong, Vlad Fomenko, Weiyi Zheng, Wenda Zhou, Wes McCabe, Wojciech Zaremba, Yann Dubois, Yinghai Lu, Yining Chen, Young Cha, Yu Bai, Yuchen He, Yuchen Zhang, Yunyun Wang, Zheng Shao, Zhuohan Li

o1模型系列经过大规模强化学习训练，以推理链条的方式进行推理。这些先进的推理能力为改善我们模型的安全性和鲁棒性提供了新途径。特别是，我们的模型可以在回应潜在的不安全提示时，在思考对齐的过程中推理我们的安全策略。这导致在某些风险基准测试中取得了最先进的表现，例如生成不当建议、选择刻板回应以及受到已知越狱攻击的影响。在回答问题之前训练模型以融入一连串的思考具有释放巨大益处的潜力，同时也增加了源自增强智能的潜在风险。我们的结果强调了建立健壮对齐方法的必要性，广泛地测试其有效性，并保持细致的风险管理协议。本报告概述了为OpenAI o1和OpenAI o1-mini模型开展的安全工作，包括安全评估、外部红队测试以及应急准备框架评估。

通过可微缓存增强在潜空间中的审慎思考
Deliberation in Latent Space via Differentiable Cache Augmentation

Dec 23

ByLuyang Liu, Jonas Pfeiffer, Jiaxing Wu, Jun Xie, Arthur Szlam

通过生成和关注中间推理步骤，使大型语言模型（LLMs）能够“更深入”思考的技术已经显示出解决复杂问题的潜力。然而，标准方法在立即响应之前生成离散标记序列，因此可能会产生显著的延迟成本，并且很难进行优化。在这项工作中，我们展示了一个冻结的LLM可以通过离线协处理器来增强，该协处理器操作模型的键-值（kv）缓存。这个协处理器使用一组潜在嵌入来增强缓存，旨在提高后续解码的准确性。我们使用解码器在标准预训练数据上的语言建模损失来训练这个协处理器，同时保持解码器本身冻结。这种方法使模型能够以端到端可微分的方式学习如何将额外的计算蒸馏到其kv-缓存中。由于解码器保持不变，协处理器可以离线和异步操作，如果协处理器不可用或者认为某个缓存不需要额外计算，语言模型可以正常运行。我们通过实验证明，当缓存被增强时，解码器在许多后续标记上实现了较低的困惑度。此外，即使没有任何特定任务的训练，我们的实验表明，缓存增强始终降低困惑度，并在一系列需要推理的任务中提高性能。

利用长上下文语言模型重新审视上下文学习
Revisiting In-Context Learning with Long Context Language Models

Dec 22

ByJinheon Baek, Sun Jae Lee, Prakhar Gupta, Geunseob, Oh, Siddharth Dalmia, Prateek Kolhar

在上下文学习（ICL）中，语言模型基于提供在其输入上下文中的示例进行预测的技术。以往，上下文窗口大小限制了可以显示的示例数量，因此示例选择技术对于识别最有效的示例集至关重要。然而，最近出现的长上下文语言模型（LCLMs）显著增加了可以包含在上下文中的示例数量，引发了一个重要问题，即在大规模示例情况下，ICL的性能是否仍然对样本选择方法敏感。为了回答这个问题，我们通过对涵盖4个任务的18个数据集进行广泛实验，在LCLMs的背景下重新审视这些方法。令人惊讶的是，我们观察到，复杂的示例选择技术并未比简单的随机样本选择方法带来显著改进。相反，我们发现LCLMs的出现已经从选择最有效示例的挑战转变为收集足够填充上下文窗口的示例的挑战。具体来说，在某些数据集中，包含所有可用示例并不能充分利用上下文窗口；然而，通过将上下文中的示例与简单的数据增强方法相结合，我们将ICL的性能显著提高了5%。

使用跨模态视频VAE进行大运动视频自编码
Large Motion Video Autoencoding with Cross-modal Video VAE

Dec 23

ByYazhou Xing, Yang Fei, Yingqing He, Jingye Chen, Jiaxin Xie, Xiaowei Chi, Qifeng Chen

学习一个强大的视频变分自动编码器（VAE）对于减少视频冗余并促进高效视频生成至关重要。直接将图像VAE应用于单独的帧可能导致时间不一致和次优的压缩率，因为缺乏时间压缩。现有的视频VAE已经开始解决时间压缩问题；然而，它们经常受到重建性能不足的困扰。在本文中，我们提出了一种新颖而强大的视频自动编码器，能够实现高保真视频编码。首先，我们观察到仅仅将图像VAE扩展为3D VAE来纠缠空间和时间压缩可能会引入运动模糊和细节失真伪影。因此，我们提出了具有时间感知的空间压缩，以更好地对空间信息进行编码和解码。此外，我们集成了一个轻量级的运动压缩模型，用于进一步进行时间压缩。其次，我们建议利用文本到视频数据集中固有的文本信息，并将文本引导纳入我们的模型。这显著提高了重建质量，特别是在细节保留和时间稳定性方面。第三，我们通过同时在图像和视频上进行联合训练进一步提高了我们模型的多功能性，这不仅提高了重建质量，还使模型能够执行图像和视频自动编码。针对最新强基准的广泛评估显示了我们方法的卓越性能。项目网站可在以下链接找到：https://yzxing87.github.io/vae/。

LearnLM：改进 Gemini 以用于学习。
LearnLM: Improving Gemini for Learning

Dec 21

ByLearnLM Team, Abhinit Modi, Aditya Srikanth Veerubhotla, Aliya Rysbek, Andrea Huber, Brett Wiltshire, Brian Veprek, Daniel Gillick, Daniel Kasenberg, Derek Ahmed, Irina Jurenka, James Cohan, Jennifer She, Julia Wilkowski, Kaiz Alarakyia, Kevin McKee, Lisa Wang, Markus Kunesch, Mike Schaekermann, Miruna Pîslar, Nikhil Joshi, Parsa Mahmoudieh, Paul Jhun, Sara Wiltberger, Shakir Mohamed, Shashank Agarwal, Shubham Milind Phal, Sun Jae Lee, Theofilos Strinopoulos, Wei-Jen Ko, Amy Wang, Ankit Anand, Avishkar Bhoopchand, Dan Wild, Divya Pandya, Filip Bar, Garth Graham, Holger Winnemoeller, Mahvish Nagda, Prateek Kolhar, Renee Schneider, Shaojian Zhu, Stephanie Chan, Steve Yadlowsky, Viknesh Sounderajah, Yannis Assael

当今的生成式人工智能系统通常被调整为默认呈现信息，而不像人类导师那样与用户互动以促进学习。为了应对这些系统在教育领域的广泛应用需求，我们重新构思了注入教学行为的挑战，将其视为教学指导跟随的问题，其中训练和评估示例包括系统级指导，描述了后续模型回合中存在或期望的特定教学属性。这种框架避免了将我们的模型局限于任何特定的教学定义，而是允许教师或开发人员指定期望的模型行为。这也为改进 Gemini 模型的学习能力铺平了道路，通过将我们的教学数据添加到训练后的混合模型中，同时扩展了它们快速增长的能力集。这两者都代表了与我们最初的技术报告相比的重要变化。我们展示了如何通过教学指导跟随训练产生了一个 LearnLM 模型（可在 Google AI Studio 上获得），在各种学习场景中明显受到专家评分者的青睐，平均偏好强度比 GPT-4o 高出 31%，比 Claude 3.5 高出 11%，比基于 Gemini 1.5 Pro 模型的 LearnLM 高出 13%。

DRT-o1：通过长链推理优化的深度翻译
DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

Dec 23

ByJiaan Wang, Fandong Meng, Yunlong Liang, Jie Zhou

最近，类似于O1的模型已经成为代表性示例，展示了在推理任务（如数学和编码任务）中长思维链（CoT）的有效性。在本文中，我们介绍了DRT-o1，旨在将长CoT的成功引入神经机器翻译（MT）中。具体而言，鉴于可能涉及比喻和隐喻的文学作品，将这些文本翻译成目标语言在实践中非常困难，因为存在文化差异。在这种情况下，逐字翻译通常无法有效传达预期的含义。即使对于专业的人类翻译人员，也必须认真考虑在整个翻译过程中保留语义。为了模拟LLM在MT中的长思维能力，我们首先从现有文学作品中挖掘包含比喻或隐喻的句子，然后开发一个多代理框架来通过长思维翻译这些句子。在多代理框架中，使用一个翻译器来根据顾问提供的建议迭代地翻译源句。为了确保长思维的有效性，还雇用了一个评估器来判断当前轮次的翻译是否比上一轮更好。通过这种方式，我们收集了数万条长思维MT数据，用于训练我们的DRT-o1。文学翻译的实验结果显示了DRT-o1的有效性。使用Qwen2.5-7B和Qwen2.5-14B作为骨干，DRT-o1带来的改进达到了7.33~8.26 BLEU和1.66~3.36 CometScore。此外，DRT-o1-7B可以比QwQ-32B-Preview提高7.82 BLEU和1.46 CometScore，显示了其有效性。该项目可在https://github.com/krystalan/DRT-o1找到。

代码生成的结果细化过程监督
Outcome-Refining Process Supervision for Code Generation

Dec 19

ByZhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang

大型语言模型在代码生成方面展现出卓越的能力，但往往在需要深入算法推理的复杂编程任务中遇到困难。虽然通过学习奖励模型进行过程监督在引导推理步骤方面表现出潜力，但它需要昂贵的训练数据，并且评估不够可靠。我们提出了一种名为“结果细化过程监督”的新范式，将结果细化本身视为需要监督的过程。我们的框架利用具体执行信号来基于推理步骤的监督，同时利用树形探索来同时维护多个解决方案轨迹。实验证明，我们的方法使得即使较小的模型也能在竞争性编程任务中实现高成功准确率和性能指标，比传统奖励模型创造更可靠的验证，而无需训练PRMs。我们的方法在5个模型和3个数据集上取得显著改进：正确性平均提高26.9%，效率提高42.2%。结果表明，为解决复杂编程任务，提供具体验证信号的结构化推理空间至关重要。我们在https://github.com/zhuohaoyu/ORPS 开源了所有代码和数据。

研究城：人类研究社区模拟器
ResearchTown: Simulator of Human Research Community

Dec 23

ByHaofei Yu, Zhaochen Hong, Zirui Cheng, Kunlun Zhu, Keyang Xuan, Jinwei Yao, Tao Feng, Jiaxuan You

大型语言模型（LLMs）在科学领域展现出了显著的潜力，然而一个基本问题仍然没有得到解答：我们能用LLMs模拟人类研究社区吗？解决这个问题可以加深我们对头脑风暴背后的过程的理解，并激发自动发现新科学见解的灵感。在这项工作中，我们提出了ResearchTown，一个用于研究社区模拟的多智能体框架。在这个框架内，人类研究社区被简化并建模为一个智能体-数据图，其中研究人员和论文分别表示为智能体类型和数据类型节点，并根据他们的合作关系连接。我们还引入了TextGNN，一个基于文本的推理框架，将各种研究活动（如阅读论文、撰写论文和审阅写作）建模为在智能体-数据图上的统一消息传递过程的特殊形式。为了评估研究模拟的质量，我们提出了ResearchBench，一个使用节点掩码预测任务进行可伸缩和客观评估的基准。我们的实验揭示了三个关键发现：（1）ResearchTown可以提供对合作研究活动的逼真模拟，包括论文撰写和审阅写作；（2）ResearchTown可以保持与多个研究人员和多样化论文的稳健模拟；（3）ResearchTown可以产生激发新研究方向的跨学科研究思路。

PC代理：当您入睡时，人工智能在工作——数字世界中的认知之旅
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World

Dec 23

ByYanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu

想象一下一个世界，人工智能可以在您睡觉时处理您的工作 - 整理您的研究材料，起草报告，或者制作您明天需要的演示文稿。然而，虽然当前的数字代理可以执行简单的任务，但它们远远不能处理人类经常执行的复杂现实世界工作。我们提出了PC Agent，这是一个通过人类认知转移展示了朝着这一愿景迈出关键一步的人工智能系统。我们的关键洞察是，从执行简单的“任务”到处理复杂的“工作”的路径在于高效地捕获并学习人类在计算机使用过程中的认知过程。为了验证这一假设，我们引入了三个关键创新：（1）PC Tracker，一个轻量级基础设施，可以高效地收集具有完整认知背景的高质量人机交互轨迹；（2）一个两阶段认知完成流水线，通过完成动作语义和思维过程，将原始交互数据转化为丰富的认知轨迹；以及（3）一个多代理系统，结合了用于决策制定的规划代理和用于稳健视觉基础的基础代理。我们在PowerPoint演示文稿创建方面的初步实验表明，通过少量高质量的认知数据，可以实现复杂的数字化工作能力 - 仅仅在133个认知轨迹上训练的PC Agent可以处理涉及多达50个步骤的复杂工作场景，跨越多个应用程序。这展示了我们方法的数据效率，突出了训练有能力的数字代理的关键在于收集人类认知数据。通过开源我们的完整框架，包括数据收集基础设施和认知完成方法，我们的目标是降低研究社区开发真正有能力的数字代理的障碍。

Agent-SafetyBench：评估LLM Agent的安全性
Agent-SafetyBench: Evaluating the Safety of LLM Agents

Dec 19

ByZhexin Zhang, Shiyao Cui, Yida Lu, Jingzhuo Zhou, Junxiao Yang, Hongning Wang, Minlie Huang

随着大型语言模型（LLMs）越来越多地被部署为代理人，它们整合到互动环境和工具使用中引入了新的安全挑战，超越了与模型本身相关的挑战。然而，缺乏用于评估代理人安全性的全面基准构成了有效评估和进一步改进的重要障碍。在本文中，我们介绍Agent-SafetyBench，这是一个旨在评估LLM代理人安全性的全面基准。Agent-SafetyBench包括349个互动环境和2,000个测试用例，评估8类安全风险，并涵盖10种常见的失败模式，这些模式经常在不安全的互动中遇到。我们对16个流行的LLM代理人进行评估，结果令人担忧：没有一个代理人的安全得分超过60％。这突显了LLM代理人中存在的重大安全挑战，并强调了改进的重大需求。通过定量分析，我们确定了关键的失败模式，并总结了当前LLM代理人中两个基本的安全缺陷：缺乏鲁棒性和缺乏风险意识。此外，我们的研究结果表明，仅依赖于防御提示是不足以解决这些安全问题的，强调了更先进和更健壮策略的必要性。我们在https://github.com/thu-coai/Agent-SafetyBench发布了Agent-SafetyBench，以促进代理人安全评估和改进领域的进一步研究和创新。

Friends-MMC：多模多方会话数据集理解
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

Dec 23

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Qun Liu, Dongyan Zhao

多模态多方对话（MMC）是一个研究较少但重要的课题，因为它很好地适应了现实场景，因此潜在地具有更广泛的应用。与传统的多模态对话相比，MMC 需要更强的以角色为中心的理解能力，因为在视觉和文本环境中都会出现许多对话者。为了促进对这一问题的研究，本文提出了Friends-MMC，这是一个包含24,000多个独特话语与视频内容配对的MMC数据集。为了探索对话的以角色为中心的理解，我们还注释了每个话语的发言者、视频中出现的面孔的姓名和边界框。基于这个Friends-MMC数据集，我们进一步研究了两个基本的MMC任务：对话发言者识别和对话回复预测，这两个任务都具有多方性质，视频或图像作为视觉上下文。对于对话发言者识别，我们展示了现有方法（如预训练模型）的低效性，并提出了一种简单而有效的基线方法，利用优化求解器来利用两种模态的上下文以实现更好的性能。对于对话回复预测，我们在Friends-MMC上微调生成式对话模型，并分析了发言者信息的好处。代码和数据集可以在 https://github.com/yellow-binary-tree/Friends-MMC 公开获取，因此我们呼吁更多关注在理解对话时建模发言者信息。

OpenRFT：为领域特定任务调整推理基础模型的强化微调
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning

Dec 22

ByYuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang

OpenAI最近推出的强化微调（RFT）展示了推理基础模型的潜力，并为超越简单模式模仿的微调提供了一种新范式。本技术报告介绍了OpenRFT，我们尝试在与RFT相同的设置下为特定领域任务微调通用推理模型。OpenRFT解决了缺乏推理步骤数据和训练样本数量有限的两个关键挑战，通过三种方式利用特定领域样本：问题增强、合成推理过程数据和少样本ICL。评估在SciKnowEval上进行，OpenRFT仅使用每个任务100个特定领域样本就取得了显著的性能提升。更多实验结果将在后续版本中持续更新。源代码、数据集和模型可在以下链接找到：https://github.com/ADaM-BJTU/OpenRFT

NILE：大型语言模型中的内部一致性对齐
NILE: Internal Consistency Alignment in Large Language Models

Dec 21

ByMinda Hu, Qiyuan Zhang, Yufei Wang, Bowei He, Hongru Wang, Jingyan Zhou, Liangyou Li, Yasheng Wang, Chen Ma, Irwin King

作为增强LLMs与人类意图一致性的关键步骤，指令微调（IFT）对数据集质量有很高的要求。然而，现有的IFT数据集通常包含与LLMs从预训练阶段学习到的内部知识不一致的知识，这可能严重影响IFT的有效性。为解决这一问题，我们引入了NILE（内部一致性对齐）框架，旨在优化IFT数据集以进一步释放LLMs的能力。NILE通过引出目标预训练LLM的内部知识，与指令数据相对应。利用内部知识修订IFT数据集中的答案。此外，我们提出了一种新颖的内部一致性过滤（ICF）方法来过滤训练样本，确保其与LLM的内部知识高度一致。我们的实验表明，与NILE对齐的IFT数据集显著提升了LLM在多个LLM能力评估数据集上的性能，Arena-Hard提升高达66.6%， Alpaca-Eval V2提升68.5%。进一步分析证实NILE框架的每个组件都有助于这些显著性能改进，并提供了有力证据，即与预训练内部知识一致的数据集对于最大化LLM潜力至关重要。

OpenAI o1 系统卡
OpenAI o1 System Card

Dec 21