AI研究论文每日精选

每日精选AI研究论文及翻译

Fine-Tuning批判：学会批判比学会模仿更有效
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Jan 29

ByYubo Wang, Xiang Yue, Wenhu Chen

监督微调（SFT）通常用于训练语言模型模仿给定指令的注释响应。在本文中，我们挑战这一范式，并提出批判性微调（CFT），这是一种策略，模型学习批判性地分析嘈杂的响应，而不仅仅是简单地模仿正确的响应。受强调批判性思维的人类学习过程的启发，CFT鼓励更深入的分析和细致的理解，这些特征常常被标准SFT忽视。为了验证CFT的有效性，我们从WebInstruct构建了一个包含5万个样本的数据集，使用GPT-4o作为教师生成批评，形式为（输入=[查询；嘈杂响应]，输出=批评）。在这个数据集上进行的CFT相对于六个数学基准测试中的不同基础模型（如Qwen2.5、Qwen2.5-Math和DeepSeek-Math）的SFT表现出了一致的4-10%的改进。我们进一步扩展到MetaMath和NuminaMath数据集，并观察到相对于SFT的类似增益。值得注意的是，我们的Qwen2.5-Math-CFT模型仅在5万个样本上训练，与使用超过2百万个样本的竞争模型AceMath和Qwen2.5-Math-Instruct在大多数基准测试中相匹敌或表现更好。消融研究表明，CFT对嘈杂响应来源和教师批评模型具有鲁棒性。通过这些发现，我们认为基于批评的训练提供了一个更有效的选择，以推进语言模型的推理能力。

Atla Selene Mini：通用评估模型
Atla Selene Mini: A General Purpose Evaluation Model

Jan 27

ByAndrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park

我们介绍了Atla Selene Mini，一种最先进的小型语言模型评判器（SLMJ）。Selene Mini是一种通用评估器，在跨越11个超出分布范围的基准测试中，包括绝对评分、分类和成对偏好任务，表现优于最佳的SLMJ和GPT-4o-mini。它是RewardBench上得分最高的8B生成模型，超过了像GPT-4o和专门评判器这样的强基准。为了实现这一目标，我们开发了一种原则性的数据筛选策略，通过合成生成的评论增强公共数据集，并通过过滤和数据集消融确保高质量。我们使用结合了直接偏好优化（DPO）和监督微调（SFT）损失的训练模型，并产生了一个在现实场景中表现出色的高度可提示的评估器。Selene Mini在金融和医疗行业数据集上与人类专家评估的零样本一致性显著提高。它还对提示格式的变化具有鲁棒性。初步结果表明，Selene Mini在一个实时、社区驱动的评判竞技场中是排名最高的评估器。我们在HuggingFace（https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B）和Ollama上发布了模型权重，以鼓励广泛的社区采用。

探讨人工智能可持续扩展困境：对企业人工智能环境影响的前瞻性研究
Exploring the sustainable scaling of AI dilemma: A projective study of corporations' AI environmental impacts

Jan 24

ByClément Desroches, Martin Chauvin, Louis Ladan, Caroline Vateau, Simon Gosset, Philippe Cordier

人工智能（AI）的快速增长，特别是大型语言模型（LLMs），引发了对其全球环境影响的担忧，这超出了温室气体排放的范围，还包括对硬件制造和终端处理过程的考虑。主要供应商的不透明度阻碍了公司评估其与AI相关的环境影响并实现净零目标的能力。本文提出了一种方法论，用于估算公司AI组合的环境影响，提供可操作的见解，无需广泛的AI和生命周期评估（LCA）专业知识。结果证实，大型生成式AI模型的能耗可高达传统模型的4600倍。我们的建模方法考虑了增加的AI使用量、硬件计算效率以及与IPCC情景一致的电力混合变化，预测到2030年AI的用电量。在一个高采用情景下，由广泛采用生成式AI和代理人采用引发的与日俱增的复杂模型和框架相关，预计AI的用电量将增加24.4倍。到2030年，减轻生成式AI的环境影响需要AI价值链上的协调努力。单独采取的硬件效率、模型效率或电网改进措施是不够的。我们主张采用标准化的环境评估框架，要求AI价值链的所有参与者更加透明，并引入“环境回报”指标，以使AI发展与净零目标保持一致。

Any2AnyTryon：利用自适应位置嵌入进行多功能虚拟服装任务
Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks

Jan 27

ByHailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu

基于图像的虚拟试穿（VTON）旨在通过将输入服装转移到目标人物图像上生成虚拟试穿结果。然而，由于缺乏配对的服装-模特数据，现有方法很难在VTON中实现高泛化和质量。这也限制了生成无遮罩试穿的能力。为了解决数据稀缺问题，诸如稳定服装和MMTryon等方法采用了合成数据策略，有效增加了模特一侧的配对数据量。然而，现有方法通常局限于执行特定的试穿任务，并且缺乏用户友好性。为了增强VTON生成的泛化性和可控性，我们提出了Any2AnyTryon，可以根据不同的文本指令和模特服装图像生成试穿结果，以满足各种需求，消除了对口罩、姿势或其他条件的依赖。具体而言，我们首先构建了虚拟试穿数据集LAION-Garment，这是已知规模最大的开源服装试穿数据集。然后，我们引入自适应位置嵌入，使模型能够根据不同尺寸和类别的输入图像生成令人满意的穿戴模特图像或服装图像，从而显著提高了VTON生成的泛化性和可控性。在我们的实验中，我们展示了Any2AnyTryon的有效性，并将其与现有方法进行了比较。结果显示，Any2AnyTryon实现了灵活、可控和高质量的基于图像的虚拟试穿生成。

经常使用ChatGPT进行写作任务的人是对人工智能生成文本的准确和稳健的检测器。
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

Jan 26

ByJenna Russell, Marzena Karpinska, Mohit Iyyer

本文研究人类在检测商用LLMs（GPT-4o，Claude，o1）生成的文本方面的表现。我们雇佣标注者阅读了300篇非虚构英文文章，将它们标记为人类撰写或AI生成，并为他们的决定提供段落长度的解释。我们的实验表明，经常使用LLMs进行写作任务的标注者在检测AI生成文本方面表现出色，即使没有接受任何专门的培训或反馈。事实上，五位这样的“专家”标注者中的多数意见仅将300篇文章中的1篇误分类，明显优于我们评估的大多数商用和开源检测器，即使存在改写和人性化等规避策略。对专家们自由形式解释的定性分析显示，他们虽然在很大程度上依赖特定的词汇线索（'AI词汇'），但也注意到文本中更复杂的现象（例如，正式性，独创性，清晰度），这对于自动检测器来说是具有挑战性的。我们发布了我们的标注数据集和代码，以促进未来对人类和自动检测AI生成文本的研究。

OpenAI 的 o3-mini 早期外部安全测试：来自部署前评估的见解
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation

Jan 29

ByAitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

大型语言模型（LLMs）已经成为我们日常生活中不可或缺的一部分。然而，它们带来了一定的风险，包括可能损害个人隐私、持续存在偏见并传播错误信息。这些风险突显了确保其负责任部署所需的强大安全机制、伦理准则和彻底测试的重要性。LLMs的安全性是一个需要在模型部署和向普通用户提供之前进行彻底测试的关键属性。本文报告了蒙德拉贡大学和塞维利亚大学研究人员在OpenAI的o3-mini LLM上进行的外部安全性测试经验，作为OpenAI早期安全性测试计划的一部分。具体来说，我们使用我们的工具ASTRAL，自动生成并系统地生成最新的不安全测试输入（即提示），帮助我们测试和评估LLMs的不同安全类别。我们在早期o3-mini测试版上自动生成并执行了总共10,080个不安全测试输入。在手动验证ASTRAL分类为不安全的测试用例后，我们确定了共计87个不安全LLM行为的实际实例。我们突出了在OpenAI最新LLM的部署前外部测试阶段发现的关键见解和发现。

病毒：绕过护栏调控的大型语言模型有害微调攻击
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation

Jan 29

ByTiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu

最近的研究表明，大型语言模型（LLMs）容易受到有害微调攻击的影响——在少量有害样本上进行微调后，模型会失去其安全对齐能力。为了降低风险，通常会使用防护栏来在微调之前过滤掉有害样本。通过设计一种新的红队方法，本文展示了仅依赖于调节防护栏进行数据过滤是不可靠的。我们提出的攻击方法被称为“病毒”，可以轻松地绕过防护栏的调节，通过轻微修改有害数据。实验结果表明，通过“病毒”优化的有害数据在高达100\%泄漏比率的情况下无法被防护栏检测到，并且可以同时实现更优越的攻击性能。最后，我们通过本文要传达的关键信息是：认为防护栏调节可以解决预训练LLMs固有的安全问题是不负责任的。我们的代码可在https://github.com/git-disl/Virus找到。

AI研究论文每日精选

每日精选AI研究论文及翻译

Fine-Tuning批判：学会批判比学会模仿更有效
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Jan 29

ByYubo Wang, Xiang Yue, Wenhu Chen

Atla Selene Mini：通用评估模型
Atla Selene Mini: A General Purpose Evaluation Model

Jan 27

ByAndrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park

探讨人工智能可持续扩展困境：对企业人工智能环境影响的前瞻性研究
Exploring the sustainable scaling of AI dilemma: A projective study of corporations' AI environmental impacts

Jan 24

ByClément Desroches, Martin Chauvin, Louis Ladan, Caroline Vateau, Simon Gosset, Philippe Cordier

Any2AnyTryon：利用自适应位置嵌入进行多功能虚拟服装任务
Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks

Jan 27

ByHailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu

经常使用ChatGPT进行写作任务的人是对人工智能生成文本的准确和稳健的检测器。
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

Jan 26

ByJenna Russell, Marzena Karpinska, Mohit Iyyer

OpenAI 的 o3-mini 早期外部安全测试：来自部署前评估的见解
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation

Jan 29

ByAitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

病毒：绕过护栏调控的大型语言模型有害微调攻击
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation

Jan 29

ByTiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu