HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

10 papers found

DSBench：数据科学代理人离成为数据科学专家还有多远？
DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?

Sep 12

ByLiqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu

大型语言模型（LLMs）和大型视觉语言模型（LVLMs）展示了令人印象深刻的语言/视觉推理能力，引发了构建针对特定应用的代理程序的最新趋势，例如购物助手或人工智能软件工程师。最近，许多数据科学基准已被提出，以调查它们在数据科学领域的表现。然而，与真实世界的数据科学应用相比，现有的数据科学基准仍然存在不足，因为它们的设置过于简化。为了弥合这一差距，我们引入了DSBench，一个旨在评估具有现实任务的数据科学代理的全面基准。该基准包括466个数据分析任务和74个数据建模任务，这些任务来自Eloquence和Kaggle竞赛。DSBench通过包含长上下文、多模态任务背景、处理大型数据文件和多表结构的推理，以及执行端到端数据建模任务，提供了一个真实的设置。我们对最先进的LLMs、LVLMs和代理的评估表明，它们在大多数任务上都存在困难，最佳代理仅解决了34.12%的数据分析任务，并实现了34.74%的相对性能差距（RPG）。这些发现强调了在开发更实用、智能和自主的数据科学代理方面需要进一步的进展。

Windows Agent Arena: 在规模上评估多模态操作系统代理
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

Sep 12

ByRogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui

大型语言模型（LLMs）展现出显著潜力，可以作为计算机代理，增强人类在需要规划和推理的多模态任务中的生产力和软件可访问性。然而，在现实环境中衡量代理性能仍然是一个挑战，因为：（i）大多数基准测试局限于特定模态或领域（例如仅文本、Web导航、问答、编码等），（ii）全面的基准评估由于任务的多步骤顺序性质而变得缓慢（需要数天的时间量级）。为了解决这些挑战，我们介绍了Windows Agent Arena：一个可复现的通用环境，专注于Windows操作系统（OS），代理可以在真实的Windows OS中自由操作，并在解决任务时使用与人类用户相同的广泛应用程序、工具和Web浏览器。我们改编了OSWorld框架（Xie等，2024年），创建了150多个跨代表性领域的多样化Windows任务，这些任务需要代理在规划、屏幕理解和工具使用方面的能力。我们的基准测试具有可扩展性，并可以在Azure中轻松并行化，以在短短20分钟内进行全面的基准评估。为展示Windows Agent Arena的能力，我们还介绍了一个新的多模态代理Navi。我们的代理在Windows领域的成功率为19.5%，而无人协助的人类表现为74.5%。Navi还展示了在另一个流行的基于Web的基准测试Mind2Web上的良好表现。我们提供了对Navi性能的广泛定量和定性分析，并就未来在代理开发和使用Windows Agent Arena进行数据生成方面的研究机会提供了见解。网页：https://microsoft.github.io/WindowsAgentArena 代码：https://github.com/microsoft/WindowsAgentArena

LLM能够生成新颖的研究思路吗？一项涵盖100多名自然语言处理研究人员的大规模人类研究
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

Sep 6

ByChenglei Si, Diyi Yang, Tatsunori Hashimoto

最近大型语言模型（LLMs）的进展引发了人们对其加速科学发现潜力的乐观情绪，越来越多的研究提出了研究代理人，这些代理人可以自主生成和验证新想法。尽管如此，尚无评估表明LLM系统能够迈出生成新颖、专家级别想法的第一步，更不用说执行整个研究过程了。我们通过建立一个实验设计来评估研究想法生成，同时控制混杂因素，并首次对比了专家自然语言处理研究人员和一个LLM构想代理人。通过招募100多名自然语言处理研究人员撰写新颖想法，并对LLM和人类想法进行盲审，我们得出了关于当前LLM在研究构想方面能力的第一个具有统计学意义的结论：我们发现LLM生成的想法被认为比人类专家想法更具新颖性（p < 0.05），同时在可行性上略显不足。通过仔细研究我们的代理人基线，我们确定了在构建和评估研究代理人时的一些问题，包括LLM自我评估的失败以及它们在生成中缺乏多样性。最后，我们承认即使对专家而言，新颖性的人类判断可能很困难，并提出了一个端到端的研究设计，招募研究人员将这些想法执行成完整项目，使我们能够研究这些新颖性和可行性判断是否会导致研究结果上的有意义差异。

IFAdapter：基于实例特征控制的文本到图像生成
IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation

Sep 12

ByYinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang

虽然文本到图像（T2I）扩散模型擅长生成单个实例的视觉吸引力图像，但在准确定位和控制多个实例的特征生成方面存在困难。布局到图像（L2I）任务旨在通过将边界框作为空间控制信号来解决定位挑战，但在生成精确实例特征方面仍有不足。为此，我们提出了实例特征生成（IFG）任务，旨在确保生成实例时的位置准确性和特征保真度。为解决IFG任务，我们引入了实例特征适配器（IFAdapter）。IFAdapter通过整合额外的外观标记并利用实例语义地图来对齐实例级特征与空间位置，增强了特征描述。IFAdapter作为即插即用模块引导了扩散过程，使其适用于各种社区模型。为了评估，我们贡献了一个IFG基准，并开发了一个验证流程，客观比较模型生成具有准确位置和特征的实例的能力。实验结果表明，IFAdapter在定量和定性评估中均优于其他模型。

Source2Synth：基于真实数据源的合成数据生成与整理
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources

Sep 12

ByAlisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli

大型语言模型在涉及结构化数据、复杂推理或工具使用等具有挑战性的场景中仍然面临困难。在本文中，我们提出了Source2Synth：一种新方法，可用于教授LLM学习新技能，而无需依赖昂贵的人工注释。Source2Synth接受自定义数据源作为输入，并生成具有基于真实世界来源的中间推理步骤的合成数据点。Source2Synth通过丢弃根据可回答性的低质量生成来改善数据集质量。我们通过将该方法应用于两个具有挑战性的领域来展示此方法的普适性：我们测试多跳问题回答（MHQA）中的推理能力，以及表格问题回答（TQA）中的工具使用。与微调基线相比，我们的方法使WikiSQL上的TQA性能提高了25.51％，HotPotQA上的MHQA性能提高了22.57％。

TextBoost：通过微调文本编码器实现文本到图像模型的一次性个性化
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder

Sep 12

ByNaHyeon Park, Kunhee Kim, Hyunjung Shim

最近在文本到图像模型方面取得的突破性进展为个性化图像生成开辟了前景广阔的研究途径，使用户能够利用自然语言提示创建特定主题的多样化图像。然而，现有方法在仅提供单个参考图像时往往会出现性能下降的问题。它们往往会过度拟合输入，产生高度相似的输出，而不考虑文本提示。本文解决了一次性个性化的挑战，通过减轻过度拟合，实现了通过文本提示创建可控图像。具体而言，我们提出了一种专注于文本编码器的选择性微调策略。此外，我们引入了三种关键技术来提高个性化性能：(1) 增强标记以促进特征解耦和减轻过度拟合，(2) 知识保留损失以减少语言漂移并促进在不同提示之间的泛化能力，以及 (3) 信噪比加权采样以进行高效训练。大量实验证明，我们的方法能够高效生成高质量、多样化的图像，仅使用单个参考图像，同时显著减少内存和存储需求。

DreamHOI：基于主体驱动的扩散先验生成3D人体物体交互
DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors

Sep 12

ByThomas Hanwen Zhu, Ruining Li, Tomas Jakab

我们提出了DreamHOI，这是一种用于零样本合成人-物互动（HOIs）的新方法，使3D人体模型能够根据文本描述与任何给定物体进行逼真互动。这一任务由于现实世界物体的不同类别和几何形状的复杂性，以及包含多样化HOIs的数据集的稀缺性而变得复杂。为了避免对大量数据的需求，我们利用在数十亿图像-标题对上训练的文本到图像扩散模型。我们通过从这些模型中获得的Score Distillation Sampling（SDS）梯度来优化一个经过皮肤处理的人体网格的表达，这些梯度预测图像空间的编辑。然而，直接将图像空间梯度反向传播到复杂的表达参数是无效的，因为这些梯度的局部性质。为了克服这一问题，我们引入了一个皮肤网格的双隐式-显式表示，将（隐式）神经辐射场（NeRFs）与（显式）骨骼驱动的网格表达相结合。在优化过程中，我们在隐式和显式形式之间过渡，使NeRF生成与网格表达精细调节相结合。我们通过大量实验证实了我们的方法，展示了其在生成逼真HOIs方面的有效性。

PiTe：用于大型视频-语言模型的像素-时间对齐
PiTe: Pixel-Temporal Alignment for Large Video-Language Model

Sep 11

ByYang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang

受大型语言模型（LLMs）浪潮的推动，大型视觉语言模型（LVLMs）已经成为一个重要的进步，弥合了图像和文本之间的差距。然而，由于语言和时空数据结构之间关系的复杂性，视频使得LVLMs难以表现出色。最近的大型视频语言模型（LVidLMs）通过将静态视觉数据的特征（如图像）与语言特征的潜在空间进行对齐，通过通用的多模态任务充分利用LLMs的能力。在本文中，我们通过物体轨迹探索了一种细粒度对齐方法，同时跨越空间和时间维度的不同模态。因此，我们提出了一种新颖的LVidLM，通过轨迹引导的像素-时间对齐，命名为PiTe，展现出有前景的适用模型特性。为了实现细粒度的视频语言对齐，我们策划了一个多模态预训练数据集 PiTe-143k，该数据集提供了视频中出现并在标题中提及的所有个体物体的像素级移动轨迹，通过我们的自动注释流程。同时，PiTe在众多与视频相关的多模态任务上展现出惊人的能力，大幅领先于现有技术方法。

FlashSplat：二维到三维的高斯点云分割的最优解
FlashSplat: 2D to 3D Gaussian Splatting Segmentation Solved Optimally

Sep 12

ByQiuhong Shen, Xingyi Yang, Xinchao Wang

本研究解决了准确分割3D高斯点云从2D掩模的挑战。传统方法通常依赖于迭代梯度下降来为每个高斯分配唯一标签，导致优化时间长且解决方案次优。相反，我们提出了一个简单而全局最优的3D高斯点云分割求解器。我们方法的核心洞察力在于，通过重建的3D高斯点云场景，2D掩模的渲染基本上是一个线性函数，关于每个高斯的标签。因此，最优标签分配可以通过封闭形式的线性规划来解决。该解决方案利用了高斯点云渲染过程的alpha混合特性，实现了单步优化。通过在目标函数中结合背景偏差，我们的方法在3D分割中展现出对噪声的卓越鲁棒性。值得注意的是，我们的优化在30秒内完成，比最佳现有方法快约50倍。大量实验证明了我们方法在分割各种场景中的效率和鲁棒性，以及在对象去除和修补等下游任务中的卓越性能。演示和代码将在https://github.com/florinshen/FlashSplat 上提供。

基于基础模型，离群目标检测器能学习吗？
Can OOD Object Detectors Learn from Foundation Models?

Sep 8

ByJiahui Liu, Xin Wen, Shizhen Zhao, Yingxian Chen, Xiaojuan Qi

由于缺乏开放式OOD数据，OOD（Out-of-distribution）目标检测是一项具有挑战性的任务。受最近文本到图像生成模型（如稳定扩散）的进展启发，我们研究了在大规模开放式数据集上训练的生成模型潜力，用于合成OOD样本，从而增强OOD目标检测。我们引入了SyncOOD，这是一种简单的数据整理方法，利用大型基础模型的能力，从文本到图像生成模型中自动提取有意义的OOD数据。这为模型提供了访问商业基础模型中封装的开放世界知识的能力。然后利用这些合成的OOD样本来增强训练轻量级、即插即用的OOD检测器，从而有效优化内分布（ID）/OOD决策边界。在多个基准测试中进行的大量实验表明，SyncOOD明显优于现有方法，以最少的合成数据使用实现了新的最先进性能。

Windows Agent Arena: 在规模上评估多模态操作系统代理
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

Sep 12

ByRogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui