ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

DSBench: Hoe ver zijn data science agenten verwijderd van het worden van data science experts?
DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?

Sep 12
ByLiqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu
67
5

Grote Taalmodellen (LLM's) en Grote Visie-Taalmodellen (LVLM's) hebben indrukwekkende taal-/visie-redeneervaardigheden aangetoond, wat de recente trend heeft aangewakkerd van het bouwen van agenten voor gerichte toepassingen zoals winkelassistenten of AI-software-ingenieurs. Onlangs zijn er veel gegevenswetenschappelijke benchmarks voorgesteld om hun prestaties in het domein van gegevenswetenschap te onderzoeken. Echter, bestaande gegevenswetenschappelijke benchmarks schieten nog tekort in vergelijking met echte gegevenswetenschappelijke toepassingen vanwege hun vereenvoudigde instellingen. Om deze kloof te overbruggen, introduceren we DSBench, een uitgebreide benchmark ontworpen om gegevenswetenschappelijke agenten te evalueren met realistische taken. Deze benchmark omvat 466 gegevensanalysetaken en 74 gegevensmodelleringstaken, afkomstig van Eloquence en Kaggle-competities. DSBench biedt een realistische setting door lange contexten, multimodale taakachtergronden, redeneren met grote databestanden en multi-tabelstructuren, en het uitvoeren van end-to-end gegevensmodelleringstaken te omvatten. Onze evaluatie van toonaangevende LLM's, LVLM's en agenten toont aan dat ze moeite hebben met de meeste taken, waarbij de beste agent slechts 34,12% van de gegevensanalysetaken oplost en een 34,74% Relatieve Prestatiekloof (RPG) behaalt. Deze bevindingen benadrukken de noodzaak van verdere vooruitgang in de ontwikkeling van meer praktische, intelligente en autonome gegevenswetenschappelijke agenten.

2

Windows Agent Arena: Evaluatie van Multi-Modale Besturingssysteemagenten op Schaal
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

Sep 12
ByRogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui
48
2

Grote taalmodellen (LLM's) tonen opmerkelijk potentieel om op te treden als computeragenten, waardoor menselijke productiviteit en softwaretoegankelijkheid worden verbeterd in multimodale taken die planning en redenering vereisen. Het meten van de prestaties van agenten in realistische omgevingen blijft echter een uitdaging, aangezien: (i) de meeste benchmarks beperkt zijn tot specifieke modaliteiten of domeinen (bijv. alleen tekst, webnavigatie, vraag en antwoord, codering) en (ii) volledige benchmarkevaluaties traag zijn (op de orde van grootte van dagen) gezien de meerstaps sequentiële aard van taken. Om deze uitdagingen aan te pakken, introduceren we de Windows Agent Arena: een reproduceerbare, algemene omgeving die zich uitsluitend richt op het Windows-besturingssysteem (OS) waar agenten vrij kunnen opereren binnen een echt Windows OS en dezelfde brede scala aan applicaties, tools en webbrowsers kunnen gebruiken die beschikbaar zijn voor menselijke gebruikers bij het oplossen van taken. We passen het OSWorld-framework (Xie et al., 2024) aan om meer dan 150 diverse Windows-taken te creëren over representatieve domeinen die agentcapaciteiten vereisen op het gebied van planning, schermbegrip en het gebruik van tools. Onze benchmark is schaalbaar en kan naadloos parallel worden uitgevoerd in Azure voor een volledige benchmarkevaluatie in slechts 20 minuten. Om de mogelijkheden van Windows Agent Arena te demonstreren, introduceren we ook een nieuwe multimodale agent, Navi. Onze agent behaalt een succespercentage van 19,5% in het Windows-domein, vergeleken met een prestatie van 74,5% van een ongeassisteerde mens. Navi toont ook sterke prestaties op een ander populair op het web gebaseerde benchmark, Mind2Web. We bieden uitgebreide kwantitatieve en kwalitatieve analyse van de prestaties van Navi, en geven inzichten in de mogelijkheden voor toekomstig onderzoek op het gebied van agentontwikkeling en gegevensgeneratie met behulp van Windows Agent Arena. Webpagina: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena

3

Kunnen LLM's nieuwe onderzoeksideeën genereren? Een grootschalige menselijke studie met meer dan 100 NLP-onderzoekers.
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

Sep 6
ByChenglei Si, Diyi Yang, Tatsunori Hashimoto
48
3

Recente ontwikkelingen in grote taalmodellen (LLM's) hebben optimisme aangewakkerd over hun potentieel om wetenschappelijke ontdekkingen te versnellen, met een groeiend aantal werken die onderzoeksagenten voorstellen die autonoom nieuwe ideeën genereren en valideren. Ondanks dit hebben nog geen evaluaties aangetoond dat LLM-systemen de allereerste stap kunnen zetten om nieuwe, expertniveau-ideeën te produceren, laat staan ​​het volledige onderzoeksproces uitvoeren. We pakken dit aan door een experimenteel ontwerp op te zetten dat onderzoeksideeën evalueert terwijl confounders worden gecontroleerd en de eerste directe vergelijking uitvoert tussen expert NLP-onderzoekers en een LLM-ideeëngenerator. Door meer dan 100 NLP-onderzoekers te werven om nieuwe ideeën te schrijven en blinde beoordelingen uit te voeren van zowel LLM- als menselijke ideeën, verkrijgen we de eerste statistisch significante conclusie over de huidige mogelijkheden van LLM's voor onderzoeksconceptie: we vinden dat door LLM gegenereerde ideeën als meer nieuw worden beoordeeld (p < 0,05) dan menselijke expertideeën, terwijl ze iets zwakker worden beoordeeld op haalbaarheid. Door onze agent-baselines nauwkeurig te bestuderen, identificeren we open problemen bij het bouwen en evalueren van onderzoeksagenten, inclusief tekortkomingen in zelfevaluatie van LLM's en hun gebrek aan diversiteit in generatie. Tot slot erkennen we dat menselijke beoordelingen van nieuwheid moeilijk kunnen zijn, zelfs door experts, en stellen we een end-to-end onderzoeksontwerp voor waarbij onderzoekers worden geworven om deze ideeën uit te voeren tot volledige projecten, waardoor we kunnen onderzoeken of deze beoordelingen van nieuwheid en haalbaarheid resulteren in betekenisvolle verschillen in onderzoeksresultaten.

4

IFAdapter: Instantiekenmerkbeheer voor Gecontextualiseerde Tekst-naar-Afbeelding Generatie
IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation

Sep 12
ByYinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang
22
2

Hoewel Text-to-Image (T2I) diffusiemodellen uitblinken in het genereren van visueel aantrekkelijke afbeeldingen van individuele instanties, hebben ze moeite om de kenmerken van meerdere instanties nauwkeurig te positioneren en te controleren. De Layout-to-Image (L2I) taak werd geïntroduceerd om de positioneringsuitdagingen aan te pakken door begrenzingskaders op te nemen als ruimtelijke controle signalen, maar het blijft tekortschieten in het genereren van nauwkeurige instantiekenmerken. Als reactie hierop stellen we de Instantiekenmerkgeneratie (IFG) taak voor, die tot doel heeft zowel positionele nauwkeurigheid als kenmerkgetrouwheid te waarborgen bij gegenereerde instanties. Om de IFG-taak aan te pakken, introduceren we de Instantiekenmerkadapter (IFAdapter). De IFAdapter verbetert de kenmerkweergave door extra verschijningstokens op te nemen en een Instantie Semantische Kaart te gebruiken om instantieniveaukenmerken af te stemmen op ruimtelijke locaties. De IFAdapter begeleidt het diffusieproces als een plug-and-play module, waardoor het aanpasbaar is aan verschillende gemeenschapsmodellen. Voor evaluatie dragen we bij aan een IFG benchmark en ontwikkelen we een verificatiepijplijn om objectief modellen te vergelijken op hun vermogen om instanties te genereren met nauwkeurige positionering en kenmerken. Experimentele resultaten tonen aan dat de IFAdapter andere modellen overtreft in zowel kwantitatieve als kwalitatieve evaluaties.

5

Source2Synth: Generatie en Curatie van Synthetische Data Gebaseerd op Echte Databronnen
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources

Sep 12
ByAlisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli
21
2

Grote Taalmodellen worstelen nog steeds in uitdagende scenario's die gebruikmaken van gestructureerde data, complex redeneren of gereedschappen. In dit artikel stellen we Source2Synth voor: een nieuwe methode die kan worden gebruikt om LLMs nieuwe vaardigheden aan te leren zonder te vertrouwen op kostbare menselijke annotaties. Source2Synth neemt een aangepaste databron als input en produceert synthetische datapunten met tussenliggende redeneringsstappen gebaseerd op bronnen uit de echte wereld. Source2Synth verbetert de datasetkwaliteit door lage kwaliteit generaties te verwerpen op basis van hun beantwoordbaarheid. We tonen de algemeenheid van deze aanpak aan door deze toe te passen op twee uitdagende domeinen: we testen redeneervaardigheden in multi-hop vraagbeantwoording (MHQA) en gereedschapsgebruik in tabulaire vraagbeantwoording (TQA). Onze methode verbetert de prestaties met 25.51% voor TQA op WikiSQL en 22.57% voor MHQA op HotPotQA in vergelijking met de fijnafgestemde baselines.

6

TextBoost: Naar Eénmalige Personalisatie van Tekst-naar-Afbeelding Modellen via Fijnafstemming van Tekst Encoder
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder

Sep 12
ByNaHyeon Park, Kunhee Kim, Hyunjung Shim
16
4

Recente doorbraken in tekst-naar-afbeelding modellen hebben veelbelovende onderzoeksrichtingen geopend in gepersonaliseerde afbeeldingsgeneratie, waardoor gebruikers diverse afbeeldingen van een specifiek onderwerp kunnen maken met behulp van natuurlijke taal aanwijzingen. Echter, bestaande methoden hebben vaak last van prestatievermindering wanneer slechts één referentieafbeelding wordt gegeven. Ze hebben de neiging om zich te veel aan te passen aan de invoer, waardoor ze zeer vergelijkbare resultaten produceren ongeacht de tekst aanwijzing. Dit artikel richt zich op de uitdaging van personalisatie met één opname door overaanpassing te verminderen, waardoor de creatie van controleerbare afbeeldingen via tekst aanwijzingen mogelijk wordt. Specifiek stellen we een selectieve fijnafstemmingsstrategie voor die zich richt op de tekstencoder. Bovendien introduceren we drie belangrijke technieken om de prestaties van personalisatie te verbeteren: (1) augmentatietokens om kenmerkontvlechting aan te moedigen en overaanpassing te verlichten, (2) een kennisbehoudverlies om taalafwijking te verminderen en generaliseerbaarheid over diverse aanwijzingen te bevorderen, en (3) SNR-gewogen bemonstering voor efficiënte training. Uitgebreide experimenten tonen aan dat onze aanpak efficiënt hoogwaardige, diverse afbeeldingen genereert met slechts één referentieafbeelding, terwijl geheugen- en opslagvereisten aanzienlijk worden verminderd.

7

DreamHOI: Onderwerpsgestuurde Generatie van 3D Mens-Object Interacties met Diffusie Priors
DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors

Sep 12
ByThomas Hanwen Zhu, Ruining Li, Tomas Jakab
15
3

We presenteren DreamHOI, een nieuwe methode voor zero-shot synthese van mens-object interacties (HOIs), waardoor een 3D menselijk model realistisch kan interageren met elk gegeven object op basis van een tekstuele beschrijving. Deze taak wordt gecompliceerd door de variërende categorieën en geometrieën van echte objecten en de schaarste aan datasets die diverse HOIs omvatten. Om de noodzaak van uitgebreide data te omzeilen, maken we gebruik van tekst-naar-afbeelding diffusiemodellen die zijn getraind op miljarden afbeelding-onderschrift paren. We optimaliseren de articulatie van een gehuid menselijk mesh met behulp van Score Distillation Sampling (SDS) gradiënten verkregen uit deze modellen, die afbeeldingsruimte bewerkingen voorspellen. Echter, direct terugpropageren van afbeeldingsruimte gradiënten naar complexe articulatieparameters is ineffectief vanwege de lokale aard van dergelijke gradiënten. Om dit te overwinnen, introduceren we een dubbele impliciete-expliciete representatie van een gehuid mesh, waarbij (impliciete) neurale radiance fields (NeRFs) worden gecombineerd met (expliciete) door skelet aangedreven mesh articulatie. Tijdens de optimalisatie schakelen we tussen impliciete en expliciete vormen, waarbij we de NeRF generatie gronden terwijl we de mesh articulatie verfijnen. We valideren onze aanpak via uitgebreide experimenten, waarbij we de effectiviteit ervan aantonen in het genereren van realistische HOIs.

8

PiTe: Pixel-Temporale Afstemming voor Grote Video-Taalmodel
PiTe: Pixel-Temporal Alignment for Large Video-Language Model

Sep 11
ByYang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
15
2

Aangewakkerd door de golf van Grote Taalmodellen (LLM's) zijn Grote Visueel-Taalmodellen (LVLM's) naar voren gekomen als een cruciale vooruitgang, waarbij het gat tussen beeld en tekst wordt overbrugd. Echter, video maakt het uitdagend voor LVLM's om adequaat te presteren vanwege de complexiteit van de relatie tussen taal en ruimtelijk-temporele gegevensstructuur. Recentelijk richten Grote Video-Taalmodellen (LVidLM's) kenmerken van statische visuele gegevens zoals beeld uit naar de latente ruimte van taalkenmerken, door algemene multimodale taken uit te voeren om de capaciteiten van LLM's voldoende te benutten. In dit artikel verkennen we een fijnmazige uitlijningsbenadering via objecttraject voor verschillende modaliteiten over zowel ruimtelijke als temporele dimensies tegelijk. Daarom stellen we een nieuw LVidLM voor door middel van trajectgeleide Pixel-Temporele Uitlijning, genaamd PiTe, dat veelbelovende toepasbare model eigenschappen vertoont. Om fijnmazige video-taaluitlijning te bereiken, stellen we een multimodaal vooraf trainingsdataset PiTe-143k samen, waarbij de dataset bewegingstrajecten op pixelniveau bevat voor alle individuele objecten die zowel in de video als de onderschrift verschijnen en genoemd worden, via ons automatische annotatiepijplijn. Ondertussen toont PiTe verbazingwekkende capaciteiten op tal van video-gerelateerde multimodale taken door de state-of-the-art methoden ver voorbij te streven.

9

FlashSplat: 2D naar 3D Gaussisch Splatting Segmentatie Optimaal Opgelost
FlashSplat: 2D to 3D Gaussian Splatting Segmentation Solved Optimally

Sep 12
ByQiuhong Shen, Xingyi Yang, Xinchao Wang
12
2

Deze studie behandelt de uitdaging van het nauwkeurig segmenteren van 3D Gaussian Splatting vanuit 2D maskers. Conventionele methoden vertrouwen vaak op iteratieve gradiëntdaling om elke Gaussian een uniek label toe te wijzen, wat leidt tot langdurige optimalisatie en suboptimale oplossingen. In plaats daarvan stellen we een eenvoudige maar globaal optimale solver voor 3D-GS segmentatie voor. Het kerninzicht van onze methode is dat, met een gereconstrueerde 3D-GS scène, het renderen van de 2D maskers in wezen een lineaire functie is ten opzichte van de labels van elke Gaussian. Als zodanig kan de optimale labeltoewijzing worden opgelost via lineaire programmering in gesloten vorm. Deze oplossing maakt gebruik van de alpha blending karakteristiek van het splatting proces voor optimalisatie in één stap. Door de achtergrondbias op te nemen in onze doelfunctie, toont onze methode superieure robuustheid bij 3D segmentatie tegen ruis. Opmerkelijk genoeg is onze optimalisatie voltooid binnen 30 seconden, ongeveer 50 keer sneller dan de beste bestaande methoden. Uitgebreide experimenten tonen de efficiëntie en robuustheid van onze methode aan bij het segmenteren van verschillende scènes, en de superieure prestaties bij downstream taken zoals objectverwijdering en inpainting. Demonstraties en code zullen beschikbaar zijn op https://github.com/florinshen/FlashSplat.

10

Kunnen OOD Object Detectoren Leren van Stichtingsmodellen?
Can OOD Object Detectors Learn from Foundation Models?

Sep 8
ByJiahui Liu, Xin Wen, Shizhen Zhao, Yingxian Chen, Xiaojuan Qi
9
2

Het detecteren van objecten buiten de distributie (OOD) is een uitdagende taak vanwege het ontbreken van open-set OOD-gegevens. Geïnspireerd door recente ontwikkelingen in tekst-naar-afbeelding generatieve modellen, zoals Stable Diffusion, bestuderen we het potentieel van generatieve modellen die zijn getraind op grootschalige open-set gegevens om OOD-monsters te synthetiseren, waardoor de detectie van OOD-objecten wordt verbeterd. We introduceren SyncOOD, een eenvoudige methode voor gegevenscuratie die profiteert van de mogelijkheden van grote foundation-modellen om automatisch betekenisvolle OOD-gegevens te extraheren uit tekst-naar-afbeelding generatieve modellen. Dit biedt het model toegang tot open-world kennis die is ingekapseld in kant-en-klare foundation-modellen. De synthetische OOD-monsters worden vervolgens gebruikt om de training van een lichtgewicht, plug-and-play OOD-detector aan te vullen, waardoor de in-distributie (ID)/OOD-beslissingsgrenzen effectief worden geoptimaliseerd. Uitgebreide experimenten over meerdere benchmarks tonen aan dat SyncOOD aanzienlijk beter presteert dan bestaande methoden, waarbij een nieuwe state-of-the-art prestatie wordt vastgesteld met minimaal gebruik van synthetische gegevens.

Sep 12
Sep 13
Sep 16