Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Webautomatisering is een belangrijke techniek die complexe webtaken uitvoert door veelvoorkomende webacties te automatiseren, de operationele efficiëntie te verbeteren en de noodzaak van handmatige interventie te verminderen. Traditionele methoden, zoals wrappers, hebben beperkte aanpasbaarheid en schaalbaarheid wanneer ze worden geconfronteerd met een nieuwe website. Aan de andere kant vertonen generatieve agents, aangedreven door grote taalmodellen (LLM's), slechte prestaties en herbruikbaarheid in open-wereldscenario's. In dit werk introduceren we een crawler-generatietaak voor verticale informatiewebpagina's en het paradigma van het combineren van LLM's met crawlers, wat crawlers helpt om diverse en veranderende webomgevingen efficiënter te verwerken. We stellen AutoCrawler voor, een tweefasenframework dat gebruikmaakt van de hiërarchische structuur van HTML voor progressief begrip. Door top-down en stap-terug operaties kan AutoCrawler leren van foutieve acties en continu HTML snoeien voor betere actiegeneratie. We voeren uitgebreide experimenten uit met meerdere LLM's en demonstreren de effectiviteit van ons framework. De bronnen van dit artikel zijn te vinden op https://github.com/EZ-hwh/AutoCrawler.
We introduceren Groma, een Multimodal Large Language Model (MLLM) met een verankerd en fijnmazig visueel waarnemingsvermogen. Naast het holistisch begrijpen van afbeeldingen, is Groma bedreven in taken op regioniveau, zoals het beschrijven van regio's en visuele verankering. Deze mogelijkheden zijn gebouwd op een gelokaliseerd visueel tokenisatiemechanisme, waarbij een afbeeldingsinvoer wordt opgedeeld in interessegebieden en vervolgens wordt gecodeerd in regiokens. Door regiokens te integreren in gebruikersinstructies en modelreacties, maken we het Groma naadloos mogelijk om door de gebruiker gespecificeerde regio-invoeren te begrijpen en zijn tekstuele uitvoer aan afbeeldingen te verankeren. Daarnaast hebben we, om de verankerde chatmogelijkheid van Groma te verbeteren, een visueel verankerde instructiedataset samengesteld door gebruik te maken van de krachtige GPT-4V en visuele promptingtechnieken. In vergelijking met MLLM's die vertrouwen op het taalmodel of een externe module voor lokalisatie, toont Groma consistent superieure prestaties in standaard referentie- en verankeringsbenchmarks, wat de voordelen benadrukt van het inbedden van lokalisatie in beeldtokenisatie. Projectpagina: https://groma-mllm.github.io/.
Text-centrische visuele vraag-antwoord (VQA) heeft grote vooruitgang geboekt met de ontwikkeling van Multimodale Grote Taalmodellen (MLLMs), maar open-source modellen blijven achter bij toonaangevende modellen zoals GPT4V en Gemini, deels door een gebrek aan uitgebreide, hoogwaardige instructie-afstemmingsdata. Om dit aan te pakken, introduceren we een nieuwe aanpak voor het creëren van een enorme, hoogwaardige instructie-afstemmingsdataset, Square-10M, die wordt gegenereerd met behulp van closed-source MLLMs. Het dataconstructieproces, genaamd Square, bestaat uit vier stappen: Zelf-Bevragen, Beantwoorden, Redeneren en Evaluatie. Onze experimenten met Square-10M leidden tot drie belangrijke bevindingen: 1) Ons model, TextSquare, overtreft aanzienlijk eerdere open-source state-of-the-art text-centrische MLLMs en stelt een nieuwe standaard op OCRBench (62,2%). Het presteert zelfs beter dan topmodellen zoals GPT4V en Gemini in 6 van de 10 text-centrische benchmarks. 2) Daarnaast tonen we het cruciale belang aan van VQA-redeneerdata in het bieden van uitgebreide contextuele inzichten voor specifieke vragen. Dit verbetert niet alleen de nauwkeurigheid, maar vermindert ook hallucinaties aanzienlijk. Specifiek scoort TextSquare gemiddeld 75,1% over vier algemene VQA- en hallucinatie-evaluatiedatasets, wat beter is dan eerdere state-of-the-art modellen. 3) Opmerkelijk is het fenomeen dat wordt waargenomen bij het schalen van text-centrische VQA-datasets, dat een duidelijk patroon onthult: de exponentiële toename van het volume aan instructie-afstemmingsdata is recht evenredig met de verbetering in modelprestaties, waardoor de noodzaak van de datasetschaal en de hoge kwaliteit van Square-10M worden bevestigd.
Realistische objectinteracties zijn cruciaal voor het creëren van meeslepende virtuele ervaringen, maar het synthetiseren van realistische 3D-objectdynamieken als reactie op nieuwe interacties blijft een grote uitdaging. In tegenstelling tot onvoorwaardelijke of tekst-geconditioneerde dynamiekgeneratie, vereist actie-geconditioneerde dynamiek het waarnemen van de fysieke materiaaleigenschappen van objecten en het baseren van de 3D-bewegingsvoorspelling op deze eigenschappen, zoals de stijfheid van een object. Het schatten van fysieke materiaaleigenschappen is echter een open probleem vanwege het ontbreken van grondwaardegegevens over materialen, aangezien het meten van deze eigenschappen voor echte objecten zeer moeilijk is. Wij presenteren PhysDreamer, een fysica-gebaseerde aanpak die statische 3D-objecten voorziet van interactieve dynamiek door gebruik te maken van de objectdynamiek-priors die zijn geleerd door videogeneratiemodellen. Door deze priors te destilleren, maakt PhysDreamer het mogelijk om realistische objectreacties te synthetiseren op nieuwe interacties, zoals externe krachten of manipulaties door agents. We demonstreren onze aanpak aan de hand van diverse voorbeelden van elastische objecten en evalueren de realiteit van de gesynthetiseerde interacties via een gebruikersstudie. PhysDreamer zet een stap in de richting van meer boeiende en realistische virtuele ervaringen door statische 3D-objecten in staat te stellen dynamisch te reageren op interactieve stimuli op een fysisch plausibele manier. Bezoek onze projectpagina op https://physdreamer.github.io/.
Query rewrite, dat als doel heeft om efficiëntere queries te genereren door de structuur van een SQL-query aan te passen zonder het queryresultaat te veranderen, is een belangrijk onderzoeksprobleem geweest. Om de gelijkwaardigheid tussen de herschreven query en de originele query tijdens het herschrijven te behouden, volgen traditionele methoden voor query rewrite altijd bepaalde herschrijfregels. Er blijven echter enkele problemen bestaan. Ten eerste zijn bestaande methoden om de optimale keuze of volgorde van herschrijfregels te vinden nog steeds beperkt, en kost het proces vaak veel resources. Methoden die het ontdekken van nieuwe herschrijfregels omvatten, vereisen meestal ingewikkelde bewijzen van structurele logica of uitgebreide gebruikersinteracties. Ten tweede vertrouwen huidige methoden voor query rewrite sterk op DBMS-kostenschatters, die vaak niet nauwkeurig zijn. In dit artikel pakken we deze problemen aan door een nieuwe methode voor query rewrite voor te stellen, genaamd LLM-R2, waarbij een groot taalmodel (LLM) wordt gebruikt om mogelijke herschrijfregels voor een databasesysteem voor te stellen. Om het inferentievermogen van het LLM bij het aanbevelen van herschrijfregels verder te verbeteren, trainen we een contrastief model via een curriculum om queryrepresentaties te leren en effectieve querydemonstraties voor het LLM te selecteren. Experimentele resultaten hebben aangetoond dat onze methode de uitvoeringsefficiëntie van queries aanzienlijk kan verbeteren en de baseline-methoden overtreft. Bovendien is onze methode zeer robuust over verschillende datasets.
3D Gaussian Splatting is recentelijk omarmd als een veelzijdige en effectieve methode voor scène-reconstructie en de synthese van nieuwe gezichtspunten, dankzij de hoogwaardige resultaten en compatibiliteit met hardware-rasterisatie. Ondanks de voordelen vormt de afhankelijkheid van Gaussian Splatting van hoogwaardige pointcloud-initialisatie door Structure-from-Motion (SFM)-algoritmen een belangrijke beperking die overwonnen moet worden. Daarom onderzoeken we verschillende initialisatiestrategieën voor Gaussian Splatting en verdiepen we ons in hoe volumetrische reconstructies van Neural Radiance Fields (NeRF) kunnen worden gebruikt om de afhankelijkheid van SFM-data te omzeilen. Onze bevindingen tonen aan dat willekeurige initialisatie aanzienlijk beter kan presteren als deze zorgvuldig is ontworpen, en dat door een combinatie van verbeterde initialisatiestrategieën en structuurdestillatie uit low-cost NeRF-modellen te gebruiken, het mogelijk is om equivalente, of soms zelfs superieure, resultaten te behalen vergeleken met die verkregen via SFM-initialisatie.
Onlangs zijn meerdere Automated Program Repair (APR)-technieken gebaseerd op Large Language Models (LLMs) voorgesteld om de reparatieprestaties te verbeteren. Hoewel deze technieken zich voornamelijk richten op reparaties op één regel of hunk-niveau, ondervinden ze aanzienlijke uitdagingen in praktijktoepassingen vanwege de beperkte omvang van de reparatietaak en de kostbare foutlokalisatie op statement-niveau. De meer praktische function-level APR, die de scope van de APR-taak verbreedt om volledige buggy functies te repareren en slechts kostenefficiënte foutlokalisatie op functieniveau vereist, blijft echter onderbelicht. In dit artikel voeren we de eerste uitgebreide studie uit naar LLM-gebaseerde function-level APR, inclusief het onderzoeken van het effect van het few-shot learning-mechanisme en de aanvullende reparatie-relevante informatie. Specifiek nemen we zes veelbestudeerde LLM's in beschouwing en construeren we een benchmark in zowel de Defects4J 1.2- als 2.0-datasets. Onze studie toont aan dat LLM's met zero-shot learning al krachtige function-level APR-technieken zijn, terwijl het toepassen van het few-shot learning-mechanisme leidt tot uiteenlopende reparatieprestaties. Bovendien ontdekken we dat het direct toepassen van aanvullende reparatie-relevante informatie op LLM's de function-level reparatieprestaties aanzienlijk verhoogt. Geïnspireerd door onze bevindingen stellen we een LLM-gebaseerde function-level APR-techniek voor, genaamd SRepair, die een dual-LLM-framework gebruikt om de kracht van aanvullende reparatie-relevante informatie te benutten voor het verbeteren van de reparatieprestaties. De evaluatieresultaten tonen aan dat SRepair 300 single-function bugs in de Defects4J-dataset correct kan repareren, wat aanzienlijk meer is dan alle vorige APR-technieken met minstens 85%, zonder de noodzaak van kostbare foutlokalisatie-informatie op statement-niveau. Bovendien repareert SRepair met succes 32 multi-function bugs in de Defects4J-dataset, wat voor zover wij weten voor het eerst wordt bereikt door een APR-techniek.