Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit artikel behandelt een belangrijk probleem van het toevoegen van objecten aan afbeeldingen met alleen tekstuele begeleiding. Dit is uitdagend omdat het nieuwe object naadloos moet worden geïntegreerd in de afbeelding met een consistente visuele context, zoals belichting, textuur en ruimtelijke locatie. Hoewel bestaande tekstgeleide beeldinpaintingsmethoden objecten kunnen toevoegen, slagen ze er niet in om de achtergrondconsistentie te behouden of vereisen ze omslachtige menselijke interventie bij het specificeren van begrenzingsvakken of door gebruikers getekende maskers. Om deze uitdaging aan te pakken, introduceren we Diffree, een Text-to-Image (T2I) model dat tekstgeleide objecttoevoeging mogelijk maakt met alleen tekstuele controle. Hiertoe hebben we OABench samengesteld, een verfijnde synthetische dataset door objecten te verwijderen met geavanceerde beeldinpaintingtechnieken. OABench bestaat uit 74K real-world tuples van een originele afbeelding, een ingepainte afbeelding met het object verwijderd, een objectmasker en objectbeschrijvingen. Getraind op OABench met behulp van het Stable Diffusion-model met een extra maskervoorspellingsmodule, voorspelt Diffree uniek de positie van het nieuwe object en bereikt het objecttoevoeging met alleen tekstuele begeleiding. Uitgebreide experimenten tonen aan dat Diffree uitblinkt in het toevoegen van nieuwe objecten met een hoog slagingspercentage, terwijl het de achtergrondconsistentie, ruimtelijke geschiktheid en objectrelevantie en -kwaliteit behoudt.
We introduceren ``LAMBDA," een nieuw open-source, code-vrij multi-agent data-analyse systeem dat gebruikmaakt van de kracht van grote modellen. LAMBDA is ontworpen om data-analyse uitdagingen in complexe data-gedreven toepassingen aan te pakken door het gebruik van innovatief ontworpen data-agents die iteratief en generatief werken met natuurlijke taal. De kern van LAMBDA bestaat uit twee belangrijke agentrollen: de programmeur en de inspecteur, die naadloos samenwerken. Specifiek genereert de programmeur code op basis van de instructies van de gebruiker en domeinspecifieke kennis, versterkt door geavanceerde modellen. Tegelijkertijd debugt de inspecteur de code wanneer nodig. Om robuustheid te waarborgen en ongunstige scenario's te hanteren, beschikt LAMBDA over een gebruikersinterface die directe gebruikersinterventie in de operationele loop mogelijk maakt. Daarnaast kan LAMBDA flexibel externe modellen en algoritmen integreren via ons kennisintegratiemechanisme, waardoor het voldoet aan de behoeften van op maat gemaakte data-analyse. LAMBDA heeft sterke prestaties getoond op diverse machine learning datasets. Het heeft het potentieel om de praktijk en het analyseparadigma van datawetenschap te verbeteren door menselijke en kunstmatige intelligentie naadloos te integreren, waardoor het toegankelijker, effectiever en efficiënter wordt voor individuen met diverse achtergronden. De sterke prestaties van LAMBDA bij het oplossen van datawetenschapsproblemen worden gedemonstreerd in verschillende casestudies, die te vinden zijn op https://www.polyu.edu.hk/ama/cmfai/lambda.html.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben nieuwe mogelijkheden geopend voor het toepassen van multi-agent systemen in zeer grootschalige simulaties. Er blijven echter verschillende uitdagingen bestaan bij het uitvoeren van multi-agent simulaties met bestaande platforms, zoals beperkte schaalbaarheid en lage efficiëntie, onvoldoende agentdiversiteit, en arbeidsintensieve beheerprocessen. Om deze uitdagingen aan te pakken, ontwikkelen we verschillende nieuwe functies en componenten voor AgentScope, een gebruiksvriendelijk multi-agent platform, waardoor het gemak en de flexibiliteit voor het ondersteunen van zeer grootschalige multi-agent simulaties worden verbeterd. Specifiek stellen we een actor-gebaseerd gedistribueerd mechanisme voor als de onderliggende technologische infrastructuur voor grote schaalbaarheid en hoge efficiëntie, en bieden we flexibele omgevingsondersteuning voor het simuleren van verschillende real-world scenario's, wat parallelle uitvoering van meerdere agents, gecentraliseerde workflow-orchestratie, en zowel inter-agent als agent-omgeving interacties mogelijk maakt. Bovendien integreren we een gebruiksvriendelijk configureerbaar hulpmiddel en een automatische achtergrondgeneratiepijplijn in AgentScope, wat het proces van het creëren van agents met diverse en gedetailleerde achtergrondinstellingen vereenvoudigt. Last but not least bieden we een webgebaseerde interface voor het gemakkelijk monitoren en beheren van een groot aantal agents die mogelijk over meerdere apparaten zijn verdeeld. We voeren een uitgebreide simulatie uit om de effectiviteit van de voorgestelde verbeteringen in AgentScope aan te tonen, en bieden gedetailleerde observaties en discussies om het grote potentieel van het toepassen van multi-agent systemen in grootschalige simulaties te benadrukken. De broncode is vrijgegeven op GitHub op https://github.com/modelscope/agentscope om verder onderzoek en ontwikkeling in grootschalige multi-agent simulaties te inspireren.
Door training op grootschalige datasets tonen zero-shot monocular depth estimation (MDE) methoden robuuste prestaties in natuurlijke omgevingen, maar lijden ze vaak onder onvoldoende precieze details. Hoewel recente op diffusie gebaseerde MDE-benaderingen aantrekkelijke detail-extractiecapaciteiten vertonen, hebben ze nog steeds moeite in geometrisch uitdagende scènes vanwege de moeilijkheid om robuuste geometrische priors te verkrijgen uit diverse datasets. Om de complementaire voordelen van beide werelden te benutten, stellen we BetterDepth voor om efficiënt geometrisch correcte affiene-invariante MDE-prestaties te bereiken terwijl fijnmazige details worden vastgelegd. Specifiek is BetterDepth een conditioneel op diffusie gebaseerde verfijner die de voorspelling van vooraf getrainde MDE-modellen neemt als dieptevoorwaarde, waarbij de globale dieptecontext goed wordt vastgelegd, en die iteratief details verfijnt op basis van de invoerafbeelding. Voor de training van zo'n verfijner stellen we globale pre-alignering en lokale patch-masking methoden voor om de trouw van BetterDepth aan de dieptevoorwaarde te waarborgen terwijl het leert om fijnmazige scènedetails vast te leggen. Door efficiënte training op kleinschalige synthetische datasets bereikt BetterDepth state-of-the-art zero-shot MDE-prestaties op diverse openbare datasets en in natuurlijke scènes. Bovendien kan BetterDepth de prestaties van andere MDE-modellen verbeteren op een plug-and-play-manier zonder aanvullende hertraining.
AI-agents hebben steeds meer aandacht gekregen, vooral vanwege hun vermogen om omgevingen waar te nemen, taken te begrijpen en doelen autonoom te bereiken. Om onderzoek naar AI-agents in mobiele scenario's te bevorderen, introduceren we de Android Multi-annotation EXpo (AMEX), een uitgebreide, grootschalige dataset ontworpen voor generalistische mobiele GUI-besturingsagents. Hun vermogen om complexe taken uit te voeren door direct te interacteren met de grafische gebruikersinterface (GUI) op mobiele apparaten wordt getraind en geëvalueerd met de voorgestelde dataset. AMEX omvat meer dan 104K hoogwaardige schermafbeeldingen van 110 populaire mobiele applicaties, die op meerdere niveaus zijn geannoteerd. In tegenstelling tot bestaande datasets voor mobiele apparaatbesturing, zoals MoTIF en AitW, bevat AMEX drie niveaus van annotaties: GUI-interactieve elementen lokaliseren, GUI-scherm- en elementfunctionaliteitsbeschrijvingen, en complexe natuurlijke taal-instructies, elk gemiddeld 13 stappen met stapsgewijze GUI-actieketens. We ontwikkelen deze dataset vanuit een meer instructief en gedetailleerd perspectief, waardoor de algemene instellingen van bestaande datasets worden aangevuld. Daarnaast ontwikkelen we een basismodel, de SPHINX Agent, en vergelijken we de prestaties ervan met state-of-the-art agents die op andere datasets zijn getraind. Om verder onderzoek te faciliteren, maken we onze dataset, modellen en relevante evaluatietools openbaar. Het project is beschikbaar op https://yuxiangchai.github.io/AMEX/.
Het risico van schadelijke inhoud gegenereerd door grote taalmodellen (LLMs) wordt een kritieke zorg. Dit artikel presenteert een systematische studie over het beoordelen en verbeteren van de capaciteit van LLMs om de taak van koerscorrectie uit te voeren, \ie, het model kan autonoom wegsturen van het genereren van schadelijke inhoud. Om te beginnen introduceren we de C^2-Eval benchmark voor kwantitatieve beoordeling en analyseren we 10 populaire LLMs, wat verschillende niveaus van bekwaamheid van huidige veiligheidsafgestemde LLMs in koerscorrectie aan het licht brengt. Om te verbeteren, stellen we voor om LLMs te fine-tunen met voorkeursleren, waarbij de nadruk ligt op de voorkeur voor tijdige koerscorrectie. Met behulp van een geautomatiseerde pijplijn creëren we C^2-Syn, een synthetische dataset met 750K paarsgewijze voorkeuren, om modellen het concept van tijdige koerscorrectie aan te leren door middel van data-gedreven voorkeursleren. Experimenten op 2 LLMs, Llama2-Chat 7B en Qwen2 7B, tonen aan dat onze methode effectief de vaardigheden voor koerscorrectie verbetert zonder de algemene prestaties aan te tasten. Daarnaast verbetert het effectief de veiligheid van LLMs, met name in het weerstaan van jailbreak-aanvallen.
De pretrainingsgegevens van de sterkste taalmodelen van vandaag zijn ondoorzichtig. In het bijzonder is er weinig bekend over de verhoudingen van verschillende domeinen of talen die zijn vertegenwoordigd. In dit werk pakken we een taak aan die we data-mix inferentie noemen, die als doel heeft de distributie van de trainingsgegevens te ontrafelen. We introduceren een nieuwe aanval gebaseerd op een eerder over het hoofd geziene bron van informatie — byte-pair encoding (BPE) tokenizers, die door de overgrote meerderheid van moderne taalmodelen worden gebruikt. Onze belangrijkste inzicht is dat de geordende lijst van samenvoegregels die door een BPE-tokenizer wordt geleerd, van nature informatie onthult over de tokenfrequenties in de trainingsgegevens: de eerste samenvoeging is het meest voorkomende bytepaar, de tweede is het meest voorkomende paar na het samenvoegen van de eerste token, enzovoort. Gegeven een samenvoeglijst van een tokenizer samen met gegevensmonsters voor elke categorie van belang, formuleren we een lineair programma dat de verhouding van elke categorie in de trainingsset van de tokenizer oplost. Belangrijk is dat, voor zover de trainingsgegevens van de tokenizer representatief zijn voor de pretrainingsgegevens, we indirect inzicht krijgen in de pretrainingsgegevens. In gecontroleerde experimenten laten we zien dat onze aanval mengverhoudingen met hoge precisie herstelt voor tokenizers die getraind zijn op bekende mengsels van natuurlijke talen, programmeertalen en gegevensbronnen. We passen onze aanpak vervolgens toe op kant-en-klare tokenizers die zijn vrijgegeven met recente taalmodelen. We bevestigen veel openbaar gemaakte informatie over deze modellen, en doen ook verschillende nieuwe inferenties: de tokenizer van GPT-4o is veel meer meertalig dan zijn voorgangers, getraind op 39% niet-Engelse gegevens; Llama3 breidt de tokenizer van GPT-3.5 voornamelijk uit voor meertalig (48%) gebruik; de tokenizers van GPT-3.5 en Claude zijn getraind op voornamelijk code (~60%). We hopen dat ons werk licht werpt op de huidige ontwerppraktijken voor pretrainingsgegevens, en verder onderzoek inspireert naar data-mix inferentie voor taalmodelen.
Op het gebied van instructievolgende grote visueel-taalmodelen (LVLMs) wordt de efficiënte inzet van deze modellen bemoeilijkt door de hoge geheugeneisen van hun key-value (KV) caches. Traditionele cachebeheerstrategieën voor LLMs richten zich op cache-evictie, wat vaak niet voldoet aan de specifieke behoeften van multimodale instructievolgende modellen. Gezien deze leemte introduceren we in dit artikel Elastic Cache, een nieuwe aanpak die profiteert van het toepassen van verschillende versnellingsmethoden voor de instructiecodering en uitvoergeneratiefasen. We onderzoeken de belangrijkste metrieken in verschillende fasen en stellen een op belangrijkheid gebaseerde cache-samenvoegstrategie voor om redundante caches te verwijderen. In plaats van minder belangrijke caches te verwijderen, identificeert onze strategie belangrijke key/value-vectoren als ankerpunten. Omringende minder belangrijke caches worden vervolgens samengevoegd met deze ankers, wat het behoud van contextuele informatie in de KV-caches verbetert en tegelijkertijd een willekeurige versnellingsratio oplevert. Voor instructiecodering gebruiken we de frequentie om het belang van caches te evalueren. Bij uitvoergeneratie prioriteren we tokens op basis van hun afstand met een offset, waarbij zowel de initiële als de meest recente tokens behouden blijven. Resultaten op een reeks LVLMs tonen aan dat Elastic Cache niet alleen de efficiëntie verhoogt, maar ook aanzienlijk beter presteert dan bestaande pruning-methoden in taalgeneratie over verschillende taken. Code is beschikbaar op https://github.com/liuzuyan/ElasticCache.
De segmentatie van celkernen in weefselafbeeldingen die zijn gekleurd met de bloedkleurstof hematoxyline en eosine (H&E) is essentieel voor diverse klinische toepassingen en analyses. Vanwege de complexe kenmerken van cellulaire morfologie wordt een groot receptief veld als cruciaal beschouwd voor het genereren van hoogwaardige segmentatie. Eerdere methoden hebben echter moeite om een balans te vinden tussen het receptieve veld en de rekenkundige belasting. Om dit probleem aan te pakken, stellen we LKCell voor, een nauwkeurige en efficiënte methode voor celsegmentatie. De kern van deze methode ligt in het benutten van het potentieel van grote convolutiekernels om rekenkundig efficiënte grote receptieve velden te bereiken. Specifiek: (1) We passen voor het eerst vooraf getrainde modellen met grote convolutiekernels toe in de medische sector, wat hun effectiviteit bij celsegmentatie aantoont. (2) We analyseren de redundantie van eerdere methoden en ontwerpen een nieuw segmentatiedecoder op basis van grote convolutiekernels. Dit bereikt een hogere prestaties terwijl het aantal parameters aanzienlijk wordt verminderd. We evalueren onze methode op de meest uitdagende benchmark en behalen state-of-the-art resultaten (0,5080 mPQ) in de segmentatie van celkerninstanties met slechts 21,6% van de FLOPs vergeleken met de vorige toonaangevende methode. Onze broncode en modellen zijn beschikbaar op https://github.com/hustvl/LKCell.
Recente ontwikkelingen hebben de mogelijkheden van Multimodale Grote Taalmodellen (MLLMs) aanzienlijk verbeterd in het genereren en begrijpen van beeld-naar-tekst inhoud. Ondanks deze successen is de vooruitgang voornamelijk beperkt tot het Engels vanwege het gebrek aan hoogwaardige multimodale bronnen in andere talen. Deze beperking belemmert de ontwikkeling van concurrerende modellen in talen zoals het Arabisch. Om deze situatie te verlichten, introduceren we een efficiënte Arabische multimodale assistent, genaamd Dallah, die gebruikmaakt van een geavanceerd taalmodel gebaseerd op LLaMA-2 om multimodale interacties te vergemakkelijken. Dallah toont state-of-the-art prestaties in Arabische MLLMs. Door het finetunen van zes Arabische dialecten, demonstreert Dallah zijn vermogen om complexe dialectale interacties te hanteren die zowel tekstuele als visuele elementen omvatten. Het model blinkt uit in twee benchmarktests: één die zijn prestaties op Modern Standaard Arabisch (MSA) evalueert en een andere die specifiek is ontworpen om dialectale reacties te beoordelen. Naast zijn robuuste prestaties in multimodale interactietaken, heeft Dallah het potentieel om de weg te effenen voor verdere ontwikkeling van dialectbewuste Arabische MLLMs.
Het identificeren van belangrijke referenties binnen de complexe onderlinge relaties van een citatiekennisdiagram is uitdagend, aangezien dit verbanden omvat via citaties, auteurschap, trefwoorden en andere relationele attributen. De Paper Source Tracing (PST)-taak streeft ernaar om de identificatie van cruciale referenties voor gegeven wetenschappelijke artikelen te automatiseren met behulp van geavanceerde dataminingtechnieken. In de KDD CUP 2024 hebben we een op aanbevelingen gebaseerd raamwerk ontworpen dat specifiek is afgestemd op de PST-taak. Dit raamwerk maakt gebruik van het Neural Collaborative Filtering (NCF)-model om uiteindelijke voorspellingen te genereren. Om de tekstuele attributen van de artikelen te verwerken en invoerkenmerken voor het model te extraheren, gebruiken we SciBERT, een vooraf getraind taalmodel. Volgens de experimentele resultaten behaalde onze methode een score van 0,37814 op de Mean Average Precision (MAP)-metriek, wat beter presteert dan baseline-modellen en een 11e plaats oplevert onder alle deelnemende teams. De broncode is openbaar beschikbaar op https://github.com/MyLove-XAB/KDDCupFinal.
We presenteren een overzicht van de FIGNEWS shared task, georganiseerd als onderdeel van de ArabicNLP 2024-conferentie, die gelijktijdig plaatsvindt met ACL 2024. De shared task richt zich op het annoteren van bias en propaganda in meertalige nieuwsberichten. We richten ons op de eerste dagen van de Israëlische oorlog in Gaza als casestudy. De taak heeft als doel samenwerking te bevorderen bij het ontwikkelen van annotatierichtlijnen voor subjectieve taken door kaders te creëren voor het analyseren van diverse narratieven die mogelijke bias en propaganda benadrukken. In een geest van het bevorderen en aanmoedigen van diversiteit, benaderen we het probleem vanuit een meertalig perspectief, namelijk binnen vijf talen: Engels, Frans, Arabisch, Hebreeuws en Hindi. In totaal namen 17 teams deel aan twee annotatiesubtaken: bias (16 teams) en propaganda (6 teams). De teams streden in vier evaluatietracks: ontwikkeling van richtlijnen, annotatiekwaliteit, annotatiehoeveelheid en consistentie. Collectief produceerden de teams 129.800 datapunten. Belangrijke bevindingen en implicaties voor het vakgebied worden besproken.