Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Computer Vision (CV) heeft nog niet volledig de zero-shot taakgeneralisatie bereikt die wordt waargenomen in Natural Language Processing (NLP), ondanks het volgen van veel van de mijlpalen die zijn vastgesteld in NLP, zoals grote transformermodellen, uitgebreide voorafgaande training, en het auto-regressie paradigma, onder andere. In dit artikel verkennen we het idee dat CV discrete en terminologische taakdefinities aanneemt (bijv., "beeldsegmentatie"), wat een belangrijke barrière kan vormen voor zero-shot taakgeneralisatie. Onze hypothese is dat zonder echt begrip van eerder geziene taken - vanwege deze terminologische definities - diepe modellen moeite hebben om te generaliseren naar nieuwe taken. Om dit te verifiëren, introduceren we Verklarende Instructies, die een intuïtieve manier bieden om CV-taakdoelstellingen te definiëren door gedetailleerde linguïstische transformaties van invoerbeelden naar uitvoer. We creëren een grootschalige dataset bestaande uit 12 miljoen "beeldinvoer naar verklarende instructie naar uitvoer" triplets, en trainen een op auto-regressie gebaseerd visie-taalmodel (AR-gebaseerd VLM) dat zowel beelden als verklarende instructies als invoer neemt. Door te leren deze instructies te volgen, bereikt het AR-gebaseerde VLM instructieniveau zero-shot mogelijkheden voor eerder geziene taken en toont het sterke zero-shot generalisatie voor ongeziene CV-taken. Code en dataset zullen openlijk beschikbaar zijn op ons GitHub repository.
Multimodale grote taalmodellen (MLLM's) hebben aanzienlijk potentieel in het medische veld, maar hun mogelijkheden worden vaak beperkt door onvoldoende gegevens in bepaalde medische domeinen, waarbij de noodzaak wordt benadrukt om te begrijpen welke soorten afbeeldingen door MLLM's kunnen worden gebruikt voor generalisatie. Huidig onderzoek suggereert dat multi-taak training beter presteert dan enkelvoudige taaktraining omdat verschillende taken elkaar kunnen helpen, maar ze zien vaak de interne relaties binnen deze taken over het hoofd, waardoor er beperkte richtlijnen worden gegeven voor het selecteren van datasets om specifieke taken te verbeteren. Om dit fenomeen te analyseren, hebben we geprobeerd om compositorische generalisatie (CG) - het vermogen van modellen om nieuwe combinaties te begrijpen door geleerde elementen opnieuw te combineren - te gebruiken als een leidraad. Aangezien medische afbeeldingen nauwkeurig kunnen worden gedefinieerd door Modaliteit, Anatomisch gebied en Taak, bieden ze van nature een omgeving voor het verkennen van CG. Daarom hebben we 106 medische datasets samengesteld om Med-MAT te creëren voor uitgebreide experimenten. De experimenten bevestigden dat MLLM's CG kunnen gebruiken om ongeziene medische afbeeldingen te begrijpen en identificeerden CG als een van de belangrijkste drijfveren van de generalisatie die wordt waargenomen bij multi-taak training. Bovendien toonden verdere studies aan dat CG effectief datasets met beperkte gegevens ondersteunt en consistente prestaties levert over verschillende backbones, waarbij de veelzijdigheid en brede toepasbaarheid ervan worden benadrukt. Med-MAT is openbaar beschikbaar op https://github.com/FreedomIntelligence/Med-MAT.
Recente ontwikkelingen in generatieve modellering maken nu de creatie van 4D-inhoud (bewegende 3D-objecten) mogelijk die wordt aangestuurd met tekstprompts. 4D-generatie heeft veel potentieel in toepassingen zoals virtuele werelden, media en gaming, maar bestaande methoden bieden beperkte controle over het uiterlijk en de geometrie van gegenereerde inhoud. In dit werk introduceren we een methode voor het animeren van door de gebruiker verstrekte 3D-objecten door te conditioneren op tekstuele prompts om 4D-generatie te begeleiden, waardoor aangepaste animaties mogelijk zijn terwijl de identiteit van het oorspronkelijke object behouden blijft. We zetten eerst een 3D-mesh om in een "statische" 4D Neural Radiance Field (NeRF) die de visuele kenmerken van het invoerobject behoudt. Vervolgens animeren we het object met behulp van een Image-to-Video-diffusiemodel aangestuurd door tekst. Om de bewegingsrealiteit te verbeteren, introduceren we een incrementeel gezichtspuntselectieprotocol voor het monsteren van perspectieven om levensechte beweging te bevorderen, en een gemaskerd Score Distillation Sampling (SDS) verlies, dat aandachtskaarten benut om optimalisatie te richten op relevante regio's. We evalueren ons model op het gebied van temporele coherentie, naleving van prompts en visuele getrouwheid en constateren dat onze methode beter presteert dan baselines die zijn gebaseerd op andere benaderingen, met tot wel drievoudige verbeteringen in identiteitsbehoud gemeten met LPIPS-scores, en effectief balanceren van visuele kwaliteit met dynamische inhoud.
De opmerkelijke prestaties van modellen zoals de OpenAI o1 kunnen worden toegeschreven aan hun vermogen om mensachtig langdurig denken na te bootsen tijdens inferentie. Deze modellen maken gebruik van uitgebreide ketens-van-denkprocessen (CoT), waarbij meerdere strategieën worden verkend om de probleemoplossende capaciteiten te verbeteren. Een cruciale vraag blijft echter: Hoe kunnen computationele middelen tijdens testen intelligent en efficiënt worden geschaald. Dit artikel presenteert de eerste uitgebreide studie over het veelvoorkomende probleem van overmatig nadenken in deze modellen, waarbij overmatige computationele middelen worden toegewezen voor eenvoudige problemen met minimale voordelen. We introduceren nieuwe efficiëntiemetingen van zowel uitkomst- als procesperspectieven om het rationele gebruik van computationele middelen door o1-achtige modellen te evalueren. Met behulp van een zelf-trainingsparadigma stellen we strategieën voor om overmatig nadenken te verminderen, waarbij redeneerprocessen worden gestroomlijnd zonder de nauwkeurigheid in gevaar te brengen. Experimentele resultaten tonen aan dat onze aanpak met succes de computationele overhead vermindert, terwijl de modelprestaties behouden blijven over een reeks testsets met variërende moeilijkheidsgraden, zoals GSM8K, MATH500, GPQA en AIME.
De snelle evolutie van grote taalmodellen (LLM's) heeft hun mogelijkheden ontsloten in geavanceerde redeneertaken zoals wiskundige probleemoplossing, codegeneratie en juridische analyse. Centraal in deze vooruitgang staan redeneeralgoritmes op inferentietijd, die uitvoer verfijnen door meerdere oplossingspaden te verkennen, ten koste van toenemende rekeneisen en responstijden. Bestaande bedieningssystemen slagen er niet in zich aan te passen aan de schaalbaarheid van deze algoritmes of de variërende moeilijkheidsgraad van vragen, wat leidt tot inefficiënt gebruik van middelen en niet nagekomen latentiedoelen. We presenteren Dynasor, een systeem dat inferentietijdrekenkracht optimaliseert voor LLM-redeneervragen. In tegenstelling tot traditionele engines volgt en plant Dynasor verzoeken binnen redeneervragen en gebruikt het Certaindex, een proxy die statistische redeneervoortgang meet op basis van modelzekerheid, om rekenkracht dynamisch te sturen. Dynasor past planning aan op redeneervoortgang: het wijst meer rekenkracht toe aan moeilijke vragen, vermindert rekenkracht voor eenvoudigere vragen en beëindigt veelbelovende vragen vroegtijdig, waarbij nauwkeurigheid, latentie en kosten in balans worden gehouden. Op diverse datasets en algoritmes vermindert Dynasor rekenkracht tot 50% bij batchverwerking en handhaaft het 3,3x hogere vraagsnelheden of 4,7x strakkere latentie-SLO's bij online bediening.
We introduceren TangoFlux, een efficiënt Tekst-naar-Audio (TNA) generatief model met 515 miljoen parameters, in staat om tot 30 seconden 44,1 kHz audio te genereren in slechts 3,7 seconden op een enkele A40 GPU. Een belangrijke uitdaging bij het afstemmen van TNA-modellen ligt in de moeilijkheid om voorkeursparen te creëren, aangezien TNA geen gestructureerde mechanismen heeft zoals controleerbare beloningen of goudstandaard antwoorden die beschikbaar zijn voor Grote Taalmodellen (GTM's). Om dit aan te pakken, stellen we CLAP-Gerangschikte VoorkeursOptimalisatie (CRVO) voor, een nieuw raamwerk dat iteratief voorkeursgegevens genereert en optimaliseert om de afstemming van TNA te verbeteren. We tonen aan dat de audiopreferentiedataset die is gegenereerd met CRVO beter presteert dan bestaande alternatieven. Met dit raamwerk behaalt TangoFlux state-of-the-art prestaties op zowel objectieve als subjectieve benchmarks. We stellen alle code en modellen open source om verder onderzoek naar TNA-generatie te ondersteunen.
Wij presenteren SWE-Gym, de eerste omgeving voor het trainen van software engineering (SWE) agenten in de echte wereld. SWE-Gym bevat 2.438 real-world Python taakvoorbeelden, elk bestaande uit een codebase met een uitvoerbaar runtime-omgeving, unit tests, en een taak gespecificeerd in natuurlijke taal. We gebruiken SWE-Gym om op taalmodel gebaseerde SWE agenten te trainen, waarbij we tot 19% absolute winst behalen in oplossingssnelheid op de populaire SWE-Bench Verified en Lite testsets. We experimenteren ook met schaalvergroting op inferentietijd door verifiers te trainen op agenttrajecten afkomstig van SWE-Gym. Wanneer gecombineerd met onze fijn afgestemde SWE agenten, behalen we respectievelijk 32,0% en 26,0% op SWE-Bench Verified en Lite, wat een nieuwe state-of-the-art weerspiegelt voor open-weight SWE agenten. Om verder onderzoek te vergemakkelijken, stellen we SWE-Gym, modellen en agenttrajecten openbaar beschikbaar.
Als een bevestigde behoefte blijft consistente bewerking over afbeeldingen in het wild een technische uitdaging vanwege verschillende onbeheersbare factoren, zoals objectposities, lichtomstandigheden en fotografieomgevingen. Edicho biedt een oplossing zonder training op basis van diffusiemodellen, met als fundamenteel ontwerpprincipe het gebruik van expliciete beeldovereenkomsten om bewerkingen te sturen. Belangrijke onderdelen zijn een aandachtsmanipulatiemodule en een zorgvuldig verfijnde begeleidingsstrategie zonder classifier (CFG) voor ruisvermindering, die beide rekening houden met de vooraf geschatte overeenkomst. Een dergelijk algoritme op inferentietijd heeft een plug-and-play karakter en is compatibel met de meeste op diffusie gebaseerde bewerkingsmethoden, zoals ControlNet en BrushNet. Uitgebreide resultaten tonen de doeltreffendheid van Edicho aan bij consistente bewerking tussen afbeeldingen onder diverse omstandigheden. We zullen de code vrijgeven om toekomstige studies te vergemakkelijken.
We presenteren PERSE, een methode voor het bouwen van een animeerbaar gepersonaliseerd generatief avatar vanuit een referentieportret. Ons avatarmodel maakt het bewerken van gezichtskenmerken mogelijk in een continue en ontkoppeld latente ruimte om elk gezichtskenmerk te controleren, terwijl de identiteit van het individu behouden blijft. Om dit te bereiken, begint onze methode met het synthetiseren van grootschalige synthetische 2D video datasets, waarbij elke video consistente veranderingen in de gezichtsuitdrukking en het gezichtspunt bevat, gecombineerd met een variatie in een specifiek gezichtskenmerk van de oorspronkelijke invoer. We stellen een nieuw proces voor om hoogwaardige, fotorealistische 2D video's te produceren met bewerking van gezichtskenmerken. Door gebruik te maken van deze synthetische attribuutdataset, presenteren we een methode voor het creëren van gepersonaliseerde avatars op basis van de 3D Gaussische Splatting, waarbij een continue en ontkoppelde latente ruimte wordt geleerd voor intuïtieve manipulatie van gezichtskenmerken. Om soepele overgangen in deze latente ruimte af te dwingen, introduceren we een techniek voor regulering van de latente ruimte door gebruik te maken van geïnterpoleerde 2D gezichten als supervisie. In vergelijking met eerdere benaderingen tonen we aan dat PERSE hoogwaardige avatars genereert met geïnterpoleerde kenmerken, terwijl de identiteit van de referentiepersoon behouden blijft.
De snelle vooruitgang van grote taalmodel (LLM) technologieën heeft geleid tot de introductie van krachtige open-source instructie-aangepaste LLMs die dezelfde tekstgeneratiekwaliteit hebben als de toonaangevende tegenhangers zoals GPT-4. Terwijl het opkomen van dergelijke modellen de adoptie van LLM-technologieën versnelt in gevoelige-informatieomgevingen, onthullen de auteurs van dergelijke modellen niet de trainingsgegevens die nodig zijn voor de replicatie van de resultaten, waardoor de prestaties model-exclusief worden. Aangezien deze open-source modellen ook meertalig zijn, vermindert dit op zijn beurt de voordelen van het trainen van op taal gerichte LLMs, aangezien verbeterde inferentie-rekenkracht efficiëntie het enige gegarandeerde voordeel van een dergelijke kostbare procedure wordt. Meer kosteneffectieve opties zoals woordenschatuitbreiding en daaropvolgende voortgezette pre-training worden ook belemmerd door het gebrek aan toegang tot hoogwaardige instructie-aanpassingsgegevens, aangezien dit de belangrijkste factor is achter de resulterende LLM-taakoplossingsmogelijkheden. Om de beperkingen aan te pakken en de kosten van het taalaanpassingsproces te verlagen, stellen we Learned Embedding Propagation (LEP) voor. In tegenstelling tot bestaande benaderingen heeft onze methode lagere trainingsgegevensvereisten vanwege minimale impact op bestaande LLM-kennis, die we versterken met behulp van een nieuw ad-hoc embedding propagatieprocedure die ons in staat stelt de instructie-aanpassingsstap over te slaan en in plaats daarvan de nieuwe taalkennis rechtstreeks in elke bestaande instructie-aangepaste variant te implanteren. We hebben vier Russische woordenschatadaptaties voor LLaMa-3-8B en Mistral-7B geëvalueerd, waarbij we aantoonden dat LEP concurrerend is met traditionele instructie-aanpassingsmethoden, prestaties behaalt die vergelijkbaar zijn met OpenChat 3.5 en LLaMa-3-8B-Instruct, met verdere verbeteringen via zelfkalibratie en voortgezette afstemming die de taakoplossingsmogelijkheden verbeteren.
We introduceren OneKE, een gedockeriseerd schema-geleid kennisextractiesysteem, dat kennis kan extraheren uit het web en ruwe PDF-boeken, en ondersteuning biedt voor verschillende domeinen (wetenschap, nieuws, enz.). Specifiek ontwerpen we OneKE met meerdere agenten en een configureerbare kennisbank. Verschillende agenten vervullen hun respectievelijke rollen, waardoor ondersteuning wordt geboden voor verschillende extractiescenario's. De configureerbare kennisbank vergemakkelijkt schemaconfiguratie, foutopsporing en correctie, wat de prestaties verder verbetert. Empirische evaluaties op benchmarkdatasets tonen de doeltreffendheid van OneKE aan, terwijl casestudies verder de aanpasbaarheid ervan aan diverse taken over meerdere domeinen verduidelijken, waarbij het potentieel voor brede toepassingen wordt benadrukt. We hebben de code open source gemaakt op https://github.com/zjunlp/OneKE en een video vrijgegeven op http://oneke.openkg.cn/demo.mp4.
Onlangs begon "visuele o1" in het zicht van mensen te komen, met de verwachting dat dit langzame denkontwerp visuele redeneertaken kan oplossen, vooral meetkundige wiskundeproblemen. Echter, de realiteit is dat huidige LVLM's (Grote Visie Taalmodellen) nauwelijks zelfs nauwkeurig een meetkundige figuur kunnen kopiëren, laat staan de complexe inherente logica en ruimtelijke relaties binnen meetkundige vormen echt begrijpen. Wij geloven dat nauwkeurig kopiëren (sterke perceptie) de eerste stap is naar visuele o1. Daarom introduceren wij het concept van "langzame perceptie" (SP), dat het model begeleidt om geleidelijk basispunt-lijncombinaties waar te nemen, zoals onze mensen, complexe meetkundige structuren progressief reconstrueren. Er zijn tweeledige stadia in SP: a) perceptieontleding. Perceptie is niet onmiddellijk. In deze fase worden complexe meetkundige figuren afgebroken tot basis eenvoudige eenheden om de meetkundige representatie te verenigen. b) perceptiestroom, waarbij erkend wordt dat nauwkeurig een lijn volgen geen gemakkelijke taak is. Deze fase heeft tot doel "lange visuele sprongen" bij het teruggaan van lijnsegmenten te vermijden door een voorgestelde "perceptuele liniaal" te gebruiken om elke lijn slag voor slag te volgen. Verrassend geniet zo'n menselijke perceptiewijze van een inferentietijd schalingswet -- hoe langzamer, hoe beter. Onderzoekers hebben in het verleden geprobeerd het waarnemingsvermogen van het model te versnellen, maar wij vertragen het opnieuw, waardoor het model de afbeelding stap voor stap en zorgvuldig kan lezen.
We introduceren zelfaanroepende codegeneratie, een nieuwe taak ontworpen om de progressieve redenering en probleemoplossende capaciteiten van LLM's te evalueren. In deze taak worden modellen gepresenteerd met een basisprobleem en een gerelateerd, complexer probleem. Ze moeten het basisprobleem oplossen en vervolgens de oplossing gebruiken om het complexere probleem aan te pakken. Dit werk omvat drie belangrijke bijdragen. Ten eerste stellen we een algemeen recept voor om uitdagendere versies van bestaande benchmarks te genereren, resulterend in drie nieuwe benchmarks: HumanEval Pro, MBPP Pro en BigCodeBench-Lite Pro, specifiek ontworpen om LLM's te beoordelen op zelfaanroepende codegeneratie. Ten tweede, uit de analyse van experimentele resultaten over twintig LLM's op onze benchmarks, hebben we twee belangrijke observaties: (i) De meeste LLM's excelleren in traditionele codegeneratie benchmarks zoals HumanEval en MBPP, maar hun prestaties dalen bij zelfaanroepende taken. Bijvoorbeeld, o1-mini behaalt 96,2% pass@1 op HumanEval maar slechts 76,2% op HumanEval Pro. (ii) Bij de zelfaanroepende codegeneratietaak laten de op instructies afgestemde modellen slechts marginale verbeteringen zien in vergelijking met de basismodellen. Ten derde onthullen we de soorten faalmodi die voorkomen in onze evaluatieresultaten. Al deze resultaten benadrukken de noodzaak van verdere vooruitgang in zelfaanroepende codegeneratietaken en bieden een nieuwe richting voor toekomstig onderzoek naar het verbeteren van de codeerredeneervaardigheden van LLM's.