Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren phi-3-mini, een taalmodel met 3,8 miljard parameters dat getraind is op 3,3 biljoen tokens, waarvan de algehele prestaties, gemeten aan de hand van zowel academische benchmarks als interne tests, wedijveren met modellen zoals Mixtral 8x7B en GPT-3.5 (bijvoorbeeld, phi-3-mini behaalt 69% op MMLU en 8,38 op MT-bench), ondanks het feit dat het klein genoeg is om op een telefoon te worden geïmplementeerd. De innovatie ligt volledig in onze dataset voor training, een opgeschaalde versie van die gebruikt voor phi-2, samengesteld uit sterk gefilterde webdata en synthetische data. Het model is verder afgestemd op robuustheid, veiligheid en chatformaat. We presenteren ook enkele initiële resultaten van parameterschaling met een 7B en 14B model getraind op 4,8T tokens, genaamd phi-3-small en phi-3-medium, beide aanzienlijk krachtiger dan phi-3-mini (bijvoorbeeld respectievelijk 75% en 78% op MMLU, en 8,7 en 8,9 op MT-bench).
De LLaMA-familie van Meta is uitgegroeid tot een van de krachtigste open-source Large Language Model (LLM)-series. Met name de LLaMA3-modellen zijn recentelijk vrijgegeven en behalen indrukwekkende prestaties op diverse gebieden dankzij supergrootschalige voorafgaande training op meer dan 15T tokens aan data. Gezien de brede toepassing van low-bit kwantisatie voor LLM's in scenario's met beperkte middelen, onderzoeken we de mogelijkheden van LLaMA3 wanneer het wordt gekwantiseerd naar lage bitbreedtes. Deze verkenning heeft het potentieel om nieuwe inzichten en uitdagingen te onthullen voor low-bit kwantisatie van LLaMA3 en andere toekomstige LLM's, vooral bij het aanpakken van prestatieverliesproblemen die optreden bij LLM-compressie. Specifiek evalueren we de 10 bestaande post-training kwantisatie- en LoRA-finetuningmethoden van LLaMA3 op 1-8 bits en diverse datasets om de low-bit kwantisatieprestaties van LLaMA3 uitgebreid te onthullen. Onze experimentele resultaten geven aan dat LLaMA3 nog steeds aanzienlijk prestatieverlies lijdt in deze scenario's, vooral bij ultra-lage bitbreedtes. Dit benadrukt de significante prestatiekloof onder lage bitbreedtes die in toekomstige ontwikkelingen moet worden overbrugd. We verwachten dat deze empirische studie waardevol zal blijken bij het bevorderen van toekomstige modellen, waardoor LLM's naar lagere bitbreedtes kunnen worden geduwd met hogere nauwkeurigheid voor praktische toepassingen. Ons project is vrijgegeven op https://github.com/Macaronlin/LLaMA3-Quantization en gekwantiseerde LLaMA3-modellen zijn vrijgegeven op https://huggingface.co/LLMQ.
De huidige LLM's zijn vatbaar voor prompt-injecties, jailbreaks en andere aanvallen waarmee tegenstanders de oorspronkelijke instructies van een model kunnen overschrijven met hun eigen kwaadaardige prompts. In dit werk beargumenteren we dat een van de belangrijkste kwetsbaarheden die ten grondslag liggen aan deze aanvallen is dat LLM's systeemprompts (bijvoorbeeld tekst van een applicatieontwikkelaar) vaak als dezelfde prioriteit beschouwen als tekst van niet-vertrouwde gebruikers en derde partijen. Om dit aan te pakken, stellen we een instructiehiërarchie voor die expliciet definieert hoe modellen zich moeten gedragen wanneer instructies met verschillende prioriteiten conflicteren. Vervolgens introduceren we een methode voor datageneratie om dit hiërarchische instructievolgingsgedrag te demonstreren, waarbij LLM's leren om instructies met lagere prioriteit selectief te negeren. We passen deze methode toe op GPT-3.5 en laten zien dat het de robuustheid aanzienlijk verhoogt — zelfs voor aanvalstypen die niet tijdens de training zijn gezien — terwijl het slechts minimale verslechteringen oplevert voor standaardmogelijkheden.
Het snel evoluerende veld van Robotic Process Automation (RPA) heeft aanzienlijke vooruitgang geboekt in het automatiseren van repetitieve processen, maar de effectiviteit ervan neemt af in scenario's die spontane of onvoorspelbare taken vereisen die door gebruikers worden gevraagd. Dit artikel introduceert een nieuwe benadering, FlowMind, die gebruikmaakt van de mogelijkheden van Large Language Models (LLMs), zoals de Generative Pretrained Transformer (GPT), om deze beperking aan te pakken en een automatisch workflow-generatiesysteem te creëren. In FlowMind stellen we een generiek promptrecept voor een lezing voor dat helpt om de redenering van LLM te verankeren met betrouwbare Application Programming Interfaces (API's). Hiermee vermindert FlowMind niet alleen het veelvoorkomende probleem van hallucinaties in LLM's, maar elimineert het ook directe interactie tussen LLM's en propriëtaire data of code, waardoor de integriteit en vertrouwelijkheid van informatie gewaarborgd blijven - een hoeksteen in financiële diensten. FlowMind vereenvoudigt verder de gebruikersinteractie door hoogwaardige beschrijvingen van automatisch gegenereerde workflows te presenteren, waardoor gebruikers deze effectief kunnen inspecteren en feedback kunnen geven. We introduceren ook NCEN-QA, een nieuwe dataset in de financiële sector voor het benchmarken van vraag-antwoordtaken uit N-CEN-rapporten over fondsen. We hebben NCEN-QA gebruikt om de prestaties van workflows gegenereerd door FlowMind te evalueren tegen baseline- en ablatievarianten van FlowMind. We tonen het succes van FlowMind aan, het belang van elke component in het voorgestelde lezingrecept, en de effectiviteit van gebruikersinteractie en feedback in FlowMind.
Onlangs is een reeks diffusiebewuste distillatie-algoritmen ontstaan om de computationale overhead die gepaard gaat met het meerstaps inferentieproces van Diffusiemodellen (DM's) te verlichten. Huidige distillatietechnieken delen zich vaak op in twee verschillende aspecten: i) ODE-trajectbehoud; en ii) ODE-trajectherformulering. Deze benaderingen leiden echter tot ernstige prestatievermindering of domeinverschuivingen. Om deze beperkingen aan te pakken, stellen we Hyper-SD voor, een nieuw raamwerk dat de voordelen van ODE-trajectbehoud en -herformulering synergetisch combineert, terwijl het bijna verliesvrije prestaties behoudt tijdens stapcompressie. Ten eerste introduceren we Trajectory Segmented Consistency Distillation om progressief consistente distillatie uit te voeren binnen vooraf gedefinieerde tijdstapsegmenten, wat het behoud van het oorspronkelijke ODE-traject vanuit een hogere-orde perspectief vergemakkelijkt. Ten tweede integreren we menselijke feedbackleren om de prestaties van het model in een laagstapsregime te verbeteren en het prestatieverlies veroorzaakt door het distillatieproces te verminderen. Ten derde integreren we score-distillatie om de laagstapsgeneratiecapaciteit van het model verder te verbeteren en bieden we de eerste poging om een verenigde LoRA te gebruiken om het inferentieproces bij alle stappen te ondersteunen. Uitgebreide experimenten en gebruikersstudies tonen aan dat Hyper-SD SOTA-prestaties bereikt van 1 tot 8 inferentiestappen voor zowel SDXL als SD1.5. Hyper-SDXL overtreft bijvoorbeeld SDXL-Lightning met +0,68 in CLIP Score en +0,51 in Aes Score bij 1-staps inferentie.
Dit artikel beschrijft MAIA, een Multimodale Geautomatiseerde Interpretatieagent. MAIA is een systeem dat neurale modellen gebruikt om taken gericht op het begrijpen van neurale modellen te automatiseren, zoals feature-interpretatie en het ontdekken van faalmodi. Het rust een vooraf getraind visueel-taalmodel uit met een set tools die iteratief experimenteren op subcomponenten van andere modellen ondersteunen om hun gedrag te verklaren. Deze omvatten tools die vaak worden gebruikt door menselijke interpretatieonderzoekers: voor het synthetiseren en bewerken van invoer, het berekenen van maximaal activerende voorbeelden uit real-world datasets, en het samenvatten en beschrijven van experimentele resultaten. Interpretatie-experimenten voorgesteld door MAIA combineren deze tools om systeemgedrag te beschrijven en te verklaren. We evalueren toepassingen van MAIA op computervisiemodellen. We karakteriseren eerst MAIA's vermogen om (neuron-niveau) features in geleerde representaties van afbeeldingen te beschrijven. Over verschillende getrainde modellen en een nieuwe dataset van synthetische visieneuronen met gepaarde grondwaarheid-beschrijvingen, produceert MAIA beschrijvingen die vergelijkbaar zijn met die gegenereerd door ervaren menselijke experimentatoren. Vervolgens tonen we aan dat MAIA kan helpen bij twee aanvullende interpretatietaken: het verminderen van gevoeligheid voor spurious features, en het automatisch identificeren van invoer die waarschijnlijk verkeerd worden geclassificeerd.
De snelle evolutie van multimodale foundation-modellen heeft aanzienlijke vooruitgang geboekt in visueel-taalkundig begrip en generatie, bijvoorbeeld ons eerdere werk SEED-LLaMA. Er blijft echter een kloof bestaan tussen de capaciteiten van het model en de toepasbaarheid in de praktijk, voornamelijk vanwege het beperkte vermogen van het model om effectief te reageren op diverse gebruikersinstructies en te interageren met uiteenlopende visuele data. In dit werk richten we ons op het overbruggen van deze kloof door twee verbeterde functies te integreren: (1) het begrijpen van afbeeldingen met willekeurige afmetingen en verhoudingen, en (2) het mogelijk maken van multi-granulariteit beeldgeneratie. We presenteren een uniform en veelzijdig foundation-model, genaamd SEED-X, dat in staat is om multi-granulariteit visuele semantiek te modelleren voor begrips- en generatietaken. Naast de concurrerende resultaten op publieke benchmarks, toont SEED-X zijn effectiviteit in het omgaan met real-world toepassingen in verschillende domeinen na instructieafstemming. We hopen dat ons werk toekomstig onderzoek zal inspireren naar wat er kan worden bereikt met veelzijdige multimodale foundation-modellen in real-world toepassingen. De modellen, codes en datasets zullen worden vrijgegeven op https://github.com/AILab-CVC/SEED-X.
Consistentiemodellen hebben opmerkelijke capaciteiten getoond bij het faciliteren van efficiënte beeld-/videogeneratie, waardoor synthese met minimale samplingstappen mogelijk wordt gemaakt. Het is bewezen voordelig te zijn bij het verminderen van de computationele lasten die gepaard gaan met diffusiemodellen. Desalniettemin blijft de toepassing van consistentiemodellen in muziekgeneratie grotendeels onontgonnen. Om deze leemte aan te pakken, presenteren wij Music Consistency Models (MusicCM), dat het concept van consistentiemodellen benut om op efficiënte wijze mel-spectrogrammen voor muziekfragmenten te synthetiseren, waarbij hoge kwaliteit wordt behouden en het aantal samplingstappen wordt geminimaliseerd. Voortbouwend op bestaande tekst-naar-muziek diffusiemodellen, integreert het MusicCM-model consistentiedistillatie en adversariële discriminator training. Bovendien vinden we het nuttig om uitgebreide coherente muziek te genereren door meerdere diffusieprocessen met gedeelde beperkingen te incorporeren. Experimentele resultaten tonen de effectiviteit van ons model aan op het gebied van computationele efficiëntie, geloofwaardigheid en natuurlijkheid. Opmerkelijk is dat MusicCM naadloze muzieksynthese bereikt met slechts vier samplingstappen, bijvoorbeeld slechts één seconde per minuut van het muziekfragment, wat het potentieel voor real-time toepassingen aantoont.
Dit artikel introduceert MultiBooth, een nieuwe en efficiënte techniek voor multi-concept aanpassing in beeldgeneratie vanuit tekst. Ondanks de aanzienlijke vooruitgang in aangepaste generatiemethoden, met name door het succes van diffusiemodellen, hebben bestaande methoden vaak moeite met multi-concept scenario’s vanwege lage conceptgetrouwheid en hoge inferentiekosten. MultiBooth lost deze problemen op door het multi-concept generatieproces op te delen in twee fasen: een enkel-concept leerfase en een multi-concept integratiefase. Tijdens de enkel-concept leerfase gebruiken we een multimodale beeldencoder en een efficiënte conceptcoderingstechniek om een beknopte en onderscheidende representatie voor elk concept te leren. In de multi-concept integratiefase gebruiken we begrenzingsvakken om het generatiegebied voor elk concept binnen de cross-attention map te definiëren. Deze methode maakt het mogelijk om individuele concepten binnen hun gespecificeerde regio’s te creëren, waardoor de vorming van multi-concept beelden wordt vergemakkelijkt. Deze strategie verbetert niet alleen de conceptgetrouwheid, maar vermindert ook de extra inferentiekosten. MultiBooth overtreft verschillende baseline-methoden in zowel kwalitatieve als kwantitatieve evaluaties, wat zijn superieure prestaties en computationele efficiëntie aantoont. Projectpagina: https://multibooth.github.io/
Stabiele voortbeweging in steile omgevingen is een essentiële vaardigheid voor viervoetige robots, wat het vermogen vereist om verschillende externe verstoringen te weerstaan. Recente op leren gebaseerde beleidsregels gebruiken echter alleen basis domeinrandomisatie om de robuustheid van geleerde beleidsregels te verbeteren, wat niet kan garanderen dat de robot voldoende verstoringsweerstand heeft. In dit artikel stellen we voor om het leerproces te modelleren als een adversariële interactie tussen de actor en een nieuw geïntroduceerde verstorer, en zorgen we voor hun optimalisatie met een H_{infty}-beperking. In tegenstelling tot de actor, die het gedisconteerde totale beloningssignaal maximaliseert, is de verstorer verantwoordelijk voor het genereren van effectieve externe krachten en wordt deze geoptimaliseerd door de fout tussen de taakbeloning en zijn orakel, d.w.z. "kosten" in elke iteratie, te maximaliseren. Om de gezamenlijke optimalisatie tussen de actor en de verstorer stabiel te houden, vereist onze H_{infty}-beperking een bovengrens voor de verhouding tussen de kosten en de intensiteit van de externe krachten. Door wederzijdse interactie gedurende de trainingsfase kan de actor het vermogen verwerven om steeds complexere fysieke verstoringen te navigeren. We verifiëren de robuustheid van onze aanpak op viervoetige voortbewegingstaken met de Unitree Aliengo-robot, en ook op een uitdagender taak met de Unitree A1-robot, waarbij de viervoeter alleen op zijn achterpoten moet voortbewegen alsof het een tweevoetige robot is. De gesimuleerde kwantitatieve resultaten tonen verbetering ten opzichte van de basislijnen, wat de effectiviteit van de methode en elke ontwerpkeuze aantoont. Aan de andere kant laten experimenten met echte robots kwalitatief zien hoe robuust het beleid is bij het omgaan met verschillende verstoringen op diverse terreinen, waaronder trappen, hoge platforms, hellingen en gladde terreinen. Alle code, checkpoints en richtlijnen voor implementatie in de echte wereld zullen openbaar worden gemaakt.
We behandelen de taak van het schatten van cameraparameters uit een set afbeeldingen die een scène weergeven. Populaire feature-gebaseerde structure-from-motion (SfM) tools lossen deze taak op door incrementele reconstructie: ze herhalen de triangulatie van schaarse 3D-punten en de registratie van meer camerabeelden bij de schaarse puntenwolk. We interpreteren incrementele structure-from-motion opnieuw als een herhaalde toepassing en verfijning van een visuele relocalizer, dat wil zeggen, een methode die nieuwe beelden registreert bij de huidige staat van de reconstructie. Dit perspectief stelt ons in staat om alternatieve visuele relocalizers te onderzoeken die niet gebaseerd zijn op lokale feature-matching. We laten zien dat scene coordinate regression, een op leren gebaseerde relocalisatiebenadering, ons in staat stelt om impliciete, neurale scène-representaties te bouwen uit ongeposeerde afbeeldingen. In tegenstelling tot andere op leren gebaseerde reconstructiemethoden, hebben we geen pose-priors noch sequentiële inputs nodig, en optimaliseren we efficiënt over duizenden afbeeldingen. Onze methode, ACE0 (ACE Zero), schat cameraposes met een nauwkeurigheid die vergelijkbaar is met feature-gebaseerde SfM, zoals aangetoond wordt door novel view synthesis. Projectpagina: https://nianticlabs.github.io/acezero/