Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit werk introduceren we OmniGen, een nieuw diffusiemodel voor geïntegreerde beeldgeneratie. In tegenstelling tot populaire diffusiemodellen (bijv. Stable Diffusion), heeft OmniGen niet langer extra modules nodig zoals ControlNet of IP-Adapter om diverse besturingscondities te verwerken. OmniGen wordt gekenmerkt door de volgende kenmerken: 1) Unificatie: OmniGen toont niet alleen tekst-naar-beeldgeneratiemogelijkheden, maar ondersteunt ook inherent andere downstream taken, zoals beeldbewerking, op onderwerp gedreven generatie, en visueel-voorwaardelijke generatie. Bovendien kan OmniGen klassieke computervisietaken aan door ze om te zetten in beeldgeneratietaken, zoals randdetectie en menselijke houdingsherkenning. 2) Eenvoud: De architectuur van OmniGen is sterk vereenvoudigd, waardoor de noodzaak voor extra tekstencoders wordt geëlimineerd. Bovendien is het gebruiksvriendelijker in vergelijking met bestaande diffusiemodellen, waardoor complexe taken kunnen worden uitgevoerd via instructies zonder de noodzaak voor extra voorbewerkingsstappen (bijv. schatting van menselijke houding), waardoor het werkproces van beeldgeneratie aanzienlijk wordt vereenvoudigd. 3) Kennisoverdracht: Door te leren in een geïntegreerd formaat, kan OmniGen effectief kennis overdragen tussen verschillende taken, ongeziene taken en domeinen beheren, en nieuwe mogelijkheden tonen. We verkennen ook de redeneercapaciteiten van het model en potentiële toepassingen van het ketendenkmechanisme. Dit werk vertegenwoordigt de eerste poging tot een algemeen beeldgeneratiemodel, en er zijn nog verschillende onopgeloste kwesties. We zullen de gerelateerde bronnen open-source maken op https://github.com/VectorSpaceLab/OmniGen om vooruitgang in dit vakgebied te bevorderen.
We introduceren NVLM 1.0, een familie van grensverleggende multimodale grote taalmodellen (LLM's) die state-of-the-art resultaten behalen op visie-taal taken, waarbij ze de toonaangevende gepatenteerde modellen (bijv. GPT-4o) en open-access modellen (bijv. Llama 3-V 405B en InternVL 2) evenaren. Opmerkelijk genoeg vertoont NVLM 1.0 verbeterde prestaties op alleen tekst na multimodale training ten opzichte van zijn LLM-basis. Wat betreft modelontwerp voeren we een uitgebreide vergelijking uit tussen alleen-decoder multimodale LLM's (bijv. LLaVA) en modellen gebaseerd op kruislingse aandacht (bijv. Flamingo). Op basis van de sterke en zwakke punten van beide benaderingen stellen we een nieuw architectuur voor die zowel de trainings-efficiëntie als multimodale redeneervaardigheden verbetert. Verder introduceren we een 1-D tegel-tagging ontwerp voor tegel-gebaseerde dynamische hoge-resolutie beelden, wat de prestaties op multimodale redeneer- en OCR-gerelateerde taken aanzienlijk verbetert. Wat betreft trainingsdata cureren we zorgvuldig en verstrekken gedetailleerde informatie over onze multimodale pretraining- en begeleide fine-tuning datasets. Onze bevindingen geven aan dat datasetkwaliteit en taakdiversiteit belangrijker zijn dan schaal, zelfs tijdens de pretraining-fase, over alle architecturen heen. Opmerkelijk is dat we productieklasse multimodaliteit ontwikkelen voor de NVLM-1.0 modellen, waardoor ze uitblinken in visie-taal taken terwijl ze de tekst-only prestaties vergeleken met hun LLM-basis behouden en zelfs verbeteren. Om dit te bereiken creëren en integreren we een hoogwaardige tekst-only dataset in multimodale training, naast een aanzienlijke hoeveelheid multimodale wiskunde- en redeneerdata, wat leidt tot verbeterde wiskunde- en codeervaardigheden over modaliteiten heen. Om onderzoek op dit gebied te bevorderen, stellen we de modelgewichten beschikbaar en zullen we de code open-source maken voor de gemeenschap: https://nvlm-project.github.io/.
Recent onderzoek toonde aan dat grote diffusiemodellen kunnen worden hergebruikt als zeer nauwkeurige monoculaire diepteschattingen door diepteschatting te beschouwen als een taak voor beeldconditiegerichte beeldgeneratie. Hoewel het voorgestelde model state-of-the-art resultaten behaalde, beperkten hoge rekenvereisten als gevolg van meerstapsinferentie het gebruik ervan in veel scenario's. In dit artikel laten we zien dat de waargenomen inefficiëntie werd veroorzaakt door een fout in de inferentiepijplijn die tot nu toe onopgemerkt is gebleven. Het aangepaste model presteert vergelijkbaar met de best eerder gerapporteerde configuratie en is meer dan 200 keer sneller. Om te optimaliseren voor prestaties van taken stroomafwaarts, voeren we end-to-end fijnafstemming uit bovenop het enkelstapsmodel met taakspecifieke verliezen en krijgen we een deterministisch model dat alle andere op diffusie gebaseerde diepte- en normaalschattingmodellen overtreft op gangbare zero-shot benchmarks. We ontdekken verrassend dat dit fijnafstemmingsprotocol ook direct werkt op Stable Diffusion en vergelijkbare prestaties behaalt als de huidige state-of-the-art op diffusie gebaseerde diepte- en normaalschattingmodellen, waarbij sommige conclusies uit eerdere werken in twijfel worden getrokken.
Bij 3D-modellering gebruiken ontwerpers vaak een bestaand 3D-model als referentie om nieuwe modellen te maken. Deze praktijk heeft geleid tot de ontwikkeling van Phidias, een nieuw generatief model dat diffusie gebruikt voor referentie-verrijkte 3D-generatie. Met ons methode wordt, op basis van een afbeelding, een opgehaald of door de gebruiker verstrekt 3D-referentiemodel ingezet om het generatieproces te sturen, waardoor de generatiekwaliteit, generalisatievermogen en controleerbaarheid worden verbeterd. Ons model integreert drie kerncomponenten: 1) meta-ControlNet dat dynamisch de conditioneringsterkte moduleert, 2) dynamische referentierouting die de misalignering tussen de invoerafbeelding en 3D-referentie vermindert, en 3) zelfreferentieverrijkingen die zelf-supervised training mogelijk maken met een progressief curriculum. Gezamenlijk resulteren deze ontwerpen in een duidelijke verbetering ten opzichte van bestaande methoden. Phidias legt een eenduidig kader vast voor 3D-generatie met behulp van tekst, afbeelding en 3D-condities met veelzijdige toepassingen.
Instructie-afgestemde taalmodellen (LM) zijn in staat om te reageren op imperatieve commando's, waardoor ze een natuurlijkere gebruikersinterface bieden in vergelijking met hun basis-tegenhangers. In dit werk presenteren we Promptriever, het eerste ophaalmodel dat kan worden aangestuurd zoals een LM. Om Promptriever te trainen, stellen we een nieuwe instantie-niveau instructie-trainingsset samen van MS MARCO, die bijna 500k instanties beslaat. Promptriever behaalt niet alleen sterke prestaties op standaard ophaaltaken, maar volgt ook instructies op. We observeren: (1) grote verbeteringen (bereiken van SoTA) bij het opvolgen van gedetailleerde relevantie-instructies (+14.3 p-MRR / +3.1 nDCG op FollowIR), (2) aanzienlijk verhoogde robuustheid ten opzichte van lexicaal keuzes/frasering in de query+instructie (+12.9 Robustness@10 op InstructIR), en (3) de mogelijkheid om hyperparameter-zoekopdrachten uit te voeren via aansturing om betrouwbaar de ophaalprestaties te verbeteren (+1.4 gemiddelde toename op BEIR). Promptriever toont aan dat ophaalmodellen kunnen worden aangestuurd met prompts op een per-query basis, wat de weg vrijmaakt voor toekomstig werk waarin LM-aansturingstechnieken worden afgestemd op informatieopvraging.
Latente diffusiemodellen hebben veelbelovende resultaten laten zien in tekst-naar-audio (T2A) generatietaken, maar eerdere modellen zijn gestuit op moeilijkheden met generatiekwaliteit, computationele kosten, diffusie sampling en data voorbereiding. In dit artikel introduceren we EzAudio, een op transformer gebaseerd T2A diffusiemodel, om deze uitdagingen aan te pakken. Onze aanpak omvat verschillende belangrijke innovaties: (1) We bouwen het T2A-model op de latente ruimte van een 1D golfvorm Variational Autoencoder (VAE), waarbij we de complexiteit vermijden van het omgaan met 2D spectrogram representaties en het gebruik van een extra neurale vocoder. (2) We ontwerpen een geoptimaliseerde diffusie transformer architectuur die specifiek is afgestemd op audio latente representaties en diffusie modellering, wat de convergentiesnelheid, trainingsstabiliteit en geheugengebruik verbetert, waardoor het trainingsproces gemakkelijker en efficiënter wordt. (3) Om met data-schaarste om te gaan, hanteren we een data-efficiënte trainingsstrategie die ongelabelde data benut voor het leren van akoestische afhankelijkheden, audio bijschriftdata geannoteerd door audio-taalmodellen voor tekst-naar-audio uitlijningsleren, en door mensen gelabelde data voor fine-tuning. (4) We introduceren een classifier-vrije begeleidings (CFG) herschaling methode die EzAudio vereenvoudigt door sterke prompt uitlijning te bereiken terwijl de audiokwaliteit behouden blijft bij het gebruik van grotere CFG-scores, waardoor de noodzaak om te worstelen met het vinden van de optimale CFG-score om deze afweging in balans te brengen, wordt geëlimineerd. EzAudio overtreft bestaande open-source modellen zowel in objectieve metingen als in subjectieve evaluaties, en biedt realistische luisterervaringen met behoud van een gestroomlijnde modelstructuur, lage trainingskosten en een gemakkelijk te volgen trainingspijplijn. Code, data en vooraf getrainde modellen zijn beschikbaar op: https://haidog-yaqub.github.io/EzAudio-Page/.
Eerdere onderzoeken hebben gekwantiseerde LLM's geëvalueerd met behulp van beperkte metrieken zoals perplexiteit of een paar basiskennistaken en oude datasets. Bovendien zijn recente grootschalige modellen zoals Llama 3.1 met tot wel 405B nog niet grondig onderzocht. Dit artikel evalueert de prestaties van instructie-afgestemde LLM's met behulp van verschillende kwantisatiemethoden (GPTQ, AWQ, SmoothQuant en FP8) op modellen variërend van 7B tot 405B. Met behulp van 13 benchmarks beoordelen we de prestaties over zes soorten taken: gezond verstandsvragen, kennis- en taalbegrip, instructievolging, hallucinatiedetectie, wiskunde en dialoog. Onze belangrijkste bevindingen tonen aan dat (1) het kwantiseren van een grotere LLM naar een vergelijkbare grootte als een kleinere FP16 LLM over het algemeen beter presteert bij de meeste benchmarks, behalve bij hallucinatiedetectie en instructievolging; (2) de prestaties variëren aanzienlijk met verschillende kwantisatiemethoden, modelgrootte en bit-breedte, waarbij methoden die alleen op gewicht zijn gebaseerd vaak betere resultaten opleveren bij grotere modellen; (3) de moeilijkheidsgraad van de taak heeft geen significante invloed op de nauwkeurigheidsafname als gevolg van kwantisatie; en (4) de MT-Bench evaluatiemethode heeft beperkte onderscheidende kracht bij recente hoog presterende LLM's.
Agent-gebaseerde modellering (ABM) streeft ernaar het gedrag van complexe systemen te begrijpen door een verzameling agenten te simuleren die handelen en interageren binnen een omgeving. Hun praktische bruikbaarheid vereist het vastleggen van realistische omgevingsdynamiek en adaptief agentengedrag terwijl efficiënt miljoenen agenten worden gesimuleerd. Recente ontwikkelingen in grote taalmodellen (LLM's) bieden een kans om ABM's te verbeteren door LLM's te gebruiken als agenten met verdere potentie om adaptief gedrag vast te leggen. Echter, de computationele onhaalbaarheid van het gebruik van LLM's voor grote populaties heeft hun wijdverbreide adoptie belemmerd. In dit artikel introduceren we AgentTorch - een raamwerk dat ABM's opschalen naar miljoenen agenten terwijl het gedrag van agenten met hoge resolutie wordt vastgelegd met behulp van LLM's. We beoordelen het nut van LLM's als ABM-agenten, waarbij we de afweging tussen simulatieschaal en individuele agenten bekijken. Met behulp van de COVID-19 pandemie als casestudie, tonen we aan hoe AgentTorch 8,4 miljoen agenten kan simuleren die New York City vertegenwoordigen, waarbij de impact van isolatie en werkgedrag op gezondheids- en economische resultaten wordt vastgelegd. We vergelijken de prestaties van verschillende agentarchitecturen op basis van heuristische en LLM-agenten bij het voorspellen van ziektegolven en werkloosheidscijfers. Bovendien laten we de mogelijkheden van AgentTorch zien voor retrospectieve, tegenfeitelijke en toekomstgerichte analyses, waarbij wordt benadrukt hoe adaptief agentengedrag kan helpen bij het overwinnen van de beperkingen van historische gegevens bij het ontwerpen van beleid. AgentTorch is een open-source project dat actief wordt gebruikt voor beleidsvorming en wetenschappelijke ontdekkingen over de hele wereld. Het raamwerk is hier beschikbaar: github.com/AgentTorch/AgentTorch.
Videodiffusiemodellen hebben een groot potentieel laten zien in het genereren van hoogwaardige video's, waardoor ze een steeds populairder onderwerp worden. Hun inherente iteratieve aard leidt echter tot aanzienlijke computationele en tijdkosten. Hoewel er inspanningen zijn geleverd om videodiffusie te versnellen door het verminderen van inferentiestappen (via technieken zoals consistentiedistillatie) en GAN-training (deze benaderingen schieten vaak tekort in prestaties of trainingsstabiliteit). In dit werk introduceren we een tweefasig trainingskader dat op effectieve wijze consistentiedistillatie combineert met GAN-training om deze uitdagingen aan te pakken. Daarnaast stellen we een nieuw ontwerp voor van een videodiscriminator, die de noodzaak voor het decoderen van de videolatentie elimineert en de uiteindelijke prestaties verbetert. Ons model is in staat om hoogwaardige video's te produceren in slechts één stap, met de flexibiliteit om meerstapsverfijning uit te voeren voor verdere prestatieverbetering. Onze kwantitatieve evaluatie op de OpenWebVid-1M benchmark toont aan dat ons model aanzienlijk beter presteert dan bestaande methoden. Opmerkelijk is dat onze prestatie in één stap (FVD 171.15) de prestatie van 8 stappen van de op consistentiedistillatie gebaseerde methode, AnimateLCM (FVD 184.79), overtreft en de prestatie van 25 stappen van geavanceerde Stable Video Diffusion (FVD 156.94) benadert.
We richten ons op behendig, continu en terreinaanpasbaar springen van viervoetige robots in discontinu terrein zoals trappen en stapstenen. In tegenstelling tot enkelvoudig springen, vereist continu springen het nauwkeurig uitvoeren van zeer dynamische bewegingen over lange termijnen, wat uitdagend is voor bestaande benaderingen. Om deze taak uit te voeren, ontwerpen we een hiërarchisch leer- en besturingskader, dat bestaat uit een geleerde hoogtekaartvoorspeller voor robuuste terreinperceptie, een op reinforcement learning gebaseerd bewegingsbeleid op centraal niveau voor veelzijdige en terreinaanpasbare planning, en een op modellen gebaseerde beenbesturing op laag niveau voor nauwkeurige bewegingstracking. Bovendien minimaliseren we de kloof tussen simulatie en werkelijkheid door de hardwarekenmerken nauwkeurig te modelleren. Ons kader stelt een Unitree Go1-robot in staat om behendige en continue sprongen te maken op menselijke trappen en schaarse stapstenen, voor zover wij weten voor het eerst. In het bijzonder kan de robot twee traptreden overschrijden bij elke sprong en voltooit hij een 3,5m lange, 2,8m hoge, 14-treden trap in 4,5 seconden. Bovendien presteert hetzelfde beleid beter dan baselines in verschillende andere parkoer-taken, zoals springen over enkele horizontale of verticale discontinuïteiten. Experimentvideo's zijn te vinden op https://yxyang.github.io/jumping_cod/.
Het digitaliseren van 3D-statische scènes en 4D-dynamische gebeurtenissen vanuit multi-view beelden is al lange tijd een uitdaging in computer vision en graphics. Onlangs is 3D Gaussian Splatting (3DGS) naar voren gekomen als een praktische en schaalbare reconstructiemethode, die populair is geworden vanwege zijn indrukwekkende reconstructiekwaliteit, real-time rendermogelijkheden en compatibiliteit met veelgebruikte visualisatietools. Echter, de methode vereist een aanzienlijk aantal invoerweergaven om een hoogwaardige scène reconstructie te bereiken, wat een aanzienlijke praktische bottleneck introduceert. Deze uitdaging is vooral ernstig bij het vastleggen van dynamische scènes, waarbij het implementeren van een uitgebreide camerareeks prohibitief duur kan zijn. In dit werk identificeren we het gebrek aan ruimtelijke autocorrelatie van splat-kenmerken als een van de factoren die bijdragen aan de suboptimale prestaties van de 3DGS-techniek in spaarzame reconstructie-instellingen. Om dit probleem aan te pakken, stellen we een optimalisatiestrategie voor die splat-kenmerken effectief reguleert door ze te modelleren als de uitvoer van een overeenkomstig impliciet neuronaal veld. Dit resulteert in een consistente verbetering van de reconstructiekwaliteit in verschillende scenario's. Onze aanpak behandelt effectief statische en dynamische gevallen, zoals gedemonstreerd door uitgebreide tests in verschillende opstellingen en scène complexiteiten.
LLM's zijn een integraal onderdeel van retrieval-augmented generation (RAG) systemen. Terwijl veel studies zich richten op het evalueren van de kwaliteit van end-to-end RAG systemen, is er een gebrek aan onderzoek naar het begrijpen van de geschiktheid van een LLM voor de RAG taak. Daarom introduceren we een nieuwe metriek, Trust-Score, die een holistische evaluatie biedt van de betrouwbaarheid van LLM's in een RAG framework. We laten zien dat verschillende prompting methoden, zoals in-context learning, er niet in slagen om LLM's effectief aan te passen aan de RAG taak. Daarom stellen we Trust-Align voor, een framework om LLM's uit te lijnen voor een hogere Trust-Score. LLaMA-3-8b, uitgelijnd met onze methode, presteert aanzienlijk beter dan open-source LLM's van vergelijkbare groottes op ASQA (tot 10,7), QAMPARI (tot 29,2) en ELI5 (tot 14,9). We publiceren onze code op: https://github.com/declare-lab/trust-align.
Het begrijpen van emoties is fundamenteel voor menselijke interactie en ervaring. Mensen kunnen emoties gemakkelijk afleiden uit situaties of gezichtsuitdrukkingen, situaties uit emoties, en voeren verschillende andere affectieve cognitieve taken uit. Hoe bekwaam is de moderne AI in deze inferenties? We introduceren een evaluatiekader voor het testen van affectieve cognitie in foundation modellen. Vertrekkend vanuit psychologische theorie genereren we 1.280 diverse scenario's die relaties tussen beoordelingen, emoties, uitdrukkingen en uitkomsten verkennen. We evalueren de vaardigheden van foundation modellen (GPT-4, Claude-3, Gemini-1.5-Pro) en mensen (N = 567) over zorgvuldig geselecteerde omstandigheden. Onze resultaten tonen aan dat foundation modellen over het algemeen overeenstemmen met menselijke intuïties, waarbij ze de interdeelnemerovereenkomst evenaren of overtreffen. In sommige omstandigheden zijn de modellen "superieur" - ze voorspellen de modale menselijke oordelen beter dan de gemiddelde mens. Alle modellen profiteren van redeneren in een keten van gedachten. Dit suggereert dat foundation modellen een menselijk begrip van emoties en hun invloed op overtuigingen en gedrag hebben verworven.
De recente explosie van generatieve AI-Muzieksystemen heeft tal van zorgen opgeworpen over auteursrechten op gegevens, het licenseren van muziek van muzikanten, en het conflict tussen open-source AI en grote prestigieuze bedrijven. Dergelijke kwesties benadrukken de behoefte aan publiekelijk beschikbare, rechtenvrije muzikale gegevens, waarvan er een groot tekort is, met name voor symbolische muziekgegevens. Om dit probleem te verlichten, presenteren we PDMX: een grootschalige open-source dataset van meer dan 250K MusicXML-partituren uit het publieke domein, verzameld van het partituur-deelplatform MuseScore, waardoor het naar ons weten de grootste beschikbare rechtenvrije symbolische muziekdataset is. PDMX bevat tevens een schat aan zowel tag- als gebruikersinteractiemetadata, waardoor we efficiënt de dataset kunnen analyseren en filteren op hoogwaardige door gebruikers gegenereerde partituren. Gezien de aanvullende metadata die ons dataverzamelingsproces biedt, voeren we multitrack muziekgeneratie-experimenten uit waarbij we evalueren hoe verschillende representatieve subsets van PDMX leiden tot verschillende gedragingen in downstream modellen, en hoe gebruikersbeoordelingsstatistieken kunnen worden gebruikt als een effectieve maatstaf voor gegevenskwaliteit. Voorbeelden zijn te vinden op https://pnlong.github.io/PDMX.demo/.
Een Impliciete Neurale Representatie (INR), waarbij een neuraal netwerk wordt ingezet om coördinaatinput om te zetten in overeenkomstige attributen, heeft recentelijk significante vooruitgang geboekt in diverse op visie gerelateerde domeinen. De prestaties van INR worden echter sterk beïnvloed door de keuze van de niet-lineaire activatiefunctie die wordt gebruikt in de meerlaagse perceptron (MLP) architectuur. Verschillende niet-lineariteiten zijn onderzocht; toch ondervinden huidige INRs beperkingen bij het vastleggen van hoogfrequente componenten, diverse signaaltypes en het oplossen van inverse problemen. We hebben vastgesteld dat deze problemen aanzienlijk kunnen worden verlicht door een paradigma verschuiving in INRs te introduceren. We hebben ontdekt dat een architectuur met leerzame activaties in de initiële lagen fijne details in de onderliggende signalen kan representeren. Specifiek stellen we SL^{2}A-INR voor, een hybride netwerk voor INR met een enkelvoudige laag leerzame activatiefunctie, wat de effectiviteit van traditionele op ReLU gebaseerde MLPs bevordert. Onze methode presteert superieur bij diverse taken, waaronder beeldrepresentatie, 3D-vormreconstructies, inpainting, superresolutie van enkelvoudige beelden, CT-reconstructie en synthese van nieuwe gezichtspunten. Door uitgebreide experimenten stelt SL^{2}A-INR nieuwe maatstaven voor nauwkeurigheid, kwaliteit en convergentiesnelheden voor INR.
Impliciete neurale representaties (INR's) maken gebruik van neurale netwerken om continue en resolutie-onafhankelijke representaties van complexe signalen te bieden met een klein aantal parameters. Bestaande INR-modellen slagen er echter vaak niet in om belangrijke frequentiecomponenten vast te leggen die specifiek zijn voor elke taak. Om dit probleem aan te pakken, stellen we in dit artikel een Fourier Kolmogorov Arnold-netwerk (FKAN) voor INR's voor. Het voorgestelde FKAN maakt gebruik van aanpasbare activatiefuncties gemodelleerd als Fourierreeksen in de eerste laag om effectief de taakspecifieke frequentiecomponenten te regelen en te leren. Bovendien verbeteren de activatiefuncties met aanpasbare Fourier-coëfficiënten het vermogen van het netwerk om complexe patronen en details vast te leggen, wat gunstig is voor data met een hoge resolutie en hoge dimensies. Experimentele resultaten tonen aan dat ons voorgestelde FKAN-model drie toonaangevende basisschema's overtreft en de piek-signaal-ruisverhouding (PSNR) en structurele gelijkenisindexmaat (SSIM) verbetert voor de beeldrepresentatietaak en intersection over union (IoU) voor de 3D-bezettingsvolumerepresentatietaak, respectievelijk.