Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Taalmodelen zijn effectief gebleken in een breed scala aan toepassingen, maar de meest geavanceerde modellen zijn vaak propriëtair. GPT-4 van OpenAI en verschillende modellen van Anthropic zijn bijvoorbeeld duur en verbruiken aanzienlijk veel energie. Daarentegen heeft de open-sourcegemeenschap concurrerende modellen geproduceerd, zoals Llama3. Bovendien hebben nichespecifieke kleinere taalmodellen, zoals die zijn afgestemd op juridische, medische of financiële taken, hun propriëtaire tegenhangers overtroffen. Dit artikel introduceert een nieuwe aanpak die functionele tokens gebruikt om meerdere open-sourcemodellen te integreren, elk geoptimaliseerd voor specifieke taken. Ons nieuw ontwikkelde Octopus v4-model maakt gebruik van functionele tokens om gebruikersvragen intelligent door te sturen naar het meest geschikte verticale model en de vraag te herformuleren voor de beste prestaties. Octopus v4, een evolutie van de Octopus v1, v2 en v3-modellen, blinkt uit in selectie, parameterbegrip en herformattering. Daarnaast onderzoeken we het gebruik van grafieken als een veelzijdige datastructuur die effectief meerdere open-sourcemodellen coördineert door de mogelijkheden van het Octopus-model en functionele tokens te benutten. Gebruik onze open-source GitHub (https://www.nexa4ai.com/) om Octopus v4-modellen uit te proberen (https://huggingface.co/NexaAIDev/Octopus-v4), en draag bij aan een groter netwerk van taalmodelen. Door modellen met minder dan 10B parameters te activeren, hebben we een SOTA MMLU-score van 74,8 behaald onder modellen van hetzelfde niveau.
Geïnspireerd door de stelling van Kolmogorov-Arnold, stellen we Kolmogorov-Arnold Networks (KANs) voor als veelbelovende alternatieven voor Multi-Layer Perceptrons (MLPs). Terwijl MLPs vaste activatiefuncties op knooppunten ("neuronen") hebben, beschikken KANs over leerbare activatiefuncties op verbindingen ("gewichten"). KANs hebben helemaal geen lineaire gewichten — elke gewichtsparameter wordt vervangen door een univariate functie geparametriseerd als een spline. We laten zien dat deze ogenschijnlijk eenvoudige verandering ervoor zorgt dat KANs MLPs overtreffen op het gebied van nauwkeurigheid en interpreteerbaarheid. Wat betreft nauwkeurigheid kunnen veel kleinere KANs vergelijkbare of betere prestaties behalen dan veel grotere MLPs bij het fitten van data en het oplossen van partiële differentiaalvergelijkingen. Theoretisch en empirisch hebben KANs snellere neurale schaalwetten dan MLPs. Op het gebied van interpreteerbaarheid kunnen KANs intuïtief worden gevisualiseerd en eenvoudig interacteren met menselijke gebruikers. Aan de hand van twee voorbeelden uit de wiskunde en natuurkunde wordt aangetoond dat KANs nuttige samenwerkingspartners zijn die wetenschappers helpen bij het (her)ontdekken van wiskundige en natuurkundige wetten. Kortom, KANs zijn veelbelovende alternatieven voor MLPs en bieden mogelijkheden om de huidige deep learning-modellen, die sterk afhankelijk zijn van MLPs, verder te verbeteren.
Grote taalmodelen zoals GPT en Llama worden getraind met een next-token voorspellingsverlies. In dit werk suggereren we dat het trainen van taalmodelen om meerdere toekomstige tokens tegelijk te voorspellen resulteert in een hogere sample-efficiëntie. Meer specifiek vragen we het model op elke positie in de trainingscorpus om de volgende n tokens te voorspellen met behulp van n onafhankelijke uitvoerkoppen, die opereren bovenop een gedeelde modelstructuur. Door multi-token voorspelling te beschouwen als een aanvullende trainings taak, meten we verbeterde downstream-capaciteiten zonder overhead in trainings tijd voor zowel code- als natuurlijke taalmodellen. De methode wordt steeds nuttiger voor grotere modelgroottes en behoudt zijn aantrekkingskracht bij het trainen voor meerdere epochs. De winsten zijn vooral duidelijk op generatieve benchmarks zoals coderen, waar onze modellen consistent sterke baselines verslaan met meerdere procentpunten. Onze 13B parameter modellen lossen 12% meer problemen op in HumanEval en 17% meer in MBPP dan vergelijkbare next-token modellen. Experimenten op kleine algoritmische taken tonen aan dat multi-token voorspelling gunstig is voor de ontwikkeling van inductiekoppen en algoritmische redeneervaardigheden. Als een extra voordeel zijn modellen getraind met 4-token voorspelling tot 3 keer sneller tijdens inferentie, zelfs bij grote batchgroottes.
Op het gebied van gepersonaliseerde beeldgeneratie is het vermogen om afbeeldingen te creëren die concepten behouden aanzienlijk verbeterd. Het maken van een afbeelding die meerdere concepten op een natuurlijke manier integreert in een samenhangende en visueel aantrekkelijke compositie kan inderdaad een uitdaging zijn. Dit artikel introduceert "InstantFamily," een benadering die gebruikmaakt van een nieuw gemaskeerd kruis-attentiemechanisme en een multimodale embeddingstack om zero-shot multi-ID beeldgeneratie te bereiken. Onze methode behoudt effectief ID door gebruik te maken van globale en lokale kenmerken van een vooraf getraind gezichtsherkenningsmodel, geïntegreerd met tekstcondities. Daarnaast stelt ons gemaskeerde kruis-attentiemechanisme een nauwkeurige controle van multi-ID en compositie in de gegenereerde afbeeldingen mogelijk. We demonstreren de effectiviteit van InstantFamily door experimenten die de dominantie ervan aantonen in het genereren van afbeeldingen met multi-ID, terwijl bekende problemen bij multi-ID generatie worden opgelost. Bovendien bereikt ons model state-of-the-art prestaties in zowel single-ID als multi-ID behoud. Verder toont ons model opmerkelijke schaalbaarheid met een groter aantal ID-behouden dan waar het oorspronkelijk voor was getraind.
Iteratieve voorkeursoptimalisatiemethoden hebben recentelijk goede resultaten laten zien voor algemene instructieafstemmingstaken, maar leveren doorgaans weinig verbetering op voor redeneertaken (Yuan et al., 2024, Chen et al., 2024). In dit werk ontwikkelen we een iteratieve aanpak die de voorkeur optimaliseert tussen concurrerende gegenereerde Chain-of-Thought (CoT)-kandidaten door te optimaliseren voor winnende versus verliezende redeneerstappen die leiden tot het juiste antwoord. We trainen met een aangepast DPO-verlies (Rafailov et al., 2023) met een aanvullende negatieve log-waarschijnlijkheidsterm, die we cruciaal vinden. We laten zien dat het redeneren verbetert over herhaalde iteraties van dit schema. Hoewel we alleen vertrouwen op voorbeelden in de trainingsset, resulteert onze aanpak in een toenemende nauwkeurigheid voor Llama-2-70B-Chat van 55,6% naar 81,6% op GSM8K (en 88,7% met meerderheidsstemming uit 32 steekproeven), van 12,5% naar 20,8% op MATH, en van 77,8% naar 86,7% op ARC-Challenge, wat andere Llama-2-gebaseerde modellen overtreft die niet vertrouwen op aanvullende datasets.
We breiden de contextlengte van Llama-3-8B-Instruct uit van 8K naar 80K via QLoRA fine-tuning. De volledige trainingscyclus is zeer efficiënt en duurt 8 uur op één 8xA800 (80G) GPU-machine. Het resulterende model vertoont superieure prestaties op een breed scala aan evaluatietaken, zoals NIHS, onderwerp- retrieval en lang-context taalbegrip; tegelijkertijd behoudt het ook goed de oorspronkelijke capaciteit over korte contexten. De dramatische context- uitbreiding is voornamelijk te danken aan slechts 3.5K synthetische trainings- voorbeelden gegenereerd door GPT-4, wat wijst op het inherente (maar grotendeels onderschatte) potentieel van LLMs om hun oorspronkelijke contextlengte uit te breiden. In feite zou de contextlengte ver voorbij 80K kunnen worden uitgebreid met meer rekenbronnen. Daarom zal het team de volledige bronnen (inclusief data, model, datageneratiepijplijn, trainingscode) openbaar vrijgeven om toekomstig onderzoek vanuit de gemeenschap te faciliteren: https://github.com/FlagOpen/FlagEmbedding.
Dit werk introduceert MotionLCM, waarmee controleerbare bewegingsgeneratie naar een realtime niveau wordt uitgebreid. Bestaande methoden voor ruimtelijke controle in tekstgeconditioneerde bewegingsgeneratie lijden onder aanzienlijke runtime-inefficiëntie. Om dit probleem aan te pakken, stellen we eerst het motion latent consistency model (MotionLCM) voor bewegingsgeneratie voor, gebaseerd op het latent diffusion model (MLD). Door gebruik te maken van éénstaps (of meerstaps) inferentie, verbeteren we verder de runtime-efficiëntie van het motion latent diffusion model voor bewegingsgeneratie. Om effectieve controleerbaarheid te garanderen, integreren we een motion ControlNet binnen de latente ruimte van MotionLCM en maken we expliciete controlesignalen (bijvoorbeeld bekkenbaan) in de standaard bewegingsruimte mogelijk om het generatieproces direct te controleren, vergelijkbaar met het controleren van andere latent-vrije diffusiemodellen voor bewegingsgeneratie. Door deze technieken toe te passen, kan onze aanpak menselijke bewegingen genereren met tekst en controlesignalen in realtime. Experimentele resultaten tonen de opmerkelijke generatie- en controlecapaciteiten van MotionLCM aan, terwijl de realtime runtime-efficiëntie behouden blijft.
Bestaande automatische bijschriftmethoden voor visuele inhoud kampen met uitdagingen zoals gebrek aan detail, inhoudelijke hallucinaties en slechte instructieopvolging. In dit werk stellen we VisualFactChecker (VFC) voor, een flexibele trainingsvrije pijplijn die hoogwaardige en gedetailleerde bijschriften genereert voor zowel 2D-afbeeldingen als 3D-objecten. VFC bestaat uit drie stappen: 1) voorstel, waarbij beeld-naar-tekst bijschriftmodellen meerdere initiële bijschriften voorstellen; 2) verificatie, waarbij een groot taalmodel (LLM) tools zoals objectdetectie en VQA-modellen gebruikt om voorgestelde bijschriften te factchecken; 3) bijschrijven, waarbij een LLM het definitieve bijschrift genereert door bijschriftvoorstellen en de factcheck-verificatieresultaten samen te vatten. In deze stap kan VFC flexibel bijschriften genereren in verschillende stijlen volgens complexe instructies. We voeren uitgebreide bijschriftevaluaties uit met vier metrieken: 1) CLIP-Score voor beeld-tekstovereenkomst; 2) CLIP-Image-Score voor het meten van de beeld-beeldovereenkomst tussen het originele beeld en het gereconstrueerde beeld gegenereerd door een tekst-naar-beeldmodel met behulp van het bijschrift; 3) een menselijke studie op Amazon Mechanical Turk; 4) GPT-4V voor gedetailleerde evaluatie. Evaluatieresultaten tonen aan dat VFC state-of-the-art open-source bijschriftmethoden overtreft voor 2D-afbeeldingen op de COCO-dataset en 3D-assets op de Objaverse-dataset. Onze studie toont aan dat door open-source modellen te combineren in een pijplijn, we bijschriftmogelijkheden kunnen bereiken die vergelijkbaar zijn met propriëtaire modellen zoals GPT-4V, ondanks een modelgrootte die meer dan 10x kleiner is.
Wij stellen GS-LRM voor, een schaalbaar groot reconstructiemodel dat hoogwaardige 3D Gauss-primitieven kan voorspellen uit 2-4 gepositioneerde sparse afbeeldingen in 0,23 seconden op een enkele A100 GPU. Ons model kenmerkt zich door een zeer eenvoudige transformer-gebaseerde architectuur; we verdelen de invoer-gepositioneerde afbeeldingen in patches, geven de samengevoegde multi-view beeldtokens door aan een reeks transformerblokken, en decoderen de uiteindelijke per-pixel Gauss-parameters direct uit deze tokens voor differentieerbaar renderen. In tegenstelling tot eerdere LRM's die alleen objecten kunnen reconstrueren, kan GS-LRM door het voorspellen van per-pixel Gauss-primitieven natuurlijk omgaan met scènes met grote variaties in schaal en complexiteit. We laten zien dat ons model zowel op object- als scènecaptures kan werken door het te trainen op respectievelijk Objaverse en RealEstate10K. In beide scenario's overtreffen de modellen de state-of-the-art baselines met een ruime marge. We demonstreren ook toepassingen van ons model in downstream 3D-generatietaken. Onze projectwebpagina is beschikbaar op: https://sai-bi.github.io/project/gs-lrm/.
Na de opkomst van NeRFs heeft 3D Gaussian Splatting (3D-GS) de weg vrijgemaakt voor real-time neurale rendering door de rekenlast van volumetrische methoden te overwinnen. Na het baanbrekende werk van 3D-GS hebben verschillende methoden geprobeerd om compressibele en hoogwaardige alternatieven te realiseren. Door echter een geometrie-agnostisch optimalisatieschema te gebruiken, negeren deze methoden de inherente 3D-structuur van de scène, wat de expressiviteit en de kwaliteit van de representatie beperkt, wat resulteert in verschillende zwevende punten en artefacten. In dit werk stellen we een structuurbewuste Gaussian Splatting-methode (SAGS) voor die impliciet de geometrie van de scène codeert, wat zich vertaalt in state-of-the-art renderingprestaties en verminderde opslagvereisten op benchmark datasets voor nieuwe-weergave-synthese. SAGS is gebaseerd op een lokaal-globale grafiekrepresentatie die het leren van complexe scènes vergemakkelijkt en betekenisvolle puntverplaatsingen afdwingt die de geometrie van de scène behouden. Daarnaast introduceren we een lichtgewicht versie van SAGS, die gebruikmaakt van een eenvoudig maar effectief mid-point interpolatieschema, wat een compacte representatie van de scène laat zien met een groottevermindering tot 24 keer, zonder afhankelijk te zijn van compressiestrategieën. Uitgebreide experimenten op meerdere benchmark datasets tonen de superioriteit van SAGS aan in vergelijking met state-of-the-art 3D-GS-methoden, zowel op het gebied van renderingkwaliteit als modelgrootte. Daarnaast laten we zien dat onze structuurbewuste methode effectief zwevende artefacten en onregelmatige vervormingen van eerdere methoden kan verminderen, terwijl nauwkeurige dieptekaarten worden verkregen. Projectpagina https://eververas.github.io/SAGS/.
Vision-language datasets zijn essentieel voor zowel tekst-naar-beeld (T2I) als beeld-naar-tekst (I2T) onderzoek. Huidige datasets missen echter beschrijvingen met fijnmazige details die modellen in staat zouden stellen rijkere associaties te leren. Om deze leemte te vullen, introduceren we Descriptions of Connected and Contrasting Images (DOCCI), een dataset met lange, door mensen geannoteerde Engelse beschrijvingen voor 15k afbeeldingen die zijn gemaakt, gecureerd en gedoneerd door een enkele onderzoeker met de intentie om belangrijke uitdagingen vast te leggen, zoals ruimtelijke relaties, tellen, tekstweergave, wereldkennis en meer. We instrueren menselijke annotators om uitgebreide beschrijvingen te maken voor elke afbeelding; deze hebben gemiddeld een lengte van 136 woorden en zijn zo gemaakt dat ze elke afbeelding duidelijk onderscheiden van gerelateerde of vergelijkbare afbeeldingen. Elke beschrijving is sterk compositioneel en omvat typisch meerdere uitdagingen. Door zowel kwantitatieve als kwalitatieve analyses tonen we aan dat DOCCI een effectieve trainingsbron is voor beeld-naar-tekst generatie — een PaLI 5B model dat is gefinetuned op DOCCI laat gelijke of superieure resultaten zien vergeleken met hoogpresterende grotere modellen zoals LLaVA-1.5 7B en InstructBLIP 7B. Bovendien laten we zien dat DOCCI een nuttige testomgeving is voor tekst-naar-beeld generatie, waarbij de beperkingen van huidige tekst-naar-beeld modellen in het vastleggen van lange beschrijvingen en fijne details worden belicht.
3D-scènegeneratie is snel uitgegroeid tot een uitdagende nieuwe onderzoeksrichting, aangewakkerd door consistente verbeteringen in 2D-generatieve diffusiemodellen. Het meeste eerdere werk op dit gebied genereert scènes door nieuw gegenereerde frames iteratief samen te voegen met bestaande geometrie. Deze werken zijn vaak afhankelijk van vooraf getrainde monocular diepteschatters om de gegenereerde afbeeldingen naar 3D te tillen en ze te integreren met de bestaande scèneweergave. Deze benaderingen worden vervolgens vaak geëvalueerd via een tekstmetriek, die de gelijkenis meet tussen de gegenereerde afbeeldingen en een gegeven tekstprompt. In dit werk leveren we twee fundamentele bijdragen aan het veld van 3D-scènegeneratie. Ten eerste merken we op dat het tillen van afbeeldingen naar 3D met een monocular diepteschattingsmodel suboptimaal is, omdat het de geometrie van de bestaande scène negeert. We introduceren daarom een nieuw dieptevolledigingsmodel, getraind via teacher-distillatie en zelftraining om het 3D-fusieproces te leren, wat resulteert in een verbeterde geometrische samenhang van de scène. Ten tweede introduceren we een nieuwe benchmarkingsmethode voor scènegeneratiemethoden die gebaseerd is op grondwaarheid-geometrie, en daarmee de kwaliteit van de structuur van de scène meet.
Optimalisatiegebaseerde benaderingen, zoals score-distillatie-steekproef (SDS), tonen potentieel in zero-shot 3D-generatie maar kampen met een lage efficiëntie, voornamelijk vanwege het hoge aantal functie-evaluaties (NFEs) dat voor elke steekproef vereist is. In dit artikel introduceren we score-gebaseerde iteratieve reconstructie (SIR), een efficiënt en algemeen algoritme voor 3D-generatie met een multi-view score-gebaseerd diffusiemodel. Gegeven de afbeeldingen die door het diffusiemodel worden geproduceerd, vermindert SIR NFEs door herhaaldelijk 3D-parameters te optimaliseren, in tegenstelling tot de enkele optimalisatie in SDS, wat het 3D-reconstructieproces nabootst. Met andere verbeteringen, waaronder optimalisatie in de pixelruimte, presenteren we een efficiënte benadering genaamd MicroDreamer die algemeen toepasbaar is op verschillende 3D-representaties en 3D-generatietaken. In het bijzonder, terwijl het een vergelijkbare prestatieniveau behoudt, is MicroDreamer 5-20 keer sneller dan SDS in het genereren van neurale stralingsvelden en duurt het ongeveer 20 seconden om meshes te genereren vanuit 3D Gaussiaanse splitsing op een enkele A100 GPU, wat de tijd van de snelste zero-shot baseline, DreamGaussian, halveert. Onze code is beschikbaar op https://github.com/ML-GSAI/MicroDreamer.
Hedendaags 3D-onderzoek, met name op het gebied van reconstructie en generatie, is sterk afhankelijk van 2D-beelden als invoer of voor supervisie. De huidige ontwerpen voor deze 2D-3D-mapping zijn echter geheugenintensief, wat een aanzienlijk knelpunt vormt voor bestaande methoden en nieuwe toepassingen belemmert. Als reactie hierop stellen we een tweetal zeer schaalbare componenten voor 3D-neurale velden voor: Lightplane Render en Splatter, die het geheugengebruik bij 2D-3D-mapping aanzienlijk verminderen. Deze innovaties maken het mogelijk om aanzienlijk meer en hogeresolutiebeelden te verwerken met minimale geheugen- en rekenkosten. We demonstreren hun nut in diverse toepassingen, van het verbeteren van optimalisatie van individuele scènes met beeldniveauverliezen tot het realiseren van een veelzijdige pijplijn voor het drastisch opschalen van 3D-reconstructie en -generatie. Code: https://github.com/facebookresearch/lightplane.