Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks de snelle integratie van videoperceptiemogelijkheden in Grote Multimodale Modellen (LMM's) blijven de onderliggende mechanismen die hun videobegrip aansturen slecht begrepen. Hierdoor worden veel ontwerpbeslissingen op dit gebied genomen zonder de juiste rechtvaardiging of analyse. De hoge rekenkundige kosten van het trainen en evalueren van dergelijke modellen, samen met beperkt open onderzoek, belemmeren de ontwikkeling van video-LMM's. Om dit aan te pakken, presenteren we een uitgebreide studie die helpt blootleggen wat effectief videobegrip in LMM's aanstuurt. We beginnen met een kritische analyse van de belangrijkste bijdragers aan de hoge rekenvereisten die gepaard gaan met onderzoek naar video-LMM's en ontdekken Schaalconsistentie, waarbij ontwerp- en trainingsbeslissingen die worden genomen op kleinere modellen en datasets (tot een kritieke omvang) effectief overgaan naar grotere modellen. Met behulp van deze inzichten hebben we veel video-specifieke aspecten van video-LMM's verkend, waaronder videosampling, architecturen, gegevenssamenstelling, trainingschema's en meer. Zo hebben we bijvoorbeeld aangetoond dat fps-sampling tijdens training aanzienlijk de voorkeur verdient boven uniforme framesampling en welke visie-encoders het beste zijn voor videoweergave. Geleid door deze bevindingen introduceren we Apollo, een state-of-the-art familie van LMM's die superieure prestaties behalen over verschillende modelgroottes. Onze modellen kunnen efficiënt uur lange video's waarnemen, waarbij Apollo-3B de meeste bestaande 7B-modellen overtreft met een indrukwekkende 55.1 op LongVideoBench. Apollo-7B is state-of-the-art in vergelijking met 7B LMM's met een score van 70.9 op MLVU en 63.3 op Video-MME.
Het begrijpen, navigeren en verkennen van de driedimensionale fysieke echte wereld is al lange tijd een centrale uitdaging in de ontwikkeling van kunstmatige intelligentie. In dit werk zetten we een stap in de richting van dit doel door GenEx te introduceren, een systeem dat in staat is om complexe verkenning van de wereld uit te voeren, geleid door zijn generatieve verbeelding die verwachtingen vormt over de omringende omgevingen. GenEx genereert een volledige driedimensionaal consistente denkbeeldige omgeving vanuit slechts een enkele RGB-afbeelding, en brengt deze tot leven door panoramische videostreams. Door gebruik te maken van schaalbare driedimensionale wereldgegevens samengesteld uit Unreal Engine, is ons generatieve model verankerd in de fysieke wereld. Het legt een continue 360-graden omgeving vast met weinig moeite, en biedt een grenzeloos landschap voor AI-agenten om te verkennen en mee te interacteren. GenEx bereikt hoogwaardige wereldgeneratie, robuuste lusconsistentie over lange trajecten, en toont sterke driedimensionale capaciteiten zoals consistentie en actieve driedimensionale mapping. Aangedreven door de generatieve verbeelding van de wereld, zijn GPT-ondersteunde agenten in staat om complexe verankerde taken uit te voeren, waaronder zowel doel-agnostische verkenning als doelgerichte navigatie. Deze agenten maken gebruik van voorspellende verwachtingen met betrekking tot ongeziene delen van de fysieke wereld om hun overtuigingen te verfijnen, verschillende uitkomsten te simuleren op basis van potentiële beslissingen, en meer geïnformeerde keuzes te maken. Samengevat tonen we aan dat GenEx een transformerend platform biedt voor het bevorderen van verankerde AI in denkbeeldige ruimtes en mogelijkheden biedt om deze capaciteiten uit te breiden naar verkenning in de echte wereld.
De opmerkelijke successen van Grote Taalmodellen (LLMs) hebben zich uitgebreid naar het multimodale domein, waarbij uitstekende prestaties worden behaald op het gebied van beeldbegrip en -generatie. Recente inspanningen om geïntegreerde Multimodale Grote Taalmodellen (MLLMs) te ontwikkelen die deze mogelijkheden combineren, hebben veelbelovende resultaten laten zien. Echter, bestaande benaderingen omvatten vaak complexe ontwerpen in modelarchitectuur of trainingspijplijn, wat de moeilijkheid van modeltraining en schaling vergroot. In dit artikel stellen we SynerGen-VL voor, een eenvoudig maar krachtig encoder-vrij MLLM dat in staat is tot zowel beeldbegrip als -generatie. Om uitdagingen aan te pakken die zijn geïdentificeerd in bestaande encoder-vrije geïntegreerde MLLMs, introduceren we het token-vouwmechanisme en de op visie-experts gebaseerde progressieve uitlijningspretrainingstrategie, die effectief hoogwaardig beeldbegrip ondersteunen en tegelijkertijd de trainingscomplexiteit verminderen. Na te zijn getraind op grootschalige gemengde beeld-tekstgegevens met een eenduidig volgend-token-voorspellingsdoel, behaalt SynerGen-VL prestaties die gelijk zijn aan of beter zijn dan bestaande encoder-vrije geïntegreerde MLLMs met vergelijkbare of kleinere parametergroottes, en verkleint het de kloof met taakspecifieke state-of-the-art modellen, wat wijst op een veelbelovende weg naar toekomstige geïntegreerde MLLMs. Onze code en modellen zullen worden vrijgegeven.
Naarmate AI blijft evolueren, groeit de vraag naar systemen die verder gaan dan op taal gebaseerde assistentie en zich richten op intelligente agenten die in staat zijn om acties in de echte wereld uit te voeren. Deze evolutie vereist de overgang van traditionele Grote Taalmodellen (GTM's), die uitblinken in het genereren van tekstuele antwoorden, naar Grote Actiemodellen (GAM's), ontworpen voor actiegeneratie en -uitvoering binnen dynamische omgevingen. Ondersteund door agentsystemen hebben GAM's het potentieel om AI te transformeren van passief taalbegrip naar actieve taakuitvoering, wat een belangrijke mijlpaal markeert in de vooruitgang naar kunstmatige algemene intelligentie. In dit artikel presenteren we een uitgebreid kader voor het ontwikkelen van GAM's, waarbij we een systematische aanpak bieden voor hun creatie, van conceptie tot implementatie. We beginnen met een overzicht van GAM's, waarbij we hun unieke kenmerken benadrukken en hun verschillen ten opzichte van GTM's uiteenzetten. Met behulp van een Windows OS-gebaseerde agent als casestudy, bieden we een gedetailleide, stapsgewijze handleiding over de belangrijkste fasen van GAM-ontwikkeling, inclusief gegevensverzameling, modeltraining, omgevingsintegratie, gronding en evaluatie. Deze generaliseerbare workflow kan dienen als blauwdruk voor het creëren van functionele GAM's in verschillende toepassingsdomeinen. We sluiten af door de huidige beperkingen van GAM's te identificeren en richtingen voor toekomstig onderzoek en industriële implementatie te bespreken, waarbij de uitdagingen en kansen worden benadrukt die voor ons liggen om het volledige potentieel van GAM's in real-world toepassingen te realiseren. De code voor het gegevensverzamelingsproces dat in dit artikel wordt gebruikt, is openbaar beschikbaar op: https://github.com/microsoft/UFO/tree/main/dataflow, en uitgebreide documentatie is te vinden op https://microsoft.github.io/UFO/dataflow/overview/.
Dit artikel introduceert BiMediX2, een tweetalig (Arabisch-Engels) Bio-Medische EXpert Groot Multimodaal Model (LMM) met een uniforme architectuur die tekstuele en visuele modaliteiten integreert, waardoor geavanceerd begrip van afbeeldingen en medische toepassingen mogelijk is. BiMediX2 maakt gebruik van de Llama3.1-architectuur en integreert tekstuele en visuele mogelijkheden om naadloze interacties in zowel het Engels als het Arabisch te vergemakkelijken, met ondersteuning voor op tekst gebaseerde invoer en meerdelige gesprekken met medische afbeeldingen. Het model is getraind op een uitgebreide tweetalige gezondheidszorgdataset bestaande uit 1,6 miljoen voorbeelden van diverse medische interacties voor zowel tekstuele als visuele modaliteiten, gemengd in het Arabisch en Engels. We stellen ook de eerste tweetalige GPT-4o gebaseerde medische LMM benchmark voor genaamd BiMed-MBench. BiMediX2 wordt beoordeeld op zowel op tekst gebaseerde als op afbeeldingen gebaseerde taken en behaalt toonaangevende prestaties op verschillende medische benchmarks. Het overtreft recente state-of-the-art modellen in medische LLM-evaluatiebenchmarks. Ons model stelt ook een nieuwe norm in multimodale medische evaluaties met meer dan 9% verbetering in het Engels en meer dan 20% in Arabische evaluaties. Daarnaast overtreft het GPT-4 met ongeveer 9% in UPHILL feitelijke nauwkeurigheidsevaluaties en excelleert het in verschillende medische Visual Question Answering, Report Generation en Report Summarization taken. De projectpagina inclusief broncode en het getrainde model is beschikbaar op https://github.com/mbzuai-oryx/BiMediX2.
Visuele diffusiemodellen boeken opmerkelijke vooruitgang, maar ze worden doorgaans getraind op beperkte resoluties vanwege het gebrek aan data met hoge resolutie en beperkte rekenkracht, wat hun vermogen om hoogwaardige afbeeldingen of video's op hogere resoluties te genereren belemmert. Recente inspanningen hebben tuning-vrije strategieën onderzocht om het onbenutte potentieel van hogeresolutie visuele generatie van vooraf getrainde modellen te tonen. Deze methoden zijn echter nog steeds vatbaar voor het produceren van visuele inhoud van lage kwaliteit met repetitieve patronen. Het belangrijkste obstakel ligt in de onvermijdelijke toename van hoogfrequente informatie wanneer het model visuele inhoud genereert die de trainingsresolutie overschrijdt, wat leidt tot ongewenste repetitieve patronen die voortkomen uit de opgehoopte fouten. Om deze uitdaging aan te gaan, stellen we FreeScale voor, een tuning-vrij inferentieparadigma om hogeresolutie visuele generatie mogelijk te maken via schaalfusie. Specifiek verwerkt FreeScale informatie van verschillende receptieve schalen en fuseert deze vervolgens door de gewenste frequentiecomponenten te extraheren. Uitgebreide experimenten bevestigen de superioriteit van ons paradigma bij het uitbreiden van de mogelijkheden van hogeresolutie visuele generatie voor zowel beeld- als videomodellen. Opmerkelijk is dat FreeScale, in vergelijking met de vorige best presterende methode, voor het eerst de generatie van 8k-resolutie afbeeldingen mogelijk maakt.
Text-to-video generatie is de afgelopen jaren snel geëvolueerd en levert opmerkelijke resultaten op. De training vertrouwt doorgaans op video-ondertitel gekoppelde gegevens, wat een cruciale rol speelt bij het verbeteren van de generatieprestaties. Huidige video-ondertitels lijden echter vaak aan onvoldoende details, hallucinaties en onnauwkeurige bewegingsweergave, wat de geloofwaardigheid en consistentie van gegenereerde video's beïnvloedt. In dit werk stellen we een nieuw instantie-bewust gestructureerd ondertitelingskader voor, genaamd InstanceCap, om voor het eerst instantie-niveau en fijnmazige video-ondertiteling te bereiken. Op basis van dit schema ontwerpen we een hulpmodellencluster om de oorspronkelijke video om te zetten in instanties om de instantiegetrouwheid te verbeteren. Video-instanties worden vervolgens gebruikt om dichte aanwijzingen te verfijnen tot gestructureerde zinnen, waardoor beknopte maar nauwkeurige beschrijvingen worden bereikt. Bovendien wordt een 22K InstanceVid-dataset samengesteld voor training, en wordt een verbeteringspijplijn voorgesteld die is afgestemd op de structuur van InstanceCap voor inferentie. Experimentele resultaten tonen aan dat onze voorgestelde InstanceCap aanzienlijk beter presteert dan eerdere modellen, waarbij een hoge geloofwaardigheid tussen ondertitels en video's wordt gegarandeerd terwijl hallucinaties worden verminderd.
We onderzoeken het gebruik van Residual Vector Quantization (RVQ) voor hoogwaardige generatie in vectorgekwantificeerde generatieve modellen. Deze kwantiseringstechniek behoudt een hogere gegevensgetrouwheid door gebruik te maken van meer diepgaande tokens. Het verhogen van het aantal tokens in generatieve modellen leidt echter tot langzamere inferentiesnelheden. Daarom introduceren we ResGen, een efficiënt RVQ-gebaseerd discreet diffusiemodel dat hoogwaardige monsters genereert zonder de bemonsteringssnelheid in gevaar te brengen. Ons belangrijkste idee is een directe voorspelling van de vector-embedding van collectieve tokens in plaats van individuele. Bovendien tonen we aan dat onze voorgestelde tokenmaskering en multi-token voorspellingsmethode kunnen worden geformuleerd binnen een principieel probabilistisch kader met behulp van een discreet diffusieproces en variational inference. We valideren de doeltreffendheid en generaliseerbaarheid van de voorgestelde methode op twee uitdagende taken over verschillende modaliteiten: conditionele beeldgeneratie op ImageNet 256x256 en zero-shot tekst-naar-spraak synthese. Experimentele resultaten tonen aan dat ResGen beter presteert dan autoregressieve tegenhangers in beide taken, met superieure prestaties zonder de bemonsteringssnelheid in gevaar te brengen. Bovendien vertonen onze generatieve modellen, naarmate we de diepte van RVQ vergroten, verbeterde generatietrouw of snellere bemonsteringssnelheden in vergelijking met even grote basismodellen. De projectpagina is te vinden op https://resgen-genai.github.io
Dit artikel introduceert een afstemmingsvrije methode voor zowel objectinvoeging als door onderwerp gedreven generatie. De taak omvat het samenstellen van een object, gegeven meerdere weergaven, in een scène gespecificeerd door ofwel een afbeelding of tekst. Bestaande methoden worstelen om volledig aan de uitdagende doelstellingen van de taak te voldoen: (i) naadloos het object in de scène samenstellen met fotorealistische houding en belichting, en (ii) de identiteit van het object behouden. We veronderstellen dat het bereiken van deze doelen grote schaal supervisie vereist, maar het handmatig verzamelen van voldoende gegevens is simpelweg te duur. De belangrijkste observatie in dit artikel is dat veel massaal geproduceerde objecten terugkeren in meerdere afbeeldingen van grote ongelabelde datasets, in verschillende scènes, houdingen en belichtingsomstandigheden. We gebruiken deze observatie om massale supervisie te creëren door sets van diverse weergaven van hetzelfde object op te halen. Deze krachtige gekoppelde dataset stelt ons in staat om een eenvoudige tekst-naar-afbeelding diffusie-architectuur te trainen om de object- en scènebeschrijvingen naar de samengestelde afbeelding te mappen. We vergelijken onze methode, ObjectMate, met state-of-the-art methoden voor objectinvoeging en door onderwerp gedreven generatie, met behulp van een enkele of meerdere referenties. Empirisch gezien behaalt ObjectMate superieure identiteitsbehoud en meer fotorealistische samenstelling. In tegenstelling tot veel andere multi-referentie methoden, vereist ObjectMate geen langzame afstemming op testtijd.
Long-context LLM's hebben tal van downstream toepassingen mogelijk gemaakt, maar hebben ook aanzienlijke uitdagingen geïntroduceerd met betrekking tot computationele en geheugenefficiëntie. Om deze uitdagingen aan te pakken, zijn optimalisaties voor lang-context inferentie ontwikkeld, gericht op de KV-cache. Bestaande benchmarks evalueren echter vaak op basis van enkelvoudige verzoeken, waarbij het volledige levenscyclus van de KV-cache in echt gebruik wordt verwaarloosd. Deze omissie is bijzonder kritiek, aangezien het hergebruik van de KV-cache wijdverbreid is geworden in LLM's inferentiekaders, zoals vLLM en SGLang, evenals bij LLM-providers, waaronder OpenAI, Microsoft, Google en Anthropic. Om deze lacune aan te pakken, introduceren we SCBench (SharedContextBench), een uitgebreide benchmark voor het evalueren van lang-context methoden vanuit een KV-cachegericht perspectief: 1) KV-cache generatie, 2) KV-cache compressie, 3) KV-cache ophalen, 4) KV-cache laden. Specifiek maakt SCBench gebruik van testvoorbeelden met gedeelde context, bestrijkend 12 taken met twee gedeelde contextmodi, die vier categorieën van lang-context mogelijkheden omvatten: string ophalen, semantisch ophalen, globale informatie en multi-taak. Hiermee bieden we een uitgebreide KV-cachegerichte analyse van acht categorieën lang-context oplossingen, waaronder Gated Linear RNN's, Mamba-Attention hybriden, en efficiënte methoden zoals schaarse aandacht, KV-cache verwijdering, kwantisering, ophalen, laden en promptcompressie. De evaluatie wordt uitgevoerd op 8 lang-context LLM's. Onze bevindingen tonen aan dat sub-O(n) geheugenmethoden lijden in multi-turn scenario's, terwijl schaarse encoding met O(n) geheugen en sub-O(n^2) voorvulberekening robuust presteren. Dynamische spaarzaamheid levert expressievere KV-caches op dan statische patronen, en laagniveau spaarzaamheid in hybride architecturen vermindert geheugengebruik met sterke prestaties. Bovendien identificeren we aandachtsverdelingsproblemen in lang-generatiescenario's. https://aka.ms/SCBench.
Hoewel Rectified Flows (ReFlows) met distillatie een veelbelovende manier bieden voor snelle bemonstering, zorgt de snelle inversie ervoor dat afbeeldingen terug worden getransformeerd naar gestructureerd ruis voor herstel, en het daaropvolgende bewerken blijft onopgelost. Dit artikel introduceert FireFlow, een eenvoudige maar effectieve zero-shot benadering die de opmerkelijke capaciteit van op ReFlow gebaseerde modellen (zoals FLUX) bij generatie overneemt, terwijl het de mogelijkheden uitbreidt naar nauwkeurige inversie en bewerking in 8 stappen. We tonen eerst aan dat een zorgvuldig ontworpen numerieke oplosser cruciaal is voor ReFlow inversie, waardoor nauwkeurige inversie en reconstructie mogelijk zijn met de precisie van een oplosser van de tweede orde, terwijl de praktische efficiëntie van een oplosser van de eerste orde behouden blijft. Deze oplosser bereikt een 3 keer snellere uitvoeringstijd in vergelijking met state-of-the-art ReFlow inversie- en bewerkingstechnieken, terwijl hij kleinere reconstructiefouten en superieure bewerkingsresultaten levert in een trainingvrije modus. De code is beschikbaar op https://github.com/HolmesShuan/FireFlow{deze URL}.
Rectified flow-modellen zijn naar voren gekomen als een dominante benadering in beeldgeneratie, waarbij indrukwekkende mogelijkheden worden getoond in hoogwaardige beeldsynthese. Echter, ondanks hun effectiviteit in visuele generatie, hebben rectified flow-modellen vaak moeite met het ontrafelen van bewerkingen van afbeeldingen. Deze beperking voorkomt de mogelijkheid om nauwkeurige, attribuutspecifieke wijzigingen uit te voeren zonder ongerelateerde aspecten van de afbeelding te beïnvloeden. In dit artikel introduceren we FluxSpace, een domeinagnostische beeldbewerkingsmethode die gebruikmaakt van een representatieruimte met de mogelijkheid om de semantiek van afbeeldingen die zijn gegenereerd door rectified flow-transformators, zoals Flux, te beheersen. Door gebruik te maken van de representaties die zijn geleerd door de transformatorblokken binnen de rectified flow-modellen, stellen we een reeks semantisch interpreteerbare representaties voor die een breed scala aan beeldbewerkingstaken mogelijk maken, van fijnmazige beeldbewerking tot artistieke creatie. Dit werk biedt een schaalbare en effectieve benadering van beeldbewerking, samen met zijn vermogen tot ontrafeling.
Het genereren van tekst-naar-video verbetert de inhoudcreatie, maar is zeer rekenintensief: de computationele kosten van Diffusion Transformers (DiTs) schalen kwadratisch met het aantal pixels. Dit maakt het genereren van video's van minuutlengte extreem duur, waardoor de meeste bestaande modellen beperkt zijn tot het genereren van video's van slechts 10-20 seconden lengte. Wij stellen een Lineaire-complexiteit tekst-naar-video Generatie (LinGen) framework voor waarvan de kosten lineair schalen met het aantal pixels. Voor het eerst maakt LinGen hoogwaardige minuutlange video-generatie mogelijk op een enkele GPU zonder concessies te doen aan de kwaliteit. Het vervangt het computationeel dominante en kwadratische-complexiteit blok, zelfaandacht, door een lineaire-complexiteit blok genaamd MATE, dat bestaat uit een MA-tak en een TE-tak. De MA-tak richt zich op korte- tot langeafstandsverbanden, door een bidirectioneel Mamba2 blok te combineren met onze token-herschikking methode, Rotary Major Scan, en onze review tokens ontwikkeld voor lange video-generatie. De TE-tak is een nieuw TEmporal Swin Aandacht blok dat zich richt op temporele verbanden tussen aangrenzende tokens en tokens op middellange afstand. Het MATE blok pakt het probleem van aangrenzend behoud van Mamba aan en verbetert de consistentie van gegenereerde video's aanzienlijk. Experimentele resultaten tonen aan dat LinGen DiT overtreft (met een winstpercentage van 75,6%) in videokwaliteit met een vermindering van maximaal 15 keer (11,5 keer) FLOPs (latentie). Bovendien tonen zowel automatische metrieken als menselijke evaluatie aan dat onze LinGen-4B vergelijkbare videokwaliteit oplevert als state-of-the-art modellen (met respectievelijk een winstpercentage van 50,5%, 52,1%, 49,1% ten opzichte van Gen-3, LumaLabs en Kling). Dit opent de weg naar het genereren van speelfilms van uur-lengte en real-time interactieve video-generatie. We bieden 68s video-generatieresultaten en meer voorbeelden op onze projectwebsite: https://lineargen.github.io/.
Multimodale muziekgeneratie heeft als doel muziek te produceren vanuit diverse inputmodaliteiten, waaronder tekst, video's en afbeeldingen. Bestaande methoden maken gebruik van een gemeenschappelijke insluitruimte voor multimodale fusie. Ondanks hun effectiviteit in andere modaliteiten, worden ze geconfronteerd met uitdagingen zoals gegevensschaarste, zwakke crossmodale uitlijning en beperkte controleerbaarheid bij toepassing op multimodale muziekgeneratie. Dit artikel behandelt deze kwesties door expliciete bruggen van tekst en muziek te gebruiken voor multimodale uitlijning. We introduceren een nieuw method genaamd Visuele Muziekbrug (VMB). Specifiek zet een Multimodaal Muziekbeschrijvingsmodel visuele input om in gedetailleerde tekstuele beschrijvingen om de tekstbrug te bieden; een Dubbel-spoor Muziekophaalmodule die brede en gerichte ophaalstrategieën combineert om de muziekbrug te bieden en gebruikerscontrole mogelijk te maken. Ten slotte ontwerpen we een Expliciet Geconditioneerd Muziekgeneratiekader om muziek te genereren op basis van de twee bruggen. We voeren experimenten uit op video-naar-muziek, afbeelding-naar-muziek, tekst-naar-muziek en controleerbare muziekgeneratietaken, samen met experimenten over controleerbaarheid. De resultaten tonen aan dat VMB de muziekkwaliteit, modaliteit en aanpassingsuitlijning aanzienlijk verbetert in vergelijking met eerdere methoden. VMB stelt een nieuwe standaard voor interpreteerbare en expressieve multimodale muziekgeneratie met toepassingen in verschillende multimediavelden. Demonstraties en code zijn beschikbaar op https://github.com/wbs2788/VMB.
De effectiviteit van grote taalmodellen (LLM's) is nauw verbonden met de vormgeving van prompts, waardoor promptoptimalisatie essentieel is voor het verbeteren van hun prestaties over een breed scala aan taken. Veel bestaande benaderingen voor het automatiseren van prompt-engineering vertrouwen uitsluitend op tekstuele feedback, waarbij prompts worden verfijnd op basis van inferentiefouten die zijn geïdentificeerd door grote, rekenintensieve LLM's. Helaas hebben kleinere modellen moeite met het genereren van feedback van hoge kwaliteit, wat resulteert in een volledige afhankelijkheid van het oordeel van grote LLM's. Bovendien slagen deze methoden er niet in om meer directe en fijnkorrelige informatie, zoals gradiënten, te benutten omdat ze puur in tekstruimte opereren. Om deze reden introduceren we GReaTer, een nieuwe techniek voor promptoptimalisatie die direct gradiëntinformatie over taakspecifiek redeneren incorporeert. Door gebruik te maken van taakverliesgradiënten stelt GReaTer zelfoptimalisatie van prompts mogelijk voor open-source, lichtgewicht taalmodellen zonder de noodzaak van dure gesloten LLM's. Dit maakt hoogwaardige promptoptimalisatie mogelijk zonder afhankelijkheid van massale LLM's, waardoor het gat tussen kleinere modellen en het geavanceerde redeneren dat vaak nodig is voor promptverfijning wordt gedicht. Uitgebreide evaluaties over diverse redeneertaken, waaronder BBH, GSM8k en FOLIO, tonen aan dat GReaTer consequent beter presteert dan eerdere state-of-the-art methoden voor promptoptimalisatie, zelfs die afhankelijk zijn van krachtige LLM's. Bovendien vertonen GReaTer-geoptimaliseerde prompts vaak een betere overdraagbaarheid en verhogen ze in sommige gevallen de taakprestaties tot niveaus die vergelijkbaar zijn met of die groter zijn dan die behaald door grotere taalmodellen, waarbij de effectiviteit van promptoptimalisatie geleid door gradiënten over redeneren wordt benadrukt. De code van GReaTer is beschikbaar op https://github.com/psunlpgroup/GreaTer.
We presenteren SmolTulu-1.7b-Instruct, in dit rapport aangeduid als SmolTulu-DPO-1130, een instructie-afgestemd taalmodel dat de post-training pipeline van AllenAI's Tulu 3 aanpast om het basismodel van Huggingface's SmolLM2-1.7B te verbeteren. Door uitgebreide empirische analyse met een model van 135 miljoen parameters tonen we aan dat de relatie tussen leersnelheid en batchgrootte op een taakafhankelijke manier aanzienlijke invloed heeft op de modelprestaties. Onze bevindingen onthullen een duidelijke scheiding: redeneertaken zoals ARC en GSM8K profiteren van hogere verhoudingen tussen leersnelheid en batchgrootte, terwijl patroonherkenningstaken zoals HellaSwag en IFEval optimale prestaties laten zien met lagere verhoudingen. Deze inzichten hebben geleid tot de ontwikkeling van SmolTulu, die toonaangevende prestaties behaalt bij modellen met minder dan 2 miljard parameters op instructievolging, met 67.7% op IFEval (Delta11%), en wiskundig redeneren met 51.6% op GSM8K (Delta3.4%), waarbij een alternatieve versie 57.1% op ARC scoort (Delta5.4%). We stellen ons model, trainingsrecepten en ablatiestudies beschikbaar om verder onderzoek naar efficiënte modeluitlijning te vergemakkelijken, waarbij wordt aangetoond dat zorgvuldige aanpassing van optimalisatiedynamiek kan helpen bij het overbruggen van het capaciteitsverschil tussen kleine en grote taalmodellen.
Hoewel grote visie-taal-actie (VLA) modellen die vooraf zijn getraind op uitgebreide robotdatasets veelbelovende generalistische beleidslijnen bieden voor robotica leren, hebben ze nog steeds moeite met ruimtelijk-temporele dynamiek in interactieve robotica, waardoor ze minder effectief zijn in het omgaan met complexe taken, zoals manipulatie. In dit werk introduceren we visuele spoorprompting, een eenvoudige maar effectieve benadering om de ruimtelijk-temporele bewustwording van VLA-modellen voor actievoorspelling te vergemakkelijken door visueel staat-actie trajecten te coderen. We ontwikkelen een nieuw TraceVLA-model door OpenVLA fijn af te stemmen op onze eigen verzamelde dataset van 150K robotmanipulatietrajecten met behulp van visuele spoorprompting. Evaluaties van TraceVLA over 137 configuraties in SimplerEnv en 4 taken op een fysieke WidowX-robot tonen state-of-the-art prestaties aan, waarbij TraceVLA OpenVLA met 10% overtreft op SimplerEnv en 3,5x op echte robot taken, en robuuste generalisatie vertoont over diverse belichamingen en scenario's. Om de effectiviteit en algemeenheid van onze methode verder te valideren, presenteren we een compact VLA-model gebaseerd op 4B Phi-3-Vision, vooraf getraind op de Open-X-Embodiment en fijn afgestemd op onze dataset, dat de 7B OpenVLA-baseline evenaart en de inferentie-efficiëntie aanzienlijk verbetert.
Diepe neurale netwerken (DNN's) bieden aanzienlijke belofte voor het verbeteren van de diagnose van borstkanker in medische beeldvorming. Deze modellen zijn echter zeer vatbaar voor aanvallende aanvallen - kleine, onmerkbare veranderingen die classificatoren kunnen misleiden - wat kritieke zorgen oproept over hun betrouwbaarheid en veiligheid. Traditionele aanvallen vertrouwen op vaste-norm verstoringen die niet overeenkomen met de menselijke perceptie. In tegenstelling hiermee vereisen diffusiegebaseerde aanvallen vooraf getrainde modellen, wat aanzienlijke gegevens vereist wanneer deze modellen niet beschikbaar zijn, waardoor praktisch gebruik in scenario's met weinig gegevens wordt beperkt. In medische beeldvorming is dit echter vaak onhaalbaar vanwege de beperkte beschikbaarheid van datasets. Voortbouwend op recente ontwikkelingen in leerzame aanwijzingen, stellen we Prompt2Perturb (P2P) voor, een nieuw taalgestuurd aanvalsmethode die in staat is om betekenisvolle aanvalvoorbeelden te genereren op basis van tekstinstructies. Tijdens de fase van het leren van de aanwijzing, maakt onze benadering gebruik van leerzame aanwijzingen binnen de tekstencoder om subtiele, maar impactvolle verstoringen te creëren die onmerkbaar blijven terwijl ze het model naar gerichte resultaten leiden. In tegenstelling tot huidige op promptleren gebaseerde benaderingen, onderscheidt onze P2P zich door direct tekst-embeddings bij te werken, waardoor de noodzaak om diffusiemodellen opnieuw te trainen wordt vermeden. Bovendien maken we gebruik van de bevinding dat het optimaliseren van alleen de vroege omgekeerde diffusiestappen de efficiëntie verhoogt terwijl ervoor wordt gezorgd dat de gegenereerde aanvalvoorbeelden subtiele ruis bevatten, waardoor de kwaliteit van de echografie behouden blijft zonder merkbare artefacten te introduceren. We tonen aan dat onze methode beter presteert dan state-of-the-art aanvaltechnieken over drie borst-echografiedatasets in FID en LPIPS. Bovendien zijn de gegenereerde beelden zowel natuurlijker van uiterlijk als effectiever in vergelijking met bestaande aanvallende aanvallen. Onze code zal openbaar beschikbaar zijn op https://github.com/yasamin-med/P2P.