Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De Transformer heeft de neiging om te veel aandacht te besteden aan irrelevante context. In dit werk introduceren we de Diff Transformer, die de aandacht voor relevante context versterkt en ruis elimineert. Specifiek berekent het differentiële aandachtsmechanisme aandachtsscores als het verschil tussen twee afzonderlijke softmax-aandachtskaarten. De aftrekking elimineert ruis en bevordert het ontstaan van spaarzame aandachtspatronen. Experimentele resultaten op het gebied van taalmodellering tonen aan dat de Diff Transformer beter presteert dan de Transformer in verschillende instellingen van het vergroten van de modelgrootte en het trainen van tokens. Nog intrigerender is dat het opmerkelijke voordelen biedt in praktische toepassingen, zoals modellering van lange context, ophalen van belangrijke informatie, het verminderen van hallucinaties, leren in context en het verminderen van activatie-uitschieters. Door minder afgeleid te worden door irrelevante context kan de Diff Transformer hallucinaties verminderen bij vraag-antwoordtaken en tekstsamenvattingen. Voor leren in context verbetert de Diff Transformer niet alleen de nauwkeurigheid, maar is ook robuuster tegen volgordepermutatie, wat werd beschouwd als een chronisch robuustheidsprobleem. De resultaten positioneren de Diff Transformer als een zeer effectieve en veelbelovende architectuur om grote taalmodellen verder te ontwikkelen.
Dit artikel presenteert een geavanceerd wiskundig probleemoplossingskader, LLaMA-Berry, om de wiskundige redeneervaardigheid van Grote Taalmodellen (LLMs) te verbeteren. Het kader combineert Monte Carlo Tree Search (MCTS) met iteratieve Zelf-Verfijning om het redeneerpad te optimaliseren en maakt gebruik van een paarsgewijze beloningsmodel om verschillende paden wereldwijd te evalueren. Door gebruik te maken van de zelfkritiek en herschrijfvaardigheden van LLMs, overwint Zelf-Verfijning toegepast op MCTS (SR-MCTS) de inefficiënties en beperkingen van conventionele stapsgewijze en hebzuchtige zoekalgoritmen door een efficiëntere verkenning van oplossingsruimtes te bevorderen. Het paarsgewijze Voorkeursbeloningsmodel (PPRM), geïnspireerd door Versterkend Leren van Menselijke Feedback (RLHF), wordt vervolgens gebruikt om paarvoorkeuren tussen oplossingen te modelleren, waarbij een Verbeterde Borda Telling (EBC) methode wordt gebruikt om deze voorkeuren te synthetiseren tot een wereldwijde rangschikkingsscore om betere antwoorden te vinden. Deze benadering adresseert de uitdagingen van scorevariabiliteit en niet-onafhankelijke verdelingen bij wiskundige redeneertaken. Het kader is getest op algemene en geavanceerde benchmarks, waarbij het superieure prestaties vertoonde op het gebied van zoekefficiëntie en probleemoplossend vermogen in vergelijking met bestaande methoden zoals ToT en rStar, met name in complexe Olympiadische benchmarks, waaronder GPQA, AIME24 en AMC23.
Grote taalmodellen (LLM's) produceren vaak fouten, waaronder feitelijke onjuistheden, vooroordelen en redeneerfouten, gezamenlijk aangeduid als "hallucinaties". Recente studies hebben aangetoond dat de interne toestanden van LLM's informatie coderen met betrekking tot de waarheidsgetrouwheid van hun uitvoer, en dat deze informatie kan worden gebruikt om fouten op te sporen. In dit werk tonen we aan dat de interne representaties van LLM's veel meer informatie over waarheidsgetrouwheid coderen dan voorheen werd erkend. We ontdekken eerst dat de informatie over waarheidsgetrouwheid geconcentreerd is in specifieke tokens, en het benutten van deze eigenschap verbetert aanzienlijk de prestaties van foutdetectie. Toch tonen we aan dat dergelijke foutdetectoren niet generaliseren over datasets, wat impliceert dat - in tegenstelling tot eerdere beweringen - waarheidsgetrouwheidscodering niet universeel is maar eerder veelzijdig. Vervolgens tonen we aan dat interne representaties ook kunnen worden gebruikt om de soorten fouten te voorspellen die het model waarschijnlijk zal maken, wat de ontwikkeling van op maat gemaakte mitigatiestrategieën vergemakkelijkt. Ten slotte onthullen we een discrepantie tussen de interne codering van LLM's en hun externe gedrag: ze kunnen het juiste antwoord coderen, maar consequent een incorrect antwoord genereren. Samengevat verdiepen deze inzichten ons begrip van LLM-fouten vanuit het interne perspectief van het model, wat toekomstig onderzoek kan sturen bij het verbeteren van foutenanalyse en -mitigatie.
Text-to-image (T2I) diffusiemodellen hebben de creatie van visuele inhoud gerevolutioneerd, maar het uitbreiden van deze mogelijkheden naar tekst-naar-video (T2V) generatie blijft een uitdaging, met name op het gebied van het behouden van temporele consistentie. Bestaande methoden die gericht zijn op het verbeteren van consistentie veroorzaken vaak compromissen zoals verminderde beeldkwaliteit en onpraktische rekentijd. Om deze problemen aan te pakken introduceren we VideoGuide, een nieuw raamwerk dat de temporele consistentie van vooraf getrainde T2V-modellen verbetert zonder de noodzaak van extra training of fine-tuning. In plaats daarvan maakt VideoGuide gebruik van een vooraf getraind video diffusiemodel (VDM) of zichzelf als gids tijdens de vroege stadia van inferentie, waardoor de temporele kwaliteit wordt verbeterd door de gedenoiseerde monsters van het begeleidende model te interpoleren in het denoising proces van het bemonsteringsmodel. De voorgestelde methode brengt aanzienlijke verbetering in temporele consistentie en beeldgetrouwheid, en biedt een kosteneffectieve en praktische oplossing die de sterke punten van verschillende video diffusiemodellen combineert. Bovendien tonen we voorafgaande distillatie aan, waarbij wordt aangetoond dat basismodellen verbeterde tekstcoherentie kunnen bereiken door gebruik te maken van de superieure dataprior van het begeleidende model via de voorgestelde methode. Projectpagina: http://videoguide2025.github.io/
Ondanks het opmerkelijke succes dat neurale netwerken hebben behaald, met name die vertegenwoordigd door MLP en Transformer, onthullen we dat ze mogelijke tekortkomingen vertonen in het modelleren en redeneren van periodieke verschijnselen, d.w.z. ze hebben de neiging om periodieke gegevens te onthouden in plaats van de onderliggende principes van periodieke verschijnselen daadwerkelijk te begrijpen. Periodiciteit is echter een cruciale eigenschap in verschillende vormen van redenering en generalisatie, die voorspelbaarheid ondersteunt in natuurlijke en geconstrueerde systemen door terugkerende patronen in observaties. In dit artikel stellen we FAN voor, een nieuw netwerkarchitectuur gebaseerd op Fourieranalyse, die de mogelijkheid biedt om efficiënt te modelleren en te redeneren over periodieke verschijnselen. Door Fourierreeksen te introduceren, wordt de periodieke aard op een natuurlijke wijze geïntegreerd in de structuur en computationele processen van het neurale netwerk, waardoor een nauwkeurigere expressie en voorspelling van periodieke patronen wordt bereikt. Als veelbelovend alternatief voor multi-layer perceptron (MLP) kan FAN naadloos MLP vervangen in verschillende modellen met minder parameters en FLOPs. Door uitgebreide experimenten tonen we de effectiviteit van FAN aan in het modelleren en redeneren over periodieke functies, en de superioriteit en generaliseerbaarheid van FAN over een reeks real-world taken, waaronder symbolische formuleweergave, tijdreeksvoorspelling en taalmodellering.
Recente ontwikkelingen in Grote Taalmodellen (LLMs) hebben interesse gewekt in hun formele redeneervermogen, met name op het gebied van wiskunde. De GSM8K benchmark wordt veel gebruikt om de wiskundige redenering van modellen te beoordelen aan de hand van vragen op basisschoolniveau. Hoewel de prestaties van LLMs op GSM8K de afgelopen jaren aanzienlijk zijn verbeterd, is het nog steeds onduidelijk of hun wiskundige redeneervermogen daadwerkelijk is gevorderd, wat vragen oproept over de betrouwbaarheid van de gerapporteerde metingen. Om deze zorgen aan te pakken, voeren we een grootschalige studie uit naar verschillende toonaangevende open en gesloten modellen. Om de beperkingen van bestaande evaluaties te overwinnen, introduceren we GSM-Symbolic, een verbeterde benchmark gecreëerd uit symbolische sjablonen die het genereren van een gevarieerde reeks vragen mogelijk maken. GSM-Symbolic maakt meer controleerbare evaluaties mogelijk, biedt belangrijke inzichten en betrouwbaardere metingen voor het meten van de redeneervermogens van modellen. Onze bevindingen tonen aan dat LLMs merkbare variatie vertonen bij het beantwoorden van verschillende instanties van dezelfde vraag. Specifiek daalt de prestatie van alle modellen wanneer alleen de numerieke waarden in de vraag worden gewijzigd in de GSM-Symbolic benchmark. Bovendien onderzoeken we de kwetsbaarheid van wiskundige redenering in deze modellen en tonen aan dat hun prestaties aanzienlijk verslechteren naarmate het aantal clausules in een vraag toeneemt. We veronderstellen dat deze afname komt doordat huidige LLMs geen echte logische redenering kunnen uitvoeren; ze repliceren redeneerstappen uit hun trainingsgegevens. Het toevoegen van een enkele clausule die relevant lijkt voor de vraag veroorzaakt aanzienlijke prestatiedalingen (tot 65%) bij alle toonaangevende modellen, zelfs als de clausule niet bijdraagt aan de redeneerketen die nodig is voor het uiteindelijke antwoord. Over het geheel genomen biedt ons werk een meer genuanceerd begrip van de mogelijkheden en beperkingen van LLMs op het gebied van wiskundige redenering.
De vooruitgang van taalmodellen (LM's) heeft een groeiende interesse gewekt in het ontwikkelen van op LM gebaseerde taalagenten om wetenschappelijke ontdekkingen volledig te automatiseren, wat zowel opwinding als scepsis heeft veroorzaakt over de werkelijke mogelijkheden van dergelijke agenten. In dit werk betogen we dat een agent om wetenschappelijke ontdekkingen volledig te automatiseren, in staat moet zijn om alle essentiële taken in het werkproces te voltooien. Daarom pleiten we voor een grondige beoordeling van agenten op individuele taken in een wetenschappelijk werkproces voordat er gedurfde beweringen worden gedaan over volledige automatisering. Met dit doel presenteren we ScienceAgentBench, een nieuwe benchmark voor het evalueren van taalagenten voor op data gebaseerde wetenschappelijke ontdekkingen. Om de wetenschappelijke authenticiteit en real-world relevantie van onze benchmark te waarborgen, extraheren we 102 taken uit 44 peer-reviewed publicaties in vier disciplines en betrekken we negen onderwerpsdeskundigen om ze te valideren. We verenigen de beoogde output voor elke taak naar een op zichzelf staand Python-programmabestand en gebruiken een reeks evaluatiemetrics om de gegenereerde programma's, uitvoeringsresultaten en kosten te onderzoeken. Elke taak wordt meerdere malen handmatig gevalideerd door annotatoren en onderwerpsdeskundigen om de kwaliteit van de annotatie en wetenschappelijke plausibiliteit te waarborgen. We stellen ook twee effectieve strategieën voor om zorgen over gegevensverontreiniging te verminderen. Met behulp van onze benchmark evalueren we vijf open-source en eigen LM's, elk met drie frameworks: directe aansturing, OpenHands en zelf-debugging. Met drie pogingen voor elke taak kan de best presterende agent slechts 32,4% van de taken zelfstandig oplossen en 34,3% met door experts verstrekte kennis. Deze resultaten benadrukken de beperkte capaciteiten van huidige taalagenten in het genereren van code voor op data gebaseerde ontdekkingen, laat staan volledige automatisering voor wetenschappelijk onderzoek.
Multimodale grote taalmodellen (MLLM's) transformeren de mogelijkheden van grafische gebruikersinterface (GUI) agenten, waardoor hun overgang van gecontroleerde simulaties naar complexe, real-world toepassingen over verschillende platforms wordt vergemakkelijkt. De effectiviteit van deze agenten hangt echter af van de robuustheid van hun verankeringscapaciteit. Huidige GUI agenten maken voornamelijk gebruik van op tekst gebaseerde representaties zoals HTML of toegankelijkheidsbomen, die, ondanks hun bruikbaarheid, vaak ruis, onvolledigheid en verhoogde rekenkundige overhead introduceren. In dit artikel pleiten we voor een menselijke belichaming voor GUI agenten die de omgeving volledig visueel waarnemen en direct pixelniveau-operaties uitvoeren op de GUI. De sleutel ligt bij visuele verankering modellen die diverse verwijzende uitdrukkingen van GUI elementen nauwkeurig kunnen toewijzen aan hun coördinaten op de GUI over verschillende platforms. We tonen aan dat een eenvoudig recept, dat webgebaseerde synthetische gegevens en lichte aanpassing van de LLaVA-architectuur omvat, verrassend effectief is voor het trainen van dergelijke visuele verankering modellen. We verzamelen tot nu toe de grootste dataset voor visuele verankering van GUI, met 10M GUI elementen en hun verwijzende uitdrukkingen over 1.3M schermafbeeldingen, en gebruiken deze om UGround te trainen, een krachtig universeel visueel verankering model voor GUI agenten. Empirische resultaten op zes benchmarks die drie categorieën bestrijken (verankering, offline agent en online agent) tonen aan dat 1) UGround aanzienlijk beter presteert dan bestaande visuele verankering modellen voor GUI agenten, tot wel 20% absoluut, en 2) agenten met UGround presteren beter dan state-of-the-art agenten, ondanks het feit dat bestaande agenten extra op tekst gebaseerde invoer gebruiken terwijl de onze alleen visuele waarneming gebruikt. Deze resultaten bieden sterke ondersteuning voor de haalbaarheid en beloften van GUI agenten die de digitale wereld navigeren zoals mensen dat doen.
We introduceren UniMuMo, een verenigd multimodaal model dat in staat is willekeurige tekst-, muziek- en bewegingsgegevens als invoercondities te gebruiken om uitvoer te genereren over alle drie modaliteiten. Om het gebrek aan tijdgesynchroniseerde gegevens aan te pakken, aligneren we ongepaarde muziek- en bewegingsgegevens op basis van ritmische patronen om gebruik te maken van bestaande grootschalige datasets die alleen muziek of alleen beweging bevatten. Door muziek, beweging en tekst om te zetten in op tokens gebaseerde representatie, overbrugt ons model deze modaliteiten via een verenigde encoder-decoder transformer-architectuur. Om meerdere generatietaken binnen een enkel kader te ondersteunen, introduceren we verschillende architecturale verbeteringen. We stellen voor om beweging te encoderen met een muziekcodeboek, waarbij beweging wordt gemapt naar dezelfde eigenschapsruimte als muziek. We introduceren een muziek-beweging parallel generatieschema dat alle muziek- en bewegingsgeneratietaken verenigt in een enkele transformer-decoderarchitectuur met een enkele trainingsopdracht voor gezamenlijke muziek-bewegingsgeneratie. Bovendien is het model ontworpen door bestaande voorgeleerde single-modality modellen fijn af te stemmen, waardoor de rekenvereisten aanzienlijk worden verminderd. Uitgebreide experimenten tonen aan dat UniMuMo competitieve resultaten behaalt op alle eenrichtingsgeneratie-benchmarks over muziek, beweging en tekstmodaliteiten. Kwantitatieve resultaten zijn beschikbaar op de {projectpagina} https://hanyangclarence.github.io/unimumo_demo/.
Het schatten van geometrie van dynamische scènes, waar objecten bewegen en vervormen in de tijd, blijft een kernuitdaging in computervisie. Huidige benaderingen vertrouwen vaak op meertraps-pijplijnen of wereldwijde optimalisaties die het probleem opsplitsen in subtaken, zoals diepte en stroming, wat leidt tot complexe systemen die gevoelig zijn voor fouten. In dit artikel presenteren we Motion DUSt3R (MonST3R), een nieuw benadering waarbij geometrie voor elk tijdstap direct wordt geschat vanuit dynamische scènes. Ons belangrijkste inzicht is dat door simpelweg een puntkaart te schatten voor elke tijdstap, we de representatie van DUST3R effectief kunnen aanpassen, voorheen alleen gebruikt voor statische scènes, naar dynamische scènes. Deze benadering brengt echter een aanzienlijke uitdaging met zich mee: de schaarste aan geschikte trainingsgegevens, namelijk dynamische, geposeerde video's met dieptelabels. Ondanks dit laten we zien dat door het probleem te benaderen als een fine-tuning taak, door verschillende geschikte datasets te identificeren en het model strategisch te trainen met deze beperkte gegevens, we verrassend genoeg het model in staat kunnen stellen om met dynamiek om te gaan, zelfs zonder een expliciete bewegingsrepresentatie. Op basis hiervan introduceren we nieuwe optimalisaties voor verschillende downstream video-specifieke taken en tonen sterke prestaties op video diepte- en camerapositieschatting, waarbij we eerdere werken overtreffen op het gebied van robuustheid en efficiëntie. Bovendien toont MonST3R veelbelovende resultaten voor voornamelijk voorwaartse 4D-reconstructie.
Ondanks de vooruitgang in diffusie-gebaseerde tekst-naar-muziek (TTM) methoden, blijft efficiënte, hoogwaardige generatie een uitdaging. We introduceren Presto!, een benadering voor versnelling van inferentie voor op score gebaseerde diffusie transformers door zowel het aantal bemonsteringsstappen als de kosten per stap te verminderen. Om het aantal stappen te verminderen, ontwikkelen we een nieuwe op score gebaseerde distributie-matching distillatie (DMD) methode voor de EDM-familie van diffusiemodellen, de eerste op GAN gebaseerde distillatiemethode voor TTM. Om de kosten per stap te verlagen, ontwikkelen we een eenvoudige, maar krachtige verbetering van een recente laag-distillatiemethode die het leren verbetert door een betere conservering van de verborgen toestandsvariantie. Ten slotte combineren we onze stap- en laag-distillatiemethoden voor een tweeledige benadering. We evalueren onze stap- en laag-distillatiemethoden onafhankelijk en tonen aan dat elk de beste prestaties in zijn klasse oplevert. Onze gecombineerde distillatiemethode kan hoogwaardige uitvoer genereren met verbeterde diversiteit, waardoor ons basismodel 10-18x sneller wordt (230/435 ms latentie voor 32 seconden mono/stereo 44,1 kHz, 15x sneller dan vergelijkbare SOTA) - de snelste hoogwaardige TTM naar ons weten. Geluidsvoorbeelden zijn te vinden op https://presto-music.github.io/web/.
Deze technische rapport introduceert een Benchmark voor het herkennen van Genoemde Klinische Entiteiten om taalmodellen in de gezondheidszorg te evalueren, waarbij de cruciale natuurlijke taalverwerkingstaak van het extraheren van gestructureerde informatie uit klinische verhalen wordt aangepakt om toepassingen zoals geautomatiseerde codering, identificatie van klinische proefcohorten en klinische beslissingsondersteuning te ondersteunen. De ranglijst biedt een gestandaardiseerd platform voor het beoordelen van diverse taalmodellen, waaronder encoder- en decoderarchitecturen, op hun vermogen om klinische entiteiten te identificeren en classificeren over meerdere medische domeinen. Er wordt gebruik gemaakt van een zorgvuldig samengestelde verzameling openlijk beschikbare klinische datasets, die entiteiten omvatten zoals ziekten, symptomen, medicijnen, procedures en laboratoriummetingen. Belangrijk is dat deze entiteiten gestandaardiseerd zijn volgens het Observational Medical Outcomes Partnership (OMOP) Common Data Model, wat consistentie en interoperabiliteit garandeert tussen verschillende gezondheidssystemen en datasets, en een uitgebreide evaluatie van modelprestaties. De prestaties van modellen worden voornamelijk beoordeeld aan de hand van de F1-score, en dit wordt aangevuld met verschillende beoordelingsmodi om uitgebreide inzichten te bieden in de modelprestaties. Het rapport bevat ook een beknopte analyse van tot nu toe geëvalueerde modellen, waarbij waargenomen trends en beperkingen worden benadrukt. Door dit benchmarkingkader op te zetten, streeft de ranglijst ernaar transparantie te bevorderen, vergelijkende analyses te vergemakkelijken en innovatie te stimuleren in taken voor het herkennen van klinische entiteiten, waarbij wordt ingegaan op de behoefte aan robuuste evaluatiemethoden in de gezondheidszorg op het gebied van natuurlijke taalverwerking.
Hoewel beloningsmodellen succesvol zijn geweest in het verbeteren van multimodale grote taalmodellen, blijven de beloningsmodellen zelf beperkt en bevatten ze minimale informatie. Opmerkelijk is dat bestaande beloningsmodellen alleen menselijke annotaties nabootsen door slechts één binaire feedback aan elk stuk tekst toe te wijzen, ongeacht de lengte van de tekst. In het domein van multimodale taalmodellen, waar modellen zowel afbeeldingen als tekst moeten verwerken, kan een naïef beloningsmodel impliciete vooroordelen tegen teksten leren en minder verankerd raken in afbeeldingen. In dit artikel stellen we een Token-Level Detective Reward Model (TLDR) voor om gedetailleerde annotaties te verstrekken aan elk teksttoken. We introduceren eerst een op verstoringen gebaseerde methode om synthetische harde negatieven en hun token-level labels te genereren om TLDR-modellen te trainen. Vervolgens tonen we de rijke bruikbaarheid van TLDR-modellen zowel bij het helpen van kant-en-klare modellen om hun generaties zelf te corrigeren, als bij het dienen als een hallucinatie-evaluatietool. Ten slotte laten we zien dat TLDR-modellen de menselijke annotatie aanzienlijk kunnen versnellen met een factor 3 om een breder scala aan hoogwaardige visuele taalgegevens te verkrijgen.
Recente grote taalmodellen (LLM's) hebben veelzijdige mogelijkheden aangetoond in scenario's met een lange context. Hoewel er enkele recente benchmarks zijn ontwikkeld om de mogelijkheden van LLM's in lange contexten te evalueren, ontbreekt het aan benchmarks die de wiskundige redeneervaardigheden van LLM's over lange contexten evalueren, wat cruciaal is voor de toepassing van LLM's in real-world scenario's. In dit artikel introduceren we MathHay, een geautomatiseerde benchmark ontworpen om de wiskundige redeneervaardigheden van LLM's in lange contexten te beoordelen. In tegenstelling tot eerdere benchmarks zoals Needle in a Haystack, die zich voornamelijk richten op informatie ophalen binnen lange teksten, vereist MathHay modellen met zowel informatiezoekende als complexe wiskundige redeneervaardigheden. We voeren uitgebreide experimenten uit op MathHay om de wiskundige redeneervaardigheden in lange contexten van acht best presterende LLM's te beoordelen. Zelfs het best presterende model, Gemini-1.5-Pro-002, heeft nog steeds moeite met wiskundig redeneren over lange contexten en behaalt slechts 51,26% nauwkeurigheid bij 128K tokens. Dit benadrukt de aanzienlijke ruimte voor verbetering op de MathHay benchmark.
Naarmate het gebruik van Grote Taalmodellen (LLM's) toeneemt, groeit de vraag naar betrouwbare evaluaties. Bestaande LLM-evaluatiebenchmarks steunen voornamelijk op statische datasets, waardoor het uitdagend is om de prestaties van modellen te beoordelen in dynamische interacties met gebruikers. Bovendien zijn deze benchmarks vaak afhankelijk van specifieke achtergrondkennis, wat het meten van de logische redeneervaardigheden van een model bemoeilijkt. Andere dynamische evaluatiemethoden gebaseerd op sterke modellen of handmatige inspanningen kunnen vooroordelen introduceren en hoge kosten en tijdsvereisten met zich meebrengen, waardoor grootschalige toepassingen worden belemmerd. Om deze problemen aan te pakken, stellen we TurtleBench voor. TurtleBench verzamelt echte gebruikersgissingen van ons online Turtle Soup Puzzle-platform dat we hebben ontwikkeld. Deze aanpak maakt een relatief dynamische generatie van evaluatiedatasets mogelijk, waardoor het risico van valsspelen door modellen wordt verminderd en de beoordelingen nauwer aansluiten bij de echte behoeften van gebruikers op het gebied van redeneervaardigheden, waardoor de betrouwbaarheid van evaluaties wordt verbeterd. TurtleBench bevat 1.532 gebruikersgissingen samen met de juistheid van de gissingen na annotatie. Met behulp van deze dataset hebben we negen van de meest geavanceerde LLM's van vandaag grondig geëvalueerd. Opmerkelijk is dat de OpenAI o1-serie modellen geen toonaangevende resultaten behaalden in deze evaluaties. We stellen verschillende hypothesen voor verder onderzoek voor, zoals "de latente redenering van o1 maakt gebruik van triviale Chain-of-Thought (CoT) technieken" en "het verhogen van de CoT-lengte biedt niet alleen redeneervoordelen, maar brengt ook geluidskosten met zich mee."
Wij presenteren OmniBooth, een beeldgeneratieraamwerk dat ruimtelijke controle mogelijk maakt met aanpasbaarheid op multimodaal niveau op instantieniveau. Voor alle instanties kan de multimodale instructie worden beschreven aan de hand van tekstprompts of beeldreferenties. Gegeven een reeks door de gebruiker gedefinieerde maskers en bijbehorende tekst- of beeldbegeleiding, is ons doel om een afbeelding te genereren waarbij meerdere objecten op gespecificeerde coördinaten zijn geplaatst en waarvan de attributen nauwkeurig zijn uitgelijnd met de overeenkomstige begeleiding. Deze benadering breidt aanzienlijk de reikwijdte uit van tekst-naar-beeldgeneratie en verheft het naar een meer veelzijdige en praktische dimensie in controleerbaarheid. In dit artikel ligt onze kernbijdrage in de voorgestelde latente besturingsignalen, een hoog-dimensionale ruimtelijke eigenschap die een verenigde representatie biedt om de ruimtelijke, tekstuele en beeldvoorwaarden naadloos te integreren. De tekstvoorwaarde breidt ControlNet uit om generatie op instantieniveau met open woordenschat mogelijk te maken. De beeldvoorwaarde maakt verder fijnmazige controle mogelijk met gepersonaliseerde identiteit. In de praktijk geeft onze methode gebruikers meer flexibiliteit in controleerbare generatie, aangezien gebruikers multimodale voorwaarden kunnen kiezen uit tekst of beelden zoals nodig. Bovendien tonen grondige experimenten onze verbeterde prestaties aan op het gebied van beeldsynthesegetrouwheid en uitlijning over verschillende taken en datasets. Projectpagina: https://len-li.github.io/omnibooth-web/
Model samenvoegen heeft als doel om meerdere expertmodellen te combineren tot een capabeler enkel model, met voordelen zoals verminderde opslag- en serverkosten, verbeterde generalisatie en ondersteuning voor gedecentraliseerde modelontwikkeling. Ondanks de belofte hebben eerdere studies zich voornamelijk gericht op het samenvoegen van een paar kleine modellen. Dit laat veel onbeantwoorde vragen over het effect van het vergroten van de modelgrootte en hoe dit samenhangt met andere belangrijke factoren -- zoals de kwaliteit van het basismodel en het aantal expertmodellen -- om de prestaties van het samengevoegde model te beïnvloeden. Dit werk evalueert systematisch de bruikbaarheid van model samenvoegen op schaal, waarbij het effect van deze verschillende factoren wordt onderzocht. We experimenteren met het samenvoegen van volledig fijnafgestemde modellen met behulp van 4 populaire samenvoegmethoden -- Gemiddelde, Taakaritmetica, Dare en TIES -- over modelgroottes variërend van 1B-64B parameters en het samenvoegen van maximaal 8 verschillende expertmodellen. We evalueren de samengevoegde modellen zowel op vastgehouden taken, d.w.z. de trainings taken van de expert, als op generalisatie naar ongeziene uitgehouden taken. Onze experimenten bieden verschillende nieuwe inzichten over model samenvoegen op schaal en de interactie tussen verschillende factoren. Ten eerste vinden we dat samenvoegen effectiever is wanneer experts worden gecreëerd van sterke basismodellen, d.w.z. modellen met goede zero-shot prestaties. Ten tweede vergemakkelijken grotere modellen het samenvoegen. Ten derde verbetert samenvoegen consequent de generalisatiecapaciteiten. Opmerkelijk is dat bij het samenvoegen van 8 grote expertmodellen, de samengevoegde modellen vaak beter generaliseren in vergelijking met de multitask getrainde modellen. Ten vierde kunnen we beter meer expertmodellen samenvoegen wanneer we werken met grotere modellen. Ten vijfde gedragen verschillende samenvoegmethoden zich zeer vergelijkbaar op grotere schalen. Over het algemeen werpen onze bevindingen licht op enkele interessante eigenschappen van model samenvoegen, terwijl ze ook enkele beperkingen benadrukken. We hopen dat deze studie zal dienen als referentiepunt voor grootschalig samenvoegen voor toekomstig onderzoek.
Data curatie is het probleem van hoe monsters te verzamelen en organiseren in een dataset die efficiënt leren ondersteunt. Ondanks de centrale rol van de taak, is er weinig werk verricht aan een grootschalige, systematische vergelijking van verschillende curatiemethoden. In dit werk zetten we stappen naar een formele evaluatie van datacuratiestrategieën en introduceren SELECT, de eerste grootschalige benchmark van curatiestrategieën voor beeldclassificatie. Om basismethoden te genereren voor de SELECT benchmark, creëren we een nieuwe dataset, ImageNet++, die de grootste superset van ImageNet-1K tot nu toe vormt. Onze dataset breidt ImageNet uit met 5 nieuwe training-data shifts, elk ongeveer even groot als ImageNet-1K zelf, en elk samengesteld met een afzonderlijke curatiestrategie. We evalueren onze datacuratie-baselines op twee manieren: (i) door elk trainingsdataschift te gebruiken om identieke beeldclassificatiemodellen vanaf nul te trainen (ii) door de data zelf te gebruiken om een voorgeleerde zelf-supervised representatie te passen. Onze bevindingen tonen interessante trends, met name met betrekking tot recente methoden voor datacuratie zoals synthetische datageneratie en opzoeken op basis van CLIP-embeddings. We tonen aan dat hoewel deze strategieën zeer concurrerend zijn voor bepaalde taken, de curatiestrategie die is gebruikt om de oorspronkelijke ImageNet-1K dataset samen te stellen nog steeds de gouden standaard is. We verwachten dat onze benchmark het pad kan verlichten voor nieuwe methoden om de kloof verder te verkleinen. We publiceren onze checkpoints, code, documentatie en een link naar onze dataset op https://github.com/jimmyxu123/SELECT.
Het synthetiseren van menselijke bewegingen in 3D-omgevingen, met name die met complexe activiteiten zoals voortbeweging, handbereiking en mens-objectinteractie, vereist aanzienlijke eisen voor door de gebruiker gedefinieerde waypoints en fasewisselingen. Deze vereisten vormen uitdagingen voor huidige modellen, wat resulteert in een opmerkelijke kloof in het automatiseren van de animatie van karakters op basis van eenvoudige menselijke invoer. Dit artikel pakt deze uitdaging aan door een allesomvattend kader te introduceren voor het synthetiseren van multi-stage scène-bewuste interactiebewegingen rechtstreeks vanuit een enkele tekstinstructie en doellocatie. Onze benadering maakt gebruik van een autoregressief diffusiemodel om het volgende bewegingssegment te synthetiseren, samen met een autonome planner die de overgang voorspelt voor elke actiefase. Om ervoor te zorgen dat de gesynthetiseerde bewegingen naadloos geïntegreerd zijn binnen de omgeving, stellen we een scène-representatie voor die de lokale perceptie zowel bij het startpunt als bij de doellocatie in overweging neemt. We verbeteren verder de coherentie van de gegenereerde beweging door frame-embeddings te integreren met taalinvoer. Daarnaast presenteren we, ter ondersteuning van modeltraining, een uitgebreide dataset van motion capture bestaande uit 16 uur aan bewegingsreeksen in 120 binnenomgevingen die 40 soorten bewegingen bestrijken, elk geannoteerd met nauwkeurige taalbeschrijvingen. Experimentele resultaten tonen de doeltreffendheid van onze methode aan bij het genereren van hoogwaardige, multi-stage bewegingen die nauw aansluiten bij omgevings- en tekstuele omstandigheden.
Reinforcement learning from human feedback (RLHF) methoden worden steeds vaker gebruikt om diffusiemodellen (DM's) voor visuele generatie te verfijnen. Echter, veelgebruikte on-policy strategieën worden beperkt door de generalisatiecapaciteit van het beloningsmodel, terwijl off-policy benaderingen grote hoeveelheden moeilijk te verkrijgen menselijk geannoteerde data vereisen, met name bij visuele generatietaken. Om de beperkingen van zowel on- als off-policy RLHF aan te pakken, stellen we een voorkeurs optimalisatiemethode voor die DM's afstemt op voorkeuren zonder te vertrouwen op beloningsmodellen of gepaarde menselijk geannoteerde data. Specifiek introduceren we een Semi-Policy Voorkeurs Optimalisatie (SePPO) methode. SePPO maakt gebruik van eerdere checkpoints als referentiemodellen en gebruikt deze om on-policy referentievoorbeelden te genereren, die "verliezende afbeeldingen" in voorkeursparen vervangen. Deze aanpak stelt ons in staat om te optimaliseren met behulp van alleen off-policy "winnende afbeeldingen". Bovendien ontwerpen we een strategie voor de selectie van referentiemodellen die de verkenning in de beleidsruimte uitbreidt. Opmerkelijk is dat we referentievoorbeelden niet eenvoudigweg behandelen als negatieve voorbeelden voor het leren. In plaats daarvan ontwerpen we een ankergebaseerd criterium om te beoordelen of de referentievoorbeelden waarschijnlijk winnende of verliezende afbeeldingen zijn, waardoor het model selectief kan leren van de gegenereerde referentievoorbeelden. Deze aanpak vermindert prestatievermindering veroorzaakt door onzekerheid in de kwaliteit van referentievoorbeelden. We valideren SePPO op zowel tekst-naar-afbeelding als tekst-naar-video benchmarks. SePPO overtreft alle eerdere benaderingen op de tekst-naar-afbeelding benchmarks en toont ook uitstekende prestaties op de tekst-naar-video benchmarks. De code zal worden vrijgegeven op https://github.com/DwanZhang-AI/SePPO.
Diffusiemodellen hebben de beeldgeneratie gerevolutioneerd, en hun uitbreiding naar videogeneratie heeft potentie getoond. Echter, huidige videodiffusiemodellen (VDM's) vertrouwen op een scalaire tijdstapvariabele toegepast op het clipniveau, wat hun vermogen beperkt om complexe temporele afhankelijkheden te modelleren die nodig zijn voor verschillende taken zoals beeld-naar-video generatie. Om deze beperking aan te pakken, stellen we een frame-bewust videodiffusiemodel (FVDM) voor, dat een nieuw vectorgebaseerde tijdstapvariabele (VTV) introduceert. In tegenstelling tot conventionele VDM's staat onze benadering toe dat elk frame een onafhankelijk ruischema volgt, waardoor de capaciteit van het model om fijnmazige temporele afhankelijkheden vast te leggen wordt verbeterd. De flexibiliteit van FVDM wordt gedemonstreerd over meerdere taken, waaronder standaard videogeneratie, beeld-naar-video generatie, video-interpolatie en lang videosynthese. Door middel van een divers scala aan VTV-configuraties bereiken we superieure kwaliteit in gegenereerde video's, waarbij uitdagingen zoals catastrofaal vergeten tijdens fijnafstemming en beperkte generaliseerbaarheid in zero-shot methoden worden overwonnen. Onze empirische evaluaties tonen aan dat FVDM beter presteert dan state-of-the-art methoden op het gebied van videokwaliteit, terwijl het ook uitblinkt in uitgebreide taken. Door fundamentele tekortkomingen in bestaande VDM's aan te pakken, stelt FVDM een nieuw paradigma in videobewerking, en biedt het een robuust kader met significante implicaties voor generatieve modellering en multimediatoepassingen.
We introduceren een taak en dataset voor het genereren en begrijpen van verwijzende uitdrukkingen in multi-agent embodied omgevingen. In deze taak moeten twee agenten in een gedeelde scène rekening houden met elkaars visuele perspectief, dat kan verschillen van hun eigen perspectief, om zowel verwijzingen naar objecten in een scène als de ruimtelijke relaties tussen hen te produceren en begrijpen. We verzamelen een dataset van 2.970 door mensen geschreven verwijzende uitdrukkingen, elk gekoppeld aan menselijke begripsoordelen, en evalueren de prestaties van geautomatiseerde modellen als sprekers en luisteraars gekoppeld aan menselijke partners, waarbij we constateren dat de prestaties van modellen zowel bij het genereren als begrijpen van verwijzingen achterblijven bij die van paren van menselijke agenten. Ten slotte experimenteren we met het trainen van een open-gewicht sprekermodel met bewijs van communicatief succes wanneer het gekoppeld is aan een luisteraar, resulterend in een verbetering van 58,9 naar 69,3% in communicatief succes en zelfs het overtreffen van het sterkste gepatenteerde model.
LLM-inferentie voor populaire zakelijke toepassingen, zoals samenvatting, RAG en codegeneratie, observeert doorgaans promptlengtes die qua orde van grootte veel langer zijn dan generatielengtes. Deze eigenschap leidt tot hoge kosten voor voorinvulling en verhoogde responstijd. In dit artikel presenteren we SwiftKV, een nieuw modeltransformatie- en distillatieproces dat specifiek is ontworpen om de tijd en kosten van het verwerken van prompttokens te verminderen, terwijl de hoge kwaliteit van gegenereerde tokens behouden blijft. SwiftKV combineert drie belangrijke mechanismen: i) SingleInputKV, dat de KV-cache van latere lagen voorvult met de uitvoer van een veel eerdere laag, waardoor prompttokens een groot deel van de modelberekening kunnen overslaan, ii) AcrossKV, dat de KV-caches van aangrenzende lagen samenvoegt om de geheugenfootprint te verkleinen en een grotere batchgrootte te ondersteunen voor een hogere doorvoer, en iii) een kennisbehoudende distillatieprocedure die bestaande LLM's kan aanpassen voor SwiftKV met minimale nauwkeurigheidsimpact en lage rekeneisen en gegevensvereisten. Voor Llama-3.1-8B en 70B vermindert SwiftKV de rekeneis van voorinvulling met 50% en de geheugenvereiste van de KV-cache met 62,5%, met minimale kwaliteitsdegradatie over een breed scala aan taken. In de end-to-end inferentieservice met behulp van een geoptimaliseerde vLLM-implementatie, realiseert SwiftKV tot 2x hogere totale doorvoer en 60% minder tijd per uitvoertoken. Het kan een verbazingwekkende genormaliseerde inferentiedoorvoer van 560 TFlops/GPU bereiken, wat zich vertaalt naar 16K tokens/s voor Llama-3.1-70B in 16-bits precisie op 4x H100 GPU's.