Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Generatieve modellen hebben aanzienlijke impact gehad op verschillende domeinen, grotendeels vanwege hun vermogen om tijdens training op te schalen door het vergroten van data, rekenkracht en modelgrootte, een fenomeen dat wordt gekenmerkt door de schalingswetten. Recente onderzoeken zijn begonnen met het verkennen van het schalingsgedrag op inferentietijd in Grote Taalmodellen (GTM's), waarbij wordt onthuld hoe de prestaties verder kunnen verbeteren met extra berekening tijdens inferentie. In tegenstelling tot GTM's hebben diffusiemodellen van nature de flexibiliteit om inferentieberekening aan te passen via het aantal denoising-stappen, hoewel de prestatiewinsten meestal afvlakken na enkele tientallen stappen. In dit werk verkennen we het schalingsgedrag op inferentietijd van diffusiemodellen voorbij het verhogen van denoising-stappen en onderzoeken we hoe de generatieprestaties verder kunnen verbeteren met meer berekening. Specifiek bekijken we een zoekprobleem gericht op het identificeren van betere ruis voor het diffusie samplingproces. We structureren de ontwerpruimte langs twee assen: de verificatiemethoden die worden gebruikt om feedback te geven, en de algoritmen die worden gebruikt om betere ruiskandidaten te vinden. Door uitgebreide experimenten op klasse-geconditioneerde en tekst-geconditioneerde beeldgeneratie benchmarks, tonen onze bevindingen aan dat het verhogen van inferentieberekening leidt tot aanzienlijke verbeteringen in de kwaliteit van de door diffusiemodellen gegenereerde monsters, en met de complexe aard van afbeeldingen kunnen combinaties van de componenten in het kader specifiek worden gekozen om overeen te stemmen met verschillende toepassingsscenario's.
Machine writing met grote taalmodellen vertrouwt vaak op generatie met toegevoegde ophaling. Echter blijven deze benaderingen beperkt binnen de grenzen van het vooraf gedefinieerde bereik van het model, wat de generatie van inhoud met rijke informatie beperkt. Specifiek ontbreekt het vaak aan diepte, bruikbaarheid en vertoont het redundantie, wat de kwaliteit van gegenereerde artikelen negatief beïnvloedt, wat resulteert in oppervlakkige, repetitieve en onoriginele resultaten. Om deze problemen aan te pakken, stellen we OmniThink voor, een machine schrijfkader dat het menselijke proces van iteratieve uitbreiding en reflectie nabootst. Het kernidee achter OmniThink is om het cognitieve gedrag van leerlingen te simuleren terwijl ze geleidelijk hun kennis van de onderwerpen verdiepen. Experimentele resultaten tonen aan dat OmniThink de kennisdichtheid van gegenereerde artikelen verbetert zonder afbreuk te doen aan metrieken zoals coherentie en diepte. Menselijke evaluaties en expertfeedback benadrukken verder het potentieel van OmniThink om uitdagingen in de echte wereld aan te pakken bij de generatie van langere artikelen.
Taal is lange tijd beschouwd als een essentieel instrument voor menselijk redeneren. De doorbraak van Grote Taalmodellen (GTM's) heeft aanzienlijke onderzoeksinteresse aangewakkerd in het benutten van deze modellen om complexe redeneertaken aan te pakken. Onderzoekers zijn voorbij eenvoudige autoregressieve token generatie gegaan door het concept van "gedachte" te introduceren - een reeks tokens die tussenliggende stappen in het redeneerproces vertegenwoordigen. Dit innovatieve paradigma stelt GTM's in staat om complexe menselijke redeneerprocessen na te bootsen, zoals boomzoekopdrachten en reflectief denken. Onlangs is er een opkomende trend van leren redeneren waarbij versterkend leren (RL) wordt toegepast om GTM's te trainen in het beheersen van redeneerprocessen. Deze aanpak maakt het automatisch genereren van hoogwaardige redeneertrajecten mogelijk door middel van trial-and-error zoekalgoritmen, waardoor de redeneercapaciteit van GTM's aanzienlijk wordt uitgebreid door aanzienlijk meer trainingsgegevens te verstrekken. Bovendien tonen recente studies aan dat het aanmoedigen van GTM's om tijdens testtijdinference met meer tokens "te denken" de redeneernauwkeurigheid verder aanzienlijk kan verhogen. Daarom laten de schaalvergroting tijdens training en testtijd samen een nieuw onderzoekspad zien - een weg naar een Groot Redeneermodel. De introductie van OpenAI's o1-serie markeert een belangrijke mijlpaal in deze onderzoeksrichting. In deze survey presenteren we een uitgebreid overzicht van recente vooruitgang in GTM-redeneren. We beginnen met het introduceren van de fundamentele achtergrond van GTM's en verkennen vervolgens de belangrijkste technische componenten die de ontwikkeling van grote redeneermodellen stimuleren, met de nadruk op geautomatiseerde gegevensconstructie, leer-om-te-redeneren technieken en schaalvergroting tijdens testtijd. We analyseren ook populaire open-source projecten voor het bouwen van grote redeneermodellen en sluiten af met open uitdagingen en toekomstige onderzoeksrichtingen.
Visuele tokenisatie via auto-encoding versterkt toonaangevende beeld- en videogeneratiemodellen door pixels samen te drukken in een latente ruimte. Hoewel het schalen van op Transformer gebaseerde generatoren centraal heeft gestaan in recente vooruitgang, wordt het tokenizer-component zelf zelden geschaald, waardoor er nog vragen openstaan over hoe ontwerpkeuzes van de auto-encoder zowel de reconstructiedoelstelling als de prestaties van downstream generatie beïnvloeden. Ons werk heeft tot doel een verkenning van schalen in auto-encoders uit te voeren om deze leemte op te vullen. Om deze verkenning te vergemakkelijken, vervangen we de typische convolutionele ruggengraat door een verbeterde Vision Transformer-architectuur voor Tokenisatie (ViTok). We trainen ViTok op grootschalige beeld- en videodatasets die ver uitstijgen boven ImageNet-1K, waardoor de gegevensbeperkingen voor het schalen van de tokenizer worden weggenomen. We bestuderen eerst hoe het schalen van de bottleneck van de auto-encoder zowel de reconstructie als de generatie beïnvloedt - en ontdekken dat hoewel het sterk gecorreleerd is met reconstructie, de relatie met generatie complexer is. Vervolgens onderzochten we het effect van afzonderlijk schalen van de encoder en decoder van de auto-encoders op de prestaties van reconstructie en generatie. Cruciaal is dat we ontdekken dat het schalen van de encoder minimale voordelen oplevert voor zowel reconstructie als generatie, terwijl het schalen van de decoder de reconstructie verbetert, maar de voordelen voor generatie gemengd zijn. Voortbouwend op onze verkenning ontwerpen we ViTok als een lichtgewicht auto-encoder die concurrerende prestaties levert met toonaangevende auto-encoders op ImageNet-1K en COCO-reconstructietaken (256p en 512p), terwijl het bestaande auto-encoders overtreft op 16-frame 128p video-reconstructie voor UCF-101, allemaal met 2-5x minder FLOPs. Wanneer geïntegreerd met Diffusion Transformers, toont ViTok concurrerende prestaties op beeldgeneratie voor ImageNet-1K en stelt nieuwe toonaangevende benchmarks voor klasse-geconditioneerde videogeneratie op UCF-101.
De generatie van AI-video's ondergaat een revolutie, waarbij de kwaliteit en realisme snel vooruitgaan. Deze vooruitgang heeft geleid tot een gepassioneerd wetenschappelijk debat: Leren videomodellen "wereldmodellen" die natuurwetten ontdekken - of zijn ze slechts geavanceerde pixelvoorspellers die visueel realisme bereiken zonder de fysische principes van de realiteit te begrijpen? We behandelen deze vraag door Physics-IQ te ontwikkelen, een uitgebreide benchmarkdataset die alleen kan worden opgelost door een diepgaand begrip van verschillende fysische principes, zoals vloeistofdynamica, optica, vastestofmechanica, magnetisme en thermodynamica, te verwerven. We constateren dat bij een reeks huidige modellen (Sora, Runway, Pika, Lumiere, Stable Video Diffusion en VideoPoet) het begrip van de natuur beperkt is en niet gerelateerd is aan visueel realisme. Tegelijkertijd kunnen sommige testgevallen al succesvol worden opgelost. Dit geeft aan dat het mogelijk is om bepaalde fysische principes alleen door observatie te verwerven, maar er blijven aanzienlijke uitdagingen bestaan. Hoewel we snelle vooruitgang verwachten, toont ons werk aan dat visueel realisme geen fysisch begrip impliceert. Onze projectpagina is te vinden op https://physics-iq.github.io; de code op https://github.com/google-deepmind/physics-IQ-benchmark.
Autoregressieve sequentiemodellen, zoals op Transformer gebaseerde visie-taalactie (VLA) beleidslijnen, kunnen buitengewoon effectief zijn voor het vastleggen van complexe en generaliseerbare robotgedragingen. Echter, dergelijke modellen vereisen dat we een tokenisatie van onze continue actiesignalen kiezen, wat bepaalt hoe de discrete symbolen die voorspeld worden door het model worden gekoppeld aan continue robotacties. We constateren dat huidige benaderingen voor robotactie-tokenisatie, gebaseerd op eenvoudige per-dimensie, per-tijdstap binnenschema's, doorgaans slecht presteren bij het aanleren van behendige vaardigheden van hoogfrequente robotgegevens. Om deze uitdaging aan te pakken, stellen we een nieuw op compressie gebaseerd tokenisatieschema voor voor robotacties, gebaseerd op de discrete cosinustransformatie. Onze tokeniseringsbenadering, Frequency-space Action Sequence Tokenization (FAST), stelt ons in staat om autoregressieve VLA's te trainen voor zeer behendige en hoogfrequente taken waar standaard discretisatiemethoden volledig tekortschieten. Gebaseerd op FAST, brengen we FAST+ uit, een universele robotactietokenizer, getraind op 1M echte robotactietrajecten. Het kan worden gebruikt als een black-box tokenizer voor een breed scala aan robotactiesequenties, met diverse actieruimtes en controlefrequenties. Ten slotte tonen we aan dat, wanneer gecombineerd met de pi0 VLA, onze methode kan worden opgeschaald naar training op 10k uur aan robotgegevens en de prestaties van diffusie VLA's kan evenaren, terwijl de trainingsduur tot 5x wordt verkort.
We introduceren SynthLight, een diffusiemodel voor portretbelichting. Onze benadering ziet beeldbelichting als een probleem van herrendering, waarbij pixels worden getransformeerd als reactie op veranderingen in omgevingslichtomstandigheden. Met behulp van een op fysica gebaseerde renderengine synthetiseren we een dataset om deze belichtingsafhankelijke transformatie te simuleren met 3D-hoofdobjecten onder variërende belichting. We stellen twee trainings- en inferentiestrategieën voor om de kloof tussen de synthetische en echte beelddomeinen te overbruggen: (1) multi-task training die profiteert van echte menselijke portretten zonder belichtingslabels; (2) een inferentietijd diffusie samplingprocedure op basis van classifier-vrije begeleiding die het invoerportret benut om details beter te behouden. Onze methode generaliseert naar diverse echte foto's en produceert realistische verlichtingseffecten, inclusief spiegelende hooglichten en werp-schaduwen, terwijl de identiteit van het onderwerp behouden blijft. Onze kwantitatieve experimenten op Light Stage-gegevens tonen resultaten die vergelijkbaar zijn met state-of-the-art belichtingsmethoden. Onze kwalitatieve resultaten op in-the-wild beelden tonen rijke en ongekende verlichtingseffecten. Projectpagina: https://vrroom.github.io/synthlight/
Online medisch consult (OMC) beperkt artsen tot het verzamelen van patiëntinformatie uitsluitend via vragen, waardoor het reeds complexe sequentiële besluitvormingsproces van diagnose nog uitdagender wordt. Onlangs heeft de snelle vooruitgang van grote taalmodellen een aanzienlijk potentieel aangetoond om OMC te transformeren. Echter, de meeste studies hebben zich voornamelijk gericht op het verbeteren van de diagnostische nauwkeurigheid onder omstandigheden van relatief voldoende informatie, met beperkte aandacht voor de "vraag" fase van het consultatieproces. Dit gebrek aan focus heeft de relatie tussen "vraag" en "diagnose" onvoldoende verkend gelaten. In dit artikel extraheren we eerst echte patiëntinteractiestrategieën uit authentieke arts-patiëntgesprekken en gebruiken deze strategieën om de training van een patiëntsimulator te begeleiden die het gedrag in de echte wereld nauwkeurig nabootst. Door medische dossiers in te voeren in onze patiëntsimulator om patiëntreacties te simuleren, voeren we uitgebreide experimenten uit om de relatie tussen "vraag" en "diagnose" in het consultatieproces te verkennen. Experimentele resultaten tonen aan dat vraag en diagnose zich houden aan de wet van Liebig: een slechte vraagkwaliteit beperkt de effectiviteit van de diagnose, ongeacht de diagnostische capaciteit, en vice versa. Bovendien onthullen de experimenten significante verschillen in de vraagprestaties van verschillende modellen. Om dit fenomeen te onderzoeken, categoriseren we het vraagproces in vier typen: (1) vraag naar hoofdklachten; (2) specificatie van bekende symptomen; (3) vraag naar bijkomende symptomen; en (4) verzamelen van familie- of medische voorgeschiedenis. We analyseren de verdeling van vragen over de vier typen voor verschillende modellen om de redenen achter hun significante prestatieverschillen te verkennen. We zijn van plan om de gewichten en gerelateerde code van onze patiëntsimulator open-source te maken op https://github.com/LIO-H-ZEN/PatientSimulator.
De synthese van hoogwaardige 3D-middelen uit tekstuele of visuele invoer is een centraal doel geworden in moderne generatieve modellering. Ondanks de verscheidenheid aan 3D-generatiealgoritmen, worstelen ze vaak met uitdagingen zoals multi-view inconsistentie, trage generatietijden, lage betrouwbaarheid en oppervlakteherstelproblemen. Hoewel sommige studies enkele van deze kwesties hebben aangepakt, blijft een allesomvattende oplossing ongrijpbaar. In dit artikel introduceren we CaPa, een snij-en-schilderframework dat efficiënt hoogwaardige 3D-middelen genereert. CaPa maakt gebruik van een tweefasenproces, waarbij geometriegeneratie wordt losgekoppeld van textuursynthese. In eerste instantie genereert een 3D latente diffusiemodel geometrie geleid door multi-view invoer, wat zorgt voor structurele consistentie over verschillende perspectieven. Vervolgens, door gebruik te maken van een nieuw, model-agnostisch Ruimtelijk Losgekoppelde Aandacht, synthetiseert het framework texturen met hoge resolutie (tot 4K) voor een gegeven geometrie. Bovendien stellen we een 3D-bewust occlusie-inpaintingalgoritme voor dat ongetextureerde gebieden vult, resulterend in samenhangende resultaten over het hele model. Deze pijplijn genereert hoogwaardige 3D-middelen in minder dan 30 seconden, waardoor direct bruikbare resultaten voor commerciële toepassingen worden geleverd. Experimentele resultaten tonen aan dat CaPa uitblinkt in zowel textuurbetrouwbaarheid als geometrische stabiliteit, waarmee het een nieuwe standaard vestigt voor praktische, schaalbare 3D-middelengeneratie.
Onlangs hebben grootschalige generatieve modellen uitstekende mogelijkheden voor tekst-naar-afbeelding generatie aangetoond. Echter, het genereren van hoogwaardige gepersonaliseerde afbeeldingen met specifieke onderwerpen blijft uitdagingen met zich meebrengen, vooral in gevallen met meerdere onderwerpen. In dit artikel stellen we AnyStory voor, een verenigde aanpak voor gepersonaliseerde onderwerpgeneratie. AnyStory bereikt niet alleen een hoogwaardige personalisatie voor enkele onderwerpen, maar ook voor meerdere onderwerpen, zonder de onderwerpfideliteit op te offeren. Specifiek modelt AnyStory het onderwerp personalisatieprobleem op een "coderen-en-dan-routeren" manier. In de coderingsstap maakt AnyStory gebruik van een universele en krachtige beeldencoder, d.w.z. ReferenceNet, in combinatie met de CLIP vision encoder om een hoogwaardige codering van onderwerpeigenschappen te bereiken. In de routeringsstap maakt AnyStory gebruik van een losgekoppelde, instantie-bewuste onderwerprouter om nauwkeurig de potentiële locatie van het overeenkomstige onderwerp in de latente ruimte waar te nemen en voorspellen, en om de injectie van onderwerpscondities te begeleiden. Gedetailleerde experimentele resultaten tonen de uitstekende prestaties van onze methode aan in het behouden van onderwerpdetails, het afstemmen van tekstbeschrijvingen en het personaliseren voor meerdere onderwerpen. De projectpagina is te vinden op https://aigcdesigngroup.github.io/AnyStory/.
De recente toename in de populariteit van grote taalmodellen heeft de ontwikkeling van uitgebreide code datasets gestimuleerd die nodig zijn om ze te trainen. Dit heeft slechts beperkte code beschikbaar gelaten voor verzameling en gebruik in het downstream onderzoek naar specifieke gedragingen, of de evaluatie van grote taalmodellen zonder last te hebben van gegevensverontreiniging. Om dit probleem aan te pakken, brengen we The Heap uit, een grote meertalige dataset die 57 programmeertalen bestrijkt en die is gedupliceerd met betrekking tot andere open datasets van code, waardoor onderzoekers eerlijke evaluaties van grote taalmodellen kunnen uitvoeren zonder aanzienlijke overhead voor gegevensreiniging.
Generatieve AI-systemen zoals foundation modellen (FMs) moeten goed aansluiten bij menselijke waarden om ervoor te zorgen dat hun gedrag behulpzaam en betrouwbaar is. Hoewel Versterkend Leren van Menselijke Feedback (RLHF) veelbelovend is gebleken voor het optimaliseren van modelprestaties met behulp van menselijke beoordelingen, vertrouwen bestaande RLHF-pijplijnen voornamelijk op directe feedback, wat mogelijk niet nauwkeurig de downstream impact van een interactie op het nut van gebruikers weergeeft. We tonen aan dat feedback gebaseerd op schattingen van de vooruitziende blik van beoordelaars van downstream consequenties systematisch Goodhart's Law dynamiek induceert, waarbij misplaatst gedrag zoals vleierij en bedrog wordt gestimuleerd en uiteindelijk de uitkomsten voor gebruikers verslechtert. Om dit te verlichten, stellen we voor de evaluatie los te koppelen van voorspelling door RLHF te heroriënteren op feedback achteraf. Onze theoretische analyse onthult dat het conditioneren van beoordelaarsfeedback op downstream observaties de misalignering vermindert en het verwachte menselijke nut verbetert, zelfs wanneer deze observaties gesimuleerd worden door het AI-systeem zelf. Om deze inzichten te benutten in een praktisch aligneringsalgoritme, introduceren we Versterkend Leren van Hindsight Simulatie (RLHS), dat eerst plausibele consequenties simuleert en vervolgens feedback vraagt om te beoordelen welk gedrag achteraf echt gunstig was. We passen RLHS toe op twee veelgebruikte online en offline voorkeursoptimalisatiemethoden - Proximale Beleidsoptimalisatie (PPO) en Directe Voorkeursoptimalisatie (DPO) - en tonen empirisch aan dat misalignering aanzienlijk wordt verminderd bij beide methoden. Via een online menselijke gebruikersstudie tonen we aan dat RLHS consequent beter presteert dan RLHF bij het helpen van gebruikers om hun doelen te bereiken en hogere tevredenheidsbeoordelingen krijgt, ondanks dat het alleen is getraind met gesimuleerde hindsight-feedback. Deze resultaten benadrukken het belang van het focussen op langetermijngevolgen, zelfs gesimuleerde, om misalignering in RLHF te verminderen.