Dagelijks geselecteerde AI onderzoekspapers met vertalingen
GPT-4o is een autoregressief omnimodel dat elke combinatie van tekst, audio, afbeelding en video accepteert als invoer, en elke combinatie van tekst, audio en afbeeldingsuitvoer genereert. Het is end-to-end getraind over tekst, visie en audio, wat betekent dat alle invoer- en uitvoergegevens worden verwerkt door hetzelfde neurale netwerk. GPT-4o kan reageren op audio-invoer in slechts 232 milliseconden, met een gemiddelde van 320 milliseconden, wat vergelijkbaar is met de menselijke reactietijd in een gesprek. Het evenaart de prestaties van GPT-4 Turbo op Engelse tekst en code, met aanzienlijke verbetering op tekst in niet-Engelse talen, terwijl het ook veel sneller is en 50% goedkoper in de API. GPT-4o is met name beter in visie- en audiobegrip in vergelijking met bestaande modellen. In lijn met onze toewijding om AI op een veilige manier te ontwikkelen en in overeenstemming met onze vrijwillige toezeggingen aan het Witte Huis, delen we de GPT-4o System Card, die onze Evaluaties van het Voorbereidingskader bevat. In deze System Card bieden we een gedetailleerd overzicht van de mogelijkheden, beperkingen en veiligheidsevaluaties van GPT-4o over meerdere categorieën, met de nadruk op spraak-naar-spraak, terwijl we ook tekst- en beeldmogelijkheden evalueren, en maatregelen die we hebben geïmplementeerd om ervoor te zorgen dat het model veilig en in lijn is. We nemen ook externe beoordelingen op van gevaarlijke mogelijkheden, evenals een bespreking van potentiële maatschappelijke impact van de tekst- en visiemogelijkheden van GPT-4o.
We introduceren Bielik 7B v0.1, een generatief tekstmodel met 7 miljard parameters voor de verwerking van de Poolse taal. Getraind op samengestelde Poolse corpora, pakt dit model belangrijke uitdagingen aan in de ontwikkeling van taalmodellen door middel van innovatieve technieken. Deze omvatten Gewogen Instructie Cross-Entropie Verlies, dat het leren van verschillende instructietypen in balans brengt, en Adaptieve Leer Snelheid, dat dynamisch de leersnelheid aanpast op basis van de trainingsvoortgang. Om de prestaties te evalueren, hebben we de Open PL LLM Leaderboard en het Poolse MT-Bench gecreëerd, nieuwe frameworks die verschillende NLP-taken en conversatievaardigheden beoordelen. Bielik 7B v0.1 toont aanzienlijke verbeteringen, met een toename van 9 procentpunten in de gemiddelde score in vergelijking met Mistral-7B-v0.1 op de RAG Reader-taak. Het excelleert ook in de Poolse MT-Bench, met name in de categorieën Redenering (6.15/10) en Rollenspel (7.83/10). Dit model vertegenwoordigt een aanzienlijke vooruitgang in Poolse taal AI, en biedt een krachtig instrument voor diverse taalkundige toepassingen en stelt nieuwe normen in het vakgebied.
Kleine Taalmodellen (SLM's) zijn steeds belangrijker geworden vanwege hun efficiëntie en prestaties bij het uitvoeren van verschillende taaltaken met minimale rekenbronnen, waardoor ze ideaal zijn voor verschillende omgevingen, waaronder on-device, mobiele en edge-apparaten, onder vele andere. In dit artikel presenteren we een uitgebreid overzicht van SLM's, met de focus op hun architecturen, trainingsmethoden en modelcompressietechnieken. We stellen een nieuwe taxonomie voor om de gebruikte methoden voor het optimaliseren van SLM's te categoriseren, inclusief modelcompressie, snoeien en kwantiseringstechnieken. We vatten de benchmark-datasets samen die nuttig zijn voor het benchmarken van SLM's, samen met de veelgebruikte evaluatiemetrics. Daarnaast benadrukken we belangrijke open uitdagingen die nog moeten worden aangepakt. Ons overzicht heeft tot doel een waardevolle bron te zijn voor onderzoekers en beoefenaars die geïnteresseerd zijn in het ontwikkelen en implementeren van kleine maar efficiënte taalmodellen.
Digitale agenten die in staat zijn om complexe computertaken te automatiseren, hebben aanzienlijke aandacht getrokken vanwege hun enorme potentieel om de interactie tussen mens en computer te verbeteren. Echter, bestaande agentmethoden vertonen tekortkomingen in hun vermogen tot generalisatie en specialisatie, met name bij het omgaan met open computertaken in real-world omgevingen. Geïnspireerd door de rijke functionaliteit van de App Store, presenteren wij AgentStore, een schaalbaar platform dat is ontworpen om heterogene agenten dynamisch te integreren voor het automatiseren van computertaken. AgentStore stelt gebruikers in staat om externe agenten te integreren, waardoor het systeem voortdurend zijn mogelijkheden kan verrijken en zich kan aanpassen aan snel evoluerende besturingssystemen. Daarnaast stellen we een nieuw kern-MetaAgent voor met de AgentToken-strategie om op efficiënte wijze diverse agenten te beheren en hun gespecialiseerde en generalistische capaciteiten te benutten voor zowel domeinspecifieke als systeembrede taken. Uitgebreide experimenten op drie uitdagende benchmarks tonen aan dat AgentStore de beperkingen van eerdere systemen met beperkte capaciteiten overtreft, waarbij met name een significante verbetering wordt behaald van 11,21% naar 23,85% op de OSWorld-benchmark, meer dan een verdubbeling van de vorige resultaten. Uitgebreide kwantitatieve en kwalitatieve resultaten tonen verder de mogelijkheid van AgentStore aan om agentensystemen te verbeteren op zowel generalisatie als specialisatie, waarbij het potentieel wordt benadrukt voor de ontwikkeling van de gespecialiseerde generalistische computerassistent. Al onze codes zullen openbaar beschikbaar worden gesteld op https://chengyou-jia.github.io/AgentStore-Home.
Het parseren van documenten is essentieel voor het omzetten van ongestructureerde en semi-gestructureerde documenten - zoals contracten, academische papers en facturen - naar gestructureerde, machine-leesbare gegevens. Document parsing haalt betrouwbare gestructureerde gegevens uit ongestructureerde invoer, wat enorme gemak biedt voor tal van toepassingen. Vooral met recente prestaties in Grote Taalmodellen, speelt document parsing een onmisbare rol bij zowel de constructie van kennisbanken als de generatie van trainingsgegevens. Deze survey presenteert een uitgebreid overzicht van de huidige stand van zaken op het gebied van document parsing, waarbij de belangrijkste methodologieën worden behandeld, van modulaire pipelinesystemen tot end-to-end modellen aangestuurd door grote visie-taalmodellen. Kerncomponenten zoals lay-outdetectie, inhoudsextractie (inclusief tekst, tabellen en wiskundige expressies) en multi-modale gegevensintegratie worden in detail onderzocht. Daarnaast bespreekt dit artikel de uitdagingen waarmee modulaire document parsing systemen en visie-taalmodellen worden geconfronteerd bij het omgaan met complexe lay-outs, het integreren van meerdere modules en het herkennen van tekst met een hoge dichtheid. Het benadrukt het belang van het ontwikkelen van grotere en meer diverse datasets en schetst toekomstige onderzoeksrichtingen.
We introduceren MarDini, een nieuwe familie van videodiffusiemodellen die de voordelen van gemaskeerde auto-regressie (MAR) integreren in een verenigd diffusiemodel (DM) framework. Hier behandelt MAR de temporale planning, terwijl DM zich richt op ruimtelijke generatie in een asymmetrisch netwerkontwerp: i) een op MAR gebaseerd planningsmodel dat de meeste parameters bevat, genereert planningsignalen voor elk gemaskeerd frame met behulp van input met lage resolutie; ii) een lichtgewicht generatiemodel gebruikt deze signalen om hoogwaardige frames te produceren via diffusie-denoïsering. De MAR van MarDini maakt videogeneratie mogelijk die is geconditioneerd op elk aantal gemaskeerde frames op willekeurige frameposities: een enkel model kan videointerpolatie aanpakken (bijv. het maskeren van middelste frames), beeld-naar-video generatie (bijv. maskeren vanaf het tweede frame) en video-uitbreiding (bijv. maskeren van de helft van de frames). Het efficiënte ontwerp wijst het merendeel van de rekenbronnen toe aan het planningsmodel met lage resolutie, waardoor rekenintensieve maar belangrijke ruimtelijk-temporele aandacht op schaal haalbaar is. MarDini zet een nieuwe standaard voor videointerpolatie; ondertussen genereert het efficiënt video's van gelijke kwaliteit als die van veel duurdere geavanceerde beeld-naar-video modellen binnen enkele inferentiestappen.
FP8-training is naar voren gekomen als een veelbelovende methode om de trainings-efficiëntie te verbeteren. Bestaande frameworks versnellen de training door FP8-berekeningen toe te passen op lineaire lagen, terwijl ze de optimizer states en activaties in hogere precisie laten, wat niet volledig optimaal is voor geheugengebruik. Dit artikel introduceert COAT (Compressing Optimizer States and Activations for FP8 Training), een nieuw FP8-trainingsframework dat is ontworpen om aanzienlijk de geheugenfootprint te verkleinen bij het trainen van grote modellen. COAT pakt huidige beperkingen aan door middel van twee belangrijke innovaties: (1) Dynamische Bereikuitbreiding, die optimizer state distributies nauwer afstemt op het FP8-representatiebereik, waardoor kwantisatiefouten worden verminderd, en (2) Gemengde-Granulariteit Activatiekwantisatie, die activatiegeheugen optimaliseert door een combinatie van per-tensor en per-groep kwantisatiestrategieën. Experimenten tonen aan dat COAT effectief de end-to-end trainingsgeheugenfootprint met 1.54x verkleint in vergelijking met BF16, terwijl het bijna verliesloze prestaties behaalt bij verschillende taken, zoals vooraftraining en fijnafstemming van grote taalmodellen en training van visueel taalmodellen. COAT behaalt ook een 1.43x versnelling van de end-to-end training in vergelijking met BF16, waarbij het op gelijke hoogte presteert of TransformerEngine's versnelling overtreft. COAT maakt efficiënte training van volledige parameters van grote modellen mogelijk op minder GPU's en vergemakkelijkt het verdubbelen van de batchgrootte in gedistribueerde trainingsomgevingen, wat een praktische oplossing biedt voor het schalen van grootschalige modeltraining. De code is beschikbaar op https://github.com/NVlabs/COAT.
Beeldherstel (IR) in realistische scenario's vormt aanzienlijke uitdagingen door het gebrek aan modellen met een hoge capaciteit en uitgebreide datasets. Om deze problemen aan te pakken, presenteren we een dubbele strategie: GenIR, een innovatieve gegevenscuratiepijplijn, en DreamClear, een geavanceerd Diffusion Transformer (DiT)-gebaseerd beeldherstelmodel. GenIR, onze baanbrekende bijdrage, is een dubbele-leerpijplijn die de beperkingen van bestaande datasets overwint, die doorgaans slechts uit enkele duizenden afbeeldingen bestaan en daardoor beperkte generaliseerbaarheid bieden voor grotere modellen. GenIR stroomlijnt het proces in drie fasen: constructie van beeld-tekstparen, fijnafstemming op basis van dubbele prompts, en gegevensgeneratie en -filtering. Deze aanpak omzeilt het arbeidsintensieve proces van gegevensverzameling, zorgt voor naleving van het auteursrecht en biedt een kosteneffectieve, privacyveilige oplossing voor de constructie van IR-datasets. Het resultaat is een grootschalige dataset van één miljoen hoogwaardige afbeeldingen. Onze tweede bijdrage, DreamClear, is een op DiT gebaseerd beeldherstelmodel. Het maakt gebruik van de generatieve prioriteiten van tekst-naar-beeld (T2I) diffusiemodellen en de robuuste perceptuele mogelijkheden van multimodale grote taalmodellen (MLLM's) om fotorealistisch herstel te bereiken. Om de aanpasbaarheid van het model aan diverse realistische degradaties te vergroten, introduceren we de Mixture of Adaptive Modulator (MoAM). Het maakt gebruik van token-gebaseerde degradatieprioriteiten om dynamisch verschillende herstelspecialisten te integreren, waardoor het bereik van de degradaties die het model kan aanpakken wordt vergroot. Onze uitgebreide experimenten bevestigen de superieure prestaties van DreamClear, waarbij de doeltreffendheid van onze dubbele strategie voor beeldherstel in realistische scenario's wordt benadrukt. Code en vooraf getrainde modellen zijn beschikbaar op: https://github.com/shallowdream204/DreamClear.
Hoewel er aanzienlijke vooruitgang is geboekt in het ontwikkelen van lang-context grote taalmodellen (LLM's), heeft de verminderde kwaliteit van LLM-gegenereerde gegevens voor begeleide fijntuning (SFT) vaak invloed op de prestaties van lange context van SFT-modellen en leidt tot inherente beperkingen. In principe kan reinforcement learning (RL) met passende beloningssignalen de capaciteiten van modellen verder verbeteren. Echter, hoe betrouwbare beloningen te verkrijgen in lange-context scenario's blijft onontgonnen. Daartoe stellen we LongReward voor, een nieuw methodiek die een kant-en-klaar LLM gebruikt om beloningen te verstrekken voor lange-context model reacties vanuit vier door mensen gewaardeerde dimensies: behulpzaamheid, logica, getrouwheid en volledigheid, elk met een zorgvuldig ontworpen beoordelingsproces. Door LongReward te combineren met het offline RL-algoritme DPO, zijn we in staat om effectief lange-context SFT-modellen te verbeteren. Onze experimenten geven aan dat LongReward niet alleen aanzienlijk de prestaties van modellen in lange context verbetert, maar ook hun vermogen om korte instructies op te volgen verbetert. We vinden ook dat lange-context DPO met LongReward en conventionele korte-context DPO samen kunnen worden gebruikt zonder de prestaties van beide te schaden.
We introduceren een nieuwe trainingvrije ruimtelijke verankeringstechniek voor tekst-naar-afbeelding generatie met behulp van Diffusion Transformers (DiT). Ruimtelijke verankering met begrenzingskaders heeft aandacht gekregen vanwege de eenvoud en veelzijdigheid, waardoor verbeterde gebruikerscontrole mogelijk is bij afbeeldingsgeneratie. Echter vertrouwen eerdere trainingvrije benaderingen vaak op het bijwerken van de ruisachtige afbeelding tijdens het omgekeerde diffusieproces via backpropagatie van aangepaste verliesfuncties, die vaak moeite hebben om precieze controle over individuele begrenzingskaders te bieden. In dit werk maken we gebruik van de flexibiliteit van de Transformer-architectuur, waarbij we aantonen dat DiT ruisachtige patches kan genereren die overeenkomen met elk begrenzingskader, waarbij het doelobject volledig wordt gecodeerd en fijnmazige controle over elk gebied mogelijk wordt gemaakt. Onze aanpak bouwt voort op een intrigerende eigenschap van DiT, die we semantische deling noemen. Door semantische deling, wanneer een kleinere patch gelijktijdig wordt gedenoiseerd naast een generatieve-grootte afbeelding, worden de twee "semantische klonen". Elke patch wordt gedenoiseerd in zijn eigen tak van het generatieproces en vervolgens getransplanteerd naar het overeenkomstige gebied van de oorspronkelijke ruisachtige afbeelding bij elke tijdstap, resulterend in robuuste ruimtelijke verankering voor elk begrenzingskader. In onze experimenten op de HRS en DrawBench benchmarks behalen we state-of-the-art prestaties in vergelijking met eerdere trainingvrije ruimtelijke verankering benaderingen.
Zoekmachines maken het mogelijk om onbekende informatie op te halen met teksten. Traditionele methoden schieten echter tekort als het gaat om het begrijpen van onbekende visuele inhoud, zoals het identificeren van een object dat het model nog nooit heeft gezien. Deze uitdaging is met name duidelijk bij grote vision-language modellen (VLM's): als het model niet is blootgesteld aan het object dat wordt afgebeeld in een afbeelding, heeft het moeite om betrouwbare antwoorden te genereren op de vraag van de gebruiker over die afbeelding. Bovendien, doordat er voortdurend nieuwe objecten en gebeurtenissen opduiken, is het regelmatig bijwerken van VLM's onpraktisch vanwege zware rekenlasten. Om deze beperking aan te pakken, stellen we Vision Search Assistant voor, een nieuw kader dat samenwerking mogelijk maakt tussen VLM's en webagenten. Deze aanpak maakt gebruik van de visuele begripscapaciteiten van VLM's en de realtime informatie-toegang van webagenten om open-world Retrieval-Augmented Generation via het web uit te voeren. Door visuele en tekstuele representaties te integreren via deze samenwerking, kan het model geïnformeerde antwoorden geven, zelfs wanneer de afbeelding nieuw is voor het systeem. Uitgebreide experimenten uitgevoerd op zowel open-set als closed-set QA-benchmarks tonen aan dat de Vision Search Assistant aanzienlijk beter presteert dan de andere modellen en breed kan worden toegepast op bestaande VLM's.
De veilige en effectieve implementatie van Grote Taalmodellen (LLMs) omvat een cruciale stap genaamd afstemming, die ervoor zorgt dat de reacties van het model in overeenstemming zijn met menselijke voorkeuren. Gangbare afstemmingstechnieken, zoals DPO, PPO en hun varianten, stemmen LLM's af door de vooraf getrainde modelgewichten te wijzigen tijdens een fase genaamd post-training. Hoewel overheersend, voegen deze post-training methoden aanzienlijke complexiteit toe voordat LLM's kunnen worden geïmplementeerd. Afstemmingsmethoden op inferentietijd vermijden de complexe post-training stap en sturen in plaats daarvan de generatie aan naar reacties die in lijn zijn met menselijke voorkeuren. De bekendste afstemmingsmethode op inferentietijd, genaamd Best-of-N, is even effectief als de meest geavanceerde post-training procedures. Helaas vereist Best-of-N aanzienlijk meer middelen op inferentietijd dan standaard decoderingsstrategieën, waardoor het computationeel niet haalbaar is. In dit werk introduceren we Speculatieve Afwijzing, een computationeel haalbaar afstemmingsalgoritme op inferentietijd. Het genereert hoog scorende reacties volgens een gegeven beloningsmodel, net zoals Best-of-N dat doet, terwijl het tussen de 16 en 32 keer efficiënter is qua rekenkracht.
We presenteren LARP, een nieuwe video-tokenizer die is ontworpen om beperkingen in huidige video-tokenisatiemethoden voor autoregressieve (AR) generatieve modellen te overwinnen. In tegenstelling tot traditionele patchgewijze tokenizers die lokale visuele patches rechtstreeks coderen in discrete tokens, introduceert LARP een holistisch tokenisatieschema dat informatie uit de visuele inhoud verzamelt met behulp van een reeks geleerde holistische queries. Deze ontwerp stelt LARP in staat om meer globale en semantische representaties vast te leggen, in plaats van beperkt te zijn tot lokale patch-niveau informatie. Bovendien biedt het flexibiliteit door ondersteuning van een willekeurig aantal discrete tokens, waardoor adaptieve en efficiënte tokenisatie mogelijk is op basis van de specifieke vereisten van de taak. Om de discrete tokenruimte af te stemmen op downstream AR-generatietaken, integreert LARP een lichtgewicht AR-transformator als een trainingstijdpriormodel dat het volgende token voorspelt in zijn discrete latente ruimte. Door het priormodel tijdens training op te nemen, leert LARP een latente ruimte die niet alleen geoptimaliseerd is voor videoreconstructie, maar ook gestructureerd is op een manier die meer bevorderlijk is voor autoregressieve generatie. Bovendien definieert dit proces een sequentiële volgorde voor de discrete tokens, waarbij ze progressief naar een optimale configuratie worden geduwd tijdens training, waardoor soepelere en nauwkeurigere AR-generatie bij inferentie wordt gegarandeerd. Uitgebreide experimenten tonen de sterke prestaties van LARP aan, waarbij het state-of-the-art FVD behaalt op de UCF101 klasse-geconditioneerde videogeneratiebenchmark. LARP verbetert de compatibiliteit van AR-modellen met video's en opent de mogelijkheid om verenigde hoogwaardige multimodale grote taalmodellen (MLLM's) te bouwen.
In dit werk hervormen we het modelcompressieprobleem tot het aangepaste compensatieprobleem: Gegeven een gecomprimeerd model streven we ernaar om residuale lage-rang paden te introduceren om compressiefouten te compenseren onder aangepaste eisen van gebruikers (bijv. taken, compressieverhoudingen), resulterend in grotere flexibiliteit bij het aanpassen van de algehele capaciteit zonder beperkt te worden door specifieke compressieformaten. Echter, het naïef toepassen van SVD om residuale paden af te leiden veroorzaakt suboptimale benutting van de capaciteit van de lage-rang representatie. In plaats daarvan stellen we Training-vrije Eigenspace Lage-Rang Benadering (EoRA) voor, een methode die compressie-geïnduceerde fouten direct minimaliseert zonder dat daarvoor op gradienten gebaseerde training nodig is, wat resulteert in snelle optimalisatie binnen enkele minuten met een kleine hoeveelheid kalibratiedata. EoRA projecteert compressiefouten in de eigenspace van inputactivaties, waarbij eigenwaarden worden benut om de reconstructie van foutcomponenten met hoge prioriteit effectief te maken. Bovendien kan EoRA naadloos geïntegreerd worden met fine-tuning en kwantisatie om effectiviteit en efficiëntie verder te verbeteren. EoRA presteert consequent beter dan eerdere methoden bij het compenseren van fouten voor gecomprimeerde LLaMA2/3-modellen op verschillende taken, zoals taalgeneratie, gezond verstand redeneren en wiskundige redeneertaken (bijv. 31,31%/12,88% en 9,69% verbeteringen op ARC-Easy/ARC-Challenge en MathQA bij het compenseren van LLaMA3-8B die gekwantiseerd is tot 4-bit en uitgedund tot 2:4 spaarzaamheid). EoRA biedt een schaalbare, training-vrije oplossing om compressiefouten te compenseren, waardoor het een krachtig instrument is om LLMs in verschillende capaciteits- en efficiëntie-eisen in te zetten.
Grote taalmodellen (LLM's) zijn duur om in te zetten. Parameterdeling biedt een mogelijke weg om hun omvang en kosten te verlagen, maar de effectiviteit ervan in moderne LLM's blijft vrij beperkt. In dit werk herzien we "laagbinding" als een vorm van parameterdeling in Transformers, en introduceren we nieuwe methoden om bestaande LLM's om te zetten in kleinere "Recursieve Transformers" die parameters delen over lagen, met minimaal verlies aan prestaties. Hierbij worden onze Recursieve Transformers efficiënt geïnitialiseerd vanuit standaard voorgeleerde Transformers, maar maken ze slechts gebruik van een enkel blok unieke lagen dat vervolgens meerdere malen in een lus wordt herhaald. We verbeteren de prestaties verder door het introduceren van Ontspannen Recursieve Transformers die flexibiliteit toevoegen aan de laagbindingbeperking via diepte-gewijze lage-rang aanpassingsmodules (LoRA), maar toch de compactheid van het totale model behouden. We tonen aan dat onze recursieve modellen (bijv. recursieve Gemma 1B) zowel vergelijkbare in omvang zijnde standaard voorgeleerde modellen (zoals TinyLlama 1.1B en Pythia 1B) als baselines voor kennisoverdracht overtreffen - en zelfs het grootste deel van de prestaties van het oorspronkelijke "volledige" model (bijv. Gemma 2B zonder gedeelde parameters) kunnen herstellen. Tot slot stellen we Continue Diepte-gewijze Batching voor, een veelbelovend nieuw inferentieparadigma mogelijk gemaakt door de Recursieve Transformer in combinatie met vroegtijdig verlaten. In een theoretische analyse tonen we aan dat dit het potentieel heeft om te leiden tot aanzienlijke (2-3x) winst in inferentiedoorvoer.
Video's worden vaak gebruikt om te leren of de benodigde informatie te extraheren om taken op manieren te voltooien die anders zijn dan wat alleen tekst en statische beelden kunnen bieden. Veel bestaande benchmarks voor agenten verwaarlozen echter begrip van video's met een lange context, en richten zich in plaats daarvan op tekst of statische beeldinvoer. Om deze kloof te overbruggen, introduceren we VideoWebArena (VideoWA), een benchmark voor het evalueren van de mogelijkheden van multimodale agenten met een lange context voor videobegrip. VideoWA bestaat uit 2.021 webagenttaken gebaseerd op handmatig gemaakte videotutorials, die bijna vier uur aan inhoud omvatten. Voor onze benchmark definiëren we een taxonomie van taken voor agenten op basis van video's met een lange context met twee hoofdgebieden van focus: vaardigheidsbehoud en feitenbehoud. Terwijl vaardigheidsbehoudtaken evalueren of een agent een gegeven menselijke demonstratie kan gebruiken om een taak efficiënt uit te voeren, evalueert de feitenbehoudtaak of een agent instructierelevante informatie uit een video kan halen om een taak te voltooien. We vinden dat het beste model 13,3% succes behaalt bij feitenbehoudtaken en 45,8% bij feitenbehoud QA-paren, ver onder de menselijke prestatie van respectievelijk 73,9% en 79,3%. Bij vaardigheidsbehoudtaken presteren modellen met een lange context slechter met tutorials dan zonder, met een prestatiedaling van 5% bij WebArena-taken en een daling van 10,3% bij VisualWebArena-taken. Ons werk benadrukt de noodzaak om de agentische vaardigheden van multimodale modellen met een lange context te verbeteren en biedt een testomgeving voor toekomstige ontwikkeling met video-agenten met een lange context.
Neurale Velden zijn naar voren gekomen als een transformerende benadering voor 3D-scene representatie in computer vision en robotica, waardoor nauwkeurige inferentie van geometrie, 3D-semantiek en dynamiek mogelijk is vanuit geposeerde 2D-gegevens. Door differentieerbare rendering te benutten, omvatten Neurale Velden zowel continue impliciete als expliciete neurale representaties die een hoogwaardige 3D-reconstructie mogelijk maken, integratie van multimodale sensorgegevens en generatie van nieuwe gezichtspunten. Deze survey verkent hun toepassingen in robotica, waarbij de nadruk ligt op hun potentieel om perceptie, planning en controle te verbeteren. Hun compactheid, geheugenefficiëntie en differentieerbaarheid, samen met naadloze integratie met fundamentele en generatieve modellen, maken ze ideaal voor real-time toepassingen, waardoor de aanpasbaarheid en besluitvorming van robots verbeteren. Dit artikel biedt een grondige bespreking van Neurale Velden in robotica, waarbij toepassingen over verschillende domeinen worden gecategoriseerd en hun sterke punten en beperkingen worden geëvalueerd, gebaseerd op meer dan 200 papers. Eerst presenteren we vier belangrijke Neurale Velden frameworks: Occupancy Networks, Signed Distance Fields, Neurale Radiance Fields en Gaussian Splatting. Vervolgens gaan we in op de toepassingen van Neurale Velden in vijf belangrijke robotica domeinen: pose schatting, manipulatie, navigatie, fysica en autonoom rijden, waarbij belangrijke werken worden belicht en discussies worden gevoerd over leerpunten en open uitdagingen. Tot slot schetsen we de huidige beperkingen van Neurale Velden in robotica en stellen we veelbelovende richtingen voor toekomstig onderzoek voor. Projectpagina: https://robonerf.github.io
Het efficiënt afleiden van gestructureerde workflows uit ongeannoteerde dialogen blijft een onderbelicht en formidabel uitdaging in de computationele taalkunde. Het automatiseren van dit proces kan aanzienlijk bijdragen aan het versnellen van het handmatig ontwerpen van workflows in nieuwe domeinen en het mogelijk maken van de verankering van grote taalmodellen in domeinspecifieke stroomdiagrammen, wat de transparantie en controleerbaarheid verbetert. In dit artikel introduceren we Dialog2Flow (D2F) embeddings, die verschillen van conventionele zin-embeddings door uitingen te mappen naar een latente ruimte waar ze worden gegroepeerd op basis van hun communicatieve en informatieve functies (d.w.z. de acties die ze vertegenwoordigen). D2F maakt het modelleren van dialogen mogelijk als continue trajecten in een latente ruimte met onderscheidende actiegerelateerde regio's. Door D2F-embeddings te clusteren, wordt de latente ruimte gekwantificeerd en kunnen dialogen worden omgezet in sequenties van regio-/actie-ID's, wat de extractie van de onderliggende workflow vergemakkelijkt. Om D2F vooraf te trainen, bouwen we een uitgebreide dataset door twintig taakgerichte dialogdatasets te verenigen met genormaliseerde actie-annotaties per beurt. We introduceren ook een nieuwe zachte contrastieve verliesfunctie die de semantische informatie van deze acties benut om het leerproces van de representatie te begeleiden, waarbij een superieure prestatie wordt aangetoond in vergelijking met de standaard begeleide contrastieve verliesfunctie. Evaluatie tegen verschillende zin-embeddings, inclusief dialog-specifieke, toont aan dat D2F superieure kwalitatieve en kwantitatieve resultaten oplevert over diverse domeinen.
Dit onderzoek test de rol van Grote Taalmodellen (LLM's) als formele tweede opinietools in professionele besluitvorming, met name gericht op complexe medische gevallen waar zelfs ervaren artsen om advies van collega's vragen. Het werk analyseerde 183 uitdagende medische gevallen van Medscape over een periode van 20 maanden, waarbij de prestaties van meerdere LLM's werden getest tegenover reacties van artsen die via crowdsourcing werden verkregen. Een belangrijke bevinding was de hoge algehele score die mogelijk is in de nieuwste fundamentele modellen (>80% nauwkeurigheid in vergelijking met de consensusopinie), wat de meeste menselijke metrieken over dezelfde klinische gevallen overtreft (450 pagina's met patiëntprofielen, testresultaten). De studie beoordeelt het prestatieverschil van LLM's tussen eenvoudige gevallen (>81% nauwkeurigheid) en complexe scenario's (43% nauwkeurigheid), met name in die gevallen die aanzienlijk debat onder menselijke artsen genereren. Het onderzoek toont aan dat LLM's waardevol kunnen zijn als generatoren van uitgebreide differentiële diagnoses in plaats van als primaire diagnostische hulpmiddelen, wat mogelijk kan helpen om cognitieve vooroordelen in klinische besluitvorming tegen te gaan, cognitieve belasting te verminderen en zo enkele bronnen van medische fouten weg te nemen. De toevoeging van een tweede vergelijkbare juridische dataset (Hoge Raad zaken, N=21) biedt extra empirische context voor het gebruik van AI om tweede meningen te bevorderen, hoewel deze juridische uitdagingen aanzienlijk makkelijker bleken te zijn voor LLM's om te analyseren. Naast de oorspronkelijke bijdragen van empirisch bewijs voor de nauwkeurigheid van LLM's, heeft het onderzoek een nieuwe benchmark samengesteld waar anderen de betrouwbaarheid van sterk betwiste vraag- en antwoordrelaties tussen zowel LLM's als onenige menselijke beoefenaars kunnen beoordelen. Deze resultaten suggereren dat de optimale inzet van LLM's in professionele omgevingen aanzienlijk kan verschillen van de huidige benaderingen die de automatisering van routinetaken benadrukken.
Gezien de hoge kosten van het verzamelen van robotgegevens in de echte wereld, is sample-efficiëntie een voortdurend overtuigende zoektocht in de robotica. In dit artikel introduceren we SGRv2, een imitatieleringskader dat de sample-efficiëntie verbetert door verbeterde visuele en actierepresentaties. Centraal in het ontwerp van SGRv2 staat de incorporatie van een cruciale inductieve bias - actielokaliteit, die stelt dat de acties van de robot voornamelijk worden beïnvloed door het doelobject en de interacties ervan met de lokale omgeving. Uitgebreide experimenten in zowel gesimuleerde als echte omgevingen tonen aan dat actielokaliteit essentieel is voor het verhogen van de sample-efficiëntie. SGRv2 blinkt uit in RLBench-taken met keyframe-besturing met slechts 5 demonstraties en overtreft de RVT-baseline in 23 van de 26 taken. Bovendien, bij evaluatie op ManiSkill2 en MimicGen met dichte besturing, is het succespercentage van SGRv2 2,54 keer dat van SGR. In echte omgevingen kan SGRv2 met slechts acht demonstraties een verscheidenheid aan taken uitvoeren met een aanzienlijk hoger succespercentage in vergelijking met basismodellen. Projectwebsite: http://sgrv2-robot.github.io
Imitatieleren van menselijke bewegingsregistratie (MoCap) data biedt een veelbelovende manier om humanoïde robots te trainen. Echter, vanwege verschillen in morfologie, zoals variërende gradaties van gewrichtsvrijheid en krachtlimieten, is exacte replicatie van menselijk gedrag mogelijk niet haalbaar voor humanoïde robots. Bijgevolg kan het opnemen van fysiek onhaalbare MoCap data in trainingsdatasets nadelige gevolgen hebben voor de prestaties van het robotbeleid. Om dit probleem aan te pakken, stellen we een imitatieleren raamwerk voor op basis van bi-level optimalisatie dat afwisselt tussen het optimaliseren van zowel het robotbeleid als de doel-MoCap data. Specifiek ontwikkelen we eerst een generatief latent dynamisch model met behulp van een nieuw zelfconsistent auto-encoder, dat spaarzame en gestructureerde bewegingsrepresentaties leert terwijl het gewenste bewegingspatronen in de dataset vastlegt. Het dynamische model wordt vervolgens gebruikt om referentiebewegingen te genereren terwijl de latente representatie het bi-level bewegingsimitatieproces reguleert. Simulaties uitgevoerd met een realistisch model van een humanoïde robot tonen aan dat onze methode het robotbeleid verbetert door referentiebewegingen aan te passen om fysiek consistent te zijn.