Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Reinforcement learning met verifieerbare beloningen (RLVR) heeft potentie getoond in het verbeteren van de redeneervaardigheden van grote taalmodellen door direct te leren uit op uitkomsten gebaseerde beloningen. Recente RLVR-werkzaamheden die opereren onder de zero-setting vermijden toezicht bij het labelen van het redeneerproces, maar zijn nog steeds afhankelijk van handmatig samengestelde verzamelingen van vragen en antwoorden voor training. De schaarste aan hoogwaardige, door mensen geproduceerde voorbeelden roept zorgen op over de langetermijnschaalbaarheid van het vertrouwen op menselijk toezicht, een uitdaging die al duidelijk is in het domein van taalmodelpretraining. Bovendien, in een hypothetische toekomst waarin AI de menselijke intelligentie overstijgt, kunnen taken die door mensen worden aangeboden beperkt leerpotentieel bieden voor een superintelligent systeem. Om deze zorgen aan te pakken, stellen we een nieuw RLVR-paradigma voor genaamd Absolute Zero, waarin een enkel model leert om taken voor te stellen die zijn eigen leerproces maximaliseren en zijn redeneervaardigheden verbetert door deze op te lossen, zonder afhankelijk te zijn van externe data. Onder dit paradigma introduceren we de Absolute Zero Reasoner (AZR), een systeem dat zijn trainingscurriculum en redeneervaardigheden zelf ontwikkelt door gebruik te maken van een code-uitvoerder om zowel voorgestelde code-redeneertaken te valideren als antwoorden te verifiëren, en zo fungeert als een uniforme bron van verifieerbare beloning om open-ended maar gegrond leren te begeleiden. Ondanks dat het volledig zonder externe data is getraind, behaalt AZR over de hele linie state-of-the-art prestaties op coderings- en wiskundige redeneertaken, en overtreft het bestaande zero-setting modellen die afhankelijk zijn van tienduizenden domeinspecifieke, door mensen samengestelde voorbeelden. Verder tonen we aan dat AZR effectief kan worden toegepast op verschillende modelschalen en compatibel is met diverse modelklassen.
Recente vooruitgang in multimodale Beloningsmodellen (RMs) heeft aanzienlijke belofte getoond in het leveren van beloningssignalen om visuele modellen af te stemmen op menselijke voorkeuren. Huidige RMs zijn echter over het algemeen beperkt tot het geven van directe reacties of het betrokken zijn bij oppervlakkige redeneerprocessen met beperkte diepte, wat vaak leidt tot onnauwkeurige beloningssignalen. Wij stellen dat het incorporeren van expliciete lange ketens van gedachten (CoT) in het beloningsredeneerproces de betrouwbaarheid en robuustheid ervan aanzienlijk kan versterken. Bovendien geloven wij dat zodra RMs CoT-redenering internaliseren, hun directe reactienauwkeurigheid ook kan worden verbeterd door impliciete redeneercapaciteiten. Hiertoe stelt dit artikel UnifiedReward-Think voor, het eerste verenigde multimodale CoT-gebaseerde beloningsmodel, in staat tot multidimensionale, stapsgewijze lange-ketenredenering voor zowel visuele begrips- als generatiebeloningstaken. Specifiek hanteren wij een exploratiegedreven versterkingsfine-tuningbenadering om het latente complexe redeneervermogen van het model te ontlokken en te stimuleren: (1) We gebruiken eerst een kleine hoeveelheid voorkeursdata voor beeldgeneratie om het redeneerproces van GPT-4o te destilleren, dat vervolgens wordt gebruikt voor de koude start van het model om het formaat en de structuur van CoT-redenering te leren. (2) Vervolgens benutten we de voorkennis en generalisatiecapaciteiten van het model om grootschalige verenigde multimodale voorkeursdata voor te bereiden om het redeneerproces van het model over diverse visietaken te ontlokken. Tijdens deze fase worden correcte redeneeruitkomsten behouden voor afwijzingssteekproeven om het model te verfijnen (3) terwijl incorrecte voorspelde steekproeven uiteindelijk worden gebruikt voor op Groepsrelatief Beleidsoptimalisatie (GRPO) gebaseerde versterkingsfine-tuning, waardoor het model diverse redeneerpaden kan verkennen en kan optimaliseren voor correcte en robuuste oplossingen. Uitgebreide experimenten over diverse visiebeloningstaken demonstreren de superioriteit van ons model.
We presenteren Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), een protocol voor het snel omzetten van softmax attention transformers naar lineaire attention decoder-modellen, samen met twee nieuwe RWKV-variantarchitecturen en modellen die zijn geconverteerd van populaire Qwen2.5 open source-modellen in 7B, 32B en 72B formaten. Ons conversieproces vereist slechts 350-700M tokens, minder dan 0,005% van het aantal tokens dat is gebruikt om de originele leraarmodellen te trainen. Het omzetten naar ons 72B lineaire attention-model kost minder dan \$2.000 USD tegen de huidige prijzen, terwijl de kwaliteit tijdens inferentie dicht bij die van de originele transformer blijft. Deze modellen behalen state-of-the-art prestaties op een reeks standaardbenchmarks voor lineaire attention-modellen van hun grootte. We maken al onze modellen beschikbaar op HuggingFace onder de Apache 2.0-licentie, met uitzondering van onze 72B-modellen die ook vallen onder de Qwen License Agreement. Modellen op https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Trainingscode op https://github.com/recursal/RADLADS-paper
Actie-aanpassing omvat het genereren van video's waarin het onderwerp acties uitvoert die worden bepaald door invoerbesturingssignalen. Huidige methoden gebruiken pose-gestuurde of globale beweging-aanpassing, maar worden beperkt door strikte beperkingen op ruimtelijke structuur, zoals lay-out, skelet en consistentie van gezichtspunt, wat de aanpassingsmogelijkheden over diverse onderwerpen en scenario's vermindert. Om deze beperkingen te overwinnen, stellen we FlexiAct voor, dat acties van een referentievideo overbrengt naar een willekeurig doelbeeld. In tegenstelling tot bestaande methoden, staat FlexiAct variaties toe in lay-out, gezichtspunt en skeletstructuur tussen het onderwerp van de referentievideo en het doelbeeld, terwijl identiteitsconsistentie behouden blijft. Het bereiken hiervan vereist precieze actiebesturing, aanpassing van ruimtelijke structuur en behoud van consistentie. Hiertoe introduceren we RefAdapter, een lichtgewicht beeld-gestuurde adapter die uitblinkt in ruimtelijke aanpassing en consistentiebehoud, en bestaande methoden overtreft in het balanceren van uiterlijkconsistentie en structurele flexibiliteit. Daarnaast, gebaseerd op onze observaties, toont het denoisingsproces verschillende niveaus van aandacht voor beweging (lage frequentie) en uiterlijkdetails (hoge frequentie) op verschillende tijdstappen. Daarom stellen we FAE (Frequentie-bewuste Actie-extractie) voor, dat, in tegenstelling tot bestaande methoden die afhankelijk zijn van gescheiden ruimtelijk-temporele architecturen, direct actie-extractie bereikt tijdens het denoisingsproces. Experimenten tonen aan dat onze methode effectief acties overbrengt naar onderwerpen met diverse lay-outs, skeletten en gezichtspunten. We geven onze code en modelgewichten vrij om verder onderzoek te ondersteunen op https://shiyi-zh0408.github.io/projectpages/FlexiAct/.
De toenemende contextlengtes van grote taalmodellen (LLMs) vormen aanzienlijke uitdagingen voor efficiënte inferentie, voornamelijk door beperkingen in GPU-geheugen en bandbreedte. Wij presenteren RetroInfer, een nieuw systeem dat de key-value (KV) cache herconceptualiseert als een vectoropslagsysteem dat gebruikmaakt van de inherente aandachtssparsheid om inferentie van LLMs met lange context te versnellen. De kern hiervan is de wave index, een Attention-aWare VEctor index die efficiënte en nauwkeurige retrievel van kritieke tokens mogelijk maakt door technieken zoals tripartite aandacht benadering, nauwkeurigheidsgebonden aandachtsschatting en gesegmenteerde clustering. Dit wordt aangevuld met de wave buffer, die de plaatsing van de KV cache coördineert en berekening en gegevensoverdracht tussen GPU en CPU overlapt om een hoge doorvoer te behouden. In tegenstelling tot eerdere op sparsheid gebaseerde methoden die moeite hebben met tokenselectie en hardwarecoördinatie, levert RetroInfer robuuste prestaties zonder de modelnauwkeurigheid in te leveren. Experimenten op benchmarks met lange context tonen een versnelling tot 4,5x ten opzichte van volledige aandacht binnen de GPU-geheugenlimieten en tot 10,5x ten opzichte van sparse aandacht baselines wanneer de KV cache wordt uitgebreid naar CPU-geheugen, allemaal terwijl de nauwkeurigheid op het niveau van volledige aandacht behouden blijft.
De Qwen-serie is naar voren gekomen als een toonaangevende familie van open-source Large Language Models (LLMs), die opmerkelijke prestaties laten zien in taken voor natuurlijke taalverwerking. Met de recente release van Qwen3, dat superieure prestaties vertoont op diverse benchmarks, groeit de interesse om deze modellen efficiënt in te zetten in omgevingen met beperkte middelen. Low-bit kwantisatie biedt een veelbelovende oplossing, maar de impact ervan op de prestaties van Qwen3 is nog onvoldoende onderzocht. Deze studie voert een systematische evaluatie uit van de robuustheid van Qwen3 onder verschillende kwantisatie-instellingen, met als doel zowel kansen als uitdagingen bij het comprimeren van dit state-of-the-art model bloot te leggen. We beoordelen grondig 5 bestaande klassieke post-training kwantisatietechnieken die op Qwen3 worden toegepast, waarbij bit-breedtes variëren van 1 tot 8 bits, en evalueren hun effectiviteit op meerdere datasets. Onze bevindingen tonen aan dat Qwen3 competitieve prestaties behoudt bij matige bit-breedtes, maar aanzienlijke achteruitgang ervaart in linguïstische taken bij ultra-lage precisie, wat de aanhoudende uitdagingen in LLM-compressie onderstreept. Deze resultaten benadrukken de noodzaak van verder onderzoek om prestatieverlies in extreme kwantisatiescenario's te beperken. We verwachten dat deze empirische analyse bruikbare inzichten zal bieden voor de ontwikkeling van kwantisatiemethoden die zijn afgestemd op Qwen3 en toekomstige LLMs, waardoor hun praktische toepasbaarheid wordt verbeterd zonder in te leveren op nauwkeurigheid. Ons project is vrijgegeven op https://github.com/Efficient-ML/Qwen3-Quantization en https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.
Recente ontwikkelingen in AI-gestuurd voetbalbegrip hebben een snelle vooruitgang laten zien, maar bestaand onderzoek richt zich voornamelijk op geïsoleerde of beperkte taken. Om deze kloof te overbruggen, stellen we een uitgebreid raamwerk voor voor holistisch voetbalbegrip. Specifiek doen we in dit artikel de volgende bijdragen: (i) we construeren SoccerWiki, de eerste grootschalige multimodale voetbalkennisbank, die rijke domeinkennis over spelers, teams, scheidsrechters en locaties integreert om kennisgestuurd redeneren mogelijk te maken; (ii) we presenteren SoccerBench, de grootste en meest uitgebreide voetbalspecifieke benchmark, met ongeveer 10K gestandaardiseerde multimodale (tekst, beeld, video) meerkeuzevraag-antwoordparen over 13 verschillende begriptaken, samengesteld via geautomatiseerde pipelines en handmatige verificatie; (iii) we introduceren SoccerAgent, een nieuw multi-agent systeem dat complexe voetbalvragen ontleedt via collaboratief redeneren, gebruikmakend van domeinexpertise uit SoccerWiki en robuuste prestaties behaalt; (iv) uitgebreide evaluaties en ablatiestudies die state-of-the-art MLLMs benchmarken op SoccerBench, waarbij de superioriteit van ons voorgestelde agentische systeem wordt benadrukt. Alle data en code zijn publiekelijk beschikbaar op: https://jyrao.github.io/SoccerAgent/.
Bij het lezen hebben we vaak specifieke informatie in een tekst die ons interesseert. Bijvoorbeeld, je leest dit artikel misschien omdat je nieuwsgierig bent naar LLM's voor oogbewegingen tijdens het lezen, het experimentele ontwerp, of misschien gaat het je alleen om de vraag "maar werkt het ook?". Meer in het algemeen benaderen mensen in het dagelijks leven teksten met allerlei tekstspecifieke doelen die hun leesgedrag sturen. In dit werk stellen we, voor het eerst, de vraag of open-ended leesdoelen automatisch kunnen worden gedecodeerd uit oogbewegingen tijdens het lezen. Om deze vraag te beantwoorden, introduceren we doelclassificatie- en doelreconstructietaken en evaluatiekaders, en gebruiken we grootschalige eye-trackingdata voor het lezen van Engelse teksten met honderden tekstspecifieke informatiezoektaken. We ontwikkelen en vergelijken verschillende discriminatieve en generatieve multimodale LLM's die oogbewegingen en tekst combineren voor doelclassificatie en doelreconstructie. Onze experimenten tonen aanzienlijk succes aan bij beide taken, wat suggereert dat LLM's waardevolle informatie over de tekstspecifieke doelen van lezers kunnen extraheren uit oogbewegingen.
De snelle vooruitgang van diffusiemodellen belooft een revolutie teweeg te brengen in de toepassing van VR- en AR-technologieën, die doorgaans scene-level 4D-assets vereisen voor de gebruikerservaring. Desalniettemin richten bestaande diffusiemodellen zich voornamelijk op het modelleren van statische 3D-scènes of object-level dynamiek, wat hun vermogen beperkt om echt meeslepende ervaringen te bieden. Om dit probleem aan te pakken, stellen we HoloTime voor, een framework dat videodiffusiemodellen integreert om panoramische video's te genereren vanuit een enkele prompt of referentiebeeld, samen met een 360-graden 4D-scène reconstructiemethode die de gegenereerde panoramische video naadloos omzet in 4D-assets, waardoor een volledig meeslepende 4D-ervaring voor gebruikers mogelijk wordt. Specifiek introduceren we, om videodiffusiemodellen te temmen voor het genereren van hoogwaardige panoramische video's, de 360World-dataset, de eerste uitgebreide verzameling van panoramische video's die geschikt zijn voor downstream 4D-scène reconstructietaken. Met deze gecureerde dataset stellen we Panoramic Animator voor, een tweestaps image-to-video diffusiemodel dat panoramische afbeeldingen kan omzetten in hoogwaardige panoramische video's. Vervolgens presenteren we Panoramic Space-Time Reconstruction, dat gebruikmaakt van een ruimte-tijd diepte-estimatiemethode om de gegenereerde panoramische video's om te zetten in 4D-puntenwolken, waardoor de optimalisatie van een holistische 4D Gaussian Splatting-representatie mogelijk wordt om ruimtelijk en temporeel consistente 4D-scènes te reconstrueren. Om de effectiviteit van onze methode te valideren, hebben we een vergelijkende analyse uitgevoerd met bestaande benaderingen, wat de superioriteit aantoont in zowel panoramische videogeneratie als 4D-scène reconstructie. Dit toont het vermogen van onze methode aan om boeiendere en realistischer meeslepende omgevingen te creëren, waardoor de gebruikerservaring in VR- en AR-toepassingen wordt verbeterd.
Ondanks recente vooruitgang in Taalmodellen (LMs) voor software engineering, blijft het verzamelen van trainingsgegevens een belangrijk pijnpunt. Bestaande datasets zijn klein, met hooguit enkele duizenden trainingsinstanties afkomstig van 11 of minder GitHub-repositories. De procedures om dergelijke datasets samen te stellen zijn vaak complex en vereisen honderden uren menselijke arbeid; bijbehorende uitvoeringsomgevingen nemen ook meerdere terabytes aan opslagruimte in beslag, wat hun schaalbaarheid en bruikbaarheid ernstig beperkt. Om dit pijnpunt aan te pakken, introduceren we SWE-smith, een nieuwe pijplijn voor het genereren van software engineering-trainingsgegevens op grote schaal. Gegeven een willekeurige Python-codebase, construeert SWE-smith een bijbehorende uitvoeringsomgeving en synthetiseert vervolgens automatisch honderden tot duizenden taakinstanties die bestaande test(s) in de codebase breken. Met behulp van SWE-smith hebben we een dataset gecreëerd van 50k instanties afkomstig van 128 GitHub-repositories, een orde van grootte groter dan alle eerdere werken. We trainen SWE-agent-LM-32B, dat een 40,2% Pass@1-resolutiepercentage behaalt op de SWE-bench Verified benchmark, wat state of the art is onder open source-modellen. We maken SWE-smith open source (verzamelprocedure, taakinstanties, trajecten, modellen) om de drempel voor onderzoek naar LM-systemen voor geautomatiseerde software engineering te verlagen. Alle assets zijn beschikbaar op https://swesmith.com.
Grote Taalmodellen (LLMs) hebben ongekende capaciteiten getoond op verschillende gebieden van natuurlijke taalverwerking. Hun vermogen om bruikbare tekst en code te verwerken en te genereren, heeft ze alomtegenwoordig gemaakt in veel vakgebieden, terwijl hun inzet als kennisbanken en "redeneer"tools een gebied van voortdurend onderzoek blijft. In de geografie richt een groeiend aantal publicaties zich op het evalueren van de geografische kennis van LLMs en hun vermogen om ruimtelijk te redeneren. Er is echter nog steeds weinig bekend over de interne werking van deze modellen, met name over hoe ze geografische informatie verwerken. In dit hoofdstuk stellen we een nieuw kader vast voor de studie van geospatiale mechanistische interpreteerbaarheid – het gebruik van ruimtelijke analyse om te achterhalen hoe LLMs geografische informatie verwerken. Ons doel is om ons begrip te vergroten van de interne representaties die deze complexe modellen genereren tijdens het verwerken van geografische informatie – wat men zou kunnen omschrijven als "hoe LLMs denken over geografische informatie", als zo’n formulering geen ongepaste antropomorfisering zou zijn. We schetsen eerst het gebruik van probing om interne structuren binnen LLMs te onthullen. Vervolgens introduceren we het veld van mechanistische interpreteerbaarheid, waarbij we de superpositiehypothese bespreken en de rol van sparse auto-encoders bij het ontwarren van polysemantische interne representaties van LLMs in meer interpreteerbare, monosemantische kenmerken. In onze experimenten gebruiken we ruimtelijke autocorrelatie om te laten zien hoe kenmerken die voor plaatsnamen zijn verkregen, ruimtelijke patronen vertonen die verband houden met hun geografische locatie en dus geospatiaal geïnterpreteerd kunnen worden. Dit biedt inzichten in hoe deze modellen geografische informatie verwerken. We sluiten af met een bespreking van hoe ons kader kan bijdragen aan de studie en het gebruik van foundation-modellen in de geografie.
Met de groeiende behoefte aan natuurlijke mens-computerinteractie krijgen spraakgebaseerde systemen steeds meer aandacht, aangezien spraak een van de meest voorkomende vormen van dagelijkse communicatie is. De bestaande spraakmodellen ervaren echter nog steeds een hoge latentie bij het genereren van het eerste audiotoken tijdens streaming, wat een aanzienlijk knelpunt vormt voor implementatie. Om dit probleem aan te pakken, stellen we VITA-Audio voor, een end-to-end groot spraakmodel met snelle audio-tekst-tokengeneratie. Specifiek introduceren we een lichtgewicht Multiple Cross-modal Token Prediction (MCTP)-module die efficiënt meerdere audiotokens genereert binnen een enkele model-forward pass, wat niet alleen de inferentie versnelt, maar ook de latentie voor het genereren van het eerste audio in streamingscenario's aanzienlijk vermindert. Daarnaast wordt een vierfasige progressieve trainingsstrategie onderzocht om modelversnelling te bereiken met minimaal verlies van spraakkwaliteit. Voor zover wij weten, is VITA-Audio het eerste multimodale grote taalmodel dat in staat is om audio-uitvoer te genereren tijdens de eerste forward pass, waardoor real-time conversatiemogelijkheden met minimale latentie mogelijk worden. VITA-Audio is volledig reproduceerbaar en wordt alleen getraind op open-source data. Experimentele resultaten tonen aan dat ons model een inferentieversnelling van 3~5x bereikt op de 7B parameterschaal, maar ook significant beter presteert dan open-source modellen van vergelijkbare modelgrootte op meerdere benchmarks voor automatische spraakherkenning (ASR), tekst-naar-spraak (TTS) en gesproken vraag-antwoordtaken (SQA).
Fouttoewijzing in LLM multi-agent systemen - het identificeren van de agent en stap die verantwoordelijk zijn voor taakfouten - biedt cruciale aanwijzingen voor het debuggen van systemen, maar blijft onderbelicht en arbeidsintensief. In dit artikel stellen en formuleren we een nieuw onderzoeksgebied voor: geautomatiseerde fouttoewijzing voor LLM multi-agent systemen. Om dit initiatief te ondersteunen, introduceren we de Who&When-dataset, die uitgebreide foutlogs bevat van 127 LLM multi-agent systemen met gedetailleerde annotaties die fouten koppelen aan specifieke agents en beslissende foutstappen. Met behulp van Who&When ontwikkelen en evalueren we drie geautomatiseerde methoden voor fouttoewijzing, waarbij we de bijbehorende voor- en nadelen samenvatten. De beste methode behaalt een nauwkeurigheid van 53,5% in het identificeren van verantwoordelijke agents, maar slechts 14,2% in het aanwijzen van foutstappen, waarbij sommige methoden onder de kansscore presteren. Zelfs state-of-the-art redeneermodellen, zoals OpenAI o1 en DeepSeek R1, slagen er niet in praktische bruikbaarheid te bereiken. Deze resultaten benadrukken de complexiteit van de taak en de noodzaak van verder onderzoek op dit gebied. Code en dataset zijn beschikbaar op https://github.com/mingyin1/Agents_Failure_Attribution.
Het synthetiseren van interactieve 3D-scènes uit tekst is essentieel voor gaming, virtual reality en embodied AI. Bestaande methoden kampen echter met verschillende uitdagingen. Leergebaseerde benaderingen zijn afhankelijk van kleinschalige indoor datasets, wat de diversiteit van scènes en de complexiteit van lay-outs beperkt. Hoewel grote taalmodellen (LLM's) gebruik kunnen maken van diverse kennis uit het tekstdomein, hebben ze moeite met ruimtelijke realisme en produceren ze vaak onnatuurlijke objectplaatsingen die niet voldoen aan gezond verstand. Onze belangrijkste inzicht is dat visuele waarneming deze kloof kan overbruggen door realistische ruimtelijke begeleiding te bieden die LLM's missen. Daarom introduceren we Scenethesis, een trainingsvrij agentisch framework dat LLM-gebaseerde scèneplanning integreert met visueel geleide lay-outverfijning. Gegeven een tekstprompt gebruikt Scenethesis eerst een LLM om een ruwe lay-out op te stellen. Een visuele module verfijnt deze vervolgens door een beeldbegeleiding te genereren en scènestructuur te extraheren om inter-objectrelaties vast te leggen. Vervolgens handhaaft een optimalisatiemodule iteratief nauwkeurige pose-alignering en fysieke plausibiliteit, waardoor artefacten zoals objectpenetratie en instabiliteit worden voorkomen. Ten slotte verifieert een beoordelingsmodule de ruimtelijke samenhang. Uitgebreide experimenten tonen aan dat Scenethesis diverse, realistische en fysisch plausibele 3D-interactieve scènes genereert, wat het waardevol maakt voor virtuele contentcreatie, simulatieomgevingen en embodied AI-onderzoek.
Traditionele datapresentaties scheiden doorgaans de presentator en de visualisatie in twee afzonderlijke ruimtes—de 3D-wereld en een 2D-scherm—wat visueel-centrische verhalen afdwingt. Om een meer mensgerichte kijkervaring te creëren, leggen wij met onze InfoVids een gelijkwaardigere relatie tussen de visualisatie en de presentator. Deze informatieve video's, geïnspireerd door infographics, zijn ontworpen om de relaties tussen de presentator en visualisaties opnieuw te definiëren. Bij het ontwerpen van InfoVids onderzoeken we hoe het gebruik van lay-out, vorm en interacties de kijkervaring beïnvloedt. We vergelijken InfoVids met hun traditionele 2D 'dia'-equivalenten op basis van 9 criteria met 30 deelnemers en bieden praktische, langetermijninzichten vanuit een autobiografisch perspectief. Onze mixed-methodenanalyses tonen aan dat dit paradigma de verdeelde aandacht van kijkers verminderde, de focus van de visualisatie naar de presentator verlegde, en leidde tot meer interactieve, natuurlijke en boeiende full-body datapresentaties voor kijkers. Uiteindelijk hielpen InfoVids kijkers om traditionele dynamieken tussen de presentator en visualisaties opnieuw te verbeelden.
Taalmodelontwikkelaars filteren doorgaans hoogrisico-inhoud -- zoals giftige of auteursrechtelijk beschermde tekst -- uit hun voor-trainingsdata om te voorkomen dat modellen vergelijkbare uitvoer genereren. Het volledig verwijderen van dergelijke data beperkt echter het vermogen van modellen om schadelijke of gevoelige inhoud te herkennen en er gepast op te reageren. In dit artikel introduceren we Selective Loss to Understand but Not Generate (SLUNG), een voor-trainingsparadigma waarbij modellen leren om hoogrisicodata te begrijpen zonder deze te leren genereren. In plaats van het next-token prediction loss uniform toe te passen, vermijdt SLUNG selectief het stimuleren van de generatie van hoogrisico-tokens, terwijl ervoor wordt gezorgd dat deze binnen het contextvenster van het model blijven. Terwijl het model leert om laagrisico-tokens te voorspellen die op hoogrisico-tokens volgen, wordt het gedwongen om de hoogrisico-inhoud te begrijpen. Onze experimenten tonen aan dat SLUNG consistent het begrip van modellen van hoogrisicodata verbetert (bijvoorbeeld het vermogen om giftige inhoud te herkennen) zonder de generatie ervan te verhogen (bijvoorbeeld de toxiciteit van modelreacties). Over het geheel genomen stelt ons SLUNG-paradigma modellen in staat om te profiteren van hoogrisicotekst die anders zou worden gefilterd.
Het collaboratieve paradigma van grote en kleine taalmodellen (LMs) balanceert effectief prestaties en kosten, maar de cruciale uitdaging ligt in het nauwkeurig bepalen van het moment van aanroeping wanneer hallucinaties optreden in kleine LMs. Eerdere optimalisatie-inspanningen richtten zich voornamelijk op nabewerkingstechnieken, die los stonden van het redeneerproces van LMs, wat resulteerde in hoge rekenkosten en beperkte effectiviteit. In dit artikel stellen we een praktische aanroepingsevaluatiemetriek voor, genaamd AttenHScore, die de accumulatie en verspreiding van hallucinaties tijdens het generatieproces van kleine LMs berekent, waarbij potentiële redeneerfouten continu worden versterkt. Door de detectiedrempel dynamisch aan te passen, bereiken we een nauwkeurigere realtime aanroeping van grote LMs. Daarnaast, rekening houdend met de beperkte redeneercapaciteit van kleine LMs, maken we gebruik van onzekerheidsbewuste kennisherorganisatie om hen te helpen cruciale informatie uit verschillende tekstsegmenten beter te vatten. Uitgebreide experimenten tonen aan dat onze AttenHScore de meeste baseline-methoden overtreft in het verbeteren van realtime hallucinatiedetectiecapaciteiten over meerdere QA-datasets, vooral bij het behandelen van complexe queries. Bovendien vereisen onze strategieën geen aanvullende modeltraining en tonen ze flexibiliteit in het aanpassen aan verschillende transformer-gebaseerde LMs.
De afgelopen jaren hebben multi-agent frameworks aangedreven door grote taalmodellen (LLMs) een snelle vooruitgang geboekt. Ondanks deze vooruitgang is er nog steeds een opvallend gebrek aan benchmarkdatasets die specifiek zijn ontworpen om hun prestaties te evalueren. Om deze kloof te overbruggen, introduceren wij Auto-SLURP, een benchmarkdataset gericht op het evalueren van LLM-gebaseerde multi-agent frameworks in de context van intelligente persoonlijke assistenten. Auto-SLURP breidt de originele SLURP-dataset uit -- aanvankelijk ontwikkeld voor taken op het gebied van natuurlijke taalverwerking -- door de data opnieuw te labelen en gesimuleerde servers en externe services te integreren. Deze verbetering maakt een uitgebreide end-to-end evaluatiepijplijn mogelijk, die taalbegrip, taakuitvoering en responsgeneratie omvat. Onze experimenten tonen aan dat Auto-SLURP een aanzienlijke uitdaging vormt voor de huidige state-of-the-art frameworks, wat benadrukt dat echt betrouwbare en intelligente multi-agent persoonlijke assistenten nog in ontwikkeling zijn. De dataset en gerelateerde code zijn beschikbaar op https://github.com/lorashen/Auto-SLURP/.
Dit onderzoek presenteert een nieuwe benchmark voor het evalueren van Large Language Models (LLM's) aan de hand van uitdagingen afkomstig uit de Financial Modeling World Cup (FMWC) Excel-competities. We introduceren een methodologie voor het omzetten van 113 bestaande FMWC-uitdagingen naar programmatisch evalueerbare JSON-formaten en gebruiken deze dataset om de prestaties van verschillende toonaangevende LLM's te vergelijken. Onze bevindingen laten significante variaties in prestaties zien tussen verschillende uitdagingcategorieën, waarbij modellen specifieke sterktes vertonen in patroonherkenningstaken, maar moeite hebben met complexe numerieke redenering. De benchmark biedt een gestandaardiseerd kader voor het beoordelen van LLM-capaciteiten in realistische, op het bedrijfsleven gerichte taken in plaats van abstracte academische problemen. Dit onderzoek draagt bij aan het groeiende veld van AI-benchmarking door het vaststellen van vaardigheid onder de 1,5 miljard mensen die dagelijks Microsoft Excel gebruiken als een betekenisvolle evaluatiemetriek die de kloof overbrugt tussen academische AI-benchmarks en praktische zakelijke toepassingen.