Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in diffusiemodellen heeft de mogelijkheden voor videogeneratie en -bewerking aanzienlijk verbeterd. Toch blijft multi-granulaire videobewerking, die klasse-, instantie- en onderdeelniveau-modificaties omvat, een aanzienlijke uitdaging. De belangrijkste moeilijkheden bij multi-granulaire bewerking omvatten semantische uitlijning van tekst-naar-regio-controle en kenmerkkoppeling binnen het diffusiemodel. Om deze problemen aan te pakken, presenteren we VideoGrain, een zero-shot benadering die ruimte-tijd (cross- en self-) aandachtmechanismen moduleert om fijnmazige controle over videocontent te bereiken. We verbeteren tekst-naar-regio-controle door de aandacht van elke lokale prompt voor zijn corresponderende ruimtelijk-ontwarde regio te versterken, terwijl interacties met irrelevante gebieden in cross-attention worden geminimaliseerd. Daarnaast verbeteren we kenmerkscheiding door het intra-regiobewustzijn te vergroten en inter-regio-interferentie in self-attention te verminderen. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art prestaties bereikt in realistische scenario's. Onze code, data en demo's zijn beschikbaar op https://knightyxp.github.io/VideoGrain_project_page/.
Lange context is een belangrijk onderwerp in Natural Language Processing (NLP), dat door de ontwikkeling van NLP-architecturen loopt en enorme mogelijkheden biedt voor Large Language Models (LLMs), waardoor LLMs een levenslang leervermogen kunnen ontwikkelen dat vergelijkbaar is met dat van mensen. Helaas gaat het streven naar een lange context gepaard met talrijke obstakels. Desalniettemin blijft lange context een kerncompetentie voor LLMs. In de afgelopen twee jaar heeft de contextlengte van LLMs een doorbraak bereikt, waarbij deze is uitgebreid tot miljoenen tokens. Bovendien heeft het onderzoek naar lange-context LLMs zich uitgebreid van lengte-extrapolatie naar een alomvattende focus op architectuur, infrastructuur, training en evaluatietechnologieën. Geïnspireerd door het symfonisch gedicht "Also sprach Zarathustra" trekken we een analogie tussen de reis van het uitbreiden van de context van LLM en de pogingen van mensen om hun sterfelijkheid te overstijgen. In dit overzicht zullen we illustreren hoe LLM worstelt tussen de enorme behoefte aan een langere context en de even grote behoefte om het feit te accepteren dat deze uiteindelijk eindig is. Om dit te bereiken, geven we een globaal beeld van de levenscyclus van lange-context LLMs vanuit vier perspectieven: architectuur, infrastructuur, training en evaluatie, waarbij het volledige spectrum van lange-contexttechnologieën wordt getoond. Aan het einde van dit overzicht zullen we 10 onbeantwoorde vragen presenteren waar lange-context LLMs momenteel mee worden geconfronteerd. We hopen dat dit overzicht kan dienen als een systematische introductie tot het onderzoek naar lange-context LLMs.
We introduceren Slam, een methode voor het trainen van hoogwaardige Spraaktaalmodellen (Speech Language Models, SLMs) op een enkele academische GPU binnen 24 uur. Dit doen we door empirische analyse van modelinitialisatie en -architectuur, synthetische trainingsdata, voorkeursoptimalisatie met synthetische data en het finetunen van alle andere componenten. We tonen empirisch aan dat deze trainingsmethode ook goed schaalt met meer rekenkracht, waarbij resultaten worden behaald die vergelijkbaar zijn met toonaangevende SLMs tegen een fractie van de rekenkosten. We hopen dat deze inzichten het trainen en onderzoeken van SLMs toegankelijker zullen maken. In de context van schaalwetten voor SLMs overtreffen onze resultaten de voorspelde rekenkundig optimale prestaties aanzienlijk, wat een optimistisch beeld geeft van de haalbaarheid van SLMs. Zie code, data, modellen en voorbeelden op - https://pages.cs.huji.ac.il/adiyoss-lab/slamming.
Ons primaire doel hier is het creëren van een goed, generalistisch perceptiemodel dat meerdere taken aankan, binnen de grenzen van beschikbare rekenbronnen en trainingsdata. Om dit te bereiken, maken we gebruik van tekst-naar-beeld diffusiemodellen die vooraf zijn getraind op miljarden afbeeldingen. Onze uitgebreide evaluatiemetrics tonen aan dat DICEPTION effectief meerdere perceptietaken aanpakt en prestaties levert die vergelijkbaar zijn met state-of-the-art modellen. We behalen resultaten die vergelijkbaar zijn met SAM-vit-h met slechts 0,06% van hun data (bijv. 600K versus 1B pixelgeannoteerde afbeeldingen). Geïnspireerd door Wang et al. formuleert DICEPTION de uitvoer van verschillende perceptietaken met behulp van kleurcodering; en we laten zien dat de strategie van het toewijzen van willekeurige kleuren aan verschillende instanties zeer effectief is bij zowel entiteitsegmentatie als semantische segmentatie. Het verenigen van verschillende perceptietaken als conditionele beeldgeneratie stelt ons in staat om volledig gebruik te maken van vooraf getrainde tekst-naar-beeld modellen. Hierdoor kan DICEPTEN efficiënt worden getraind tegen een kostprijs die ordes van grootte lager is in vergelijking met conventionele modellen die vanaf nul zijn getraind. Bij het aanpassen van ons model aan andere taken, is alleen fine-tuning nodig op slechts 50 afbeeldingen en 1% van zijn parameters. DICEPTION biedt waardevolle inzichten en een veelbelovende oplossing voor visuele generalistische modellen.
Recente ontwikkelingen in audio-tokenisatie hebben de integratie van audiocapaciteiten in grote taalmodellen (LLM's) aanzienlijk verbeterd. Echter, audio begrip en generatie worden vaak behandeld als afzonderlijke taken, wat de ontwikkeling van echt verenigde audio-taalmodellen belemmert. Hoewel instructie-afstemming opmerkelijk succes heeft aangetoond in het verbeteren van generalisatie en zero-shot leren over tekst en visie, blijft de toepassing ervan op audio grotendeels onontgonnen. Een belangrijke hindernis is het gebrek aan uitgebreide datasets die audio begrip en generatie verenigen. Om dit aan te pakken, introduceren we Audio-FLAN, een grootschalige instructie-afstemmingsdataset die 80 diverse taken bestrijkt binnen spraak, muziek en geluidsgebieden, met meer dan 100 miljoen voorbeelden. Audio-FLAN legt de basis voor verenigde audio-taalmodellen die naadloos zowel begrip (bijv. transcriptie, begrip) als generatie (bijv. spraak, muziek, geluid) taken kunnen uitvoeren over een breed scala van audio domeinen op een zero-shot manier. De Audio-FLAN dataset is beschikbaar op HuggingFace en GitHub en zal continu worden bijgewerkt.
GOAT achieves this with only 0.1% to 1% of the trainable parameters of Full FT, making it a highly parameter-efficient alternative.
Kleurconstantiemethoden hebben vaak moeite om te generaliseren over verschillende camerasensoren vanwege variërende spectrale gevoeligheden. Wij presenteren GCC, dat diffusiemodellen benut om kleurkaarten in afbeeldingen in te vullen voor belichtingsschatting. Onze belangrijkste innovaties omvatten (1) een deterministische inferentiebenadering in één stap die kleurkaarten invult die de scènebelichting weerspiegelen, (2) een Laplaciaanse decompositietechniek die de structuur van de kleurkaart behoudt terwijl kleuradaptatie afhankelijk van de belichting mogelijk is, en (3) een masker-gebaseerde data-augmentatiestrategie voor het omgaan met onnauwkeurige annotaties van kleurkaarten. GCC toont superieure robuustheid in cross-camerascenario's en behaalt state-of-the-art slechtste-25% foutmarges van 5,15° en 4,32° in bidirectionele evaluaties. Deze resultaten benadrukken de stabiliteit en generalisatiecapaciteit van onze methode over verschillende camerakarakteristieken zonder sensorspecifieke training, wat het een veelzijdige oplossing maakt voor real-world toepassingen.
De kritiekcapaciteit van Large Language Models (LLMs) is essentieel voor redeneervaardigheden, die noodzakelijke suggesties kunnen bieden (bijvoorbeeld gedetailleerde analyses en constructieve feedback). Daarom heeft de vraag hoe de kritiekcapaciteit van LLMs geëvalueerd kan worden veel aandacht getrokken, en zijn er verschillende kritiekbenchmarks voorgesteld. Bestaande kritiekbenchmarks hebben echter meestal de volgende beperkingen: (1) Ze richten zich op diverse redeneertaken in algemene domeinen en bieden onvoldoende evaluatie van codetaken (bijvoorbeeld door alleen codegeneratietaken te behandelen), waarbij de moeilijkheidsgraad van de queries relatief laag is (bijvoorbeeld zijn de codequeries van CriticBench afkomstig uit Humaneval en MBPP). (2) Ze missen een uitgebreide evaluatie vanuit verschillende dimensies. Om deze beperkingen aan te pakken, introduceren we een holistische codekritiekbenchmark voor LLMs genaamd CodeCriticBench. Specifiek omvat onze CodeCriticBench twee hoofdcode taken (namelijk codegeneratie en code QA) met verschillende moeilijkheidsgraden. Daarnaast omvatten de evaluatieprotocollen zowel basiskritiekevaluatie als geavanceerde kritiekevaluatie voor verschillende kenmerken, waarbij fijnmazige evaluatiechecklists zijn ontworpen voor geavanceerde instellingen. Tot slot voeren we uitgebreide experimentele resultaten uit met bestaande LLMs, die de effectiviteit van CodeCriticBench aantonen.
Het opschalen van rekenkracht tijdens de voorbereidingstraining heeft zijn effectiviteit bewezen voor het bereiken van meertaligheid, maar geldt hetzelfde voor het opschalen tijdens de testfase? In dit werk introduceren we MCLM, een meertalige wiskundebenchmark met wedstrijdniveauproblemen in 55 talen. We testen drie methoden voor opschaling tijdens de testfase—Outcome Reward Modeling (ORM), Process Reward Modeling (ORM) en Budget Forcing (BF)—op zowel Qwen2.5-1.5B Math als MR1-1.5B, een meertalig taalmodel dat we hebben getraind voor uitgebreid redeneren. Onze experimenten tonen aan dat het gebruik van Qwen2.5-1.5B Math met ORM een score van 35,8 behaalt op MCLM, terwijl BF op MR1-1.5B een score van 35,2 bereikt. Hoewel "denkende taalmodelen" recentelijk veel aandacht hebben gekregen, constateren we dat hun prestaties vergelijkbaar zijn met traditionele opschalingsmethoden zoals best-of-N wanneer ze worden beperkt tot vergelijkbare niveaus van inferentie-FLOPS. Bovendien levert BF weliswaar een verbetering van 20 punten op voor de Engelse AIME, maar slechts een gemiddelde winst van 1,94 punten over andere talen—een patroon dat consistent is bij de andere opschalingsmethoden die we hebben bestudeerd—wat benadrukt dat opschaling tijdens de testfase mogelijk niet zo effectief generaliseert naar meertalige taken. Om verder onderzoek te bevorderen, maken we MCLM, MR1-1.5B en de evaluatieresultaten openbaar.
Recente vooruitgang in videogeneratie heeft modellen in staat gesteld om hoogwaardige, minutenlange video's te synthetiseren. Het genereren van nog langere video's met temporele coherentie blijft echter een grote uitdaging, en bestaande methoden voor lengte-extrapolatie leiden tot temporele herhaling of vertraging van beweging. In dit werk analyseren we systematisch de rol van frequentiecomponenten in positionele inbeddingen en identificeren we een intrinsieke frequentie die voornamelijk het extrapolatiegedrag bepaalt. Op basis van dit inzicht stellen we RIFLEx voor, een minimale maar effectieve aanpak die de intrinsieke frequentie verlaagt om herhaling te onderdrukken terwijl de bewegingsconsistentie behouden blijft, zonder dat aanvullende aanpassingen nodig zijn. RIFLEx biedt een echte 'free lunch' – het bereikt hoogwaardige 2x-extrapolatie op state-of-the-art videodiffusietransformers op een volledig trainingsvrije manier. Bovendien verbetert het de kwaliteit en maakt het 3x-extrapolatie mogelijk door minimale fine-tuning zonder lange video's. Projectpagina en codes: https://riflex-video.github.io/{https://riflex-video.github.io/.}
Dit artikel evalueert uitgebreid verschillende recent voorgestelde optimalisatiemethoden voor 4-bit training, waarbij wordt aangetoond dat lage-bitprecisie de gevoeligheid voor leerpercentages versterkt en vaak instabiele gradiëntnormen veroorzaakt, wat leidt tot divergentie bij hogere leerpercentages. Onder deze methoden presteert SPAM, een recente optimalisatiemethode met momentumreset en spike-aware gradiëntclipping, het beste over verschillende bitniveaus, maar slaagt er niet in om gradiëntnormen te stabiliseren, wat zorgvuldige afstemming van het leerpercentage vereist. Om deze beperkingen aan te pakken, stellen wij Stable-SPAM voor, dat verbeterde gradiëntnormalisatie en clippingtechnieken omvat. In het bijzonder past Stable-SPAM (1) adaptief de clippingdrempel voor gespikete gradiënten aan door hun historische maxima bij te houden; (2) normaliseert de gehele gradiëntmatrix op basis van zijn historische l_2-normstatistieken; en (3) erft de momentumreset van SPAM om periodiek de eerste en tweede momenten van Adam te resetten, waardoor de accumulatie van gespikete gradiënten wordt verminderd. Uitgebreide experimenten tonen aan dat Stable-SPAM effectief gradiëntnormen stabiliseert in 4-bit LLM-training en superieure prestaties levert in vergelijking met Adam en SPAM. Opmerkelijk is dat ons 4-bit LLaMA-1B-model, getraind met Stable-SPAM, de BF16 LLaMA-1B die met Adam is getraind, overtreft met een verbetering van maximaal 2 perplexiteit. Bovendien bereikt Stable-SPAM, wanneer beide modellen in 4-bit worden getraind, hetzelfde verlies als Adam terwijl slechts ongeveer de helft van de trainingsstappen nodig is. De code is beschikbaar op https://github.com/TianjinYellow/StableSPAM.git.
Bestaande Multimodale Grote Taalmodellen (MLLMs) worden voornamelijk getraind en getest op consistente visueel-tekstuele invoer, waardoor de vraag open blijft of ze kunnen omgaan met inconsistenties in realistische, lay-outrijke content. Om deze kloof te overbruggen, stellen we de Multimodale Inconsistentie Redenering (MMIR) benchmark voor om het vermogen van MLLMs te beoordelen om semantische mismatches te detecteren en te redeneren over artefacten zoals webpagina's, presentatieslides en posters. MMIR bestaat uit 534 uitdagende voorbeelden, elk met synthetisch geïnjecteerde fouten in vijf redeneringsintensieve categorieën: Feitelijke Tegenstrijdigheid, Identiteitsmisattributie, Contextuele Mismatch, Kwantitatieve Discrepantie en Temporele/Ruimtelijke Incoherentie. We evalueren zes state-of-the-art MLLMs en tonen aan dat modellen met toegewijde multimodale redeneervaardigheden, zoals o1, hun tegenhangers aanzienlijk overtreffen, terwijl open-source modellen bijzonder kwetsbaar blijven voor inconsistentiefouten. Gedetailleerde foutenanalyses laten verder zien dat modellen uitblinken in het detecteren van inconsistenties die beperkt zijn tot één enkele modaliteit, met name tekst, maar moeite hebben met cross-modale conflicten en complexe lay-outs. Verkenningsexperimenten onthullen dat prompting met één enkele modaliteit, inclusief Chain-of-Thought (CoT) en Set-of-Mark (SoM) methoden, slechts marginale verbeteringen oplevert, wat een belangrijk knelpunt in cross-modale redenering blootlegt. Onze bevindingen onderstrepen de noodzaak van geavanceerde multimodale redenering en wijzen op toekomstig onderzoek naar multimodale inconsistentie.
Beslissingen over het vrijgeven van generatieve AI bepalen of systeemcomponenten beschikbaar worden gesteld, maar het vrijgeven zelf behandelt niet veel andere elementen die beïnvloeden hoe gebruikers en belanghebbenden met een systeem kunnen interacteren. Naast het vrijgeven bepaalt de toegang tot systeemcomponenten de mogelijke risico's en voordelen. Toegang verwijst naar praktische behoeften, zowel infrastructureel, technisch als maatschappelijk, om beschikbare componenten op enige manier te kunnen gebruiken. We ontleden toegang langs drie assen: middelen, technische bruikbaarheid en nut. Binnen elke categorie verduidelijken een reeks variabelen per systeemcomponent de afwegingen. Zo vereist middelen toegang tot rekeninfrastructuur om modelgewichten te kunnen leveren. We vergelijken ook de toegankelijkheid van vier hoogpresterende taalmodellen, twee met open gewichten en twee met gesloten gewichten, en laten zien dat vergelijkbare overwegingen voor allemaal gelden, maar gebaseerd op toegangsvariabelen. Toegangsvariabelen vormen de basis voor het kunnen schalen of vergroten van de toegang voor gebruikers; we onderzoeken de schaal van toegang en hoe schaal het vermogen beïnvloedt om risico's te beheren en in te grijpen. Dit kader omvat beter het landschap en de risico-voordeelafwegingen van systeemreleases om beslissingen over systeemreleases, onderzoek en beleid te informeren.
We presenteren X-Dancer, een innovatieve zero-shot muziekgedreven beeldanimatiepijplijn die diverse en langdurige levensechte menselijke dansvideo's creëert vanuit een enkele statische afbeelding. Als kern introduceren we een geïntegreerd transformer-diffusie raamwerk, met een autoregressief transformermodel dat uitgebreide en muzieksynchrone tokenreeksen synthetiseert voor 2D lichaamshoudingen, hoofdbewegingen en handposities, die vervolgens een diffusiemodel sturen om samenhangende en realistische dansvideobeelden te produceren. In tegenstelling tot traditionele methoden die voornamelijk menselijke beweging in 3D genereren, gaat X-Dancer data beperkingen te lijf en verbetert het de schaalbaarheid door een breed spectrum van 2D dansbewegingen te modelleren, waarbij de subtiele afstemming op muzikale beats wordt vastgelegd via gemakkelijk beschikbare monovideo's. Om dit te bereiken, bouwen we eerst een ruimtelijk compositorische tokenrepresentatie op basis van 2D menselijke houdingslabels die zijn gekoppeld aan keypoint betrouwbaarheden, waarbij zowel grote gearticuleerde lichaamsbewegingen (bijv. boven- en onderlichaam) als fijnmazige bewegingen (bijv. hoofd en handen) worden gecodeerd. Vervolgens ontwerpen we een muziek-naar-beweging transformermodel dat autoregressief muziekafgestemde danshouding-tokenreeksen genereert, waarbij globale aandacht wordt besteed aan zowel muziekstijl als eerdere bewegingscontext. Ten slotte benutten we een diffusie-backbone om de referentieafbeelding te animeren met deze gesynthetiseerde houdingstokens via AdaIN, waardoor een volledig differentieerbaar end-to-end raamwerk ontstaat. Experimentele resultaten tonen aan dat X-Dancer in staat is zowel diverse als karakteristieke dansvideo's te produceren, waarbij het de state-of-the-art methoden aanzienlijk overtreft op het gebied van diversiteit, expressiviteit en realisme. Code en model zullen beschikbaar worden gesteld voor onderzoeksdoeleinden.
De snelle toename in het gebruik van mobiele apparaten vereist verbeterde automatisering voor naadloos takenbeheer. Veel AI-gestuurde frameworks kampen echter met onvoldoende operationele kennis. Handmatig geschreven kennis helpt wel, maar is arbeidsintensief en inefficiënt. Om deze uitdagingen aan te pakken, introduceren we Mobile-Agent-V, een framework dat gebruikmaakt van videobegeleiding om rijke en kosteneffectieve operationele kennis te bieden voor mobiele automatisering. Mobile-Agent-V verbetert de uitvoeringscapaciteiten van taken door gebruik te maken van video-invoer zonder gespecialiseerde bemonstering of voorbewerking. Mobile-Agent-V integreert een schuifvensterstrategie en omvat een video-agent en een deep-reflection-agent om ervoor te zorgen dat acties overeenkomen met gebruikersinstructies. Door deze innovatieve aanpak kunnen gebruikers taakprocessen met begeleiding opnemen, waardoor het systeem taken autonoom kan leren en efficiënt kan uitvoeren. Experimentele resultaten tonen aan dat Mobile-Agent-V een prestatieverbetering van 30% bereikt in vergelijking met bestaande frameworks.
Het oplossen van complexe robotmanipulatieproblemen met een lange tijdsduur vereist geavanceerde planningsvaardigheden op hoog niveau, het vermogen om te redeneren over de fysieke wereld en reactief geschikte motorische vaardigheden te kiezen. Vision-language-modellen (VLMs) die vooraf zijn getraind op internetgegevens zouden in principe een raamwerk kunnen bieden om dergelijke problemen aan te pakken. In hun huidige vorm missen VLMs echter zowel het genuanceerde begrip van ingewikkelde fysica dat nodig is voor robotmanipulatie als het vermogen om over lange tijdsduren te redeneren om problemen met foutaccumulatie aan te pakken. In dit artikel introduceren we een nieuw raamwerk voor berekeningen tijdens de testfase dat de fysieke redeneervaardigheden van VLMs voor meerfasige manipulatietaken verbetert. Kern van onze aanpak is het iteratief verbeteren van een vooraf getraind VLM met een "reflectie"-mechanisme – het gebruikt een generatief model om toekomstige wereldtoestanden te verbeelden, benut deze voorspellingen om actiekeuze te sturen, en reflecteert kritisch op mogelijke suboptimaliteiten om het redeneren te verfijnen. Experimentele resultaten tonen aan dat onze methode aanzienlijk beter presteert dan verschillende state-of-the-art commerciële VLMs, evenals andere post-trainingsbenaderingen zoals Monte Carlo Tree Search (MCTS). Video's zijn beschikbaar op https://reflect-vlm.github.io.
Dit artikel ontwikkelt een agentisch kader dat gebruikmaakt van grote taalmodellen (LLM's) om de automatisering van de generatie van overtuigende en goed gefundeerde marketinginhoud mogelijk te maken, met behulp van vastgoedadvertentiebeschrijvingen als ons focusapplicatiedomein. Onze methode is ontworpen om de gegenereerde inhoud af te stemmen op de gebruikersvoorkeuren en tegelijkertijd nuttige feitelijke kenmerken te benadrukken. Deze agent bestaat uit drie belangrijke modules: (1) Grondingsmodule, die expert menselijk gedrag nabootst om verhandelbare kenmerken te voorspellen; (2) Personalisatiemodule, die de inhoud afstemt op gebruikersvoorkeuren; (3) Marketingmodule, die zorgt voor feitelijke nauwkeurigheid en de inclusie van gelokaliseerde kenmerken. We voeren systematische menselijke proeven uit in het domein van vastgoedmarketing, met een focusgroep van potentiële huizenkopers. De resultaten tonen aan dat marketingbeschrijvingen die zijn gegenereerd door onze aanpak de voorkeur genieten boven die geschreven door menselijke experts met een duidelijke marge. Onze bevindingen suggereren een veelbelovend LLM-gebaseerd agentisch kader om grootschalige gerichte marketing te automatiseren, met behoud van verantwoorde generatie met alleen feiten.
Naarmate het open-weight AI-landschap zich blijft uitbreiden—met modelontwikkeling, aanzienlijke investeringen en gebruikersinteresse—wordt het steeds belangrijker om te voorspellen welke modellen uiteindelijk innovatie zullen aansturen en AI-ecosystemen zullen vormgeven. Geïnspireerd door parallellen met citatiedynamiek in wetenschappelijke literatuur, stellen we een raamwerk voor om te kwantificeren hoe de invloed van een open-weight model zich ontwikkelt. Specifiek passen we het model van Wang et al. voor wetenschappelijke citaties aan, waarbij we drie sleutelparameters gebruiken—onmiddellijkheid, duurzaamheid en relatieve geschiktheid—om het cumulatieve aantal fine-tuned modellen van een open-weight model te volgen. Onze bevindingen tonen aan dat deze citatie-achtige aanpak effectief de diverse trajecten van adoptie van open-weight modellen kan vastleggen, waarbij de meeste modellen goed passen en uitschieters unieke patronen of abrupte sprongen in gebruik aangeven.
Hiërarchische organisatie is fundamenteel voor biologische systemen en menselijke samenlevingen, maar kunstmatige intelligentiesystemen vertrouwen vaak op monolithische architecturen die de aanpasbaarheid en schaalbaarheid beperken. Huidige benaderingen van hiërarchisch reinforcement learning (HRL) beperken hiërarchieën doorgaans tot twee niveaus of vereisen gecentraliseerde training, wat hun praktische toepasbaarheid beperkt. Wij introduceren het TAME Agent Framework (TAG), een raamwerk voor het construeren van volledig gedecentraliseerde hiërarchische multi-agent systemen. TAG maakt hiërarchieën van willekeurige diepte mogelijk door een nieuw LevelEnv-concept, dat elk hiërarchieniveau abstraheert als de omgeving voor de agenten erboven. Deze aanpak standaardiseert de informatiestroom tussen niveaus terwijl een losse koppeling behouden blijft, wat een naadloze integratie van diverse agenttypen mogelijk maakt. Wij demonstreren de effectiviteit van TAG door hiërarchische architecturen te implementeren die verschillende RL-agenten over meerdere niveaus combineren, wat resulteert in verbeterde prestaties ten opzichte van klassieke multi-agent RL-baselines op standaard benchmarks. Onze resultaten tonen aan dat gedecentraliseerde hiërarchische organisatie zowel de leersnelheid als de uiteindelijke prestaties verbetert, waardoor TAG zich positioneert als een veelbelovende richting voor schaalbare multi-agent systemen.
Temporeel redeneren is fundamenteel voor de menselijke cognitie en is cruciaal voor diverse real-world toepassingen. Hoewel recente vooruitgang in Grote Taalmodellen veelbelovende capaciteiten in temporeel redeneren heeft aangetoond, zijn bestaande benchmarks voornamelijk gebaseerd op regelgebaseerde constructies, missen ze contextuele diepte en omvatten ze een beperkt scala aan temporele entiteiten. Om deze beperkingen aan te pakken, introduceren we Chinese Time Reasoning (CTM), een benchmark ontworpen om Grote Taalmodellen te evalueren op temporeel redeneren binnen de uitgebreide reikwijdte van de Chinese dynastieke chronologie. CTM benadrukt cross-entiteit relaties, paarsgewijze temporele afstemming, en gecontextualiseerd en cultureel verankerd redeneren, wat een uitgebreide evaluatie mogelijk maakt. Uitgebreide experimentele resultaten onthullen de uitdagingen die CTM met zich meebrengt en belichten potentiële verbeteringsmogelijkheden.
Grote taalmodellen (LLM's) hebben opmerkelijke verbeteringen in redeneren laten zien en veel bestaande benchmarks zijn volledig of gedeeltelijk aangepakt door modellen zoals o1 en o3. Een meerderheid van deze benchmarks benadrukt echter deductief redeneren, inclusief wiskundige en coderingstaken waarbij regels zoals wiskundige axioma's of programmeersyntax duidelijk gedefinieerd zijn, op basis waarvan LLM's kunnen plannen en deze regels kunnen toepassen om tot een oplossing te komen. In tegenstelling hiermee blijft inductief redeneren, waarbij men de onderliggende regels afleidt uit waargenomen gegevens, minder onderzocht. Dergelijke inductieve processen vormen de kern van wetenschappelijke ontdekking, omdat ze onderzoekers in staat stellen algemene principes uit empirische waarnemingen te halen. Om te beoordelen of LLM's over deze capaciteit beschikken, introduceren we InductionBench, een nieuwe benchmark die is ontworpen om het inductieve redeneervermogen van LLM's te evalueren. Onze experimentele bevindingen tonen aan dat zelfs de meest geavanceerde beschikbare modellen moeite hebben om de eenvoudigste complexiteitsklassen binnen de subreguliere hiërarchie van functies onder de knie te krijgen, wat wijst op een opmerkelijk tekort in de inductieve redeneervaardigheden van huidige LLM's. Coda en gegevens zijn beschikbaar op https://github.com/Wenyueh/inductive_reasoning_benchmark.
Grote Taalmodellen (LLM's) zijn opgekomen als krachtige tools om moderne uitdagingen aan te pakken en praktische toepassingen mogelijk te maken. Echter, hun rekenkundige kosten blijven een significante barrière voor wijdverbreide adoptie. Quantisatie is naar voren gekomen als een veelbelovende techniek om toegang te democratiseren en implementatie op apparaten met beperkte middelen mogelijk te maken. Ondanks deze ontwikkelingen blijven de veiligheid en betrouwbaarheid van gequantiseerde modellen onderbelicht, aangezien eerdere studies vaak hedendaagse architecturen over het hoofd zien en vertrouwen op overdreven eenvoudige benchmarks en evaluaties. Om deze lacune aan te pakken, introduceren we OpenSafetyMini, een nieuw open veiligheidsdataset ontworpen om beter onderscheid te maken tussen modellen. We evalueren 4 toonaangevende quantisatietechnieken over LLaMA en Mistral modellen met behulp van 4 benchmarks, inclusief menselijke evaluaties. Onze bevindingen tonen aan dat de optimale quantisatiemethode varieert voor 4-bits precisie, terwijl vector quantisatietechnieken de beste veiligheids- en betrouwbaarheidsprestaties leveren bij 2-bits precisie, wat een basis biedt voor toekomstig onderzoek.
Dit rapport presenteert een uitgebreid kader voor het genereren van hoogwaardige 3D-vormen en texturen van diverse invoerbronnen, waaronder enkele afbeeldingen, multi-view afbeeldingen en tekstbeschrijvingen. Het kader bestaat uit 3D-vormgeneratie en textuurgeneratie. (1). De 3D-vormgeneratie-pijplijn maakt gebruik van een Variational Autoencoder (VAE) om impliciete 3D-geometrieën te coderen in een latente ruimte en een diffusienetwerk om latents te genereren die geconditioneerd zijn op invoerbronnen, met aanpassingen om de modelcapaciteit te verbeteren. Er wordt ook een alternatieve Artist-Created Mesh (AM) generatiebenadering onderzocht, wat veelbelovende resultaten oplevert voor eenvoudigere geometrieën. (2). Textuurgeneratie omvat een meertrapsproces dat begint met het genereren van frontale afbeeldingen, gevolgd door het genereren van multi-view afbeeldingen, RGB-naar-PBR textuurconversie, en verfijning van textuur met hoge resolutie van multi-view. Een consistentieplanner wordt in elke fase ingevoegd om pixelgewijze consistentie tussen multi-view texturen tijdens inferentie af te dwingen, wat zorgt voor naadloze integratie. De pijplijn toont effectieve verwerking van diverse invoerformaten, waarbij geavanceerde neurale architecturen en nieuwe methodologieën worden benut om hoogwaardige 3D-inhoud te produceren. Dit rapport beschrijft de systeemarchitectuur, experimentele resultaten en mogelijke toekomstige richtingen om het kader te verbeteren en uit te breiden. De broncode en vooraf getrainde gewichten zijn vrijgegeven op: https://github.com/Tencent/Tencent-XR-3DGen.
Twee veelgebruikte strategieën om de opkomst van desinformatie op sociale media tegen te gaan, zijn (i) factchecking door professionele organisaties en (ii) gemeenschapsmoderatie door platformgebruikers. Beleidswijzigingen bij Twitter/X en, meer recentelijk, Meta, duiden op een verschuiving weg van samenwerkingen met factcheckingsorganisaties en naar een grotere afhankelijkheid van door de gemeenschap gegenereerde notities. De omvang en aard van de afhankelijkheden tussen factchecking en nuttige gemeenschapsnotities blijven echter onduidelijk. Om deze vragen te beantwoorden, gebruiken we taalmodelen om een grote corpus van Twitter/X-gemeenschapsnotities te annoteren met kenmerken zoals onderwerp, geciteerde bronnen en of ze beweringen weerleggen die verband houden met bredere desinformatienarratieven. Onze analyse toont aan dat gemeenschapsnotities tot vijf keer vaker factcheckingbronnen citeren dan eerder werd gerapporteerd. Factchecking is vooral cruciaal voor notities over berichten die verband houden met bredere narratieven, die twee keer zo vaak verwijzen naar factcheckingbronnen in vergelijking met andere bronnen. Concluderend tonen onze resultaten aan dat succesvolle gemeenschapsmoderatie sterk afhankelijk is van professionele factchecking.
Wanneer een mens een LLM vraagt om een programmeertaak te voltooien met behulp van functionaliteit uit een grote code-opslagplaats, hoe kunnen we context van de opslagplaats aan de LLM verstrekken? Een benadering is om de hele opslagplaats toe te voegen aan het contextvenster van de LLM. De meeste taken omvatten echter slechts een fractie van de symbolen uit een opslagplaats, langere contexten zijn nadelig voor de redeneervaardigheden van de LLM, en contextvensters zijn niet onbeperkt. Als alternatief zouden we de menselijke mogelijkheid kunnen nabootsen om door een grote opslagplaats te navigeren, de juiste functionaliteit te selecteren en een plan te vormen om de taak op te lossen. We stellen MutaGReP (Mutation-geleide Gefundeerde Opzoekingsplan) voor, een benadering om plannen te zoeken die een gebruikersverzoek opsplitsen in natuurlijke taalstappen die gefundeerd zijn in de codebase. MutaGReP voert neurale boomzoekopdrachten uit in het planningsgebied, verkent door plannen te muteren en gebruikt een symboolzoeker voor de fundering. Op de uitdagende LongCodeArena-benchmark gebruiken onze plannen minder dan 5% van het 128K-contextvenster voor GPT-4o, maar evenaren ze de programmeerprestaties van GPT-4o met een contextvenster gevuld met de opslagplaats. Plannen geproduceerd door MutaGReP stellen Qwen 2.5 Coder 32B en 72B in staat om de prestaties van GPT-4o met volledige opslagplaatscontext te evenaren en vooruitgang te boeken bij de moeilijkste LongCodeArena-taken. Projectpagina: zaidkhan.me/MutaGReP
Nu AI-chatbots alomtegenwoordig worden, biedt spraakinteractie een overtuigende manier om snelle, hoogbandbreedte communicatie mogelijk te maken voor zowel semantische als sociale signalen. Dit heeft geleid tot onderzoek naar Grote Audio Modellen (GAM's) om spraak-native ervaringen mogelijk te maken. Het afstemmen van de ontwikkeling van GAM's op gebruikersdoelen vereist echter een duidelijk begrip van gebruikersbehoeften en voorkeuren om betrouwbare voortgangsmetingen vast te stellen. Deze studie pakt deze uitdagingen aan door een interactieve benadering te introduceren om GAM's te evalueren en 7.500 GAM-interacties te verzamelen van 484 deelnemers. Door middel van onderwerpmodellering van gebruikersvragen identificeren we primaire gebruiksscenario's voor audio-interfaces. Vervolgens analyseren we gebruikersvoorkeursranglijsten en kwalitatieve feedback om te bepalen welke modellen het beste aansluiten bij de behoeften van gebruikers. Ten slotte evalueren we hoe statische benchmarks de interactieve prestaties voorspellen - onze analyse onthult dat geen enkele individuele benchmark sterk correleert met interactieve resultaten (tau leq 0.33 voor alle benchmarks). Hoewel het combineren van meerdere grofkorrelige kenmerken een bescheiden voorspellend vermogen oplevert (R^2=0.30), tonen slechts twee van de twintig datasets over gesproken vraagbeantwoording en leeftijdsvoorspelling significant positieve correlaties. Dit suggereert een duidelijke behoefte om GAM-evaluaties te ontwikkelen die beter correleren met gebruikersvoorkeuren.
Kwaliteitsschatting is alomtegenwoordig in machinaal vertalen, zowel voor evaluatie als voor generatie. Helaas zijn kwaliteitsschattingmodellen vaak ondoorzichtig en rekenkundig kostbaar, waardoor ze onpraktisch zijn om deel uit te maken van grootschalige pijplijnen. In dit werk pakken we twee gerelateerde uitdagingen aan: (1) het verlagen van de kosten van kwaliteitsschatting op grote schaal, en (2) het ontwikkelen van een kosteneffectieve methode voor onzekerheidsschatting bij kwaliteitsschatting. Om het laatste aan te pakken, introduceren we Instant Confidence COMET, een onzekerheidsbewust kwaliteitsschattingmodel dat de prestaties van eerdere benaderingen evenaart tegen een fractie van de kosten. We breiden dit uit naar Early-Exit COMET, een kwaliteitsschattingmodel dat kwaliteitsscores en bijbehorende betrouwbaarheden al in vroege modellagen kan berekenen, waardoor we berekeningen vroegtijdig kunnen beëindigen en evaluatiekosten kunnen verlagen. We passen ons model ook toe op herrangschikking bij machinaal vertalen. We combineren Early-Exit COMET met een upper confidence bound bandit-algoritme om de beste kandidaat uit een grote pool te vinden zonder het volledige evaluatiemodel op alle kandidaten te hoeven uitvoeren. In beide gevallen (evaluatie en herrangschikking) verminderen onze methoden de benodigde rekenkracht met 50% met zeer weinig prestatieverlies.
Het ophalen van afbeeldingen van dezelfde locatie als een gegeven query is een belangrijk onderdeel van meerdere computervisietaken, zoals Visuele Plaatsherkenning, Landmark Retrieval, Visuele Lokalisatie, 3D-reconstructie en SLAM. Bestaande oplossingen zijn echter specifiek ontwikkeld voor één van deze taken en blijken te falen wanneer de vereisten lichtelijk veranderen of wanneer ze te maken krijgen met gegevens die buiten de trainingsdistributie vallen. In dit artikel combineren we een verscheidenheid aan bestaande methoden, trainingstechnieken en datasets om een retrievalmodel, genaamd MegaLoc, te trainen dat presteert op meerdere taken. We constateren dat MegaLoc (1) state-of-the-art prestaties behaalt op een groot aantal Visuele Plaatsherkenning-datasets, (2) indrukwekkende resultaten boekt op veelgebruikte Landmark Retrieval-datasets, en (3) een nieuwe state-of-the-art neerzet voor Visuele Lokalisatie op de LaMAR-datasets, waarbij we alleen de retrievamethode hebben aangepast binnen de bestaande lokalisatiepipeline. De code voor MegaLoc is beschikbaar op https://github.com/gmberton/MegaLoc.
Het beantwoorden van complexe, lang-contextuele vragen blijft een grote uitdaging voor grote taalmodellen (LLM's), aangezien dit effectieve vraagverduidelijking en contextuele ophaling vereist. Wij stellen Agentic Long-Context Understanding (AgenticLU) voor, een raamwerk dat is ontworpen om het begrip van dergelijke vragen door een LLM te verbeteren door gerichte zelfverduidelijking te integreren met contextuele verankering binnen een agentisch werkstroom. In de kern van AgenticLU staat Chain-of-Clarifications (CoC), waar modellen hun begrip verfijnen door zelf gegenereerde verduidelijkingsvragen en bijbehorende contextuele verankeringen. Door inferentie te schalen als een boomzoekopdracht waarbij elke knoop een CoC-stap vertegenwoordigt, behalen we een antwoordherinnering van 97,8% op NarrativeQA met een zoekdiepte tot drie en een vertakkingsfactor van acht. Om de hoge kosten van dit zoekproces bij training te amortiseren, maken we gebruik van de voorkeursparen voor elke stap verkregen door de CoC-werkstroom en voeren we tweefasige modelverfijning uit: (1) begeleide verfijning om effectieve decompositiestrategieën te leren, en (2) directe voorkeursoptimalisatie om de redeneerkwaliteit te verbeteren. Dit stelt AgenticLU-modellen in staat om effectief en efficiënt verduidelijkingen te genereren en relevante context op te halen in één inferentiepassage. Uitgebreide experimenten over zeven lang-contextuele taken tonen aan dat AgenticLU aanzienlijk beter presteert dan state-of-the-art prompting-methoden en gespecialiseerde lang-contextuele LLM's, waarbij robuuste multi-hop redenering wordt bereikt terwijl de prestaties consistent blijven bij toenemende contextlengte.
We introduceren MONSTER—het MONash Scalable Time Series Evaluation Repository—een verzameling van grote datasets voor tijdreeksclassificatie. Het vakgebied van tijdreeksclassificatie heeft geprofiteerd van gemeenschappelijke benchmarks die zijn vastgesteld door de UCR- en UEA-tijdreeksclassificatierepositories. De datasets in deze benchmarks zijn echter klein, met mediane groottes van respectievelijk 217 en 255 voorbeelden. Als gevolg daarvan bevorderen ze een beperkte subset van modellen die zijn geoptimaliseerd om een lage classificatiefout te behalen op een breed scala aan kleinere datasets, dat wil zeggen modellen die de variantie minimaliseren en weinig aandacht besteden aan computationele aspecten zoals schaalbaarheid. Onze hoop is om het veld te diversifiëren door benchmarks te introduceren met behulp van grotere datasets. Wij geloven dat er enorm veel potentieel is voor nieuwe vooruitgang in het veld door de theoretische en praktische uitdagingen aan te gaan die gepaard gaan met het effectief leren van grotere hoeveelheden data.
De COVID-19 pandemie legde druk op de gezondheidszorg en leidde tot discussie over hoe machine learning de last voor artsen kan verlichten en kan bijdragen aan diagnosestelling. Borst röntgenfoto's (CXR's) worden gebruikt voor de diagnose van COVID-19, maar er zijn weinig studies die de ernst van de aandoening van een patiënt voorspellen op basis van CXR's. In dit onderzoek produceren we een omvangrijke dataset over COVID-ernst door drie bronnen samen te voegen en onderzoeken we de doeltreffendheid van transfer learning met behulp van voor ImageNet en CXR voorgetrainde modellen en vision transformers (ViTs) in zowel ernstregressie- als classificatietaken. Een voorgetraind DenseNet161-model presteerde het beste bij het voorspellen van de ernst in drie klassen, met een algehele nauwkeurigheid van 80% en respectievelijk 77,3%, 83,9% en 70% voor milde, matige en ernstige gevallen. De ViT behaalde de beste regressieresultaten, met een gemiddelde absolute fout van 0,5676 in vergelijking met door radiologen voorspelde ernstscores. De broncode van het project is openbaar beschikbaar.
De snelle vooruitgang van AI-gegenereerde beeldmodellen (AGI) heeft aanzienlijke uitdagingen geïntroduceerd bij het evalueren van hun kwaliteit, waarbij meerdere dimensies zoals perceptuele kwaliteit, promptovereenkomst en authenticiteit in overweging moeten worden genomen. Om deze uitdagingen aan te pakken, stellen we M3-AGIQA voor, een uitgebreid raamwerk voor AGI-kwaliteitsbeoordeling dat Multimodaal, Multi-Rond en Multi-Aspect is. Onze aanpak maakt gebruik van de mogelijkheden van Multimodale Large Language Models (MLLMs) als gezamenlijke tekst- en beeldencoders en destilleert geavanceerde captioning-mogelijkheden van online MLLMs naar een lokaal model via Low-Rank Adaptation (LoRA) fine-tuning. Het raamwerk omvat een gestructureerd multi-rond evaluatiemechanisme, waarbij tussenliggende beeldbeschrijvingen worden gegenereerd om diepere inzichten te bieden in de kwaliteit, overeenkomst en authenticiteitsaspecten. Om voorspellingen af te stemmen op menselijke perceptuele oordelen, is een predictor geïntegreerd die bestaat uit een xLSTM en een regressiekop, om sequentiële logits te verwerken en Mean Opinion Scores (MOSs) te voorspellen. Uitgebreide experimenten uitgevoerd op meerdere benchmarkdatasets tonen aan dat M3-AGIQA state-of-the-art prestaties bereikt en effectief genuanceerde aspecten van AGI-kwaliteit vastlegt. Bovendien bevestigt cross-datasetvalidatie de sterke generaliseerbaarheid ervan. De code is beschikbaar op https://github.com/strawhatboy/M3-AGIQA.
De Brownse sfeer is een willekeurige metrische ruimte, homeomorf aan de tweedimensionale sfeer, die ontstaat als de universele schaal limiet van vele typen willekeurige planaire kaarten. De directe constructie van de Brownse sfeer gebeurt via een continue analogie van de Cori-Vauquelin-Schaeffer (CVS)-bijectie. De CVS-bijectie beeldt gelabelde bomen af op planaire kaarten, en de continue versie beeldt Aldous' continue willekeurige boom met Brownse labels (de Brownse slang) af op de Brownse sfeer. In dit werk beschrijven we de inverse van de continue CVS-bijectie, door de Brownse slang te construeren als een meetbare functie van de Brownse sfeer. Speciale aandacht is vereist voor het werken met de oriëntatie van de Brownse sfeer.