Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond als autonome agents, maar bestaande benchmarks richten zich ofwel op taken voor één agent of zijn beperkt tot smalle domeinen, waardoor ze de dynamiek van multi-agent coördinatie en competitie niet vastleggen. In dit artikel introduceren we MultiAgentBench, een uitgebreide benchmark die is ontworpen om LLM-gebaseerde multi-agent systemen te evalueren in diverse, interactieve scenario's. Ons framework meet niet alleen taakvoltooiing, maar ook de kwaliteit van samenwerking en competitie met behulp van nieuwe, mijlpaal-gebaseerde prestatie-indicatoren. Bovendien evalueren we verschillende coördinatieprotocollen (inclusief ster-, ketting-, boom- en grafstructuren) en innovatieve strategieën zoals groepsdiscussie en cognitieve planning. Opvallend is dat gpt-4o-mini de gemiddeld hoogste taakscore behaalt, de grafstructuur het beste presteert onder de coördinatieprotocollen in het onderzoeksscenario, en cognitieve planning de mijlpaalbehaalsnelheid met 3% verbetert. Code en datasets zijn publiek beschikbaar op https://github.com/MultiagentBench/MARBLE.
De opkomst van desinformatie, verergerd door grote taalmodelen (LLMs) zoals GPT en Gemini, vereist robuuste oplossingen voor feitencontrole, vooral voor talen met beperkte bronnen zoals Vietnamees. Bestaande methoden worstelen met semantische ambiguïteit, homoniemen en complexe linguïstische structuren, waarbij vaak nauwkeurigheid wordt ingeruild voor efficiëntie. Wij introduceren SemViQA, een nieuw Vietnamees raamwerk voor feitencontrole dat Semantic-based Evidence Retrieval (SER) en Two-step Verdict Classification (TVC) integreert. Onze aanpak balanceert precisie en snelheid, en behaalt state-of-the-art resultaten met 78,97% strikte nauwkeurigheid op ISE-DSC01 en 80,82% op ViWikiFC, waarmee de eerste plaats wordt behaald in de UIT Data Science Challenge. Daarnaast verbetert SemViQA Faster de inferentiesnelheid met een factor 7 terwijl het een competitieve nauwkeurigheid behoudt. SemViQA stelt een nieuwe standaard voor Vietnamese feitenverificatie en draagt bij aan de strijd tegen desinformatie. De broncode is beschikbaar op: https://github.com/DAVID-NGUYEN-S16/SemViQA.
Recente vooruitgang in grote taalmodellen (LLMs) heeft LLM-gebaseerde agents in staat gesteld om interactieve plannings taken succesvol aan te pakken. Desondanks kampen bestaande benaderingen vaak met planningshallucinaties en vereisen ze hertraining voor elke nieuwe agent. Om deze uitdagingen aan te pakken, stellen we het Meta Plan Optimization (MPO) framework voor, dat de planningscapaciteiten van agents verbetert door expliciete begeleiding direct te integreren. In tegenstelling tot eerdere methoden die vertrouwen op complexe kennis, die ofwel aanzienlijke menselijke inspanning vereisen of kwaliteitsborging missen, maakt MPO gebruik van hoogwaardige algemene begeleiding via metaplannen om de planning van agents te ondersteunen en stelt het continue optimalisatie van de metaplannen mogelijk op basis van feedback van de taakuitvoering van de agent. Onze experimenten, uitgevoerd op twee representatieve taken, tonen aan dat MPO aanzienlijk beter presteert dan bestaande baseline-methoden. Bovendien geeft onze analyse aan dat MPO een plug-and-play oplossing biedt die zowel de taakvoltooiingsefficiëntie als de generalisatiecapaciteiten in voorheen onbekende scenario's verbetert.
We introduceren LADDER (Learning through Autonomous Difficulty-Driven Example Recursion), een raamwerk dat Large Language Models in staat stelt om autonoom hun probleemoplossende vaardigheden te verbeteren door middel van zelfgestuurd leren, waarbij ze recursief steeds eenvoudigere varianten van complexe problemen genereren en oplossen. In tegenstelling tot eerdere benaderingen die gecureerde datasets of menselijke feedback vereisen, maakt LADDER gebruik van de eigen mogelijkheden van een model om eenvoudigere vraagvarianten te genereren. We demonstreren de effectiviteit van LADDER op het gebied van wiskundige integratie, waarbij de nauwkeurigheid van Llama 3.2 3B verbetert van 1% naar 82% op problemen van bachelorniveau en Qwen2.5 7B Deepseek-R1 Distilled in staat stelt om 73% te behalen op het kwalificatie-examen van de MIT Integration Bee. We introduceren ook TTRL (Test-Time Reinforcement Learning), waarbij we reinforcement learning toepassen op varianten van testproblemen tijdens de inferentiefase. TTRL stelt Qwen2.5 7B Deepseek-R1 Distilled in staat om een state-of-the-art score van 90% te behalen op het kwalificatie-examen van de MIT Integration Bee, wat de prestaties van OpenAI o1 overtreft. Deze resultaten laten zien hoe zelfgestuurd strategisch leren aanzienlijke verbeteringen in vaardigheden kan bereiken zonder te vertrouwen op architectonische schaalvergroting of menselijk toezicht.
In dit artikel presenteren we een grondige analyse van de impact van Large Language Models (LLMs) op Wikipedia, waarbij we de evolutie van Wikipedia onderzoeken aan de hand van bestaande data en simulaties gebruiken om potentiële risico's te verkennen. We beginnen met het analyseren van paginaweergaven en artikelinhoud om recente veranderingen in Wikipedia te bestuderen en de impact van LLMs te beoordelen. Vervolgens evalueren we hoe LLMs verschillende Natural Language Processing (NLP)-taken beïnvloeden die gerelateerd zijn aan Wikipedia, waaronder machinaal vertalen en retrieval-augmented generation (RAG). Onze bevindingen en simulatieresultaten laten zien dat Wikipedia-artikelen beïnvloed zijn door LLMs, met een impact van ongeveer 1%-2% in bepaalde categorieën. Als de benchmark voor machinaal vertalen die op Wikipedia is gebaseerd, wordt beïnvloed door LLMs, kunnen de scores van de modellen worden opgeblazen en kunnen de vergelijkende resultaten tussen modellen verschuiven. Bovendien kan de effectiviteit van RAG afnemen als de kennisbasis vervuild raakt door door LLM gegenereerde inhoud. Hoewel LLMs de taal- en kennisstructuren van Wikipedia nog niet volledig hebben veranderd, geloven we dat onze empirische bevindingen de noodzaak aangeven om zorgvuldig na te denken over mogelijke toekomstige risico's.
Grote taalmodellen (LLMs) vertonen hallucinaties (d.w.z. onbetrouwbare of onzinnige informatie) wanneer ze dienen als AI-assistenten in verschillende domeinen. Omdat hallucinaties altijd gepaard gaan met waarheidsgetrouwe inhoud in de LLM-reacties, introduceerden eerdere methoden voor feitelijke afstemming die voorkeursleren op responsniveau uitvoeren onvermijdelijk ruis tijdens de training. Daarom stelt dit artikel een verfijnde methode voor feitelijke afstemming voor, gebaseerd op Direct Preference Optimization (DPO), genaamd Mask-DPO. Door feitelijkheid op zinsniveau te gebruiken als maskersignalen, leert Mask-DPO alleen van feitelijk correcte zinnen in de voorkeurssamples en voorkomt het straffen van feitelijke inhoud in de niet-voorkeurssamples, wat de ambiguïteit in het voorkeursleren oplost. Uitgebreide experimentele resultaten tonen aan dat Mask-DPO de feitelijkheid van LLM-reacties op vragen uit zowel domeinspecifieke als domeinoverstijgende datasets aanzienlijk kan verbeteren, hoewel deze vragen en hun bijbehorende onderwerpen niet gezien zijn tijdens de training. Alleen getraind op de ANAH-trainingsset, verbeterde de score van Llama3.1-8B-Instruct op de ANAH-testset van 49,19% naar 77,53%, wat zelfs de score van Llama3.1-70B-Instruct (53,44%) overtreft, terwijl de FactScore op de domeinoverstijgende Biography-dataset ook verbeterde van 30,29% naar 39,39%. We bestuderen verder de generalisatie-eigenschap van Mask-DPO met behulp van verschillende strategieën voor het schalen van trainingssamples en ontdekken dat het schalen van het aantal onderwerpen in de dataset effectiever is dan het aantal vragen. We bieden een hypothese over wat feitelijke afstemming doet met LLMs, over de implicatie van dit fenomeen, en voeren proof-of-concept experimenten uit om dit te verifiëren. We hopen dat de methode en de bevindingen de weg vrijmaken voor toekomstig onderzoek naar het schalen van feitelijke afstemming.
Recente vooruitgang in grote taalmodellen (LLMs) heeft zich gericht op het produceren van reacties die voldoen aan menselijke verwachtingen en aansluiten bij gedeelde waarden – een proces dat alignment wordt genoemd. Het afstemmen van LLMs blijft echter een uitdaging vanwege de inherente kloof tussen de complexiteit van menselijke waarden en de beperkte aard van de technologische benaderingen die zijn ontworpen om deze aan te pakken. Huidige alignmentmethoden leiden vaak tot verkeerd gespecificeerde doelstellingen, wat het bredere probleem weerspiegelt van onvolledige contracten en de onpraktische haalbaarheid van het specificeren van een contract tussen een modelontwikkelaar en het model dat rekening houdt met elk scenario in LLM-alignment. In dit artikel beargumenteren we dat het verbeteren van LLM-alignment inzichten vereist uit maatschappelijke alignmentkaders, waaronder sociale, economische en contractuele alignment, en bespreken we mogelijke oplossingen die uit deze domeinen zijn getrokken. Gezien de rol van onzekerheid binnen maatschappelijke alignmentkaders, onderzoeken we vervolgens hoe dit zich manifesteert in LLM-alignment. We sluiten onze discussie af met een alternatieve kijk op LLM-alignment, waarbij we de onvolledig gespecificeerde aard van de doelstellingen beschouwen als een kans in plaats van een perfecte specificatie. Naast technische verbeteringen in LLM-alignment bespreken we de noodzaak van participatieve alignment-interfaceontwerpen.
Pipeline-parallelisme (PP) wordt veel gebruikt voor het trainen van grote taalmodelen (LLMs), maar de schaalbaarheid ervan wordt vaak beperkt door het hoge geheugengebruik van activaties naarmate het aantal in-flight microbatches toeneemt met de mate van PP. In dit artikel richten we ons op het aanpakken van deze uitdaging door gebruik te maken van de onderbenutte strategie van geheugenoffloading in PP. Door empirisch onderzoek ontdekken we dat in de meeste standaardconfiguraties minstens de helft, en mogelijk alle, activaties kunnen worden geoffload met verwaarloosbare overhead. In gevallen waar volledige offloading niet mogelijk is, introduceren we een nieuwe selectieve offloadstrategie die het piekgeheugengebruik van activaties op een beter-dan-lineaire manier vermindert. Bovendien integreren we geheugenoffloading met andere technieken om gezamenlijk de totale doorvoer en geheugenbeperkingen in overweging te nemen. Onze experimenten bewijzen dat het geheugengebruik van activaties per apparaat effectief afneemt met het totale aantal fasen, waardoor PP een sterker alternatief wordt dan TP, met een versnelling tot wel 19\% en zelfs een lager geheugengebruik. De implementatie is open-source beschikbaar op https://github.com/sail-sg/zero-bubble-pipeline-parallelism{deze url}.
Het aanpassen van generatieve modellen aan specifieke domeinen biedt een effectieve oplossing voor het vervullen van gespecialiseerde vereisten. Het aanpassen aan sommige complexe domeinen blijft echter een uitdaging, vooral wanneer deze domeinen aanzienlijke gepaarde gegevens vereisen om de beoogde distributies vast te leggen. Aangezien ongepaarde gegevens van een enkele modaliteit, zoals visie of taal, gemakkelijker beschikbaar zijn, maken we gebruik van de bidirectionele mapping tussen visie en taal die wordt geleerd door het verenigde generatieve model om training op ongepaarde gegevens voor domeinaanpassing mogelijk te maken. Specifiek stellen we DoraCycle voor, dat twee multimodale cycli integreert: tekst-naar-beeld-naar-tekst en beeld-naar-tekst-naar-beeld. Het model wordt geoptimaliseerd door middel van kruisingsentropieverlies berekend aan de eindpunten van de cyclus, waar beide eindpunten dezelfde modaliteit delen. Dit vergemakkelijkt de zelfontwikkeling van het model zonder afhankelijkheid van geannoteerde tekst-beeldparen. Experimentele resultaten tonen aan dat voor taken die onafhankelijk zijn van gepaarde kennis, zoals stilisering, DoraCycle het verenigde model effectief kan aanpassen met alleen ongepaarde gegevens. Voor taken die nieuwe gepaarde kennis betreffen, zoals specifieke identiteiten, is een combinatie van een kleine set gepaarde beeld-tekstvoorbeelden en grootschalige ongepaarde gegevens voldoende voor effectieve domeingerichte aanpassing. De code zal worden vrijgegeven op https://github.com/showlab/DoraCycle.
Hoewel Reinforcement Learning from Human Feedback (RLHF) de dominante methode is geworden voor het beheersen van taalmodeluitvoer, lijdt het onder hoge computationele kosten en trainingsinstabiliteit. Gestuurd decoderen, met name waardegestuurde methoden, biedt een kosteneffectief alternatief door uitvoer te beheersen zonder modellen opnieuw te trainen. De nauwkeurigheid van de waardefunctie is echter cruciaal voor waardegestuurd decoderen, aangezien onnauwkeurigheden kunnen leiden tot suboptimale besluitvorming en verminderde prestaties. Bestaande methoden worstelen met het nauwkeurig schatten van de optimale waardefunctie, wat resulteert in minder effectieve controle. Wij stellen Iteratieve Waardefunctieoptimalisatie voor, een nieuw raamwerk dat deze beperkingen aanpakt via twee sleutelcomponenten: Monte Carlo Waardeschatting, die de schattingsvariantie vermindert door diverse trajecten te verkennen, en Iteratieve On-Policy Optimalisatie, die de waardeschatting geleidelijk verbetert door trajecten te verzamelen van waardegestuurde beleidsregels. Uitgebreide experimenten op het gebied van tekstsamenvatting, meerzijdige dialoog en instructieopvolging demonstreren de effectiviteit van waardegestuurde decodeerbenaderingen bij het afstemmen van taalmodellen. Deze benaderingen bereiken niet alleen afstemming, maar verminderen ook aanzienlijk de computationele kosten door gebruik te maken van principiële waardefunctieoptimalisatie voor efficiënte en effectieve controle.
Een geïntegreerd video- en actiemodel biedt aanzienlijke mogelijkheden voor robotica, waarbij video's rijke scène-informatie bieden voor actievoorspelling en acties dynamische informatie leveren voor videovoorspelling. Het effectief combineren van videogeneratie en actievoorspelling blijft echter een uitdaging, en huidige methoden op basis van videogeneratie hebben moeite om de prestaties van direct beleidsleren te evenaren op het gebied van actienauwkeurigheid en inferentiesnelheid. Om deze kloof te overbruggen, introduceren we het Unified Video Action-model (UVA), dat gezamenlijk video- en actievoorspellingen optimaliseert om zowel hoge nauwkeurigheid als efficiënte actie-inferentie te bereiken. De sleutel ligt in het leren van een gezamenlijke video-actie latenterepresentatie en het ontkoppelen van video-actie-decodering. De gezamenlijke latenterepresentatie overbrugt de visuele en actiedomeinen en modelleert effectief de relatie tussen video- en actiesequenties. Tegelijkertijd maakt de ontkoppelde decodering, aangedreven door twee lichtgewicht diffusiekoppen, snelle actie-inferentie mogelijk door videogeneratie tijdens inferentie te omzeilen. Zo'n geïntegreerd framework maakt verder veelzijdige functionaliteit mogelijk door middel van getrainde gemaskeerde invoer. Door selectief acties of video's te maskeren, kan een enkel model diverse taken aanpakken die verder gaan dan beleidsleren, zoals voorwaartse en inverse dynamische modellering en videogeneratie. Via een uitgebreide reeks experimenten tonen we aan dat UVA kan dienen als een algemene oplossing voor een breed scala aan robotica-taken, zoals beleidsleren, voorwaartse/inverse dynamica en videowaarnemingsvoorspelling, zonder in te leveren op prestaties in vergelijking met methoden die zijn afgestemd op specifieke toepassingen. De resultaten zijn het beste te bekijken op https://unified-video-action-model.github.io/.
Diffusiemodellen hebben opmerkelijke vooruitgang geboekt in diverse beeldgeneratietaken. Hun prestaties nemen echter aanzienlijk af bij het genereren van beelden met resoluties die hoger zijn dan die gebruikt tijdens de trainingsperiode. Ondanks het bestaan van talrijke methoden voor het produceren van hoog-resolutiebeelden, lijden deze ofwel onder inefficiëntie of worden ze belemmerd door complexe operaties. In dit artikel stellen we RectifiedHR voor, een efficiënte en eenvoudige oplossing voor trainingsvrije hoog-resolutiebeeldgeneratie. Specifiek introduceren we de ruisverversingsstrategie, die theoretisch slechts een paar regels code vereist om het hoog-resolutiegeneratievermogen van het model te ontgrendelen en de efficiëntie te verbeteren. Daarnaast observeren we voor het eerst het fenomeen van energieverval dat beeldonscherpte kan veroorzaken tijdens het hoog-resolutiebeeldgeneratieproces. Om dit probleem aan te pakken, stellen we een Energieherstellingsstrategie voor, waarbij het aanpassen van de hyperparameters van de classifier-free guidance de generatieprestaties effectief verbetert. Onze methode is volledig trainingsvrij en heeft een eenvoudige implementatielogica. Door uitgebreide vergelijkingen met talrijke baseline-methoden, toont onze RectifiedHR superieure effectiviteit en efficiëntie aan.
Recente ontwikkelingen in Large Language Models (LLMs) hebben geleid tot de ontwikkeling van intelligente, LLM-gebaseerde agents die in staat zijn om te interacteren met grafische gebruikersinterfaces (GUIs). Deze agents tonen sterk redeneervermogen en aanpassingsvermogen, waardoor ze complexe taken kunnen uitvoeren die traditioneel vooraf gedefinieerde regels vereisten. Echter, de afhankelijkheid van stap-voor-stap redenering in LLM-gebaseerde agents resulteert vaak in inefficiënties, vooral bij routinetaken. Traditionele regelgebaseerde systemen daarentegen blinken uit in efficiëntie, maar missen de intelligentie en flexibiliteit om zich aan te passen aan nieuwe scenario's. Om deze uitdaging aan te pakken, stellen we een nieuw evolutionair framework voor GUI-agents voor dat de operationele efficiëntie verbetert terwijl intelligentie en flexibiliteit behouden blijven. Onze aanpak omvat een geheugenmechanisme dat de taakuitvoeringsgeschiedenis van de agent vastlegt. Door deze geschiedenis te analyseren, identificeert de agent repetitieve actiesequenties en ontwikkelt hoogwaardige acties die als snelkoppelingen fungeren, waardoor deze laagwaardige operaties worden vervangen en de efficiëntie wordt verbeterd. Hierdoor kan de agent zich richten op taken die complexer redeneervermogen vereisen, terwijl routinematige acties worden vereenvoudigd. Experimentele resultaten op meerdere benchmarktaken tonen aan dat onze aanpak bestaande methoden significant overtreft in zowel efficiëntie als nauwkeurigheid. De code zal openbaar worden gemaakt om verder onderzoek te ondersteunen.
Het verzamelen van grondwaarde beloningen voor taakvoltooiing of menselijke demonstraties voor meerstaps redeneertaken is vaak kostbaar en tijdrovend, vooral in interactieve domeinen zoals webtaken. Om dit knelpunt aan te pakken, presenteren we self-taught lookahead, een zelfgesuperviseerde methode die gebruikmaakt van staatsovergangsdynamiek om een waardemodel te trainen dat effectief kan sturen bij zoekacties die worden gecontroleerd door taalmodel. We ontdekken dat middelgrote (8 miljard parameters) open-weight waardemodellen die zijn verbeterd met self-taught lookahead, de prestaties kunnen evenaren van het gebruik van een geavanceerd LLM zoals gpt-4o als waardemodel. Bovendien constateren we dat self-taught lookahead de prestaties met 20% verbetert terwijl de kosten 37x worden verlaagd in vergelijking met eerdere LLM-gebaseerde boomzoekmethoden, zonder afhankelijk te zijn van grondwaarde beloningen.
Autoregressieve taalmodelen maken gebruik van een Key-Value (KV) Cache, die het opnieuw berekenen van verborgen toestanden tijdens generatie vermijdt, waardoor het proces sneller verloopt. Naarmate de grootte van modellen en contextlengtes toenemen, wordt de KV Cache een aanzienlijk geheugenknelpunt, wat de behoefte aan compressiemethoden vergroot die de grootte ervan tijdens generatie beperken. In dit artikel ontdekken we verrassende eigenschappen van Query (Q) en Key (K) vectoren die het mogelijk maken om aandachtsscores efficiënt te benaderen zonder de aandachtswaarden te berekenen. We introduceren Q-Filters, een trainingsvrije KV Cache compressiemethode die minder cruciale Key-Value paren filtert op basis van een enkele context-onafhankelijke projectie. In tegenstelling tot veel alternatieven, is Q-Filters compatibel met FlashAttention, omdat het geen directe toegang tot aandachtswaarden vereist. Experimentele resultaten in lang-context instellingen tonen aan dat Q-Filters concurrerend is met aandacht-gebaseerde compressiemethoden zoals SnapKV in retrievalthandelingen, terwijl het consistent beter presteert dan efficiënte compressieschema's zoals Streaming-LLM in generatieopstellingen. Opmerkelijk is dat Q-Filters een nauwkeurigheid van 99% bereikt in de 'needle-in-a-haystack'-taak met een compressieniveau van x32, terwijl het de daling in generatieperplexiteit met tot wel 65% vermindert in tekstgeneratie vergeleken met Streaming-LLM.
Large Language Model (LLM)-agenten hebben opmerkelijke generalisatiecapaciteiten getoond bij taken in meerdere domeinen. Bestaande benaderingen voor het afstemmen van agenten maken doorgaans gebruik van supervised finetuning op volledige expert-trajecten. Het klonen van volledige trajecten kan echter expertbias introduceren en de generalisatie naar toestanden die niet door de expertdata worden gedekt, verzwakken. Daarnaast zijn kritieke stappen, zoals planning, complex redeneren voor tussenliggende subtaken en strategische besluitvorming, essentieel voor succes in agenttaken, waardoor het leren van deze stappen de sleutel is tot het verbeteren van LLM-agenten. Voor een effectievere en efficiëntere afstemming van agenten stellen we ATLaS voor, dat de kritieke stappen in expert-trajecten identificeert en LLM's uitsluitend op deze stappen finetunt tegen lagere kosten. Door de focus van de training te richten op een paar kritieke stappen, vermindert onze methode het risico van overfitting op volledige trajecten en bevordert het generalisatie over verschillende omgevingen en taken. In uitgebreide experimenten presteert een LLM die is gefinetuned op slechts 30% van de kritieke stappen die door ATLaS zijn geselecteerd, beter dan de LLM die is gefinetuned op alle stappen en recente open-source LLM-agenten. ATLaS behoudt en verbetert de basisvaardigheden van LLM's als generalistische agenten die interacteren met diverse omgevingen.
Speculatieve sampling is naar voren gekomen als een belangrijke techniek voor het versnellen van het auto-regressieve generatieproces van grote taalmodellen (LLMs) door gebruik te maken van een draft-then-verify mechanisme om meerdere tokens per forward pass te produceren. Hoewel state-of-the-art speculatieve samplingmethoden slechts één enkele laag en een taalmodelleringskop (LM head) gebruiken als het draft-model om indrukwekkende laagcompressie te bereiken, worden hun efficiëntiewinsten aanzienlijk verminderd voor LLMs met een grote vocabulaire, zoals Llama-3-8B met een vocabulaire van 128k tokens. Om dit aan te pakken, presenteren we FR-Spec, een frequentie-gerangschikt speculatief sampling framework dat de selectie van draft-kandidaten optimaliseert door compressie van de vocabulaire-ruimte. Door de draft-zoekopdracht te beperken tot een frequentie-geprioriteerde token-subset, vermindert onze methode de rekenoverhead van de LM Head met 75% terwijl de gelijkwaardigheid van de uiteindelijke outputverdeling wordt gegarandeerd. Experimenten over meerdere datasets tonen een gemiddelde snelheidswinst van 1,12 keer ten opzichte van de state-of-the-art speculatieve samplingmethode EAGLE-2.
Generalistische modellen hebben opmerkelijke successen behaald in zowel taal- als visueel-taaltaken, wat het potentieel van uniforme modellering aantoont. Het effectief integreren van fijnmazige perceptietaken zoals detectie en segmentatie in deze modellen blijft echter een aanzienlijke uitdaging. Dit komt voornamelijk doordat deze taken vaak sterk leunen op taakspecifieke ontwerpen en architecturen die het modelleringsproces kunnen bemoeilijken. Om deze uitdaging aan te pakken, presenteren wij \ours, een raamwerk dat fijnmazige visuele perceptietaken verenigt via een open taalinterface. Door alle perceptiedoelen om te zetten in de taalspace, verenigt \ours objectniveau-detectie, pixelniveau-segmentatie en beeldniveau-visueel-taaltaken in één model. Daarnaast introduceren we een nieuwe benadering voor het ophalen van embeddings die uitsluitend afhankelijk is van de taalinterface om segmentatietaken te ondersteunen. Ons raamwerk overbrugt de kloof tussen fijnmazige perceptie en visueel-taaltaken, waardoor het architectonisch ontwerp en de trainingsstrategieën aanzienlijk worden vereenvoudigd, terwijl het vergelijkbare of superieure prestaties behaalt ten opzichte van methoden met ingewikkelde taakspecifieke ontwerpen. Na multi-task training op vijf standaard visuele perceptiedatasets, overtreft \ours de vorige state-of-the-art generalistische modellen met 12.3 mAP op COCO instance segmentation en 3.3 mIoU op ADE20K semantische segmentatie. Bovendien integreert onze methode naadloos met bestaande MLLM's, waardoor fijnmazige perceptiecapaciteiten effectief worden gecombineerd met hun geavanceerde taalvaardigheden, wat het mogelijk maakt om uitdagendere taken zoals redeneersegmentatie uit te voeren. Code en modellen zullen publiekelijk beschikbaar worden gesteld.
Het evalueren van tekst-naar-visuele-inhoud berust op twee cruciale aspecten: visuele kwaliteit en afstemming. Hoewel aanzienlijke vooruitgang is geboekt in het ontwikkelen van objectieve modellen om deze dimensies te beoordelen, is de prestaties van dergelijke modellen sterk afhankelijk van de schaal en kwaliteit van menselijke annotaties. Volgens de schaalwet volgt het verhogen van het aantal door mensen gelabelde instanties een voorspelbaar patroon dat de prestaties van evaluatiemodellen verbetert. Daarom introduceren we een uitgebreide dataset die is ontworpen om de visuele kwaliteit en afstemmingsniveau van tekst-naar-visuele-inhoud te evalueren (Q-EVAL-100K), met de grootste verzameling door mensen gelabelde Mean Opinion Scores (MOS) voor de genoemde twee aspecten. De Q-EVAL-100K dataset omvat zowel tekst-naar-beeld als tekst-naar-video modellen, met 960K menselijke annotaties die specifiek gericht zijn op visuele kwaliteit en afstemming voor 100K instanties (60K afbeeldingen en 40K video's). Gebruikmakend van deze dataset met contextprompt, stellen we Q-Eval-Score voor, een geïntegreerd model dat zowel visuele kwaliteit als afstemming kan evalueren, met speciale verbeteringen voor het omgaan met afstemming van lange-tekstprompts. Experimentele resultaten geven aan dat de voorgestelde Q-Eval-Score superieure prestaties behaalt op zowel visuele kwaliteit als afstemming, met sterke generalisatiecapaciteiten over andere benchmarks. Deze bevindingen onderstrepen de aanzienlijke waarde van de Q-EVAL-100K dataset. Data en code zullen beschikbaar zijn op https://github.com/zzc-1998/Q-Eval.
In representatieleren verwijst uniformiteit naar de uniforme verdeling van kenmerken in de latente ruimte (d.w.z. de eenheidshyperboloïde). Eerder onderzoek heeft aangetoond dat het verbeteren van uniformiteit bijdraagt aan het leren van ondervertegenwoordigde klassen. Het meeste eerdere werk richtte zich echter op classificatie; de representatieruimte van onbalansregressie blijft onontgonnen. Classificatiegebaseerde methoden zijn niet geschikt voor regressietaken omdat ze kenmerken in afzonderlijke groepen clusteren zonder rekening te houden met de continue en geordende aard die essentieel is voor regressie. Vanuit een geometrisch perspectief richten wij ons uniek op het waarborgen van uniformiteit in de latente ruimte voor onbalansregressie via twee belangrijke verliesfuncties: omhullende en homogeniteit. De omhullende verliesfunctie moedigt aan dat de geïnduceerde trace het oppervlak van een hyperboloïde uniform bezet, terwijl de homogeniteitsverliesfunctie zorgt voor gladheid, waarbij representaties gelijkmatig verdeeld zijn op consistente intervallen. Onze methode integreert deze geometrische principes in de datarepresentaties via een Surrogate-driven Representation Learning (SRL) raamwerk. Experimenten met real-world regressie- en operatorleertaken benadrukken het belang van uniformiteit in onbalansregressie en valideren de effectiviteit van onze geometrisch gebaseerde verliesfuncties.
Preference learning verbetert Code LLMs verder dan supervised fine-tuning door gebruik te maken van relatieve kwaliteitsvergelijkingen. Bestaande methoden construeren voorkeursparen uit kandidaten op basis van testsucces, waarbij het monster met het hogere slagingspercentage als positief en het lagere als negief wordt behandeld. Deze benadering identificeert echter geen specifieke fouten in de code, wat voorkomt dat het model meer informatieve foutcorrectiepatronen leert, aangezien het uitlijnen van falende code als geheel de granulariteit mist die nodig is om betekenisvolle foutoplossingsrelaties vast te leggen. Om deze problemen aan te pakken, stellen we IterPref voor, een nieuw voorkeursuitlijningsframework dat menselijke iteratieve debugging nabootst om Code LLMs te verfijnen. IterPref lokaliseert expliciet foutregio's en lijn de corresponderende tokens uit via een op maat gemaakt DPO-algoritme. Om informatieve paren te genereren, introduceren we de CodeFlow-dataset, waar monsters iteratief worden verfijnd totdat ze tests doorstaan, met aanpassingen die foutcorrecties vastleggen. Uitgebreide experimenten tonen aan dat een diverse reeks Code LLMs uitgerust met IterPref aanzienlijke prestatieverbeteringen behaalt in codegeneratie en beter presteert op uitdagende taken zoals BigCodeBench. Diepgaande analyse onthult dat IterPref minder fouten oplevert. Onze code en data zullen publiekelijk beschikbaar worden gemaakt.
Hoewel vooruitgang in grote taalmodellen (LLM's) de kwaliteit van synthetische tekstgegevens de afgelopen jaren aanzienlijk heeft verbeterd, heeft het synthetiseren van tabelgegevens relatief minder aandacht gekregen. Wij pakken deze ongelijkheid aan met Tabby, een eenvoudige maar krachtige aanpassing na de training van het standaard Transformer-taalmodelarchitectuur, waardoor het geschikt wordt voor het synthetiseren van tabelgegevens. Tabby maakt het mogelijk om verschillen tussen kolommen weer te geven met behulp van Gated Mixture-of-Experts, met kolomspecifieke sets parameters. Empirisch gezien resulteert Tabby in een gegevenskwaliteit die bijna of gelijk is aan die van echte gegevens. Door onze nieuwe LLM-tabeltrainingsmethode, Plain, te combineren met Tabby, observeren we een kwaliteitsverbetering van tot wel 44% ten opzichte van eerdere methoden. We laten ook zien dat Tabby zich uitstrekt voorbij tabellen naar meer algemene gestructureerde gegevens, waarbij het evenaart met echte gegevens op een geneste JSON-dataset.
De afgelopen jaren hebben algemene visuele basismodellen (VFMs) een toenemende adoptie gezien, met name als beeldencoders voor populaire multimodale grote taalmodellen (MLLMs). Zonder semantisch fijnmazige begeleiding maken deze modellen echter nog steeds fundamentele voorspellingsfouten in de context van downstream taken die verband houden met tekst en beeld, zoals perceptie, begrip en redeneren met afbeeldingen die kleine en dichte teksten bevatten. Om deze kloof te overbruggen, ontwikkelen we TokenOCR, het eerste token-niveau visuele basismodel dat specifiek is afgestemd op taken die verband houden met tekst en beeld, ontworpen om een verscheidenheid aan traditionele downstream toepassingen te ondersteunen. Om de voorafgaande training van TokenOCR te vergemakkelijken, hebben we ook een hoogwaardige dataproductiepijplijn ontwikkeld die het eerste token-niveau beeldtekstdataset, TokenIT, construeert, bestaande uit 20 miljoen afbeeldingen en 1,8 miljard token-maskerparen. Bovendien maken we gebruik van deze basis met uitzonderlijke beeld-als-tekst-capaciteit om naadloos eerdere VFMs te vervangen door TokenOCR om een documentniveau MLLM, TokenVL, te construeren voor VQA-gebaseerde documentbegriptaken. Ten slotte tonen uitgebreide experimenten de effectiviteit van TokenOCR en TokenVL aan. Code, datasets en gewichten zullen beschikbaar zijn op https://token-family.github.io/TokenOCR_project.
Het bevorderen van AI in computationele pathologie vereist grote, hoogwaardige en diverse datasets, maar bestaande openbare datasets zijn vaak beperkt in orgaandiversiteit, klasse-dekking of annotatiekwaliteit. Om deze kloof te overbruggen, introduceren we SPIDER (Supervised Pathology Image-DEscription Repository), de grootste openbaar beschikbare patch-level dataset die meerdere orgeltypen omvat, waaronder Huid, Colorectaal en Thorax, met een uitgebreide klasse-dekking voor elk orgaan. SPIDER biedt hoogwaardige annotaties die zijn geverifieerd door expert-pathologen en omvat omringende contextpatches, die de classificatieprestaties verbeteren door ruimtelijke context te bieden. Naast de dataset presenteren we baseline-modellen die op SPIDER zijn getraind met behulp van het Hibou-L foundation model als feature extractor, gecombineerd met een op aandacht gebaseerde classificatiekop. De modellen behalen state-of-the-art prestaties over meerdere weefselcategorieën en dienen als sterke benchmarks voor toekomstig digitaal pathologieonderzoek. Naast patchclassificatie maakt het model snelle identificatie van significante gebieden, kwantitatieve weefselmetingen mogelijk en legt het een basis voor multimodale benaderingen. Zowel de dataset als de getrainde modellen zijn openbaar beschikbaar om onderzoek, reproduceerbaarheid en AI-gestuurde pathologieontwikkeling te bevorderen. Toegang is beschikbaar op: https://github.com/HistAI/SPIDER
In de afgelopen decennia heeft neurowetenschappelijk en psychologisch onderzoek directe verbanden blootgelegd tussen smaak en auditieve waarnemingen. Dit artikel verkent multimodale generatieve modellen die in staat zijn smaakinformatie om te zetten in muziek, voortbouwend op dit fundamentele onderzoek. We bieden een kort overzicht van de stand van de techniek op dit gebied, waarbij we belangrijke bevindingen en methodologieën belichten. We presenteren een experiment waarin een fijn afgestelde versie van een generatief muziekmodel (MusicGEN) wordt gebruikt om muziek te genereren op basis van gedetailleerde smaakbeschrijvingen die voor elk muziekstuk zijn verstrekt. De resultaten zijn veelbelovend: volgens de evaluatie van de deelnemers (n=111) produceert het fijn afgestelde model muziek die de ingevoerde smaakbeschrijvingen coherenter weerspiegelt in vergelijking met het niet fijn afgestelde model. Deze studie vertegenwoordigt een belangrijke stap in het begrijpen en ontwikkelen van belichaamde interacties tussen AI, geluid en smaak, en opent nieuwe mogelijkheden op het gebied van generatieve AI. We maken onze dataset, code en vooraf getrainde model beschikbaar op: https://osf.io/xs5jy/.
Dit artikel introduceert Discrete-time Hybrid Automata Learning (DHAL), een raamwerk dat gebruikmaakt van on-policy Reinforcement Learning om moduswisselingen te identificeren en uit te voeren zonder trajectsegmentatie of het leren van gebeurtenisfuncties. Hybride dynamische systemen, die continue stroming en discrete moduswisselingen omvatten, kunnen robotica-taken zoals de voortbeweging van potenrobots modelleren. Modelgebaseerde methoden zijn meestal afhankelijk van vooraf gedefinieerde gangen, terwijl modelvrije benaderingen expliciete kennis van moduswisselingen missen. Huidige methoden identificeren discrete modi via segmentatie voordat ze continue stroming regresseren, maar het leren van hoogdimensionale complexe rigide lichaamsdynamica zonder trajectlabels of segmentatie is een uitdagend open probleem. Onze aanpak integreert een beta-beleidsverdeling en een multi-critic-architectuur om contactgestuurde bewegingen te modelleren, geïllustreerd door een uitdagende taak met een viervoetige robot op een skateboard. We valideren onze methode door simulaties en tests in de echte wereld, waarbij we robuuste prestaties aantonen in hybride dynamische systemen.