Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het Multimodale Large Language Model (MLLM) ondergaat momenteel een snelle groei, aangedreven door de geavanceerde mogelijkheden van LLM's. In tegenstelling tot eerdere specialisten, evolueren bestaande MLLM's naar een Multimodale Generalist-paradigma. Aanvankelijk beperkt tot het begrijpen van meerdere modaliteiten, zijn deze modellen geavanceerd tot het niet alleen begrijpen maar ook genereren over modaliteiten heen. Hun mogelijkheden zijn uitgebreid van grofkorrelig naar fijnkorrelig multimodaal begrip en van het ondersteunen van beperkte modaliteiten naar willekeurige modaliteiten. Hoewel er veel benchmarks bestaan om MLLM's te beoordelen, rijst een kritische vraag: Kunnen we simpelweg aannemen dat hogere prestaties over taken heen wijst op een sterker MLLM-vermogen, waardoor we dichter bij AI op menselijk niveau komen? Wij stellen dat het antwoord niet zo eenvoudig is als het lijkt. Dit project introduceert General-Level, een evaluatieraamwerk dat 5-schaalniveaus van MLLM-prestaties en algemeenheid definieert, en biedt een methodologie om MLLM's te vergelijken en de voortgang van bestaande systemen te meten richting robuustere multimodale generalisten en uiteindelijk richting AGI. De kern van het raamwerk is het concept van Synergie, dat meet of modellen consistente mogelijkheden behouden over begrip en generatie heen, en over meerdere modaliteiten. Om deze evaluatie te ondersteunen, presenteren we General-Bench, dat een breder spectrum van vaardigheden, modaliteiten, formaten en mogelijkheden omvat, waaronder meer dan 700 taken en 325.800 instanties. De evaluatieresultaten waarbij meer dan 100 bestaande state-of-the-art MLLM's betrokken zijn, onthullen de vermogensrangschikking van generalisten en benadrukken de uitdagingen in het bereiken van echte AI. Wij verwachten dat dit project de weg vrijmaakt voor toekomstig onderzoek naar next-generation multimodale foundationmodellen, en een robuuste infrastructuur biedt om de realisatie van AGI te versnellen. Projectpagina: https://generalist.top/
Grote Taalmodellen (LLMs) zijn gevoelig voor hallucinaties, en Retrieval-Augmented Generation (RAG) helpt dit te verminderen, maar tegen hoge computationale kosten en met het risico op desinformatie. Adaptieve retrieval streeft ernaar alleen te zoeken wanneer dat nodig is, maar bestaande benaderingen vertrouwen op onzekerheidschattingen gebaseerd op LLMs, wat inefficiënt en onpraktisch blijft. In deze studie introduceren we lichtgewicht, LLM-onafhankelijke adaptieve retrievalmethoden gebaseerd op externe informatie. We onderzochten 27 kenmerken, ingedeeld in 7 groepen, en hun hybride combinaties. We evalueerden deze methoden op 6 vraag-antwoord (QA) datasets, waarbij we de QA-prestaties en efficiëntie beoordeelden. De resultaten tonen aan dat onze aanpak de prestaties van complexe LLM-gebaseerde methoden evenaart, terwijl aanzienlijke efficiëntiewinsten worden behaald, wat het potentieel van externe informatie voor adaptieve retrieval aantoont.
De afgelopen jaren is er aanzienlijke vooruitgang geboekt in zowel multimodale begripsmodellen als beeldgeneratiemodellen. Ondanks hun respectievelijke successen hebben deze twee domeinen zich onafhankelijk ontwikkeld, wat heeft geleid tot verschillende architecturale paradigma's: terwijl autoregressieve architecturen de boventoon voeren in multimodaal begrip, zijn diffusiegebaseerde modellen de hoeksteen geworden van beeldgeneratie. Recentelijk is er een groeiende interesse ontstaan in het ontwikkelen van geïntegreerde frameworks die deze taken combineren. De opkomst van de nieuwe mogelijkheden van GPT-4o illustreert deze trend en benadrukt het potentieel voor unificatie. De architectonische verschillen tussen de twee domeinen vormen echter aanzienlijke uitdagingen. Om een duidelijk overzicht te bieden van de huidige inspanningen richting unificatie, presenteren we een uitgebreid overzicht dat toekomstig onderzoek moet begeleiden. Eerst introduceren we de fundamentele concepten en recente ontwikkelingen in multimodaal begrip en tekst-naar-beeldgeneratiemodellen. Vervolgens bespreken we bestaande geïntegreerde modellen, die we categoriseren in drie hoofdarchitecturale paradigma's: diffusiegebaseerd, autoregressief gebaseerd en hybride benaderingen die autoregressieve en diffusiemechanismen combineren. Voor elke categorie analyseren we de structurele ontwerpen en innovaties die door gerelateerde werken zijn geïntroduceerd. Daarnaast stellen we datasets en benchmarks samen die specifiek zijn afgestemd op geïntegreerde modellen, wat bronnen biedt voor toekomstige verkenning. Tot slot bespreken we de belangrijkste uitdagingen waarmee dit jonge vakgebied te maken heeft, waaronder tokenisatiestrategie, cross-modale aandacht en data. Aangezien dit gebied zich nog in de beginfase bevindt, verwachten we snelle vooruitgang en zullen we dit overzicht regelmatig bijwerken. Ons doel is om verder onderzoek te inspireren en een waardevolle referentie te bieden voor de gemeenschap. De referenties die bij dit overzicht horen, zijn beschikbaar op GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
Effectief zoeken naar informatie is essentieel voor het verbeteren van de redeneer- en generatiecapaciteiten van grote taalmodellen (LLMs). Recent onderzoek heeft verkend hoe reinforcement learning (RL) kan worden gebruikt om de zoekcapaciteiten van LLMs te verbeteren door interactie met live zoekmachines in real-world omgevingen. Hoewel deze benaderingen veelbelovende resultaten laten zien, worden ze geconfronteerd met twee grote uitdagingen: (1) Ongecontroleerde documentkwaliteit: De kwaliteit van documenten die door zoekmachines worden geretourneerd, is vaak onvoorspelbaar, wat ruis en instabiliteit introduceert in het trainingsproces. (2) Extreem hoge API-kosten: RL-training vereist frequente rollouts, wat mogelijk honderdduizenden zoekverzoeken omvat, wat aanzienlijke API-kosten met zich meebrengt en de schaalbaarheid ernstig beperkt. Om deze uitdagingen aan te pakken, introduceren we ZeroSearch, een reinforcement learning-framework dat de zoekcapaciteiten van LLMs stimuleert zonder interactie met echte zoekmachines. Onze aanpak begint met lichtgewicht supervised fine-tuning om het LLM om te vormen tot een retrievemodule die zowel relevante als ruisachtige documenten kan genereren in reactie op een query. Tijdens de RL-training gebruiken we een curriculum-gebaseerde rollout-strategie die de kwaliteit van gegenereerde documenten geleidelijk degradeert, waardoor het redeneervermogen van het model progressief wordt gestimuleerd door het bloot te stellen aan steeds uitdagendere retrievalscenario's. Uitgebreide experimenten tonen aan dat ZeroSearch de zoekcapaciteiten van LLMs effectief stimuleert met behulp van een 3B LLM als retrievemodule. Opmerkelijk is dat een 7B retrievemodule vergelijkbare prestaties behaalt als de echte zoekmachine, terwijl een 14B retrievemodule deze zelfs overtreft. Bovendien generaliseert het goed over zowel basis- als instructie-getrainde modellen van verschillende parametergroottes en is het compatibel met een breed scala aan RL-algoritmen.
Gepersonaliseerde videogeneratie heeft als doel video's te produceren met specifieke onderwerpen onder flexibele, door de gebruiker gedefinieerde voorwaarden, maar bestaande methoden hebben vaak moeite met identiteitsconsistentie en beperkte invoermodaliteiten. In dit artikel stellen we HunyuanCustom voor, een multi-modale gepersonaliseerde videogeneratieframework dat de nadruk legt op onderwerpconsistentie en tegelijkertijd beeld-, audio-, video- en tekstcondities ondersteunt. Gebaseerd op HunyuanVideo, behandelt ons model eerst de beeld-tekst-geconditioneerde generatietaak door een tekst-beeld-fusiemodule te introduceren op basis van LLaVA voor verbeterd multi-modale begrip, samen met een beeld-ID-versterkingsmodule die gebruikmaakt van temporele concatenatie om identiteitskenmerken over frames heen te versterken. Om audio- en video-geconditioneerde generatie mogelijk te maken, stellen we verder modaliteitsspecifieke conditie-injectiemechanismen voor: een AudioNet-module die hiërarchische uitlijning bereikt via ruimtelijke kruisattentie, en een video-gestuurde injectiemodule die latent-gecomprimeerde conditionele video integreert via een patchify-gebaseerd kenmerk-uitlijningsnetwerk. Uitgebreide experimenten in scenario's met één en meerdere onderwerpen tonen aan dat HunyuanCustom aanzienlijk beter presteert dan state-of-the-art open- en closed-source methoden wat betreft ID-consistentie, realisme en tekst-video-uitlijning. Bovendien valideren we de robuustheid ervan over verschillende downstream taken, waaronder audio- en video-gestuurde gepersonaliseerde videogeneratie. Onze resultaten benadrukken de effectiviteit van multi-modale conditionering en identiteitsbehoudstrategieën in het bevorderen van controleerbare videogeneratie. Alle code en modellen zijn beschikbaar op https://hunyuancustom.github.io.
Shape primitive abstraction, waarbij complexe 3D-vormen worden ontleed in eenvoudige geometrische elementen, speelt een cruciale rol in de menselijke visuele cognitie en heeft brede toepassingen in computervisie en grafische weergave. Hoewel recente vooruitgang in 3D-contentgeneratie opmerkelijke voortgang heeft geboekt, vertrouwen bestaande methoden voor primitieve abstractie ofwel op geometrische optimalisatie met beperkt semantisch begrip, of leren ze van kleinschalige, categorie-specifieke datasets, wat het generaliseren over diverse vormcategorieën bemoeilijkt. Wij presenteren PrimitiveAnything, een nieuw framework dat shape primitive abstraction herformuleert als een taak voor het genereren van primitieve assemblages. PrimitiveAnything omvat een vorm-geconditioneerde primitieve transformer voor auto-regressieve generatie en een ambiguïteitsvrij parameterisatieschema om meerdere typen primitieven op een uniforme manier weer te geven. Het voorgestelde framework leert direct het proces van primitieve assemblage van grootschalige, door mensen gemaakte abstracties, waardoor het kan vastleggen hoe mensen complexe vormen ontleden in primitieve elementen. Door uitgebreide experimenten tonen we aan dat PrimitiveAnything hoogwaardige primitieve assemblages kan genereren die beter aansluiten bij de menselijke perceptie, terwijl de geometrische nauwkeurigheid over diverse vormcategorieën behouden blijft. Het biedt voordelen voor diverse 3D-toepassingen en toont potentieel voor het mogelijk maken van primitief-gebaseerde, door gebruikers gegenereerde content (UGC) in games. Projectpagina: https://primitiveanything.github.io
OpenAI's CLIP, dat begin 2021 werd uitgebracht, is lange tijd de eerste keuze geweest als visuele encoder voor het bouwen van multimodale foundation-modellen. Hoewel recente alternatieven zoals SigLIP deze status quo beginnen uit te dagen, zijn er naar onze kennis nog geen volledig open alternatieven: hun trainingsdata blijft propriëtair en/of hun trainingsmethoden zijn niet vrijgegeven. Dit artikel vult deze leemte met OpenVision, een volledig open, kosteneffectieve familie van visuele encoders die de prestaties van OpenAI's CLIP evenaren of overtreffen wanneer ze worden geïntegreerd in multimodale frameworks zoals LLaVA. OpenVision bouwt voort op bestaande werken — bijvoorbeeld CLIPS voor het trainingsframework en Recap-DataComp-1B voor de trainingsdata — terwijl het meerdere cruciale inzichten onthult voor het verbeteren van de encoder-kwaliteit en praktische voordelen laat zien in de vooruitgang van multimodale modellen. Door visuele encoders vrij te geven die variëren van 5,9M tot 632,1M parameters, biedt OpenVision ontwikkelaars een flexibele afweging tussen capaciteit en efficiëntie bij het bouwen van multimodale modellen: grotere modellen leveren verbeterde multimodale prestaties, terwijl kleinere versies lichtgewicht, edge-ready multimodale implementaties mogelijk maken.
Data mixing-strategieën hebben de kosten voor het trainen van taalmodelleen succesvol verlaagd. Hoewel veelbelovend, hebben dergelijke methoden twee tekortkomingen. Ten eerste vertrouwen ze op vooraf bepaalde datadomeinen (bijvoorbeeld databronnen, taaktypen), die mogelijk cruciale semantische nuances missen, wat ten koste gaat van de prestaties. Ten tweede schalen deze methoden met het aantal domeinen op een computationeel onhoudbare manier. Wij pakken deze uitdagingen aan via R&B, een framework dat trainingsdata opnieuw indeelt op basis van semantische gelijkenis (Regroup) om fijnmazigere domeinen te creëren, en de datasamenstelling efficiënt optimaliseert (Balance) door gebruik te maken van een Gram-matrix die wordt gegenereerd door domeingradiënten die tijdens het trainen worden verkregen. In tegenstelling tot eerdere werken, elimineert het de noodzaak voor extra rekenkracht om evaluatie-informatie zoals verliezen of gradiënten te verkrijgen. We analyseren deze techniek onder standaard regelmatigheidsvoorwaarden en bieden theoretische inzichten die de effectiviteit van R&B rechtvaardigen in vergelijking met niet-adaptieve mixing-benaderingen. Empirisch demonstreren we de effectiviteit van R&B op vijf diverse datasets, variërend van natuurlijke taal tot redeneren en multimodale taken. Met slechts 0,01% extra rekenoverhead matcht of overtreft R&B de prestaties van state-of-the-art data mixing-strategieën.
We onderzoeken het vermogen van Vision Language Models (VLMs) om visueel perspectief nemen uit te voeren met behulp van een nieuwe reeks visuele taken geïnspireerd op gevestigde menselijke tests. Onze aanpak maakt gebruik van zorgvuldig gecontroleerde scènes, waarin een enkele humanoïde minifiguur wordt gecombineerd met een enkel object. Door systematisch ruimtelijke configuraties te variëren - zoals de positie van het object ten opzichte van de humanoïde minifiguur en de oriëntatie van de humanoïde minifiguur - en zowel vogelperspectief als oppervlaktezicht te gebruiken, hebben we 144 unieke visuele taken gecreëerd. Elke visuele taak is gekoppeld aan een reeks van 7 diagnostische vragen die zijn ontworpen om drie niveaus van visuele cognitie te beoordelen: scènebegrip, ruimtelijk redeneren en visueel perspectief nemen. Onze evaluatie van verschillende state-of-the-art modellen, waaronder GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct en varianten van Claude Sonnet, toont aan dat ze uitblinken in scènebegrip, maar dat de prestaties aanzienlijk afnemen bij ruimtelijk redeneren en verder verslechteren bij perspectief nemen. Onze analyse suggereert een kloof tussen oppervlakkige objectherkenning en het diepere ruimtelijke en perspectiefredeneren dat nodig is voor complexe visuele taken, wat wijst op de noodzaak om expliciete geometrische representaties en op maat gemaakte trainingsprotocollen te integreren in toekomstige VLM-ontwikkeling.
Grote Taalmodellen (LLMs) tonen potentieel voor complex redeneren, maar hun vermogen voor emergentie van coördinatie in Multi-Agent Systemen (MAS) onder strikte beperkingen—zoals beperkte lokale waarneming en communicatie, kenmerkend voor natuurlijke zwermen—blijft grotendeels onontgonnen, met name wat betreft de nuances van zwermintelligentie. Bestaande benchmarks vangen vaak niet volledig de unieke uitdagingen van gedecentraliseerde coördinatie die ontstaan wanneer agenten opereren met onvolledige ruimtelijk-temporele informatie. Om deze kloof te overbruggen, introduceren we SwarmBench, een nieuwe benchmark ontworpen om de zwermintelligentiecapaciteiten van LLMs die als gedecentraliseerde agenten fungeren systematisch te evalueren. SwarmBench omvat vijf fundamentele MAS-coördinatietaken binnen een configureerbare 2D-gridomgeving, waarbij agenten voornamelijk moeten vertrouwen op lokale sensorische input (k x k zicht) en lokale communicatie. We stellen metingen voor voor coördinatie-effectiviteit en analyseren emergente groepsdynamiek. Door verschillende toonaangevende LLMs in een zero-shot setting te evalueren, vinden we aanzienlijke prestatieverschillen tussen taken, wat de moeilijkheden benadrukt die worden veroorzaakt door lokale informatiebeperkingen. Hoewel enige coördinatie ontstaat, tonen resultaten beperkingen in robuuste planning en strategievorming onder onzekerheid in deze gedecentraliseerde scenario's. Het beoordelen van LLMs onder zwermachtige omstandigheden is cruciaal om hun potentieel in toekomstige gedecentraliseerde systemen te realiseren. We brengen SwarmBench uit als een open, uitbreidbaar toolkit—gebouwd op een aanpasbaar en schaalbaar fysiek systeem met gedefinieerde mechanische eigenschappen. Het biedt omgevingen, prompts, evaluatiescripts en de uitgebreide experimentele datasets die zijn gegenereerd, met als doel reproduceerbaar onderzoek te bevorderen naar LLM-gebaseerde MAS-coördinatie en de theoretische grondslagen van Embodied MAS. Onze coderepository is beschikbaar op https://github.com/x66ccff/swarmbench.
Als een ogenschijnlijk vanzelfsprekende taak is probleemoplossing een belangrijk onderdeel geweest van wetenschap en techniek. Een algemene maar concrete formulering van probleemoplossing zelf ontbreekt echter. Met de recente ontwikkeling van AI-gebaseerde probleemoplossingsagenten neemt de vraag naar verifieerbaarheid op procesniveau snel toe, maar dit gebied blijft onderbelicht. Om deze lacunes op te vullen, presenteren we een principiële formulering van probleemoplossing als een deterministisch Markov-beslissingsproces; een nieuw raamwerk, FPS (Formal Problem-Solving), dat bestaande FTP (formal theorem proving) omgevingen gebruikt om procesgeverifieerde probleemoplossing uit te voeren; en D-FPS (Deductive FPS), dat het oplossen en antwoordverificatie ontkoppelt voor betere afstemming op mensen. De expressiviteit, correctheid en volledigheid van de raamwerken worden bewezen. We construeren drie benchmarks voor probleemoplossing: FormalMath500, een formalisering van een subset van de MATH500 benchmark; MiniF2F-Solving en PutnamBench-Solving, aanpassingen van de FTP benchmarks MiniF2F en PutnamBench. Voor een betrouwbare, interpreteerbare en op mensen afgestemde evaluatie stellen we RPE (Restricted Propositional Equivalence) voor, een symbolische benadering om de juistheid van antwoorden te bepalen door formele verificatie. We evalueren vier veelvoorkomende FTP-modellen en twee prompting-methoden als basislijnen, waarbij maximaal 23,77% van FormalMath500, 27,47% van MiniF2F-Solving en 0,31% van PutnamBench-Solving wordt opgelost.
De GitHub-issue-oplossingstaak heeft als doel om problemen die in repositories worden gemeld automatisch op te lossen. Met de vooruitgang in grote taalmodellen (LLM's) heeft deze taak steeds meer aandacht gekregen, en er zijn verschillende benchmarks voorgesteld om de probleemoplossende vaardigheden van LLM's te evalueren. Bestaande benchmarks hebben echter drie belangrijke beperkingen. Ten eerste richten huidige benchmarks zich op één programmeertaal, wat de evaluatie van problemen uit repositories in verschillende talen beperkt. Ten tweede bestrijken ze meestal een smal domeinbereik, wat mogelijk niet de diversiteit van problemen in de echte wereld weerspiegelt. Ten derde vertrouwen bestaande benchmarks uitsluitend op tekstuele informatie in probleembeschrijvingen, waarbij multimodale informatie zoals afbeeldingen in problemen over het hoofd wordt gezien. In dit artikel stellen we OmniGIRL voor, een GitHub Issue ResoLution-benchmark die meertalig, multimodaal en multidomein is. OmniGIRL omvat 959 taakinstanties, die zijn verzameld uit repositories in vier programmeertalen (Python, JavaScript, TypeScript en Java) en acht verschillende domeinen. Onze evaluatie toont aan dat huidige LLM's beperkte prestaties leveren op OmniGIRL. Opmerkelijk is dat het best presterende model, GPT-4o, slechts 8,6% van de problemen oplost. Daarnaast blijkt dat huidige LLM's moeite hebben met het oplossen van problemen die begrip van afbeeldingen vereisen. De beste prestatie wordt behaald door Claude-3.5-Sonnet, dat slechts 10,5% van de problemen met afbeeldingsinformatie oplost. Tot slot analyseren we de redenen achter het falen van huidige LLM's op OmniGIRL, wat inzichten biedt voor toekomstige verbeteringen.
Dual-system VLA (Vision-Language-Actie) architecturen zijn een populair onderwerp geworden in onderzoek naar belichaamde intelligentie, maar er is een gebrek aan voldoende open-source werk voor verdere prestatieanalyse en optimalisatie. Om dit probleem aan te pakken, zal dit artikel de structurele ontwerpen van bestaande dual-system architecturen samenvatten en vergelijken, en systematische empirische evaluaties uitvoeren op de kernontwerpelementen van bestaande dual-system architecturen. Uiteindelijk zal het een kosteneffectief open-source model bieden voor verdere verkenning. Natuurlijk zal dit project blijven updaten met meer experimentele conclusies en open-source modellen met verbeterde prestaties waaruit iedereen kan kiezen. Projectpagina: https://openhelix-robot.github.io/.
Probleemoplossing is altijd een fundamentele drijfveer geweest van menselijke vooruitgang in talloze domeinen. Met de vooruitgang in kunstmatige intelligentie zijn Large Language Models (LLMs) naar voren gekomen als krachtige tools die complexe problemen in diverse domeinen kunnen aanpakken. In tegenstelling tot traditionele computationele systemen combineren LLMs ruwe rekenkracht met een benadering van menselijk redeneren, waardoor ze oplossingen kunnen genereren, inferenties kunnen maken en zelfs externe computationele tools kunnen benutten. Het toepassen van LLMs op probleemoplossing in de echte wereld brengt echter aanzienlijke uitdagingen met zich mee, zoals meerstapsredenering, integratie van domeinkennis en verificatie van resultaten. Dit overzicht onderzoekt de mogelijkheden en beperkingen van LLMs bij complexe probleemoplossing, waarbij technieken zoals Chain-of-Thought (CoT) redeneren, kennisuitbreiding en diverse LLM-gebaseerde en tool-gebaseerde verificatietechnieken worden besproken. Daarnaast belichten we domeinspecifieke uitdagingen in verschillende domeinen, zoals software engineering, wiskundig redeneren en bewijzen, data-analyse en modellering, en wetenschappelijk onderzoek. Het artikel gaat verder in op de fundamentele beperkingen van de huidige LLM-oplossingen en de toekomstige richtingen van LLM-gebaseerde complexe probleemoplossing vanuit het perspectief van meerstapsredenering, integratie van domeinkennis en verificatie van resultaten.
In dit artikel introduceren we OSUniverse: een benchmark voor complexe, multimodale taken gericht op desktops voor geavanceerde GUI-navigatie AI-agents, met een focus op gebruiksgemak, uitbreidbaarheid, uitgebreide dekking van testgevallen en geautomatiseerde validatie. We verdelen de taken in oplopende niveaus van complexiteit, van eenvoudige precisieklikken tot meerstaps, multitoepassingstests die behendigheid, precisie en helder denken van de agent vereisen. In versie één van de benchmark, die hier wordt gepresenteerd, hebben we de complexiteit van de benchmarktestgevallen afgestemd om ervoor te zorgen dat de SOTA (State of the Art) agents (op het moment van publicatie) geen resultaten behalen die hoger zijn dan 50%, terwijl de gemiddelde kantoorwerker al deze taken met perfecte nauwkeurigheid kan uitvoeren. De benchmark kan handmatig worden gescoord, maar we introduceren ook een geautomatiseerd validatiemechanisme met een gemiddeld foutpercentage van minder dan 2%. Daarom biedt deze benchmark een solide basis voor volledig geautomatiseerde metingen van de voortgang, capaciteiten en effectiviteit van GUI-navigatie AI-agents op korte en middellange termijn. De broncode van de benchmark is beschikbaar op https://github.com/agentsea/osuniverse.
Agents worden voornamelijk geëvalueerd en geoptimaliseerd aan de hand van taaksuccesmetrieken, die grof zijn, afhankelijk zijn van handmatig ontwerp door experts, en geen beloning bieden voor tussentijdse emergente gedragingen. Wij stellen AutoLibra voor, een raamwerk voor agentevaluatie, dat open-einde menselijke feedback, zoals "Als je merkt dat de knop uitgeschakeld is, klik er dan niet nogmaals op", of "Deze agent heeft te veel autonomie om zelf te beslissen wat te doen", omzet in metrieken voor het evalueren van fijnmazige gedragingen in agenttrajecten. AutoLibra bereikt dit door feedback te verankeren aan het gedrag van een agent, vergelijkbare positieve en negatieve gedragingen te clusteren, en concrete metrieken te creëren met duidelijke definities en specifieke voorbeelden, die kunnen worden gebruikt om LLM-as-a-Judge als evaluatoren aan te sturen. Wij stellen verder twee meta-metrieken voor om de afstemming van een set (geïnduceerde) metrieken met open feedback te evalueren: "dekking" en "redundantie". Door het optimaliseren van deze meta-metrieken, tonen we experimenteel aan dat AutoLibra in staat is om meer concrete agentevaluatiemetrieken te induceren dan die welke worden voorgesteld in eerdere agentevaluatiebenchmarks, en nieuwe metrieken te ontdekken om agents te analyseren. We presenteren ook twee toepassingen van AutoLibra in agentverbetering: Ten eerste laten we zien dat door AutoLibra geïnduceerde metrieken betere prompt-engineeringdoelen dienen dan de taaksuccesratio bij een breed scala aan tekstspeltaken, wat de agentprestatie ten opzichte van de baseline met een gemiddelde van 20% verbetert. Ten tweede tonen we aan dat AutoLibra iteratief hoogwaardige fine-tuningdata kan selecteren voor webnavigatieagents. Onze resultaten suggereren dat AutoLibra een krachtig, taakonafhankelijk hulpmiddel is voor het evalueren en verbeteren van taalagents.
De meeste bestaande video-anomaliedetectoren vertrouwen uitsluitend op RGB-frames, die niet over de temporele resolutie beschikken die nodig is om abrupte of kortdurende bewegingssignalen vast te leggen, belangrijke indicatoren van afwijkende gebeurtenissen. Om deze beperking aan te pakken, stellen we Image-Event Fusion for Video Anomaly Detection (IEF-VAD) voor, een raamwerk dat gebeurtenisrepresentaties direct uit RGB-video's synthetiseert en ze fuseert met beeldkenmerken via een principieel, onzekerheidsbewust proces. Het systeem (i) modelleert zware staart-sensornoise met een Student's-t waarschijnlijkheid, waarbij waardeniveau inverse-variantiegewichten worden afgeleid via een Laplace-benadering; (ii) past Kalman-stijl framegewijze updates toe om modaliteiten in de tijd in balans te brengen; en (iii) verfijnt iteratief de gefuseerde latente toestand om resterende kruismodale ruis te verwijderen. Zonder enige toegewijde gebeurtenissensor of framegewijze labels, stelt IEF-VAD een nieuwe standaard op meerdere real-world benchmarks voor anomaliedetectie. Deze bevindingen benadrukken het nut van synthetische gebeurtenisrepresentaties bij het benadrukken van bewegingssignalen die vaak ondervertegenwoordigd zijn in RGB-frames, waardoor nauwkeurig en robuust videobegrip mogelijk wordt in diverse toepassingen zonder toegewijde gebeurtenissensoren te vereisen. Code en modellen zijn beschikbaar op https://github.com/EavnJeong/IEF-VAD.
Grote taalmodellen (LLMs) behalen opmerkelijke prestaties op tal van taken door gebruik te maken van een diverse reeks aanpassingsstrategieën. Het optimaal selecteren van een model en aanpassingsstrategie onder beperkte middelen is echter uitdagend en vereist vaak uitgebreid experimenteren. Wij onderzoeken of het mogelijk is om zowel prestaties als kosten nauwkeurig te voorspellen zonder dure proeven. We formaliseren het strategiekeuzeprobleem voor LLMs en introduceren COSMOS, een uniform voorspellingsraamwerk dat efficiënt de uitkomsten van aanpassingen schat tegen minimale kosten. We concretiseren en bestuderen de capaciteit van ons raamwerk via een tweetal krachtige voorspellers: embedding-augmented lichtgewicht proxy-modellen om de prestaties van fine-tuning te voorspellen, en schaalwetten met weinig steekproeven om retrieval-augmented in-context learning te voorspellen. Uitgebreide evaluatie over acht representatieve benchmarks toont aan dat COSMOS een hoge voorspellingsnauwkeurigheid bereikt terwijl de rekenkosten gemiddeld met 92,72% worden verlaagd, en tot wel 98,71% in resource-intensieve scenario's. Onze resultaten laten zien dat efficiënte voorspelling van aanpassingsuitkomsten niet alleen haalbaar is, maar ook de rekenoverhead van LLM-implementatie aanzienlijk kan verminderen terwijl de prestatiestandaarden worden gehandhaafd.
Semi-gestuurd leren is een overtuigende benadering geworden voor 3D-tandsegmentatie uit CBCT-scans, waar gelabelde gegevens schaars zijn. Bestaande methoden kampen echter nog steeds met twee hardnekkige uitdagingen: beperkte correctieve supervisie in structureel ambiguë of verkeerd gelabelde regio's tijdens het gestuurde trainingsproces en prestatievermindering veroorzaakt door onbetrouwbare pseudo-labels op ongelabelde gegevens. Om deze problemen aan te pakken, stellen we Region-Aware Instructive Learning (RAIL) voor, een semi-gestuurd raamwerk met een dubbele groep en dubbele studenten. Elke groep bevat twee studentmodellen die worden begeleid door een gedeeld lerarennetwerk. Door afwisselend te trainen tussen de twee groepen, bevordert RAIL intergroep kennisoverdracht en samenwerkende regio-gerichte instructie, terwijl overfitting aan de kenmerken van een enkel model wordt verminderd. Specifiek introduceert RAIL twee instructieve mechanismen. De Disagreement-Focused Supervision (DFS) Controller verbetert het gestuurde leren door voorspellingen alleen te instrueren binnen gebieden waar de uitvoer van studenten afwijkt van zowel de grondwaarheid als de beste student, waardoor de supervisie wordt geconcentreerd op structureel ambiguë of verkeerd gelabelde gebieden. In de ongestuurde fase versterkt de Confidence-Aware Learning (CAL) Modulator overeenstemming in regio's met een hoge modelzekerheid, terwijl het effect van voorspellingen met een lage betrouwbaarheid tijdens de training wordt verminderd. Dit helpt voorkomen dat ons model onstabiele patronen leert en verbetert de algehele betrouwbaarheid van pseudo-labels. Uitgebreide experimenten op vier CBCT-tandsegmentatiedatasets tonen aan dat RAIL state-of-the-art methoden overtreft bij beperkte annotatie. Onze code zal beschikbaar zijn op https://github.com/Tournesol-Saturday/RAIL.
De creatie van wetenschappelijke kennis ondergaat een fundamentele transformatie doordat mensen en AI-systemen zich ontwikkelen van een gereedschap-gebruiker relatie naar co-evolutionaire epistemische partnerschappen. Toen AlphaFold de voorspelling van eiwitstructuren revolutioneerde, beschreven onderzoekers hoe ze samenwerkten met een epistemische partner die hun begrip van fundamentele relaties hervormde. Dit artikel introduceert Cognitio Emergens (CE), een raamwerk dat kritische beperkingen in bestaande modellen aanpakt. Deze modellen richten zich op statische rollen of smalle metrieken en slagen er niet in vast te leggen hoe wetenschappelijk begrip ontstaat door recursieve mens-AI-interactie over tijd. CE integreert drie componenten die deze beperkingen aanpakken: Agency Configurations, die beschrijven hoe autoriteit wordt verdeeld tussen mensen en AI (Gericht, Bijdragend, Partnerschap), waarbij partnerschappen dynamisch oscilleren tussen configuraties in plaats van een lineaire progressie te volgen; Epistemic Dimensions, die zes specifieke capaciteiten vastleggen die ontstaan door samenwerking over de assen Ontdekking, Integratie en Projectie, en die unieke "capaciteitssignaturen" creëren die de ontwikkeling sturen; en Partnership Dynamics, die krachten identificeren die vormgeven hoe deze relaties evolueren, met name het risico van epistemische vervreemding waarbij onderzoekers de interpretatieve controle verliezen over kennis die ze formeel onderschrijven. Gebaseerd op autopoiesis-theorie, sociale systeemtheorie en organisatorische modulariteit, onthult CE hoe kennisco-creatie ontstaat door continue onderhandeling van rollen, waarden en organisatiestructuren. Door mens-AI-wetenschappelijke samenwerking fundamenteel te herdefiniëren als co-evolutionair, biedt CE een gebalanceerd perspectief dat noch kritiekloos de evoluerende rol van AI viert, noch deze onnodig vreest. In plaats daarvan biedt het conceptuele tools voor het cultiveren van partnerschappen die betekenisvolle menselijke participatie behouden en tegelijkertijd transformerende wetenschappelijke doorbraken mogelijk maken.