Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Test-time scaling streeft ernaar de redeneerprestaties van grote taalmmodellen (LLMs) te verbeteren door extra rekenbronnen toe te voegen. Een veelgebruikte aanpak binnen het veld is sampling-gebaseerde test-time scaling methoden, die het redeneren verbeteren door meerdere redeneerpaden te genereren voor een gegeven invoer tijdens inferentie. Ondanks het praktische succes blijven de theoretische fundamenten echter onderbelicht. In dit artikel bieden we het eerste theoretische kader voor het analyseren van sampling-gebaseerde test-time scaling methoden, gebaseerd op het perspectief van betrouwbaarheidsschatting. Op basis van dit kader analyseren we twee dominante paradigma's: zelfconsistentie en perplexiteit, en onthullen we belangrijke beperkingen: zelfconsistentie lijdt onder een hoge schattingsfout, terwijl perplexiteit aanzienlijke modelleerfouten vertoont en mogelijke verslechtering van de convergentie van de schattingsfout. Om deze beperkingen aan te pakken, introduceren we RPC, een hybride methode die gebruikmaakt van onze theoretische inzichten via twee belangrijke componenten: Perplexiteitsconsistentie en Redeneersnoei. Perplexiteitsconsistentie combineert de sterke punten van zelfconsistentie en perplexiteit, waardoor de convergentiesnelheid van de schattingsfout wordt verhoogd van lineair naar exponentieel, terwijl de modelfout behouden blijft. Redeneersnoei voorkomt verslechtering door redeneerpaden met een lage waarschijnlijkheid te elimineren. Zowel theoretische analyse als empirische resultaten over zeven benchmarkdatasets tonen aan dat RPC een sterk potentieel heeft om redeneerfouten te verminderen. Opmerkelijk is dat RPC redeneerprestaties bereikt die vergelijkbaar zijn met zelfconsistentie, terwijl niet alleen de betrouwbaarheid van de betrouwbaarheidsschatting wordt verbeterd, maar ook de samplingkosten met 50% worden verlaagd. De code en bronnen zijn beschikbaar op https://wnjxyk.github.io/RPC.
Het bevorderen van machine-intelligentie vereist het ontwikkelen van het vermogen om waar te nemen via meerdere modaliteiten, net zoals mensen de wereld waarnemen. Wij introduceren OmniVinci, een initiatief om een krachtig, open-source, omni-modale LLM te bouwen. We bestuderen zorgvuldig de ontwerpkeuzes op het gebied van modelarchitectuur en datacuratie. Voor de modelarchitectuur presenteren we drie belangrijke innovaties: (i) OmniAlignNet voor het versterken van de uitlijning tussen visuele en audio-embeddings in een gedeelde omni-modale latente ruimte; (ii) Temporal Embedding Grouping voor het vastleggen van relatieve temporele uitlijning tussen visuele en audiosignalen; en (iii) Constrained Rotary Time Embedding voor het coderen van absolute temporele informatie in omni-modale embeddings. We introduceren een curatie- en synthesepijplijn die 24M enkel-modale en omni-modale conversaties genereert. We ontdekken dat modaliteiten elkaar versterken in zowel waarneming als redenering. Ons model, OmniVinci, presteert beter dan Qwen2.5-Omni met +19.05 op DailyOmni (kruis-modale begrip), +1.7 op MMAR (audio), en +3.9 op Video-MME (visie), terwijl het slechts 0.2T trainings-tokens gebruikt - een reductie van 6 keer vergeleken met de 1.2T van Qwen2.5-Omni. We demonstreren ten slotte de voordelen van omni-modaliteit in downstream-toepassingen die robotica, medische AI en slimme fabrieken omvatten.
3D-objectbewerking is essentieel voor interactieve contentcreatie in gaming, animatie en robotica, maar huidige benaderingen blijven inefficiënt, inconsistent en slagen er vaak niet in onbewerkte regio's te behouden. De meeste methoden vertrouwen op het bewerken van multi-view renderings gevolgd door reconstructie, wat artefacten introduceert en de praktische bruikbaarheid beperkt. Om deze uitdagingen aan te pakken, stellen we Nano3D voor, een trainingsvrij raamwerk voor precieze en samenhangende 3D-objectbewerking zonder maskers. Nano3D integreert FlowEdit in TRELLIS om gelokaliseerde bewerkingen uit te voeren die worden geleid door front-view renderings, en introduceert verder regio-bewuste samenvoegstrategieën, Voxel/Slat-Merge, die structurele trouw adaptief behouden door consistentie te waarborgen tussen bewerkte en onbewerkte gebieden. Experimenten tonen aan dat Nano3D superieure 3D-consistentie en visuele kwaliteit bereikt in vergelijking met bestaande methoden. Op basis van dit raamwerk construeren we de eerste grootschalige 3D-bewerkingsdataset Nano3D-Edit-100k, die meer dan 100.000 hoogwaardige 3D-bewerkingsparen bevat. Dit werk adresseert langdurige uitdagingen in zowel algoritmeontwerp als databeschikbaarheid, verbetert de algemeenheid en betrouwbaarheid van 3D-bewerking aanzienlijk, en legt de basis voor de ontwikkeling van feed-forward 3D-bewerkingsmodellen. Projectpagina: https://jamesyjl.github.io/Nano3D
Instructiegebaseerde videobewerking belooft contentcreatie te democratiseren, maar de vooruitgang wordt ernstig belemmerd door het gebrek aan grootschalige, hoogwaardige trainingsdata. We introduceren Ditto, een holistisch framework ontworpen om deze fundamentele uitdaging aan te pakken. De kern van Ditto bestaat uit een innovatief datageneratiepipeline dat de creatieve diversiteit van een toonaangevende beeldbewerker combineert met een in-context videogenerator, waardoor de beperkte reikwijdte van bestaande modellen wordt overwonnen. Om dit proces haalbaar te maken, lost ons framework het problematische kosten-kwaliteit-compromis op door een efficiënt, gedistilleerd modelarchitectuur te gebruiken, versterkt door een temporele versterker, wat tegelijkertijd de rekenkosten vermindert en de temporele samenhang verbetert. Ten slotte wordt, om volledige schaalbaarheid te bereiken, deze hele pipeline aangedreven door een intelligente agent die diverse instructies ontwerpt en de output rigoureus filtert, waardoor kwaliteitscontrole op schaal wordt gegarandeerd. Met dit framework hebben we meer dan 12.000 GPU-dagen geïnvesteerd om Ditto-1M te bouwen, een nieuwe dataset van één miljoen hoogwaardige voorbeelden van videobewerking. We hebben ons model, Editto, getraind op Ditto-1M met een curriculumlerenstrategie. De resultaten tonen een superieure vermogen om instructies te volgen en vestigen een nieuwe state-of-the-art in instructiegebaseerde videobewerking.
Recent werk heeft aangetoond dat nauwkeurige finetuning breed misaligned LLM's kan produceren, een fenomeen dat emergent misalignment (EM) wordt genoemd. Hoewel zorgwekkend, waren deze bevindingen beperkt tot finetuning en activatiesturing, waarbij in-context learning (ICL) buiten beschouwing werd gelaten. Daarom vragen wij: ontstaat EM ook bij ICL? Wij constateren dat dit inderdaad het geval is: over drie datasets produceren drie frontiermodellen breed misaligned reacties met een frequentie tussen 2% en 17% bij 64 nauwe in-context voorbeelden, en tot 58% bij 256 voorbeelden. Wij onderzoeken ook de mechanismen van EM door stap-voor-stap redenering uit te lokken (terwijl de in-context voorbeelden ongewijzigd blijven). Handmatige analyse van de resulterende chain-of-thought toont aan dat 67,5% van de misaligned sporen schadelijke outputs expliciet rechtvaardigen door een roekeloos of gevaarlijk 'persona' aan te nemen, wat eerdere resultaten over finetuning-geïnduceerde EM weerspiegelt.
Het synthetiseren van grootschalige, verkennbare en geometrisch nauwkeurige 3D-stedelijke scènes is een uitdagende maar waardevolle taak voor het bieden van immersieve en belichaamde toepassingen. De uitdagingen liggen in het gebrek aan grootschalige en hoogwaardige 3D-scans uit de echte wereld voor het trainen van generaliseerbare generatieve modellen. In dit artikel nemen we een alternatieve route om grootschalige 3D-scènes te creëren door het combineren van gemakkelijk beschikbare satellietbeelden die realistische grove geometrie leveren en het open-domein diffusiemodel voor het creëren van hoogwaardige close-up verschijningen. We stellen Skyfall-GS voor, het eerste raamwerk voor het creëren van 3D-scènes op stadsblokschaal zonder kostbare 3D-annotaties, dat ook realtime, immersieve 3D-verkenning biedt. We passen een curriculum-gestuurde iteratieve verfijningsstrategie toe om de geometrische volledigheid en fotorealistische texturen geleidelijk te verbeteren. Uitgebreide experimenten tonen aan dat Skyfall-GS verbeterde consistentie in geometrie tussen verschillende perspectieven en realistischer texturen biedt in vergelijking met state-of-the-art benaderingen. Projectpagina: https://skyfall-gs.jayinnn.dev/
Recente vooruitgang in diffusiegebaseerde visuele generatie heeft grotendeels vertrouwd op latente diffusiemodellen met variational autoencoders (VAE's). Hoewel effectief voor hoogwaardige synthese, lijdt dit VAE+diffusie-paradigma onder beperkte trainingsefficiëntie, trage inferentie en slechte overdraagbaarheid naar bredere visietaken. Deze problemen zijn het gevolg van een belangrijke beperking van VAE-latente ruimtes: het ontbreken van duidelijke semantische scheiding en een sterke discriminerende structuur. Onze analyse bevestigt dat deze eigenschappen cruciaal zijn, niet alleen voor perceptie- en begripstaken, maar ook voor de stabiele en efficiënte training van latente diffusiemodellen. Gemotiveerd door dit inzicht introduceren we SVG, een nieuw latent diffusiemodel zonder variational autoencoders, dat zelfgesuperviseerde representaties benut voor visuele generatie. SVG construeert een kenmerkruimte met duidelijke semantische onderscheidbaarheid door gebruik te maken van bevroren DINO-kenmerken, terwijl een lichtgewicht residutak fijnmazige details vastlegt voor hoogwaardige reconstructie. Diffusiemodellen worden rechtstreeks getraind op deze semantisch gestructureerde latente ruimte om efficiënter leren te bevorderen. Als gevolg hiervan maakt SVG versnelde diffusietraining mogelijk, ondersteunt het sampling met weinig stappen en verbetert het de generatieve kwaliteit. Experimentele resultaten tonen verder aan dat SVG de semantische en discriminerende capaciteiten van de onderliggende zelfgesuperviseerde representaties behoudt, wat een principiële weg biedt naar taakgenerieke, hoogwaardige visuele representaties.
Taalkundig commentaar op LLM's, sterk beïnvloed door de theoretische kaders van De Saussure en Chomsky, is vaak speculatief en onproductief. Critici betwisten of LLM's taal legitiem kunnen modelleren, waarbij ze de noodzaak van "dieptestructuur" of "verankering" aanvoeren om een geïdealiseerde taalkundige "competentie" te bereiken. Wij pleiten voor een radicale verschuiving in perspectief naar de empiristische principes van Witold Mańczak, een prominente algemene en historische taalkundige. Hij definieert taal niet als een "systeem van tekens" of een "computersysteem van de hersenen", maar als de totaliteit van alles wat gezegd en geschreven wordt. Bovenal identificeert hij de gebruiksfrequentie van specifieke taalelementen als het primaire sturende principe van taal. Met zijn kader dagen we eerdere kritieken op LLM's uit en bieden we een constructieve handleiding voor het ontwerpen, evalueren en interpreteren van taalmodelle
Lens flare verslechtert de beeldkwaliteit aanzienlijk, wat kritieke computervisietaken zoals objectdetectie en autonoom rijden beïnvloedt. Recente methoden voor het verwijderen van lensflare uit één afbeelding (Single Image Flare Removal, SIFR) presteren slecht wanneer lichtbronnen buiten het beeld onvolledig of afwezig zijn. Wij stellen LightsOut voor, een op diffusie gebaseerd outpainting-framework dat specifiek is ontworpen om SIFR te verbeteren door lichtbronnen buiten het beeld te reconstrueren. Onze methode maakt gebruik van een multitask-regressiemodule en een LoRA-fijn afgestemd diffusiemodel om realistische en fysisch consistente outpainting-resultaten te garanderen. Uitgebreide experimenten tonen aan dat LightsOut consistent de prestaties van bestaande SIFR-methoden verbetert in uitdagende scenario's zonder aanvullende hertraining, en fungeert als een universeel toepasbare plug-and-play preprocessingsoplossing. Projectpagina: https://ray-1026.github.io/lightsout/
Grote taalmodellen vallen uiteen in twee families: redeneringsgerichte LLM's, die de interne keten-van-gedachten-redenering versterken maar geen externe tools kunnen aanroepen, en agentische LLM's, die leren om te interageren met omgevingen en tools te benutten, maar vaak achterblijven in diepe redenering. Deze kloof ontstaat door fundamenteel verschillende trainingsdoelen, wat leidt tot ongelijke sterktes en inefficiëntie bij eenvoudige queries, waarbij beide families de neiging hebben om te veel na te denken of te veel tools aan te roepen. In dit werk presenteren we het Adaptive Agent Foundation Model (A^2FM), een uniform raamwerk dat een routeer-dan-uitlijn-principe volgt: het model leert eerst taakbewuste routering en lijn vervolgens modus-specifieke trajecten uit onder een gedeelde backbone. Om de efficiëntiekloof aan te pakken, introduceren we een derde modus-instantie die eenvoudige queries direct afhandelt, waardoor onnodige redenering of toolaanroepen worden voorkomen, terwijl de agentische en redeneringsmodi worden aangevuld. Om zowel nauwkeurigheid als efficiëntie gezamenlijk te verbeteren, stellen we Adaptive Policy Optimization (APO) voor, die adaptieve steekproeven over modussen afdwingt en een kosten-gereguleerde beloning toepast. Op de 32B-schaal behaalt A^2FM 13,4% op BrowseComp, 70,4% op AIME25 en 16,7% op HLE, waarmee het nieuwe state-of-the-art resultaten bereikt onder vergelijkbare modellen en competitief presteert met toonaangevende LLM's over agentische, redenerings- en algemene benchmarks. Opmerkelijk is dat de adaptieve uitvoering een kostprijs van slechts $0,00487 per correct antwoord bereikt, wat de kosten met 45,2% vermindert ten opzichte van redenering en met 33,5% ten opzichte van agentisch, waardoor aanzienlijk hogere kostenefficiëntie wordt geleverd terwijl vergelijkbare nauwkeurigheid behouden blijft.
Academische projectwebsites kunnen onderzoek effectiever verspreiden wanneer ze kerninhoud duidelijk presenteren en intuïtieve navigatie en interactie mogelijk maken. Huidige benaderingen zoals directe generatie met Large Language Models (LLM), sjablonen of directe HTML-conversie hebben echter moeite om lay-outbewuste, interactieve sites te produceren, en een uitgebreide evaluatiesuite voor deze taak ontbreekt. In dit artikel introduceren we Paper2Web, een benchmarkdataset en een multidimensionaal evaluatiekader voor het beoordelen van het genereren van academische webpagina's. Het omvat op regels gebaseerde metrieken zoals Connectiviteit, Volledigheid en door mensen geverifieerde LLM-as-a-Judge (die interactiviteit, esthetiek en informatiefheid bestrijkt), en PaperQuiz, dat het behoud van kennis op papierniveau meet. We presenteren verder PWAgent, een autonome pijplijn die wetenschappelijke artikelen omzet in interactieve en multimedia-rijke academische homepages. De agent verfijnt zowel inhoud als lay-out iteratief via MCP-tools die nadruk, balans en presentatiekwaliteit verbeteren. Onze experimenten tonen aan dat PWAgent end-to-end-baselines zoals sjabloongebaseerde webpagina's en arXiv/alphaXiv-versies consequent met grote marge overtreft, terwijl de kosten laag blijven, waardoor het Pareto-front in academische webpagina-generatie wordt bereikt.
We presenteren BLIP3o-NEXT, een volledig open-source foundation model in de BLIP3-serie dat de volgende grens van native beeldgeneratie verlegt. BLIP3o-NEXT verenigt tekst-naar-beeldgeneratie en beeldbewerking binnen een enkele architectuur, waarbij het sterke beeldgeneratie- en beeldbewerkingsmogelijkheden demonstreert. Bij het ontwikkelen van het state-of-the-art native beeldgeneratiemodel hebben we vier belangrijke inzichten geïdentificeerd: (1) De meeste architecturale keuzes leveren vergelijkbare prestaties; een architectuur kan als effectief worden beschouwd mits deze efficiënt schaalt en snelle inferentie ondersteunt; (2) De succesvolle toepassing van reinforcement learning kan de grens van native beeldgeneratie verder verleggen; (3) Beeldbewerking blijft een uitdagende taak, maar instructievolging en de consistentie tussen gegenereerde en referentiebeelden kunnen aanzienlijk worden verbeterd door post-training en een data-engine; (4) Data-kwaliteit en -schaal blijven beslissende factoren die de bovengrens van modelprestaties bepalen. Op basis van deze inzichten maakt BLIP3o-NEXT gebruik van een Autoregressieve + Diffusie-architectuur waarin een autoregressief model eerst discrete beeldtokens genereert, geconditioneerd op multimodale invoer, waarvan de verborgen toestanden vervolgens worden gebruikt als conditioneringssignalen voor een diffusiemodel om hoogwaardige beelden te genereren. Deze architectuur integreert de redeneerkracht en instructievolging van autoregressieve modellen met het vermogen om fijne details weer te geven van diffusiemodellen, waardoor een nieuw niveau van samenhang en realisme wordt bereikt. Uitgebreide evaluaties van verschillende tekst-naar-beeld- en beeldbewerkingsbenchmarks tonen aan dat BLIP3o-NEXT superieure prestaties behaalt ten opzichte van bestaande modellen.
Met de vooruitgang van krachtige grootschalige redeneermodellen is het effectief evalueren van de redeneercapaciteiten van deze modellen steeds belangrijker geworden. Bestaande benchmarks die zijn ontworpen om de redeneervaardigheden van grote modellen te beoordelen, zijn echter vaak beperkt in omvang en missen de flexibiliteit om hun moeilijkheidsgraad aan te passen aan de evoluerende redeneercapaciteiten van de modellen. Om dit aan te pakken, stellen we MorphoBench voor, een benchmark die multidisciplinaire vragen incorporeert om de redeneercapaciteiten van grote modellen te evalueren en die de moeilijkheidsgraad van vragen kan aanpassen en bijwerken op basis van de redeneervaardigheden van geavanceerde modellen. Specifiek hebben we de benchmark samengesteld door complexe redeneervragen te selecteren en te verzamelen uit bestaande benchmarks en bronnen zoals Olympiad-niveau competities. Daarnaast past MorphoBench de analytische uitdaging van vragen adaptief aan door gebruik te maken van sleutelverklaringen die worden gegenereerd tijdens het redeneerproces van het model. Bovendien bevat het vragen die zijn gegenereerd met behulp van simulatiesoftware, waardoor de moeilijkheidsgraad van de benchmark dynamisch kan worden aangepast met minimale resourceverbruik. We hebben meer dan 1.300 testvragen verzameld en de moeilijkheidsgraad van MorphoBench iteratief aangepast op basis van de redeneercapaciteiten van modellen zoals o3 en GPT-5. MorphoBench verbetert de volledigheid en validiteit van de evaluatie van modelredenering en biedt betrouwbare richtlijnen voor het verbeteren van zowel de redeneervaardigheden als de wetenschappelijke robuustheid van grote modellen. De code is vrijgegeven op https://github.com/OpenDCAI/MorphoBench.
Ondanks snelle vooruitgang in tekst-naar-video-synthese, blijft de kwaliteit van gegenereerde video's sterk afhankelijk van precieze gebruikersprompts. Bestaande optimalisatiemethoden tijdens het testen, die succesvol zijn in andere domeinen, worstelen met de veelzijdige aard van video. In dit werk introduceren we VISTA (Video Iterative Self-improvemenT Agent), een nieuw multi-agent systeem dat autonoom videogeneratie verbetert door prompts te verfijnen in een iteratieve lus. VISTA deconstrueert eerst een gebruikersidee in een gestructureerd tijdelijk plan. Na generatie wordt de beste video geïdentificeerd via een robuust paarswijze toernooi. Deze winnende video wordt vervolgens beoordeeld door een trio van gespecialiseerde agents die zich richten op visuele, auditieve en contextuele trouw. Ten slotte synthetiseert een redeneeragent deze feedback om introspectief de prompt te herschrijven en te verbeteren voor de volgende generatiecyclus. Experimenten met enkelvoudige en meervoudige scène videogeneratiescenario's laten zien dat, terwijl eerdere methoden inconsistente verbeteringen opleveren, VISTA consistent de videokwaliteit en afstemming met de gebruikersintentie verbetert, met een paarswijze winstpercentage van tot 60% tegen state-of-the-art baselines. Menselijke beoordelaars zijn het hiermee eens en geven in 66,4% van de vergelijkingen de voorkeur aan VISTA-outputs.
Foundation models (FM's), zoals GPT-4 en AlphaFold, zijn bezig het landschap van wetenschappelijk onderzoek te hervormen. Naast het versnellen van taken zoals hypothesegeneratie, experimenteel ontwerp en resultaatinterpretatie, roepen ze een meer fundamentele vraag op: Versterken FM's slechts bestaande wetenschappelijke methodologieën, of herdefiniëren ze de manier waarop wetenschap wordt bedreven? In dit artikel beargumenteren we dat FM's een overgang naar een nieuw wetenschappelijk paradigma katalyseren. We introduceren een driestappenraamwerk om deze evolutie te beschrijven: (1) Meta-Wetenschappelijke Integratie, waarbij FM's workflows binnen traditionele paradigma's verbeteren; (2) Hybride Mens-AI Co-Creatie, waarbij FM's actieve samenwerkingspartners worden bij probleemformulering, redenering en ontdekking; en (3) Autonome Wetenschappelijke Ontdekking, waarbij FM's functioneren als onafhankelijke agenten die in staat zijn om nieuwe wetenschappelijke kennis te genereren met minimale menselijke tussenkomst. Door deze lens bekijken we huidige toepassingen en opkomende mogelijkheden van FM's binnen bestaande wetenschappelijke paradigma's. We identificeren verder risico's en toekomstige richtingen voor wetenschappelijke ontdekkingen die door FM's worden mogelijk gemaakt. Dit position paper heeft als doel de wetenschappelijke gemeenschap te ondersteunen bij het begrijpen van de transformerende rol van FM's en om reflectie te bevorderen over de toekomst van wetenschappelijke ontdekking. Ons project is beschikbaar op https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery.
Redenerende taalmodellen zoals OpenAI-o1, DeepSeek-R1 en Qwen behalen sterke prestaties via uitgebreide gedachteketens, maar genereren vaak onnodig lange uitvoer. Het maximaliseren van intelligentie per token--nauwkeurigheid in verhouding tot de responslengte--blijft een open probleem. We herzien reinforcement learning (RL) met de eenvoudigste lengtestraf--afkapping--en tonen aan dat nauwkeurigheidsverlies niet voortkomt uit het ontbreken van geavanceerde straffen, maar uit onvoldoende RL-optimalisatie. We identificeren drie belangrijke uitdagingen: (i) grote bias in voordeelschatting, (ii) entropie-instorting, en (iii) een schaars beloningssignaal. We pakken deze aan met Doing Length pEnalty Right (DLER), een trainingsrecept dat batchgewijze beloningsnormalisatie, hoger afkappen, dynamische steekproefname, en een eenvoudige afkappingslengtestraf combineert. DLER behaalt state-of-the-art nauwkeurigheid--efficiëntie-afwegingen, waarbij de uitvoerlengte met meer dan 70 procent wordt verminderd terwijl alle eerdere basislijnnauwkeurigheden worden overtroffen. Het verbetert ook de schaalbaarheid tijdens testen: vergeleken met DeepSeek-R1-7B genereert DLER-7B meerdere beknopte reacties parallel met 28 procent hogere nauwkeurigheid en lagere latentie. We introduceren verder Difficulty-Aware DLER, dat adaptief de afkapping verstrakt bij eenvoudigere vragen voor extra efficiëntiewinsten. We stellen ook een update-selectieve samenvoegmethode voor die de basislijnnauwkeurigheid behoudt terwijl het beknopte redeneervermogen van het DLER-model behouden blijft, wat nuttig is voor scenario's waarin RL-trainingsdata schaars is.
De automatisering van wetenschappelijke ontdekkingen vertegenwoordigt een cruciale mijlpaal in onderzoek naar Kunstmatige Intelligentie (AI). Bestaande agent-gebaseerde systemen voor wetenschap kampen echter met twee fundamentele beperkingen: rigide, voorgeprogrammeerde workflows die zich niet kunnen aanpassen aan tussentijdse bevindingen, en onvoldoende contextbeheer dat langetermijnonderzoek belemmert. Wij presenteren freephdlabor, een open-source multiagent-framework met volledig dynamische workflows die worden bepaald door realtime redenering van agents en een \textit{modulaire architectuur} die naadloze aanpassing mogelijk maakt — gebruikers kunnen agents aanpassen, toevoegen of verwijderen om aan domeinspecifieke vereisten te voldoen. Het framework biedt uitgebreide infrastructuur, waaronder automatische contextcompressie, werkruimtegebaseerde communicatie om informatieverlies te voorkomen, geheugenpersistentie tussen sessies, en niet-blokkerende mechanismen voor menselijke interventie. Deze functies transformeren geautomatiseerd onderzoek gezamenlijk van geïsoleerde, eenmalige pogingen naar continue onderzoeksprogramma’s die systematisch voortbouwen op eerdere verkenningen en menselijke feedback integreren. Door zowel de architectuurprincipes als de praktische implementatie te bieden voor het bouwen van aanpasbare co-wetenschapper-systemen, beoogt dit werk een bredere adoptie van geautomatiseerd onderzoek in wetenschappelijke domeinen te vergemakkelijken, waardoor beoefenaars interactieve multiagent-systemen kunnen inzetten die end-to-end onderzoek autonoom uitvoeren — van ideeënvorming via experimenten tot publicatieklare manuscripten.
Diepgaande onderzoekswebagents halen niet alleen informatie uit diverse bronnen zoals webomgevingen, bestanden en multimodale invoer, maar moeten vooral kennis rigoureus analyseren en samenvoegen voor inzichtelijk onderzoek. Bestaande open-source diepgaande onderzoeksagents richten zich echter voornamelijk op het verbeteren van de informatiezoekcapaciteiten van webagents om specifieke informatie te vinden, terwijl de essentiële behoefte aan informatieaggregatie over het hoofd wordt gezien, wat hun vermogen om diepgaand onderzoek te ondersteunen beperkt. Wij stellen een Explore to Evolve-paradigma voor om op schaalbare wijze verifieerbare trainingsdata voor webagents te construeren. Beginnend met proactieve online verkenning, verzamelt een agent gegronde informatie door het echte web te verkennen. Met de verzamelde bewijzen ontwikkelt de agent vervolgens zelf een aggregatieprogramma door operaties te selecteren, samen te stellen en te verfijnen uit 12 hoogwaardige logische typen om een verifieerbaar QA-paar te synthetiseren. Deze evolutie van hoogwaardige richtlijnen naar concrete operaties stelde ons in staat om op schaalbare wijze WebAggregatorQA te produceren, een dataset van 10K voorbeelden verspreid over 50K websites en 11 domeinen. Gebaseerd op een open-source agentframework, SmolAgents, verzamelen we supervised fine-tuning trajecten om een reeks foundationmodellen te ontwikkelen, WebAggregator. WebAggregator-8B evenaart de prestaties van GPT-4.1, terwijl de 32B-variant GPT-4.1 met meer dan 10% overtreft op GAIA-text en dicht in de buurt komt van Claude-3.7-sonnet. Bovendien, gezien de beperkte beschikbaarheid van benchmarks die de informatieaggregatiecapaciteiten van webagents evalueren, construeren we een door mensen geannoteerde evaluatieset van WebAggregatorQA als een uitdagende testset. Op deze benchmark behaalt Claude-3.7-sonnet slechts 28%, en GPT-4.1 scoort 25.8%. Zelfs wanneer agents erin slagen om alle referenties op te halen, worstelen ze nog steeds op WebAggregatorQA, wat de noodzaak benadrukt om de informatieaggregatiecapaciteiten van webagentfoundations te versterken.
Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt door middel van reinforcement learning (RL), met name in domeinen waar beloningen programmatisch kunnen worden geverifieerd, zoals wiskunde en code. In deze gebieden profiteren modellen van een goed gedefinieerde operationele basis die wordt geleid door expliciete, op regels gebaseerde doelen. Deze vooruitgang brengt echter een belangrijke beperking aan het licht: in open-einde domeinen waar beloningen ambigu, subjectief of contextafhankelijk zijn, zoals creatief schrijven, wetenschappelijk redeneren, en vooral medische consultatie, ontbreken robuuste beloningsfuncties, wat deze gebieden uitdagend maakt voor huidige RL-strategieën. Om deze kloof te overbruggen, introduceren we ORBIT, een open-einde rubric-gestuurd incrementeel trainingsframework specifiek ontworpen voor medische dialogen met hoge inzet. ORBIT integreert synthetische dialooggeneratie met de dynamische creatie van rubrics, waarbij deze rubrics worden gebruikt om een incrementeel RL-proces te sturen. Deze aanpak is niet afhankelijk van externe medische kennis of handmatige regels, maar maakt in plaats daarvan gebruik van rubric-gestuurde feedback om het leren vorm te geven. Wanneer geïmplementeerd op het Qwen3-4B-Instruct model, kan onze methode de prestaties op de HealthBench-Hard benchmark aanzienlijk verbeteren van 7.0 naar 27.2 met slechts 2k samples, waardoor state-of-the-art resultaten worden behaald voor modellen van deze schaal. Onze analyse bevestigt dat rubric-gestuurd RL consistente prestatieverbeteringen bevordert in diverse consultatiescenario's, wat verder gaat dan eenvoudige numerieke verbeteringen. Deze bevindingen onderstrepen rubric-gestuurde feedback als een schaalbare strategie voor het bevorderen van LLMs in complexe, open-einde taken.
Het genereren van artistieke en samenhangende 3D-scène-indelingen is cruciaal in digitale contentcreatie. Traditionele optimalisatiegebaseerde methoden worden vaak beperkt door omslachtige handmatige regels, terwijl diepe generatieve modellen uitdagingen ondervinden bij het produceren van inhoud met rijkdom en diversiteit. Bovendien ontbreekt het aan robuustheid bij benaderingen die gebruikmaken van grote taalmodelen, en slagen ze er vaak niet in complexe ruimtelijke relaties nauwkeurig vast te leggen. Om deze uitdagingen aan te pakken, presenteert dit artikel een nieuw visiegestuurd 3D-indelingsgeneratiesysteem. We construeren eerst een hoogwaardige assetbibliotheek met 2.037 scene-assets en 147 3D-scène-indelingen. Vervolgens gebruiken we een beeldgeneratiemodel om promptrepresentaties uit te breiden naar afbeeldingen, en finetunen we het om af te stemmen op onze assetbibliotheek. Daarna ontwikkelen we een robuuste beeldparsemodule om de 3D-indeling van scènes te herstellen op basis van visuele semantiek en geometrische informatie. Ten slotte optimaliseren we de scène-indeling met behulp van scènegrafieken en algemene visuele semantiek om logische samenhang en afstemming met de afbeeldingen te waarborgen. Uitgebreid gebruikersonderzoek toont aan dat ons algoritme bestaande methoden aanzienlijk overtreft wat betreft rijkdom en kwaliteit van de indeling. De code en dataset zullen beschikbaar zijn op https://github.com/HiHiAllen/Imaginarium.
Recente LLM's hebben veelbelovende capaciteiten getoond bij het oplossen van financiële problemen. Het toepassen van LLM's in real-world financiële toepassingen blijft echter uitdagend vanwege het hoge risico en de grote belangen die ermee gemoeid zijn. Dit artikel introduceert FinTrust, een uitgebreide benchmark die specifiek is ontworpen om de betrouwbaarheid van LLM's in financiële toepassingen te evalueren. Onze benchmark richt zich op een breed scala aan afstemmingsproblemen gebaseerd op praktische context en bevat gedetailleerde taken voor elk aspect van betrouwbaarheidsevaluatie. We beoordelen elf LLM's op FinTrust en constateren dat propriëtaire modellen zoals o4-mini beter presteren in de meeste taken, zoals veiligheid, terwijl open-source modellen zoals DeepSeek-V3 een voordeel hebben in specifieke gebieden zoals branchebrede eerlijkheid. Voor uitdagende taken zoals fiduciaire afstemming en openbaarmaking schieten alle LLM's tekort, wat een aanzienlijk gebrek aan juridisch bewustzijn laat zien. Wij geloven dat FinTrust een waardevolle benchmark kan zijn voor de evaluatie van de betrouwbaarheid van LLM's in het financiële domein.
Naarmate de vraag naar emotionele intelligentie in grote taalmodellen (LLMs) groeit, ligt een belangrijke uitdaging in het begrijpen van de interne mechanismen die aanleiding geven tot emotionele expressie en in het beheersen van emoties in gegenereerde tekst. Deze studie behandelt drie kernvragen: (1) Bevatten LLMs context-onafhankelijke mechanismen die emotionele expressie vormgeven? (2) Welke vorm nemen deze mechanismen aan? (3) Kunnen ze worden benut voor universele emotiecontrole? We construeren eerst een gecontroleerde dataset, SEV (Scenario-Event met Valentie), om vergelijkbare interne toestanden tussen emoties op te roepen. Vervolgens extraheren we context-onafhankelijke emotierichtingen die een consistente, cross-contextuele codering van emotie onthullen (Q1). We identificeren neuronen en aandachtskoppen die lokaal emotionele berekeningen implementeren door middel van analytische decompositie en causale analyse, en valideren hun causale rollen via ablatie- en versterkingsinterventies. Vervolgens kwantificeren we de causale invloed van elke sublaag op de uiteindelijke emotierepresentatie van het model en integreren we de geïdentificeerde lokale componenten in samenhangende globale emotiecircuits die emotionele expressie sturen (Q2). Directe modulatie van deze circuits bereikt een nauwkeurigheid van 99,65% in emotie-expressie op de testset, wat prompt- en stuurgebaseerde methoden overtreft (Q3). Voor zover wij weten, is dit de eerste systematische studie die emotiecircuits in LLMs blootlegt en valideert, wat nieuwe inzichten biedt in interpreteerbaarheid en beheersbare emotionele intelligentie.
Empirische schaalwetten geven aan hoe parameters, data en rekenkracht moeten worden toegewezen, terwijl maximal-update-parameterisatie (muP) het overdragen van leerratio's over verschillende breedtes mogelijk maakt door de grootte van updates in de vroege fase gelijk te stellen. Echter, in moderne schaalinvariante architecturen komt de training snel in een door de optimizer beheerde stabiele toestand, waarbij normalisatielagen achterwaartse schaalgevoeligheid creëren en de effectieve leerratio afhankelijk wordt van de breedte, wat de muP-overdracht verslechtert. Wij pakken dit aan door een gewichtsvervalschaalregel voor AdamW in te voeren die de sublaagwinst over verschillende breedtes behoudt. Empirisch gezien schaalt het spectrum van singuliere waarden van elke matrixparameter in norm als eta/lambda met een ongeveer invariante vorm; bij breedteschaal d observeren we dat de top singuliere waarde ongeveer schaalt als eta/lambda * d^{0.75}. Door deze observatie te combineren met de muP-leerratieregel eta_2 ∝ d^{-1} voor matrixachtige parameters, impliceert dit een empirische gewichtsvervalschaalregel lambda_2 ∝ d die de sublaagwinst ongeveer breedte-invariant houdt. Samen met vectorachtige parameters die getraind worden bij eta_1 = Theta_d(1) en lambda_1 = 0, resulteert dit in zero-shot overdracht van zowel leerratio als gewichtsverval van proxy naar doelbreedtes, waardoor per-breedte zoekacties overbodig worden. We valideren de regel op LLaMA-style Transformers en in een minimale synthetische setting, en we bieden een eenvoudige diagnostische methode, het matchen van top singuliere waarden, om de sublaagwinst-invariantie te controleren. Onze resultaten breiden muP uit voorbij het near-init regime door expliciet de schalen in de stabiele toestand, ingesteld door de optimizer, te beheersen, en bieden een praktisch recept voor breedte-robuuste hyperparameteroverdracht onder AdamW.
Mixture-of-Experts (MoE)-modellen bereiken efficiënte schaalbaarheid door middel van sparse expert-activatie, maar lijden vaak onder suboptimale routeringsbeslissingen vanwege distributieverschuivingen tijdens implementatie. Hoewel bestaande methoden voor testtijd-aanpassing deze problemen mogelijk zouden kunnen aanpakken, richten deze zich voornamelijk op dense modellen en vereisen ze toegang tot externe data, wat hun praktische toepasbaarheid op MoE-architecturen beperkt. Wij ontdekken echter dat, in plaats van te vertrouwen op referentiedata, we de selectie van MoE-experts on-the-fly kunnen optimaliseren op basis van alleen de inputcontext. Daarom stellen we een data-vrij, online testtijd-framework voor dat continu de routeringsbeslissingen van MoE aanpast tijdens tekstgeneratie, zonder externe supervisie of data. Onze methode wisselt tussen twee fasen: Tijdens de prefill-fase, en later in regelmatige intervallen, optimaliseren we de routeringsbeslissingen van het model met behulp van zelfsupervisie op basis van de reeds gegenereerde sequentie. Vervolgens genereren we tekst zoals normaal, waarbij de aangepaste router behouden blijft tot de volgende aanpassing. We implementeren dit via lichtgewicht additieve vectoren die alleen de router-logits in geselecteerde lagen bijwerken, waardoor de rekenkundige efficiëntie behouden blijft en over-aanpassing wordt voorkomen. De experimentele resultaten tonen consistente prestatieverbeteringen op uitdagende redeneertaken, terwijl robuustheid tegen contextverschuivingen behouden blijft. Zo behaalt onze methode bijvoorbeeld een verbetering van 5,5% op HumanEval met OLMoE. Bovendien, vanwege zijn plug-and-play-eigenschap, vult onze methode natuurlijk bestaande testtijd-schaaltechnieken aan, zoals het behalen van gemiddelde winsten van 6% wanneer gecombineerd met self-consistency op DeepSeek-V2-Lite.
Grote Taalmodellen (LLMs) vertonen een aanzienlijke prestatieachteruitgang in meerzijdige gesprekken wanneer informatie stapsgewijs wordt gepresenteerd. Gezien het feit dat meerzijdige gesprekken kenmerkend zijn voor alledaagse interacties met LLMs, vormt deze achteruitgang een ernstige uitdaging voor de bruikbaarheid in de praktijk. Wij stellen de hypothese dat abrupte toename van modelonzekerheid een teken is van misalignering in meerzijdige LLM-interacties, en we benutten dit inzicht om de gesprekscontext dynamisch te realigneren. We introduceren ERGO (Entropy-guided Resetting for Generation Optimization), dat continu interne onzekerheid kwantificeert via Shannon-entropie over volgende tokenverdelingen en adaptieve promptconsolidatie activeert wanneer een scherpe piek in entropie wordt gedetecteerd. Door onzekerheid te behandelen als een eersteklas signaal in plaats van een te elimineren overlast, omarmt ERGO variabiliteit in taal en modellering, en representeert en reageert het op onzekerheid. In meerzijdige taken met stapsgewijs onthulde instructies levert ERGO een gemiddelde prestatieverbetering van 56,6% op ten opzichte van standaardbaselines, verhoogt het vermogen (piekprestatiecapaciteit) met 24,7%, en vermindert het onbetrouwbaarheid (variabiliteit in prestaties) met 35,3%, wat aantoont dat onzekerheidsbewuste interventies zowel de nauwkeurigheid als de betrouwbaarheid in conversatie-AI kunnen verbeteren.
De Multimodale Grote Taalmodellen (MLLMs) worden voortdurend voorgetraind op een mix van beeld-tekst bijschriftdata en interleaved documentdata, terwijl het filteren van hoogwaardige data gericht op beeld-tekst interleaved documentdata nog onvoldoende is onderzocht. Wij stellen voor om een efficiënt MLLM te trainen als een Unified Multimodal Data Quality Classifier om zowel hoogwaardige beeld-tekst bijschriften als interleaved data te filteren (UniFilter). Om de uitdaging van het verzamelen van diverse gelabelde multimodale data aan te pakken, introduceren we een semi-synthetische aanpak die gebruikmaakt van gemakkelijk beschikbare ruwe beelden en corresponderende tekst genereert over vier kwaliteitsniveaus. Deze methode maakt het mogelijk om efficiënt sample-score paren te creëren voor zowel bijschrift- als interleaved documentdata om UniFilter te trainen. We passen UniFilter toe om hoogwaardige bijschriftdata te selecteren uit het DataComp bijschriftdataset en interleaved data uit het OBELICS beeld-tekst interleaved dataset. MLLMs die voorgetraind zijn op de gefilterde data tonen aanzienlijk verbeterde capaciteiten in vergelijking met die getraind op baseline-gefilterde data, waarbij ze sterkere zero-shot redeneer- en in-context leercapaciteiten bereiken. Na visueel begeleide fine-tuning behalen deze door UniFilter geïnduceerde MLLMs betere prestaties op verschillende benchmarks, wat de downstream voordelen van hoogwaardige multimodale voorpretraining benadrukt. We stellen de synthetische trainingsdata die gebruikt zijn voor het trainen van UniFilter, de UniFilter modelcheckpoints, en de hoogwaardige interleaved document subset OBELICS-HQ, gecureerd door UniFilter, beschikbaar aan de gemeenschap voor reproductie en verdere ontwikkeling.
We introduceren Representation Tokenizer (RepTok), een generatief modelleerkader dat een afbeelding representeert met behulp van een enkel continu latent token, verkregen uit zelf-superviserende vision transformers. Op basis van een vooraf getrainde SSL-encoder fine-tunen we alleen de semantische token-embedding en combineren deze met een generatieve decoder die gezamenlijk wordt getraind met een standaard flow matching-doelstelling. Deze aanpassing verrijkt het token met laagniveau, reconstructie-relevante details, waardoor een nauwkeurige beeldreconstructie mogelijk wordt. Om de gunstige geometrie van de oorspronkelijke SSL-ruimte te behouden, voegen we een cosine-similarity verlies toe dat het aangepaste token regulariseert, waardoor de latente ruimte glad blijft en geschikt is voor generatie. Onze single-token formulering lost ruimtelijke redundanties van 2D latente ruimtes op en vermindert de trainingskosten aanzienlijk. Ondanks zijn eenvoud en efficiëntie behaalt RepTok competitieve resultaten bij klasse-conditionele ImageNet-generatie en breidt het zich natuurlijk uit tot tekst-naar-beeld synthese, waarbij het competitieve zero-shot prestaties bereikt op MS-COCO onder extreem beperkte trainingsbudgetten. Onze bevindingen benadrukken het potentieel van fine-tuned SSL-representaties als compacte en effectieve latente ruimtes voor efficiënte generatieve modellering.
We presenteren DriveGen3D, een nieuw raamwerk voor het genereren van hoogwaardige en sterk bestuurbare dynamische 3D-rijscènes dat kritieke beperkingen in bestaande methodologieën aanpakt. Huidige benaderingen voor het synthetiseren van rijscènes kampen ofwel met onhoudbare rekenkundige eisen voor langdurige temporele generatie, richten zich uitsluitend op langdurige videosynthese zonder 3D-representatie, of beperken zich tot statische reconstructie van één scène. Ons werk overbrugt deze methodologische kloof door versnelde langetermijn-videogeneratie te integreren met grootschalige dynamische scènereconstructie via multimodale conditionele controle. DriveGen3D introduceert een uniforme pijplijn bestaande uit twee gespecialiseerde componenten: FastDrive-DiT, een efficiënte videodiffusie-transformer voor hoogwaardige, temporeel coherente videosynthese onder tekst- en Bird's-Eye-View (BEV)-lay-outbegeleiding; en FastRecon3D, een feed-forward reconstructiemodule die snel 3D Gaussische representaties over tijd opbouwt, waardoor ruimtelijk-temporele consistentie wordt gewaarborgd. Samen maken deze componenten realtime generatie mogelijk van uitgebreide rijvideo's (tot 424×800 bij 12 FPS) en bijbehorende dynamische 3D-scènes, met een SSIM van 0.811 en PSNR van 22.84 voor nieuwe weergavesynthese, terwijl parameter-efficiëntie wordt behouden.