Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Drivelologie, een uniek linguïstisch fenomeen dat wordt gekarakteriseerd als "onzin met diepgang": uitingen die syntactisch coherent zijn, maar pragmatisch paradoxaal, emotioneel geladen of retorisch subversief. Hoewel dergelijke uitdrukkingen oppervlakkig op onzin kunnen lijken, bevatten ze impliciete betekenis die contextuele inferentie, moreel redeneren of emotionele interpretatie vereist. We constateren dat huidige grote taalmodelen (LLMs), ondanks hun uitmuntende prestaties op veel natuurlijke taalverwerkingstaken (NLP), consistent falen in het begrijpen van de gelaagde semantiek van Drivelologische tekst. Om dit te onderzoeken, hebben we een kleine maar diverse benchmarkdataset samengesteld van meer dan 1.200 zorgvuldig gecureerde voorbeelden, met geselecteerde instanties in het Engels, Mandarijn, Spaans, Frans, Japans en Koreaans. Annotatie was bijzonder uitdagend: elk van de voorbeelden vereiste zorgvuldige expertbeoordeling om te verifiëren dat het daadwerkelijk Drivelologische kenmerken weerspiegelde. Het proces omvatte meerdere rondes van discussie en besluitvorming om meningsverschillen aan te pakken, wat de subtiele en subjectieve aard van de Drivelologie benadrukt. We evalueren een reeks LLMs op classificatie-, generatie- en redeneertaken. Onze resultaten onthullen duidelijke beperkingen van LLMs: modellen verwarren Drivelologie vaak met oppervlakkige onzin, produceren onsamenhangende rechtvaardigingen of missen de impliciete retorische functie volledig. Deze bevindingen benadrukken een dieper liggend representatiegat in het pragmatische begrip van LLMs en dagen de aanname uit dat statistische vloeiendheid cognitief begrip impliceert. We maken onze dataset en code beschikbaar om verder onderzoek te faciliteren naar het modelleren van linguïstische diepgang voorbij oppervlakkige coherentie.
Het benutten van visuele voorkennis van vooraf getrainde tekst-naar-beeld (T2I) generatieve modellen heeft succes getoond in dichte voorspelling. Echter, dichte voorspelling is inherent een beeld-naar-beeld taak, wat suggereert dat beeldbewerkingsmodellen, in plaats van T2I generatieve modellen, een geschiktere basis kunnen zijn voor fine-tuning. Gemotiveerd door dit inzicht, voeren we een systematische analyse uit van het fine-tuning gedrag van zowel bewerkers als generatoren voor dichte geometrie-schatting. Onze bevindingen tonen aan dat bewerkingsmodellen inherente structurele voorkennis bezitten, waardoor ze stabieler kunnen convergeren door hun aangeboren kenmerken te "verfijnen", en uiteindelijk betere prestaties behalen dan hun generatieve tegenhangers. Op basis van deze bevindingen introduceren we FE2E, een framework dat als eerste een geavanceerd bewerkingsmodel op basis van de Diffusion Transformer (DiT) architectuur aanpast voor dichte geometrie-voorspelling. Specifiek herformuleren we het oorspronkelijke flow matching verlies van de bewerker naar het "consistente snelheid" trainingsdoel om de bewerker aan te passen voor deze deterministische taak. Daarnaast gebruiken we logaritmische kwantisatie om het precisieconflict op te lossen tussen het native BFloat16-formaat van de bewerker en de hoge precisie-eis van onze taken. Bovendien benutten we de globale aandacht van de DiT voor een kosteloze gezamenlijke schatting van diepte en normalen in een enkele forward pass, waardoor hun begeleidende signalen elkaar wederzijds kunnen versterken. Zonder de trainingsdata op te schalen, behaalt FE2E indrukwekkende prestatieverbeteringen in zero-shot monoscopische diepte- en normaal-schatting over meerdere datasets. Opmerkelijk is dat het meer dan 35\% prestatieverbetering behaalt op de ETH3D dataset en de DepthAnything-serie overtreft, die getraind is op 100 keer zoveel data. De projectpagina is te vinden op https://amap-ml.github.io/FE2E/{hier}.
Er bestaan twee belangrijke bronnen van trainingsdata voor het na-trainen van moderne taalmodelen: online (model-gegenereerde rollouts) data, en offline (menselijke of andere-model demonstraties) data. Deze twee soorten data worden typisch gebruikt door benaderingen zoals Reinforcement Learning (RL) en Supervised Fine-Tuning (SFT), respectievelijk. In dit artikel tonen we aan dat deze benaderingen niet in tegenspraak zijn, maar instanties zijn van een enkel optimalisatieproces. We leiden een Unified Policy Gradient Estimator af, en presenteren de berekeningen van een breed spectrum van na-trainingsbenaderingen als de gradiënt van een gemeenschappelijk doel onder verschillende dataverdeling-aannames en diverse bias-variantie afwegingen. De gradiëntschatter is opgebouwd uit vier uitwisselbare onderdelen: stabilisatiemasker, referentiebeleid noemer, voordeelschatting, en waarschijnlijkheidsgradiënt. Gemotiveerd door onze theoretische bevindingen, stellen we Hybrid Post-Training (HPT) voor, een algoritme dat dynamisch verschillende trainingssignalen selecteert. HPT is ontworpen om zowel effectieve exploitatie van demonstraties als stabiele exploratie te bieden zonder geleerde redeneerpatronen op te offeren. We bieden uitgebreide experimenten en ablatiestudies om de effectiviteit van ons verenigde theoretische kader en HPT te verifiëren. Over zes wiskundige redeneerbenchmarks en twee out-of-distribution suites, overtreft HPT consistent sterke basislijnen over modellen van verschillende schalen en families.
Grote Taalmodellen (LLMs) behalen sterke prestaties op diverse taken, maar vertonen vaak cognitieve inertie, waarbij ze moeite hebben om instructies op te volgen die in strijd zijn met de gestandaardiseerde patronen die zijn aangeleerd tijdens supervised fine-tuning (SFT). Om deze beperking te evalueren, stellen we Inverse IFEval voor, een benchmark die het Contra-intuïtieve Vermogen van modellen meet – hun vermogen om door training geïnduceerde vooroordelen te overwinnen en te voldoen aan adversariële instructies. Inverse IFEval introduceert acht soorten van dergelijke uitdagingen, waaronder Vraagcorrectie, Opzettelijke Tekstuele Fouten, Code zonder Commentaar en Contrafeitelijk Beantwoorden. Met behulp van een human-in-the-loop pipeline construeren we een dataset van 1012 hoogwaardige Chinese en Engelse vragen over 23 domeinen, geëvalueerd onder een geoptimaliseerd LLM-as-a-Judge raamwerk. Experimenten op bestaande toonaangevende LLMs demonstreren de noodzaak van onze voorgestelde Inverse IFEval benchmark. Onze bevindingen benadrukken dat toekomstige alignementinspanningen niet alleen moeten streven naar vloeiendheid en feitelijke correctheid, maar ook rekening moeten houden met aanpassingsvermogen onder onconventionele contexten. We hopen dat Inverse IFEval zowel als een diagnostisch hulpmiddel als een basis dient voor het ontwikkelen van methoden die cognitieve inertie verminderen, overfitting aan smalle patronen tegengaan, en uiteindelijk de betrouwbaarheid van instructievolgend gedrag van LLMs in diverse en onvoorspelbare real-world scenario's verbeteren.
Diepgaande onderzoeksagenten hebben steeds meer aandacht gekregen vanwege hun potentieel om meerfasige onderzoeksworkflows te coördineren, variërend van literatuursynthese, methodologisch ontwerp en empirische verificatie. Ondanks deze vooruitgang blijft het nauwkeurig evalueren van hun onderzoekscapaciteit een uitdaging, vooral vanwege de moeilijkheid om grensverleggende onderzoeksvragen te verzamelen die daadwerkelijk de aandacht en intellectuele nieuwsgierigheid van onderzoekers wekken. Om deze kloof te overbruggen, introduceren we DeepResearch Arena, een benchmark gebaseerd op academische seminars die rijke expertdiscussies en interacties vastleggen, waardoor realistische onderzoeksomgevingen beter worden weerspiegeld en het risico op datalekken wordt verminderd. Om DeepResearch Arena automatisch te construeren, stellen we een Multi-Agent Hiërarchische Taakgeneratie (MAHTG)-systeem voor dat onderzoekswaardige inspiraties uit seminarverslagen haalt. Het MAHTG-systeem vertaalt deze inspiraties vervolgens in hoogwaardige onderzoektaken, waardoor de traceerbaarheid van de taakformulering wordt gewaarborgd en ruis wordt gefilterd. Met het MAHTG-systeem hebben we DeepResearch Arena samengesteld met meer dan 10.000 hoogwaardige onderzoektaken uit meer dan 200 academische seminars, verspreid over 12 disciplines, zoals literatuur, geschiedenis en wetenschap. Onze uitgebreide evaluatie toont aan dat DeepResearch Arena aanzienlijke uitdagingen biedt voor huidige state-of-the-art agenten, met duidelijke prestatieverschillen tussen verschillende modellen.
We presenteren NER Retriever, een zero-shot retrieval framework voor ad-hoc Named Entity Retrieval, een variant van Named Entity Recognition (NER), waarbij de gewenste typen niet van tevoren worden opgegeven en een door de gebruiker gedefinieerde typebeschrijving wordt gebruikt om documenten te vinden die entiteiten van dat type noemen. In plaats van te vertrouwen op vaste schema's of fijn afgestemde modellen, bouwt onze methode voort op interne representaties van grote taalmodellen (LLM's) om zowel entiteitsvermeldingen als door de gebruiker verstrekte open-einde typebeschrijvingen in een gedeelde semantische ruimte in te bedden. We laten zien dat interne representaties, specifiek de waardervectoren uit middenlaag transformer-blokken, fijnmazige type-informatie effectiever coderen dan de veelgebruikte top-laag embeddings. Om deze representaties te verfijnen, trainen we een lichtgewicht contrastief projectienetwerk dat type-compatibele entiteiten uitlijnt terwijl niet-gerelateerde typen worden gescheiden. De resulterende entiteits-embeddings zijn compact, type-bewust en zeer geschikt voor nearest-neighbor zoekopdrachten. Geëvalueerd op drie benchmarks, presteert NER Retriever aanzienlijk beter dan zowel lexicale als dense zin-niveau retrieval baselines. Onze bevindingen bieden empirische ondersteuning voor representatie-selectie binnen LLM's en demonstreren een praktische oplossing voor schaalbare, schema-vrije entiteitsretrieval. De NER Retriever Codebase is publiekelijk beschikbaar op https://github.com/ShacharOr100/ner_retriever.
Een fundamenteel dilemma in generatieve modellering blijft bestaan: iteratieve diffusiemodellen bereiken uitstekende nauwkeurigheid, maar tegen aanzienlijke rekenkosten, terwijl efficiënte alternatieven met weinig stappen beperkt worden door een harde kwaliteitsgrens. Dit conflict tussen generatiestappen en uitvoerkwaliteit ontstaat door beperkende trainingsdoelstellingen die uitsluitend focussen op ofwel infinitesimale dynamica (PF-ODEs) ofwel directe eindpuntvoorspelling. Wij pakken deze uitdaging aan door een exacte, continue-tijdsdynamicavergelijking te introduceren die analytisch staatsovergangen definieert over elk eindig tijdsinterval. Dit leidt tot een nieuw generatief paradigma, Transition Models (TiM), dat zich aanpast aan willekeurige-stapsovergangen en naadloos het generatieve traject doorloopt van enkele sprongen tot fijnmazige verfijning met meer stappen. Ondanks slechts 865M parameters te hebben, bereikt TiM state-of-the-art prestaties en overtreft het toonaangevende modellen zoals SD3.5 (8B parameters) en FLUX.1 (12B parameters) over alle geëvalueerde stap aantallen. Belangrijk is dat TiM, in tegenstelling tot eerdere generatoren met weinig stappen, een monotone kwaliteitsverbetering laat zien naarmate het samplingbudget toeneemt. Bovendien levert TiM, bij gebruik van onze native-resolutiestrategie, uitzonderlijke nauwkeurigheid bij resoluties tot 4096x4096.
Recente ontwikkelingen in Large Language Models (LLMs) hebben aangetoond dat hun redeneervermogen aanzienlijk kan worden verbeterd door Reinforcement Learning met Verifieerbare Beloning (RLVR), met name in domeinen zoals wiskunde en programmeren, waar de juistheid automatisch kan worden geëvalueerd. Het uitbreiden van dit succes naar andere redeneerintensieve domeinen blijft echter een uitdaging vanwege het gebrek aan hoogwaardige, verifieerbare datasets en de hoge kosten van menselijke begeleiding. In dit werk introduceren we het Loong Project: een open-source raamwerk voor schaalbare synthetische datageneratie en verificatie over een breed scala aan redeneerintensieve domeinen. Het raamwerk bestaat uit twee belangrijke componenten: (1) LoongBench, een gecureerde seeddataset met 8.729 door mensen gecontroleerde voorbeelden uit 12 domeinen (bijvoorbeeld Geavanceerde Wiskunde, Scheikunde, Logica), elk gekoppeld aan uitvoerbare code en rijke metadata; en (2) LoongEnv, een modulaire omgeving voor synthetische datageneratie die meerdere promptingstrategieën ondersteunt om nieuwe vraag-antwoord-code-triples te produceren. Samen vormen deze componenten een agent-omgeving-lus die reinforcement learning mogelijk maakt, waarbij een LLM-gebaseerde agent wordt beloond voor het genereren van Chain-of-Thought (CoT)-oplossingen die overeenkomen met code-uitgevoerde antwoorden. Empirisch benchmarken we LoongBench op een breed scala aan zowel open-source als propriëtaire LLMs om de domeindekking te evalueren en prestatieknelpunten bloot te leggen. Daarnaast voeren we een uitgebreide analyse uit van synthetische data gegenereerd door LoongEnv, waarbij we de juistheid, moeilijkheidsgraad en diversiteit onderzoeken. Code en documentatie zijn beschikbaar op https://github.com/camel-ai/loong.
Het begrijpen van lange video's, gekenmerkt door langetermijn temporele afhankelijkheden en meerdere gebeurtenissen, blijft een uitdaging. Bestaande methoden vertrouwen vaak op statische redenering of externe visueel-taalmodelen (VLMs), die problemen ondervinden zoals complexiteit en suboptimale prestaties door het ontbreken van end-to-end training. In dit artikel stellen we Video-MTR voor, een versterkt multi-turn redeneerframework ontworpen om iteratieve selectie van belangrijke videosegmenten en vraagbegrip mogelijk te maken. In tegenstelling tot traditionele videoredeneerpijplijnen, die voorspellingen in één keer genereren, voert Video-MTR redenering uit in meerdere stappen, waarbij videosegmenten progressief worden geselecteerd op basis van het evoluerende begrip van eerder verwerkte segmenten en de huidige vraag. Dit iteratieve proces maakt een verfijndere en contextueel bewuste analyse van de video mogelijk. Om het tussentijdse redeneerproces te waarborgen, introduceren we een nieuw gelaagd beloningssysteem met twee niveaus, dat trajectniveau beloningen combineert op basis van antwoordcorrectheid en turnniveau beloningen die de relevantie van frame-vraag benadrukken. Dit systeem optimaliseert zowel de selectie van videosegmenten als het begrip van vragen, elimineert de noodzaak voor externe VLMs en maakt end-to-end training mogelijk. Uitgebreide experimenten op benchmarks zoals VideoMME, MLVU en EgoSchema tonen aan dat Video-MTR bestaande methoden overtreft in zowel nauwkeurigheid als efficiëntie, wat de stand van de techniek in het begrijpen van lange video's vooruithelpt.
Flow-based 3D-generatiemodellen vereisen doorgaans tientallen samplingstappen tijdens inferentie. Hoewel few-step distillatiemethoden, met name Consistency Models (CMs), aanzienlijke vooruitgang hebben geboekt bij het versnellen van 2D-diffusiemodellen, blijven ze onderbelicht voor complexere 3D-generatietaken. In deze studie stellen we een nieuw framework voor, MDT-dist, voor few-step 3D-flowdistillatie. Onze aanpak is gebaseerd op een primair doel: het distilleren van het voorgetrainde model om het Marginal-Data Transport te leren. Het direct leren van dit doel vereist het integreren van de snelheidsvelden, maar deze integraal is moeilijk te implementeren. Daarom stellen we twee optimaliseerbare doelen voor, Velocity Matching (VM) en Velocity Distillation (VD), om het optimalisatiedoel respectievelijk om te zetten van het transportniveau naar het snelheids- en distributieniveau. Velocity Matching (VM) leert om de snelheidsvelden tussen de student en de leraar stabiel te matchen, maar biedt onvermijdelijk bevooroordeelde gradientenschattingen. Velocity Distillation (VD) verbetert het optimalisatieproces verder door gebruik te maken van de geleerde snelheidsvelden om waarschijnlijkheidsdichtheidsdistillatie uit te voeren. Bij evaluatie op het baanbrekende 3D-generatieframework TRELLIS, reduceert onze methode de samplingstappen van elke flowtransformer van 25 naar 1 of 2, wat resulteert in een latentie van 0,68s (1 stap x 2) en 0,94s (2 stappen x 2) met een versnelling van 9,0x en 6,5x op A800, terwijl een hoge visuele en geometrische nauwkeurigheid behouden blijft. Uitgebreide experimenten tonen aan dat onze methode bestaande CM-distillatiemethoden significant overtreft, en TRELLIS in staat stelt superieure prestaties te behalen in few-step 3D-generatie.
We presenteren Durian, de eerste methode voor het genereren van portretanimatievideo's met overdracht van gezichtskenmerken vanuit een referentiebeeld naar een doelportret op een zero-shot-manier. Om hoogwaardige en ruimtelijk consistente kenmerkoverdracht tussen frames mogelijk te maken, introduceren we duale referentienetwerken die ruimtelijke kenmerken van zowel het portret- als het kenmerkbeeld injecteren in het denoisingsproces van een diffusiemodel. We trainen het model met een zelfreconstructieformulering, waarbij twee frames uit dezelfde portretvideo worden gesamplet: één wordt behandeld als het kenmerkreferentiebeeld en de andere als het doelportret, en de overige frames worden gereconstrueerd op basis van deze invoer en hun bijbehorende maskers. Om de overdracht van kenmerken met variërende ruimtelijke omvang te ondersteunen, stellen we een maskeruitbreidingsstrategie voor die gebruikmaakt van keypoint-geconditioneerde beeldgeneratie voor training. Daarnaast versterken we de kenmerk- en portretbeelden verder met ruimtelijke en uiterlijkstransformaties om de robuustheid tegen positionele uitlijning tussen hen te verbeteren. Deze strategieën stellen het model in staat om effectief te generaliseren over diverse kenmerken en in-the-wild referentiecombinaties, ondanks dat het getraind is zonder expliciete triplet-supervisie. Durian behaalt state-of-the-art prestaties op het gebied van portretanimatie met kenmerkoverdracht, en opmerkelijk genoeg maakt het duale referentieontwerp multi-kenmerksamenstelling mogelijk in een enkele generatiestap zonder aanvullende training.
Computer-Aided Design (CAD) generatieve modellering drijft belangrijke innovaties aan in industriële toepassingen. Recente werken hebben opmerkelijke vooruitgang getoond in het creëren van solide modellen vanuit diverse invoeren zoals puntenwolken, meshes en tekstbeschrijvingen. Deze methoden wijken echter fundamenteel af van traditionele industriële workflows die beginnen met 2D technische tekeningen. De automatische generatie van parametrische CAD-modellen vanuit deze 2D vectortekeningen blijft onderbelicht, ondanks dat het een cruciale stap is in het ontwerpproces van engineering. Om deze kloof te overbruggen, is onze belangrijkste inzicht om CAD-generatie te herformuleren als een sequence-to-sequence leerprobleem, waarbij vectortekening-primitieven direct de generatie van parametrische CAD-bewerkingen informeren, waardoor geometrische precisie en ontwerpintentie behouden blijven gedurende het transformatieproces. Wij stellen Drawing2CAD voor, een raamwerk met drie belangrijke technische componenten: een netwerkvriendelijke vectorprimitief-representatie die precieze geometrische informatie behoudt, een dual-decoder transformer-architectuur die het genereren van commando-type en parameters ontkoppelt terwijl precieze correspondentie wordt gehandhaafd, en een soft target distributie verliesfunctie die inherente flexibiliteit in CAD-parameters accommodeert. Om Drawing2CAD te trainen en evalueren, hebben we CAD-VGDrawing gecreëerd, een dataset van gepaarde technische tekeningen en parametrische CAD-modellen, en uitgebreide experimenten uitgevoerd om de effectiviteit van onze methode aan te tonen. Code en dataset zijn beschikbaar op https://github.com/lllssc/Drawing2CAD.
Het succes van krachtige open-source Large Language Models (LLM's) heeft de gemeenschap in staat gesteld om een uitgebreide collectie van na-training aangepaste modellen te creëren, afgestemd op specifieke taken en domeinen. Het navigeren en begrijpen van deze modellen blijft echter een uitdaging vanwege inconsistente metadata en ongestructureerde repositories. Wij introduceren Delta Activations, een methode om gefinetunede modellen weer te geven als vector embeddings door verschuivingen in hun interne activeringen te meten ten opzichte van een basis model. Deze representatie maakt effectieve clustering op basis van domein en taak mogelijk, waardoor structuur in het model landschap zichtbaar wordt. Delta Activations vertonen ook gewenste eigenschappen: het is robuust in verschillende finetuning-instellingen en toont een additieve eigenschap wanneer finetuning datasets worden gemengd. Daarnaast tonen we aan dat Delta Activations taken kunnen embedden via few-shot finetuning, en verkennen we verder het gebruik ervan voor modelselectie en -samenvoeging. Wij hopen dat Delta Activations de praktijk van het hergebruiken van publiek beschikbare modellen kan vergemakkelijken. Code is beschikbaar op https://github.com/OscarXZQ/delta_activations.
Grote Taalmodellen (LLMs) kunnen schadelijke instructies opvolgen, wat ernstige veiligheidszorgen oproept ondanks hun indrukwekkende mogelijkheden. Recent onderzoek heeft gebruikgemaakt van op sondering gebaseerde benaderingen om de scheidbaarheid van kwaadaardige en goedaardige invoer in de interne representaties van LLMs te bestuderen, en onderzoekers hebben voorgesteld om dergelijke sondermethoden te gebruiken voor veiligheidsdetectie. Wij onderzoeken dit paradigma systematisch opnieuw. Gemotiveerd door slechte prestaties buiten de verdeling, stellen we de hypothese dat sondes oppervlakkige patronen leren in plaats van semantische schadelijkheid. Door middel van gecontroleerde experimenten bevestigen we deze hypothese en identificeren we de specifieke patronen die worden geleerd: instructiepatronen en triggerwoorden. Ons onderzoek volgt een systematische aanpak, waarbij we eerst vergelijkbare prestaties van eenvoudige n-gram methoden aantonen, vervolgens gecontroleerde experimenten uitvoeren met semantisch opgeschoonde datasets, en ten slotte een gedetailleerde analyse maken van patroonafhankelijkheden. Deze resultaten onthullen een vals gevoel van veiligheid rond de huidige op sondering gebaseerde benaderingen en benadrukken de noodzaak om zowel modellen als evaluatieprotocollen te herontwerpen, waarvoor we verdere discussies bieden in de hoop verantwoord vervolgonderzoek in deze richting te suggereren. We hebben het project openbaar gemaakt op https://github.com/WangCheng0116/Why-Probe-Fails.