Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (GTM'en) krijgen steeds vaker creatieve taken toebedeeld, waaronder het simuleren van fictieve personages. Hun vermogen om niet-prosociale, antagonistische persona's uit te beelden, is echter grotendeels ononderzoek gebleven. Wij veronderstellen dat de veiligheidsafstemming van moderne GTM'en een fundamenteel conflict vormt met de taak om moreel ambiguë of schurkachtige personages authentiek te belichamen. Om dit te onderzoeken, introduceren we de Moral RolePlay-benchmark, een nieuwe dataset met een moreel-afstemmingsschaal van vier niveaus en een gebalanceerde testset voor rigoureuze evaluatie. We laten geavanceerde GTM'en personages belichamen, variërend van morele paragons tot pure schurken. Onze grootschalige evaluatie toont een consistente, monotone afname in de geloofwaardigheid van de rolweergave naarmate de moraliteit van het personage afneemt. We constateren dat modellen de meeste moeite hebben met eigenschappen die direct antithetisch zijn aan veiligheidsprincipes, zoals ``bedrieglijk'' en ``manipulatief'', waarbij genuanceerde kwaadaardigheid vaak wordt vervangen door oppervlakkige agressie. Verder tonen we aan dat algemene chatbotvaardigheid een slechte voorspeller is voor het vermogen om schurkenrollen te spelen, waarbij sterk veiligheidsafgestemde modellen bijzonder slecht presteren. Ons werk levert het eerste systematische bewijs van deze kritieke beperking en belicht een fundamentele spanning tussen models veiligheid en creatieve geloofwaardigheid. Onze benchmark en bevindingen banen de weg voor de ontwikkeling van meer genuanceerde, contextbewuste afstemmingsmethoden.
Het vastleggen van ruimtelijke relaties uit visuele invoer is een hoeksteen van mensachtige algemene intelligentie. Verschillende eerdere studies hebben geprobeerd het ruimtelijk bewustzijn van Vision-Language Models (VLMs) te verbeteren door extra expert-encoders toe te voegen, wat extra overhead met zich meebrengt en doorgaans afbreuk doet aan de algemene capaciteiten. Om het ruimtelijk vermogen in algemene architecturen te verbeteren, introduceren we Visual Spatial Tuning (VST), een uitgebreid raamwerk om VLMs te voorzien van mensachtige visueel-ruimtelijke vaardigheden, van ruimtelijke perceptie tot redeneren. We proberen eerst de ruimtelijke perceptie in VLMs te verbeteren door het construeren van een grootschalige dataset genaamd VST-P, die 4,1 miljoen samples omvat over 19 vaardigheden verspreid over enkele beelden, meerdere afbeeldingen en video's. Vervolgens presenteren we VST-R, een samengestelde dataset met 135K samples die modellen instrueert om ruimtelijk te redeneren. In het bijzonder hanteren we een progressieve trainingspijplijn: supervised fine-tuning om een fundamentele ruimtelijke kennis op te bouwen, gevolgd door reinforcement learning om de ruimtelijke redeneervaardigheden verder te verbeteren. Zonder negatieve gevolgen voor de algemene capaciteiten behaalt de voorgestelde VST consistente state-of-the-art resultaten op verschillende ruimtelijke benchmarks, waaronder 34,8% op MMSI-Bench en 61,2% op VSIBench. Het blijkt dat Vision-Language-Action-modellen aanzienlijk kunnen worden verbeterd met het voorgestelde ruimtelijke tuningparadigma, wat de weg effent voor meer fysiek gegronde AI.
Agentische multimodale modellen moeten niet alleen tekst en afbeeldingen begrijpen, maar ook actief externe tools aanroepen, zoals code-uitvoeringsomgevingen en webzoekopdrachten, en deze handelingen integreren in hun redeneerproces. In dit werk introduceren we DeepEyesV2 en onderzoeken we hoe een agentisch multimodaal model kan worden opgebouwd vanuit de perspectieven van dataconstructie, trainingsmethoden en modelevaluatie. We observeren dat enkel directe reinforcement learning onvoldoende is om robuust toolgebruik te induceren. Dit fenomeen motiveert een tweefasentrainingspijplijn: een cold-startfase om toolgebruikspatronen te vestigen, en een reinforcement learning-fase om het aanroepen van tools verder te verfijnen. We stellen een diverse, matig uitdagende trainingsdataset samen die specifiek voorbeelden bevat waarin toolgebruik nuttig is. Verder introduceren we RealX-Bench, een uitgebreide benchmark ontworpen om real-world multimodaal redeneren te evalueren, wat inherent de integratie van meerdere capaciteiten vereist, waaronder waarneming, zoeken en redeneren. We evalueren DeepEyesV2 op RealX-Bench en andere representatieve benchmarks, wat de effectiviteit aantoont bij real-world begrip, wiskundig redeneren en zoekintensieve taken. Bovendien vertoont DeepEyesV2 taakadaptief toolgebruik, met een neiging om beeldbewerkingen te gebruiken voor waarnemingstaken en numerieke berekeningen voor redeneertaken. Reinforcement learning maakt complexe toolcombinaties mogelijk en stelt het model in staat om tools selectief aan te roepen op basis van context. We hopen dat onze studie richting kan geven aan de gemeenschap bij de ontwikkeling van agentische multimodale modellen.
LLM's kunnen multi-stap redeneringen uitvoeren via Chain-of-Thought (CoT), maar ze kunnen hun eigen logica niet betrouwbaar verifiëren. Zelfs wanneer ze tot correcte antwoorden komen, kan de onderliggende redeneerwijze gebreken vertonen, wat het vertrouwen in hoog-risico scenario's ondermijnt. Om dit probleem te verlichten, introduceren we VeriCoT, een neuro-symbolische methode die formele logische argumenten uit CoT-redeneringen extraheert en verifieert. VeriCoT formaliseert elke CoT-redeneerstap naar eerstelogica en identificeert premissen die het argument verankeren in de broncontext, common sense-kennis of eerdere redeneerstappen. De symbolische representatie maakt het mogelijk voor geautomatiseerde solvers om de logische geldigheid te verifiëren, terwijl de NL-premissen mens en systeem in staat stellen om ongegronde of foutieve redeneerstappen te identificeren. Experimenten op de ProofWriter-, LegalBench- en BioASQ-datasets tonen aan dat VeriCoT effectief gebrekkige redeneringen identificeert en fungeert als een sterke voorspeller van de uiteindelijke antwoordcorrectheid. We benutten ook VeriCoT's verificatiesignaal voor (1) zelfreflectie tijdens inferentie, (2) supervised fine-tuning (SFT) op VeriCoT-gedistilleerde datasets en (3) preference fine-tuning (PFT) met directe preferentie-optimalisatie (DPO) met op verificatie gebaseerde paarsgewijze beloningen, wat de redeneergeldigheid en nauwkeurigheid verder verbetert.
Agentia in de echte wereld moeten niet alleen logische, maar ook tijdige oordelen vellen. Dit vereist een voortdurend bewustzijn van de dynamische omgeving: gevaren dienen zich aan, kansen ontstaan, en andere agenten handelen, terwijl het redeneerproces van de agent zelf nog gaande is. Ondanks vooruitgang in redeneermodellen voor taalmodellen, houden bestaande benaderingen geen rekening met deze dynamische aard. Wij introduceren real-time redeneren als een nieuwe probleemformulering voor agentia in evoluerende omgevingen en ontwikkelen de Real-Time Reasoning Gym om dit te demonstreren. Wij bestuderen twee paradigma's voor het inzetten van taalmodellen in agentia: (1) reactieve agentia, die taalmodellen gebruiken met een begrensde rekenkracht voor redeneren om snel te kunnen reageren, en (2) plannende agentia, die uitgebreide rekenkracht voor redeneren toestaan voor complexe problemen. Onze experimenten tonen aan dat zelfs state-of-the-art modellen moeite hebben met het vellen van logische en tijdige oordelen in beide paradigma's. Om deze beperking aan te pakken, stellen wij AgileThinker voor, dat beide redeneerparadigma's gelijktijdig activeert. AgileThinker presteert consistent beter dan agentia die slechts één redeneerparadigma gebruiken naarmate de taakmoeilijkheid en tijdsdruk toenemen, en balanceert effectief tussen redeneerdiepte en reactielatentie. Ons werk vestigt real-time redeneren als een kritieke testomgeving voor de ontwikkeling van praktische agentia en biedt een basis voor onderzoek naar temporeel beperkte AI-systemen, waarbij het een pad naarst richting real-time capabele agentia belicht.
Recente vooruitgang in de integratie van 3D-menselijke beweging en taal heeft zich voornamelijk gericht op tekst-naar-beweging-generatie, waardoor de taak van bewegingbegrip relatief onderbelicht is gebleven. Wij introduceren Dense Motion Captioning, een nieuwe taak die tot doel heeft acties binnen 3D-menselijke bewegingssequenties temporeel te lokaliseren en te beschrijven. Bestaande datasets schieten tekort in het bieden van gedetailleerde temporele annotaties en bestaan voornamelijk uit korte sequenties met weinig acties. Om deze beperkingen te overwinnen, presenteren wij de Complex Motion Dataset (CompMo), de eerste grootschalige dataset met rijk geannoteerde, complexe bewegingssequenties met precieze temporele grenzen. CompMo, opgebouwd via een zorgvuldig ontworpen datageneratiepijplijn, omvat 60.000 bewegingssequenties die elk zijn samengesteld uit meerdere acties – variërend van minimaal twee tot tien – en die nauwkeurig zijn geannoteerd met hun temporele extenties. Verder presenteren wij DEMO, een model dat een groot taalmodel integreert met een eenvoudige bewegingadapter, getraind om dichte, temporeel verankerde bijschriften te genereren. Onze experimenten tonen aan dat DEMO aanzienlijk beter presteert dan bestaande methoden op CompMo evenals op aangepaste benchmarks, waarmee een robuuste basislijn wordt gevestigd voor toekomstig onderzoek naar 3D-bewegingbegrip en -beschrijving.
In dit werk identificeren we een inherente bias in gangbare LVLM-architecturen ten gunste van de taalmodaliteit, die grotendeels het gevolg is van de gebruikelijke praktijk om visuele embeddings eenvoudigweg aan de invoertekstsequentie toe te voegen. Om dit aan te pakken, stellen we een eenvoudige maar effectieve methode voor die tekstuele embeddings verfijnt door gemiddeld-gepoolde visuele kenmerken te integreren. Onze aanpak verbetert aantoonbaar de visuele verankering en vermindert hallucinaties aanzienlijk op gevestigde benchmarks. Hoewel average pooling een rechttoe-rechtaan, robuust en efficiënt middel biedt om visuele informatie op te nemen, zijn wij van mening dat meer geavanceerde fusiemethoden de visuele verankering en cross-modale uitlijning verder kunnen verbeteren. Aangezien de primaire focus van dit werk ligt op het belichten van de modaliteitsonevenwichtigheid en de impact daarvan op hallucinaties – en om aan te tonen dat het verfijnen van tekstuele embeddings met visuele informatie dit probleem vermindert – laten we de verkenning van geavanceerde fusiestrategieën over aan toekomstig werk.
Nauwkeurige betrouwbaarheidscalibratie in Large Language Models (LLM's) is cruciaal voor veilig gebruik in hoog-risicodomeinen, waarbij duidelijke verbaal uitgedrukte betrouwbaarheid het gebruikersvertrouwen vergroot. Traditionele methoden die referentie-betrouwbaarheidsuitdrukkingen nabootsen, slagen er vaak niet in de redenering te vatten die nodig is voor een nauwkeurige betrouwbaarheidsinschatting. Wij stellen natuurlijke-taalkritieken voor als oplossing, die bij uitstek geschikt zijn voor betrouwbaarheidscalibratie, omdat precieze gouden betrouwbaarheidslabels moeilijk te verkrijgen zijn en vaak meerdere generaties vereisen. Deze paper onderzoekt hoe natuurlijke-taalkritieken de verbaal uitgedrukte betrouwbaarheid kunnen verbeteren, en behandelt: (1) Wat te bekritiseren: onzekerheid (vraaggericht) of betrouwbaarheid (antwoordspecifiek)? Analyse toont aan dat betrouwbaarheid geschikt is voor multiple-choice taken, terwijl onzekerheid uitblinkt in open-eindscenario's. (2) Hoe te bekritiseren: zelfkritiek of kritiekcalibratietraining? Wij stellen Self-Critique voor, waarmee LLM's hun eigen betrouwbaarheid kunnen bekritiseren en optimaliseren voorbij loutere nauwkeurigheid, en CritiCal, een nieuwe Critique Calibration-trainingsmethode die natuurlijke-taalkritieken benut om de betrouwbaarheidscalibratie te verbeteren, voorbij directe numerieke optimalisatie. Experimenten tonen aan dat CritiCal Self-Critique en andere competitieve baseline-methoden significant overtreft, en zelfs zijn leraarmodel, GPT-4o, overstijgt in complexe redeneertaken. CritiCal toont ook robuuste generalisatie in out-of-distribution settings, wat de betrouwbaarheid van LLM's vooruithelpt.
Recente vooruitgang in taalmodellen met lange context (LM's) heeft invoer van miljoen tokens mogelijk gemaakt, wat hun capaciteiten uitbreidt voor complexe taken zoals computergebruik-agents. Toch blijven de veiligheidsimplicaties van deze uitgebreide contexten onduidelijk. Om deze kloof te overbruggen, introduceren we NINJA (een acroniem voor Needle-in-haystack jailbreak-aanval), een methode die gealigneerde LM's jailbreakt door onschadelijke, door het model gegenereerde inhoud toe te voegen aan schadelijke gebruikersdoelen. Cruciaal voor onze methode is de observatie dat de positie van schadelijke doelen een belangrijke rol speelt in de veiligheid. Experimenten op de standaard veiligheidsbenchmark, HarmBench, tonen aan dat NINJA de aanvalssuccespercentages aanzienlijk verhoogt bij state-of-the-art open-source en propriëtaire modellen, waaronder LLaMA, Qwen, Mistral en Gemini. In tegenstelling tot eerdere jailbreak-methoden is onze aanpak laag in resourceverbruik, overdraagbaar en minder detecteerbaar. Bovendien tonen we aan dat NINJA compute-optimaal is – bij een vast rekenbudget kan het verhogen van de contextlengte superieur zijn aan het verhogen van het aantal pogingen in een best-of-N jailbreak. Deze bevindingen onthullen dat zelfs onschadelijke lange contexten – wanneer zorgvuldig gepositioneerd met het doel – fundamentele kwetsbaarheden in moderne LM's introduceren.
Geautomatiseerd programmaherstel (APR) heeft recentelijk een verschuiving doorgemaakt naar grote taalmodelen en agent-gebaseerde systemen, maar de meeste systemen vertrouwen op lokale snapshotcontext en negeren repositorygeschiedenis. Eerder onderzoek toont aan dat repositorygeschiedenis helpt bij het herstellen van enkelregelige bugs, omdat de laatste commit die de buggy regel aanraakt vaak de bug-introducerende is. In dit artikel onderzoeken we of repositorygeschiedenis ook op grote schaal agent-gebaseerde APR-systemen kan verbeteren, vooral voor complexe multi-hunk bugs. We presenteren HAFixAgent, een History-Aware Bug-Fixing Agent die op blame afgeleide repositoryheuristieken injecteert in zijn herstelloop. Een voorlopige studie van alle 854 real-world bugs uit Defects4J motiveert ons ontwerp, en toont aan dat bug-relevante geschiedenis zowel ruim beschikbaar als sterk geconcentreerd is. Empirische vergelijking van HAFixAgent met twee state-of-the-art baseline-systemen toont aan: (1) Effectiviteit: HAFixAgent verbetert significant ten opzichte van de agent-gebaseerde baseline (met 212,3%) en de multi-hunk baseline (met 29,9%). (2) Efficiëntie: geschiedenis verhoogt agentstappen niet significant en houdt tokenkosten vergelijkbaar, met opmerkelijk lagere mediane kosten voor complexe multi-file-multi-hunk bugs. (3) Praktische bruikbaarheid: het combineren van verschillende historische heuristieken herstelt meer bugs, wat een duidelijke kosten-batenafweging biedt. HAFixAgent biedt een praktisch recept voor history-aware agentic APR: veranker de agent in versiebeheerhistoriek, prioriteer diff-gebaseerde historische context, en integreer complementaire heuristieken waar nodig.