Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in grote redeneermodellen (LRMs) tonen aan dat geavanceerd gedrag zoals meerstaps redeneren en zelfreflectie kunnen ontstaan via reinforcement learning (RL) met eenvoudige, op regels gebaseerde beloningen. Bestaande zero-RL-benaderingen zijn echter inherent "on-policy", wat het leren beperkt tot de eigen uitvoer van een model en het verwerven van redeneervaardigheden buiten de initiële mogelijkheden belemmert. Wij introduceren LUFFY (Learning to Reason Under oFF-policY guidance), een raamwerk dat zero-RL versterkt met off-policy redeneersporen. LUFFY balanceert dynamisch imitatie en exploratie door off-policy demonstraties te combineren met on-policy rollouts tijdens de training. Opmerkelijk is dat we policy shaping voorstellen via gereguleerde importance sampling om oppervlakkige en rigide imitatie tijdens gemengd-policy training te voorkomen. LUFFY behaalt een gemiddelde winst van meer dan +7,0 over zes wiskundige benchmarks en een voordeel van meer dan +6,2 punten in taken buiten de distributie. Het overtreft ook aanzienlijk imitatiegebaseerde supervised fine-tuning (SFT), met name in generalisatie. Analyse toont aan dat LUFFY niet alleen effectief imiteert, maar ook verder gaat dan demonstraties, wat een schaalbare weg biedt om generaliseerbare redeneermodellen te trainen met off-policy begeleiding.
We introduceren Eagle 2.5, een familie van geavanceerde visueel-taalkundige modellen (VLMs) voor lang-context multimodale learning. Ons werk richt zich op de uitdagingen in het begrijpen van lange video's en het interpreteren van hoge-resolutie afbeeldingen, en introduceert een generalistisch raamwerk voor beide taken. Het voorgestelde trainingsraamwerk omvat Automatic Degrade Sampling en Image Area Preservation, twee technieken die de contextuele integriteit en visuele details behouden. Het raamwerk bevat ook talrijke efficiëntie-optimalisaties in de pijplijn voor het trainen van lang-context data. Ten slotte stellen we Eagle-Video-110K voor, een nieuwe dataset die zowel story-level als clip-level annotaties integreert, wat het begrijpen van lange video's vergemakkelijkt. Eagle 2.5 toont aanzienlijke verbeteringen op lang-context multimodale benchmarks, en biedt een robuuste oplossing voor de beperkingen van bestaande VLMs. Opmerkelijk is dat ons beste model, Eagle 2.5-8B, 72,4% behaalt op Video-MME met 512 invoerframes, wat overeenkomt met de resultaten van topcommerciële modellen zoals GPT-4o en grootschalige open-source modellen zoals Qwen2.5-VL-72B en InternVL2.5-78B.
Dit artikel introduceert een query-level meta-agent genaamd FlowReasoner om het ontwerp van query-level multi-agent systemen te automatiseren, d.w.z. één systeem per gebruikersquery. Onze kernidee is om een op redenering gebaseerde meta-agent te stimuleren via externe uitvoeringsfeedback. Concreet geven we FlowReasoner eerst een basisredeneervermogen met betrekking tot het genereren van multi-agent systemen door DeepSeek R1 te destilleren. Vervolgens versterken we dit verder via reinforcement learning (RL) met externe uitvoeringsfeedback. Een veelzijdige beloning is ontworpen om de RL-training te begeleiden vanuit het oogpunt van prestaties, complexiteit en efficiëntie. Op deze manier is FlowReasoner in staat om een gepersonaliseerd multi-agent systeem te genereren voor elke gebruikersquery via weloverwogen redenering. Experimenten op zowel technische als competitiecode benchmarks tonen de superioriteit van FlowReasoner aan. Opmerkelijk is dat het o1-mini met 10,52% nauwkeurigheid overtreft op drie benchmarks. De code is beschikbaar op https://github.com/sail-sg/FlowReasoner.
Huidige Large Language Models (LLMs) ondergaan vaak supervised fine-tuning (SFT) om het gebruik van tools te leren. Echter, SFT heeft moeite om te generaliseren naar onbekende of complexe scenario's waarin tools worden gebruikt. Recente vooruitgang in reinforcement learning (RL), met name met R1-achtige modellen, heeft veelbelovende redeneer- en generalisatievaardigheden aangetoond. Toch brengt het ontwerpen van beloningen voor toolgebruik unieke uitdagingen met zich mee: meerdere tools kunnen worden aangeroepen met diverse parameters, en grofkorrelige beloningssignalen, zoals antwoordmatching, bieden niet de fijnmazige feedback die nodig is voor effectief leren. In dit werk presenteren we de eerste uitgebreide studie naar beloningsontwerp voor taken gericht op toolselectie en -toepassing binnen het RL-paradigma. We onderzoeken systematisch een breed scala aan beloningsstrategieën, waarbij we hun typen, schalen, granulariteit en temporele dynamiek analyseren. Op basis van deze inzichten stellen we een principieel beloningsontwerp voor dat is afgestemd op taken rond toolgebruik en passen we dit toe om LLMs te trainen met behulp van Group Relative Policy Optimization (GRPO). Empirische evaluaties over diverse benchmarks tonen aan dat onze aanpak robuuste, schaalbare en stabiele training oplevert, met een verbetering van 17% ten opzichte van basismodellen en een winst van 15% ten opzichte van SFT-modellen. Deze resultaten onderstrepen de cruciale rol van doordacht beloningsontwerp bij het verbeteren van de toolgebruikscapaciteiten en generalisatieprestaties van LLMs. Alle codes worden vrijgegeven om toekomstig onderzoek te faciliteren.
Tool-integrated reasoning (TIR) versterkt grote taalmodellen (LLMs) met de mogelijkheid om externe tools aan te roepen, zoals zoekmachines en code-interpreters, om taken op te lossen die verder gaan dan de mogelijkheden van taalgerichte redenering. Hoewel reinforcement learning (RL) veelbelovend is gebleken in het verbeteren van TIR door de juistheid van het eindantwoord te optimaliseren, negeren bestaande benaderingen vaak de efficiëntie en kosten die gepaard gaan met het gebruik van tools. Dit kan leiden tot suboptimaal gedrag, waaronder overmatige tool-aanroepen die de rekenkundige en financiële overhead vergroten, of onvoldoende toolgebruik dat de kwaliteit van het antwoord in gevaar brengt. In dit werk stellen we Optimal Tool Call-controlled Policy Optimization (OTC-PO) voor, een eenvoudig maar effectief RL-gebaseerd raamwerk dat modellen aanmoedigt om nauwkeurige antwoorden te produceren met minimale tool-aanroepen. Onze methode introduceert een tool-geïntegreerde beloning die zowel de juistheid als de tool-efficiëntie in overweging neemt, waardoor een hoge toolproductiviteit wordt bevorderd. We concretiseren dit raamwerk binnen zowel Proximal Policy Optimization (PPO) als Group Relative Preference Optimization (GRPO), wat resulteert in OTC-PPO en OTC-GRPO. Experimenten met Qwen-2.5 en Qwen-Math over meerdere QA-benchmarks laten zien dat onze aanpak tool-aanroepen met tot wel 73,1\% vermindert en de toolproductiviteit met tot wel 229,4\% verbetert, terwijl een vergelijkbare nauwkeurigheid van het antwoord behouden blijft. Voor zover wij weten, is dit het eerste RL-gebaseerde raamwerk dat expliciet de efficiëntie van toolgebruik in TIR optimaliseert.
Meerzijdige interacties met taalmodelen (LMs) vormen kritieke veiligheidsrisico's, aangezien schadelijke intenties strategisch over meerdere uitwisselingen kunnen worden verspreid. Desondanks heeft het overgrote deel van eerder onderzoek zich gericht op veiligheid in enkelvoudige interacties, terwijl aanpassingsvermogen en diversiteit tot de belangrijkste uitdagingen blijven behoren bij meerzijdige red-teaming. Om deze uitdagingen aan te pakken, presenteren we X-Teaming, een schaalbaar raamwerk dat systematisch onderzoekt hoe schijnbaar onschuldige interacties escaleren naar schadelijke uitkomsten en daarbij bijbehorende aanvalsscenario's genereert. X-Teaming maakt gebruik van collaboratieve agents voor planning, aanvalsoptimalisatie en verificatie, en bereikt state-of-the-art effectiviteit en diversiteit bij meerzijdige jailbreaks, met slagingspercentages tot 98,1% over representatieve toonaangevende open-weight en closed-source modellen. In het bijzonder behaalt X-Teaming een aanvalssuccespercentage van 96,2% tegen het nieuwste Claude 3.7 Sonnet-model, dat als bijna immuun werd beschouwd voor enkelvoudige aanvallen. Op basis van X-Teaming introduceren we XGuard-Train, een open-source dataset voor meerzijdige veiligheidstraining die 20x groter is dan de vorige beste bron, bestaande uit 30K interactieve jailbreaks, ontworpen om robuuste meerzijdige veiligheidsafstemming voor LMs mogelijk te maken. Ons werk biedt essentiële tools en inzichten voor het mitigeren van geavanceerde conversatieaanvallen, en bevordert daarmee de meerzijdige veiligheid van LMs.
Recente Computer-Using Agents (CUAs), aangedreven door multimodale grote taalmodellen (LLMs), bieden een veelbelovende richting voor het automatiseren van complexe desktopwerkstromen via natuurlijke taal. De meeste bestaande CUAs blijven echter conceptuele prototypes, gehinderd door oppervlakkige OS-integratie, fragiele interactie op basis van schermafbeeldingen en verstorende uitvoering. Wij presenteren UFO2, een multiagent AgentOS voor Windows-desktops die CUAs naar een praktisch, systeemniveau van automatisering tilt. UFO2 beschikt over een gecentraliseerde HostAgent voor taakdecompositie en coördinatie, naast een verzameling applicatiegespecialiseerde AppAgents die zijn uitgerust met native API's, domeinspecifieke kennis en een uniforme GUI--API-actielaag. Deze architectuur maakt robuuste taakuitvoering mogelijk terwijl modulariteit en uitbreidbaarheid behouden blijven. Een hybride controledetectiepipeline combineert Windows UI Automation (UIA) met visiegebaseerde parsing om diverse interfacestijlen te ondersteunen. De runtime-efficiëntie wordt verder verbeterd door middel van speculatieve multi-actieplanning, waardoor de LLM-overhead per stap wordt verminderd. Ten slotte maakt een Picture-in-Picture (PiP)-interface automatisering mogelijk binnen een geïsoleerde virtuele desktop, waardoor agents en gebruikers gelijktijdig kunnen werken zonder interferentie. Wij evalueren UFO2 over meer dan 20 real-world Windows-applicaties, waarbij aanzienlijke verbeteringen in robuustheid en uitvoeringsnauwkeurigheid ten opzichte van eerdere CUAs worden aangetoond. Onze resultaten laten zien dat diepe OS-integratie een schaalbare weg opent naar betrouwbare, gebruikersgerichte desktopautomatisering.
De toenemende vraag naar AR/VR-toepassingen heeft de behoefte aan hoogwaardige 360-graden panoramische content benadrukt. Het genereren van hoogwaardige 360-graden panoramische afbeeldingen en video's blijft echter een uitdagende taak vanwege de ernstige vervormingen die worden geïntroduceerd door equirectangulaire projectie (ERP). Bestaande benaderingen finetunen vooraf getrainde diffusiemodellen op beperkte ERP-datasets of proberen tuningsvrije methoden die nog steeds vertrouwen op ERP-latente representaties, wat leidt tot discontinuïteiten nabij de polen. In dit artikel introduceren we SphereDiff, een nieuwe benadering voor naadloze 360-graden panoramische afbeeldingen en video-generatie met behulp van state-of-the-art diffusiemodellen zonder aanvullende tuning. We definiëren een sferische latente representatie die een uniforme verdeling over alle perspectieven garandeert, waardoor de inherente vervormingen in ERP worden gemitigeerd. We breiden MultiDiffusion uit naar een sferische latente ruimte en stellen een sferische latente bemonsteringsmethode voor om het directe gebruik van vooraf getrainde diffusiemodellen mogelijk te maken. Bovendien introduceren we vervormingsbewust gewogen gemiddelden om de generatiekwaliteit in het projectieproces verder te verbeteren. Onze methode overtreft bestaande benaderingen in het genereren van 360-graden panoramische content terwijl een hoge kwaliteit wordt behouden, wat het een robuuste oplossing maakt voor immersive AR/VR-toepassingen. De code is hier beschikbaar. https://github.com/pmh9960/SphereDiff
Meerzijdig begrip, het vermogen om visuele informatie vanuit diverse gezichtspunten te verzoenen voor effectieve navigatie, manipulatie en 3D-scènebegrip, is een fundamentele uitdaging in Multi-Modale Grote Taalmodellen (MLLMs) die als belichaamde agenten worden gebruikt. Hoewel recente MLLMs indrukwekkende vooruitgang hebben geboekt in hoogwaardig redeneren en plannen, schieten ze vaak tekort wanneer ze worden geconfronteerd met meerzijdige geometrische consistentie en kruisgezichtspuntcorrespondentie. Om de uitdagingen van MLLMs in meerzijdig scèneredeneren uitgebreid te evalueren, stellen we All-Angles Bench voor, een benchmark met meer dan 2.100 door mensen zorgvuldig geannoteerde meerzijdige vraag-antwoordparen uit 90 diverse real-world scènes. Onze zes taken (tellen, attribuutidentificatie, relatieve afstand, relatieve richting, objectmanipulatie en camerapose-schatting) testen specifiek de geometrische correspondentie van het model en het vermogen om informatie consistent over verschillende gezichtspunten uit te lijnen. Onze uitgebreide experimenten, waarbij 27 representatieve MLLMs, waaronder Gemini-2.0-Flash, Claude-3.7-Sonnet en GPT-4o, worden gebenchmarkt tegen menselijke beoordelaars, onthullen een aanzienlijk prestatieverschil, wat aangeeft dat huidige MLLMs nog ver verwijderd zijn van menselijk niveau. Door diepgaande analyse tonen we aan dat MLLMs vooral onderpresteren op twee aspecten: (1) kruisgezichtspuntcorrespondentie voor gedeeltelijk verborgen gezichtspunten en (2) het vaststellen van grove cameraposes. Deze bevindingen benadrukken de noodzaak van domeinspecifieke verfijningen of modules die een sterker meerzijdig bewustzijn inbedden. Wij geloven dat onze All-Angles Bench waardevolle inzichten biedt en bijdraagt aan het overbruggen van de kloof tussen MLLMs en menselijk meerzijdig begrip. Het project en de benchmark zijn openbaar beschikbaar op https://danielchyeh.github.io/All-Angles-Bench/.
Redeneermodellen hebben indrukwekkende prestaties getoond op moeilijke taken waar traditionele taalmodelen moeite mee hebben. Veel modellen kampen echter met het probleem van overdenken—het genereren van grote hoeveelheden onnodige tokens die de nauwkeurigheid van een vraag niet verbeteren. We introduceren benaderende maatstaven voor probleemniveau-moeilijkheid en tonen aan dat er een duidelijk verband bestaat tussen probleemmoeilijkheid en optimale tokenbesteding, en evalueren hoe goed een verscheidenheid aan redeneermodellen zijn afgestemd op het efficiënt toewijzen van het optimale aantal tokens. We constateren dat redeneermodellen over het algemeen slecht zijn afgestemd, vooral op eenvoudige problemen. Om de afstemming op eenvoudige vragen te evalueren, introduceren we DUMB500, een dataset van extreem eenvoudige wiskunde-, redeneer-, code- en taakproblemen, en evalueren we redeneermodellen gezamenlijk op deze eenvoudige voorbeelden en extreem moeilijke voorbeelden uit bestaande toonaangevende benchmarks binnen hetzelfde taakdomein. Tot slot introduceren we THOUGHTTERMINATOR, een trainingsvrije black box-decoderingstechniek die de afstemming van redeneermodellen aanzienlijk verbetert.
3D Gaussian Splatting (3DGS) blinkt uit in fotorealistische scène-reconstructie, maar heeft moeite met gestileerde scenario's (bijv. cartoons, games) vanwege gefragmenteerde texturen, semantische uitlijning en beperkte aanpassingsvermogen aan abstracte esthetiek. Wij stellen StyleMe3D voor, een holistisch framework voor 3D GS-stijloverdracht dat multi-modale stijlconditionering, multi-level semantische uitlijning en perceptuele kwaliteitsverbetering integreert. Onze belangrijkste inzichten zijn: (1) het optimaliseren van alleen RGB-attributen behoudt geometrische integriteit tijdens stilisering; (2) het ontwarren van laag-, midden- en hoog-niveau semantiek is cruciaal voor coherente stijloverdracht; (3) schaalbaarheid over geïsoleerde objecten en complexe scènes is essentieel voor praktische implementatie. StyleMe3D introduceert vier nieuwe componenten: Dynamic Style Score Distillation (DSSD), dat gebruikmaakt van Stable Diffusion's latente ruimte voor semantische uitlijning; Contrastive Style Descriptor (CSD) voor gelokaliseerde, inhoudsbewuste textuuroverdracht; Simultaneously Optimized Scale (SOS) om stijldetails en structurele samenhang te ontkoppelen; en 3D Gaussian Quality Assessment (3DG-QA), een differentieerbaar esthetisch prior getraind op door mensen beoordeelde data om artefacten te onderdrukken en visuele harmonie te verbeteren. Geëvalueerd op de NeRF synthetische dataset (objecten) en tandt db (scènes) datasets, overtreft StyleMe3D state-of-the-art methoden in het behouden van geometrische details (bijv. gravures op sculpturen) en het waarborgen van stilistische consistentie over scènes (bijv. coherente belichting in landschappen), terwijl real-time rendering behouden blijft. Dit werk verbindt fotorealistische 3D GS en artistieke stilisering, wat toepassingen in gaming, virtuele werelden en digitale kunst ontsluit.
In dit artikel introduceren we EasyEdit2, een framework ontworpen om plug-and-play aanpasbaarheid mogelijk te maken voor het beheersen van het gedrag van Large Language Models (LLM's). EasyEdit2 ondersteunt een breed scala aan interventies tijdens het testen, waaronder veiligheid, sentiment, persoonlijkheid, redeneerpatronen, feitelijkheid en taalkenmerken. In tegenstelling tot zijn voorganger beschikt EasyEdit2 over een nieuwe architectuur die specifiek is ontworpen voor naadloze modelsturing. Het bestaat uit belangrijke modules zoals de stuurvectorgenerator en de stuurvectorapplicator, die het automatisch genereren en toepassen van stuurvectoren mogelijk maken om het gedrag van het model te beïnvloeden zonder de parameters ervan te wijzigen. Een van de belangrijkste voordelen van EasyEdit2 is het gebruiksgemak – gebruikers hebben geen uitgebreide technische kennis nodig. Met slechts één voorbeeld kunnen ze de reacties van het model effectief sturen en aanpassen, waardoor precieze controle zowel toegankelijk als efficiënt wordt. Empirisch rapporteren we de prestaties van modelsturing over verschillende LLM's, wat de effectiviteit van deze technieken aantoont. We hebben de broncode vrijgegeven op GitHub op https://github.com/zjunlp/EasyEdit, samen met een demonstratie-notebook. Daarnaast bieden we een demovideo op https://zjunlp.github.io/project/EasyEdit2/video voor een snelle introductie.
Camera- en menselijke bewegingscontroles zijn uitgebreid bestudeerd voor videogeneratie, maar bestaande benaderingen behandelen ze doorgaans afzonderlijk, wat leidt tot beperkte data met hoogwaardige annotaties voor beide aspecten. Om dit te overwinnen, presenteren we Uni3C, een uniform 3D-versterkt raamwerk voor precieze controle van zowel camera- als menselijke bewegingen in videogeneratie. Uni3C omvat twee belangrijke bijdragen. Ten eerste stellen we een plug-and-play controlemodule voor, getraind met een bevroren videogeneratieve backbone, PCDController, die gebruikmaakt van niet-geprojecteerde puntenwolken uit monocular depth om nauwkeurige cameracontrole te bereiken. Door de sterke 3D-priors van puntenwolken en de krachtige capaciteiten van videofundamentele modellen te benutten, toont PCDController indrukwekkende generalisatie, waarbij het goed presteert ongeacht of de inferentie-backbone bevroren of fijn afgestemd is. Deze flexibiliteit maakt het mogelijk dat verschillende modules van Uni3C in specifieke domeinen worden getraind, d.w.z. cameracontrole of menselijke bewegingscontrole, waardoor de afhankelijkheid van gezamenlijk geannoteerde data wordt verminderd. Ten tweede stellen we een gezamenlijk uitgelijnde 3D-wereldbegeleiding voor de inferentiefase voor die naadloos zowel scènische puntenwolken als SMPL-X-personages integreert om de controlesignalen voor camera- en menselijke bewegingen respectievelijk te unificeren. Uitgebreide experimenten bevestigen dat PCDController een sterke robuustheid geniet bij het aansturen van camerabewegingen voor fijn afgestemde backbones van videogeneratie. Uni3C overtreft concurrenten aanzienlijk in zowel camerabaarheid als kwaliteit van menselijke bewegingen. Daarnaast hebben we op maat gemaakte validatiesets verzameld met uitdagende camerabewegingen en menselijke acties om de effectiviteit van onze methode te valideren.
We introduceren LeetCodeDataset, een hoogwaardige benchmark voor het evalueren en trainen van code-generatiemodellen, waarmee twee belangrijke uitdagingen in LLM-onderzoek worden aangepakt: het gebrek aan coderingsbenchmarks die gericht zijn op redenering en zelfstandige trainingsomgevingen. Door LeetCode Python-problemen te cureren met rijke metadata, brede dekking, 100+ testgevallen per probleem en temporele splitsingen (voor/na juli 2024), maakt onze dataset contaminatievrije evaluatie en efficiënte supervised fine-tuning (SFT) mogelijk. Experimenten tonen aan dat redeneermodellen aanzienlijk beter presteren dan niet-redeneerende tegenhangers, terwijl SFT met slechts 2,6K modelgegenereerde oplossingen prestaties bereikt die vergelijkbaar zijn met tegenhangers van 110K voorbeelden. De dataset en het evaluatieraamwerk zijn beschikbaar op Hugging Face en Github.
Multimodale Large Language Models (MLLMs) hebben Graphical User Interface (GUI)-agents aangedreven, waarbij ze veelbelovend zijn in het automatiseren van taken op rekenapparaten. Recente werken hebben begonnen met het verkennen van redeneren in GUI-taken met bemoedigende resultaten. Veel huidige benaderingen vertrouwen echter op handmatig ontworpen redeneersjablonen, wat kan leiden tot redenering die niet voldoende robuust en adaptief is voor complexe GUI-omgevingen. Tegelijkertijd blijven sommige bestaande agents opereren als Reactieve Acteurs, waarbij ze voornamelijk vertrouwen op impliciete redenering die mogelijk onvoldoende diepgang heeft voor GUI-taken die planning en foutherstel vereisen. Wij stellen dat het vooruitgang van deze agents een verschuiving vereist van reactief handelen naar handelen gebaseerd op weloverwogen redeneren. Om deze transformatie te faciliteren, introduceren we InfiGUI-R1, een MLLM-gebaseerd GUI-agent ontwikkeld via ons Actor2Reasoner-framework, een redeneringsgerichte, tweefasige trainingsaanpak ontworpen om agents progressief te laten evolueren van Reactieve Acteurs naar Weloverwogen Redeneerders. De eerste fase, Redeneringsinjectie, richt zich op het opzetten van een basisredeneerder. We gebruiken Spatial Reasoning Distillation om cross-modale ruimtelijke redeneervaardigheden over te dragen van leraarmodellen naar MLLMs via trajecten met expliciete redeneerstappen, waardoor modellen GUI visueel-ruimtelijke informatie kunnen integreren met logisch redeneren voordat acties worden gegenereerd. De tweede fase, Deliberatieverbetering, verfijnt de basisredeneerder tot een weloverwogen redeneerder met behulp van Reinforcement Learning. Deze fase introduceert twee benaderingen: Sub-doelbegeleiding, die modellen beloont voor het genereren van nauwkeurige tussenliggende sub-doelen, en Foutherstelscenarioconstructie, die trainingsscenario's voor falen en herstel creëert vanuit geïdentificeerde foutgevoelige stappen. Experimentele resultaten tonen aan dat InfiGUI-R1 sterke prestaties levert in GUI-gronding en trajecttaken. Bronnen zijn beschikbaar op https://github.com/Reallm-Labs/InfiGUI-R1.
Mobiele GUI-agents tonen potentie in het automatiseren van taken, maar worden geconfronteerd met generalisatie-uitdagingen in diverse real-world scenario's. Traditionele benaderingen die gebruikmaken van vooraf trainen of fine-tuning met enorme datasets hebben moeite met de diversiteit van mobiele applicaties en gebruikersspecifieke taken. Wij stellen voor om de mogelijkheden van mobiele GUI-agents te verbeteren door middel van menselijke demonstraties, met de focus op het verbeteren van prestaties in onbekende scenario's in plaats van universele generalisatie na te streven door middel van grotere datasets. Om dit paradigma te realiseren, introduceren we LearnGUI, de eerste uitgebreide dataset die specifiek is ontworpen voor het bestuderen van demonstratiegebaseerd leren in mobiele GUI-agents, bestaande uit 2.252 offline taken en 101 online taken met hoogwaardige menselijke demonstraties. We ontwikkelen verder LearnAct, een geavanceerd multi-agent framework dat automatisch kennis uit demonstraties haalt om de taakvoltooiing te verbeteren. Dit framework integreert drie gespecialiseerde agents: DemoParser voor kennis extractie, KnowSeeker voor het ophalen van relevante kennis, en ActExecutor voor demonstratiegebaseerde taakuitvoering. Onze experimentele resultaten tonen significante prestatieverbeteringen in zowel offline als online evaluaties. In offline beoordelingen verbetert een enkele demonstratie de modelprestaties, waarbij de nauwkeurigheid van Gemini-1.5-Pro stijgt van 19,3% naar 51,7%. In online evaluaties verhoogt ons framework de taaksuccesratio van UI-TARS-7B-SFT van 18,1% naar 32,8%. Het LearnAct-framework en de LearnGUI-benchmark vestigen demonstratiegebaseerd leren als een veelbelovende richting voor meer aanpasbare, gepersonaliseerde en inzetbare mobiele GUI-agents.
We presenteren Distributional RewArds for Generative OptimizatioN (DRAGON), een veelzijdig raamwerk voor het finetunen van mediageneratiemodellen naar een gewenst resultaat. In vergelijking met traditionele reinforcement learning met menselijke feedback (RLHF) of paarsgewijze voorkeursbenaderingen zoals direct preference optimization (DPO), is DRAGON flexibeler. Het kan beloningsfuncties optimaliseren die individuele voorbeelden of distributies daarvan evalueren, waardoor het compatibel is met een breed scala aan instance-wise, instance-to-distribution en distribution-to-distribution beloningen. Door gebruik te maken van deze veelzijdigheid, construeren we nieuwe beloningsfuncties door een encoder en een set referentievoorbeelden te selecteren om een voorbeelddistributie te creëren. Wanneer cross-modality encoders zoals CLAP worden gebruikt, kunnen de referentievoorbeelden van een andere modaliteit zijn (bijvoorbeeld tekst versus audio). Vervolgens verzamelt DRAGON online en on-policy generaties, scoort deze om een positieve demonstratieset en een negatieve set te construeren, en benut het contrast tussen de twee sets om de beloning te maximaliseren. Voor evaluatie finetunen we een audio-domein tekst-naar-muziek diffusiemodel met 20 verschillende beloningsfuncties, waaronder een aangepast muziekaesthetisch model, CLAP-score, Vendi-diversiteit en Frechet audio distance (FAD). We vergelijken verder instance-wise (per liedje) en full-dataset FAD-instellingen terwijl we meerdere FAD-encoders en referentiesets ablaten. Over alle 20 doelbeloningen behaalt DRAGON een gemiddelde winstratio van 81,45%. Bovendien verbeteren beloningsfuncties gebaseerd op voorbeeldsets inderdaad de generaties en zijn ze vergelijkbaar met modelgebaseerde beloningen. Met een geschikte voorbeeldset behaalt DRAGON een 60,95% door mensen gestemde muziekkwaliteit winstratio zonder training op menselijke voorkeursannotaties. Zo toont DRAGON een nieuwe benadering voor het ontwerpen en optimaliseren van beloningsfuncties om de door mensen waargenomen kwaliteit te verbeteren. Geluidsvoorbeelden op https://ml-dragon.github.io/web.
Grote Taalmodellen (LLMs) hebben sterke redeneervaardigheden getoond, vooral wanneer ze worden verbeterd door Reinforcement Learning (RL). Hoewel eerder onderzoek RL met succes heeft toegepast op wiskundig redeneren — waar regels en correctheid goed gedefinieerd zijn — blijft het generaliseren van deze methoden naar bredere redeneerdomeinen een uitdaging vanwege beperkte data, het ontbreken van verifieerbare beloningsstructuren en diverse taakeisen. In dit werk stellen we NEMOTRON-CROSSTHINK voor, een raamwerk dat systematisch multi-domein corpora, inclusief zowel synthetische als real-world vraag-antwoordparen, integreert in RL-training om de generalisatie over diverse redeneertaken te verbeteren. NEMOTRON-CROSSTHINK adresseert belangrijke uitdagingen door (1) data uit verschillende bronnen te incorporeren, variërend van STEM, geesteswetenschappen, sociale wetenschappen, etc.; (2) gestructureerde sjablonen toe te passen (bijv. meerkeuzevragen en open vragen) om de complexiteit van de antwoordruimte te beheersen; (3) te filteren op verifieerbare antwoorden; en (4) datablendingsstrategieën te optimaliseren die data uit meerdere bronnen effectief benutten. Onze aanpak maakt schaalbare en verifieerbare beloningsmodellering mogelijk die verder gaat dan wiskunde en toont verbeterde nauwkeurigheden op zowel wiskundige (MATH-500: +30,1%, AMC23: +27,5%) als niet-wiskundige redeneerbenchmarks (MMLU-PRO: +12,8%, GPQA-DIAMOND: +11,3%, AGIEVAL: +15,1%, SUPERGPQA: +3,8%). Bovendien vertoont NEMOTRON-CROSSTHINK een aanzienlijk verbeterde antwoordefficiëntie — met 28% minder tokens voor correcte antwoorden — wat wijst op meer gericht en effectief redeneren. Met NEMOTRON-CROSSTHINK demonstreren we dat het integreren van multi-domein, multi-formaat data in RL leidt tot nauwkeurigere, efficiëntere en beter generaliseerbare LLMs.
Grote Multimodale Modellen (LMMs) nemen videobeelden uniform waar, wat leidt tot computationele inefficiëntie voor video's met inherent variërende temporele informatie dichtheid. Dit artikel introduceert Quicksviewer, een LMM met een nieuw waarnemingsparadigma dat een video van niet-uniforme dichtheid verdeelt in variërende blokken met behulp van Gumbel Softmax, gevolgd door een uniforme hermonstering voor elk blok om efficiënt videobegrip te bereiken. Deze eenvoudige en intuïtieve aanpak comprimeert video dynamisch online op basis van de temporele dichtheid, waardoor ruimtelijk-temporele redundantie aanzienlijk wordt verminderd (totale compressie ratio van 45 keer), terwijl efficiënte training met een groot receptief veld mogelijk wordt gemaakt. We trainen het model vanuit een taalbackbone door drie progressieve fasen, elk met lange video's van gemiddeld 420s/1fps dankzij de waarnemingsefficiëntie. Met slechts 0,8 miljoen totale video-tekst samples voor training, presteert ons model beter dan de directe baseline die een vaste partitiestrategie gebruikt, met een maximale nauwkeurigheidstoename van 8,72, wat de effectiviteit in prestaties aantoont. Op Video-MME bereikt Quicksviewer state-of-the-art (SOTA) onder bescheiden sequentielengtes met slechts tot 5% van de tokens per frame die door de baselines worden vereist. Met dit paradigma laat het opschalen van het aantal invoerframes een duidelijke machtswet van de modelcapaciteiten zien. Het is ook empirisch bevestigd dat de segmenten gegenereerd door het blokkeringsnetwerk kunnen helpen bij het analyseren van continue gebeurtenissen in video's.
We introduceren TAPIP3D, een nieuwe aanpak voor langdurige 3D-puntvolging in monochromatische RGB- en RGB-D-video's. TAPIP3D representeert video's als camera-gestabiliseerde ruimtelijk-temporele kenmerkwolken, waarbij diepte- en camerabewegingsinformatie worden benut om 2D-videokenmerken om te zetten naar een 3D-wereldruimte waarin camerabeweging effectief wordt gecompenseerd. TAPIP3D verfijnt iteratief de schattingen van 3D-beweging over meerdere frames binnen deze gestabiliseerde representatie, wat robuuste volging over langere periodes mogelijk maakt. Om de inherente onregelmatigheden van 3D-puntverdelingen te beheersen, stellen we een Local Pair Attention-mechanisme voor. Deze 3D-contextualisatiestrategie benut ruimtelijke relaties in 3D effectief, waardoor informatieve kenmerkbuurten worden gevormd voor nauwkeurige 3D-trajectoriëschatting. Onze 3D-gerichte aanpak overtreft bestaande 3D-puntvolgmethoden aanzienlijk en verbetert zelfs de nauwkeurigheid van 2D-volging in vergelijking met conventionele 2D-pixelvolgers wanneer nauwkeurige diepte beschikbaar is. Het ondersteunt inferentie in zowel cameracoördinaten (d.w.z. niet-gestabiliseerd) als wereldcoördinaten, en onze resultaten tonen aan dat compensatie voor camerabeweging de volgprestaties verbetert. Onze aanpak vervangt de conventionele 2D-vierkante correlatiebuurten die worden gebruikt in eerdere 2D- en 3D-volgers, wat leidt tot robuustere en nauwkeurigere resultaten over verschillende 3D-puntvolgbenchmarks. Projectpagina: https://tapip3d.github.io
Anamorfose verwijst naar een categorie afbeeldingen die opzettelijk vervormd zijn, waardoor ze onherkenbaar zijn wanneer ze rechtstreeks worden bekeken. Hun ware vorm onthult zich alleen wanneer ze vanuit een specifiek gezichtspunt worden bekeken, wat kan gebeuren via een katadioptrisch apparaat zoals een spiegel of een lens. Hoewel de constructie van deze wiskundige apparaten al terug te voeren is tot de 17e eeuw, zijn ze alleen interpreteerbaar wanneer ze vanuit een specifiek standpunt worden bekeken en verliezen ze hun betekening wanneer ze normaal worden waargenomen. In dit artikel herzien we deze beroemde optische illusies met een generatieve draai. Met behulp van latente gerechtificeerde stroommodellen stellen we een methode voor om anamorfische afbeeldingen te creëren die nog steeds een geldige interpretatie behouden wanneer ze rechtstreeks worden bekeken. Hiertoe introduceren we Laplacian Pyramid Warping, een frequentiebewuste beeldvervormingstechniek die essentieel is voor het genereren van hoogwaardige visuals. Ons werk breidt Visual Anagrams (arXiv:2311.17919) uit naar latent space-modellen en naar een breder scala aan ruimtelijke transformaties, waardoor de creatie van nieuwe generatieve perceptuele illusies mogelijk wordt.
Grote Taalmodellen (LLMs) vertonen opmerkelijke capaciteiten, maar zijn vatbaar voor adversariële prompts die kwetsbaarheden uitbuiten om onveilige of bevooroordeelde uitvoer te produceren. Bestaande red-teaming methoden kampen vaak met schaalbaarheidsuitdagingen, resource-intensieve vereisten of beperkte diversiteit in aanvalsstrategieën. Wij stellen RainbowPlus voor, een nieuw red-teaming raamwerk geworteld in evolutionaire berekening, dat de generatie van adversariële prompts verbetert door middel van een adaptieve kwaliteit-diversiteit (QD) zoektocht die klassieke evolutionaire algoritmen zoals MAP-Elites uitbreidt met innovaties afgestemd op taalmmodellen. Door een multi-element archief te gebruiken om diverse hoogwaardige prompts op te slaan en een uitgebreide fitnessfunctie om meerdere prompts gelijktijdig te evalueren, overkomt RainbowPlus de beperkingen van enkelvoudige prompt-archieven en paarsgewijze vergelijkingen in eerdere QD-methoden zoals Rainbow Teaming. Experimenten die RainbowPlus vergelijken met QD-methoden over zes benchmark datasets en vier open-source LLMs tonen een superieure aanvalssuccesratio (ASR) en diversiteit (Diverse-Score approx 0.84), waarbij tot 100 keer meer unieke prompts worden gegenereerd (bijv. 10.418 vs. 100 voor Ministral-8B-Instruct-2410). Tegenover negen state-of-the-art methoden op de HarmBench dataset met twaalf LLMs (tien open-source, twee closed-source), behaalt RainbowPlus een gemiddelde ASR van 81,1%, wat AutoDAN-Turbo met 3,9% overtreft, en is 9 keer sneller (1,45 vs. 13,50 uur). Onze open-source implementatie bevordert verdere vooruitgang in LLM-veiligheid, en biedt een schaalbaar hulpmiddel voor kwetsbaarheidsbeoordeling. Code en bronnen zijn publiekelijk beschikbaar op https://github.com/knoveleng/rainbowplus, wat reproduceerbaarheid en toekomstig onderzoek in LLM red-teaming ondersteunt.
Grote taalmodellen (LLMs) worden steeds vaker ingezet in gespecialiseerde productiegegevensverwerkingspijplijnen in diverse domeinen – zoals financiën, marketing en e-commerce. Wanneer ze echter in productie worden uitgevoerd over vele invoeren, slagen ze er vaak niet in om instructies op te volgen of aan de verwachtingen van ontwikkelaars te voldoen. Om de betrouwbaarheid in deze toepassingen te verbeteren, is het essentieel om beweringen of beveiligingsmaatregelen voor LLM-uitvoer te creëren die naast de pijplijnen worden uitgevoerd. Het bepalen van de juiste set beweringen die de vereisten van ontwikkelaars voor een taak vastleggen, is echter een uitdaging. In dit artikel introduceren we PROMPTEVALS, een dataset van 2087 LLM-pijplijnprompts met 12623 bijbehorende beweringcriteria, afkomstig van ontwikkelaars die onze open-source LLM-pijplijntools gebruiken. Deze dataset is 5x groter dan eerdere verzamelingen. Met behulp van een hold-out testset van PROMPTEVALS als benchmark, hebben we gesloten en open-source modellen geëvalueerd in het genereren van relevante beweringen. Opmerkelijk is dat onze fijn afgestemde Mistral- en Llama 3-modellen GPT-4o gemiddeld met 20,93% overtreffen, wat zowel een verminderde latentie als een verbeterde prestaties biedt. Wij geloven dat onze dataset verder onderzoek kan stimuleren op het gebied van LLM-betrouwbaarheid, afstemming en prompt engineering.
Dit onderzoek voert een gedetailleerde vergelijking uit tussen het RF-DETR objectdetectie-basismodel en de YOLOv12 objectdetectiemodelconfiguraties voor het detecteren van groene vruchten in een complexe boomgaardomgeving, gekenmerkt door labelambiguïteit, occlusies en achtergrondvermenging. Er is een aangepaste dataset ontwikkeld met zowel single-class (groene vruchten) als multi-class (geoccludeerde en niet-geoccludeerde groene vruchten) annotaties om de modelprestaties onder dynamische real-world omstandigheden te beoordelen. Het RF-DETR objectdetectiemodel, dat gebruikmaakt van een DINOv2-backbone en vervormbare aandacht, excelleerde in het modelleren van globale context en identificeerde effectief gedeeltelijk geoccludeerde of ambiguë groene vruchten. Daarentegen benutte YOLOv12 CNN-gebaseerde aandacht voor verbeterde lokale feature-extractie, wat het optimaliseerde voor rekenkundige efficiëntie en edge-implementatie. RF-DETR behaalde de hoogste gemiddelde precisie (mAP50) van 0,9464 in single-class detectie, wat zijn superieure vermogen aantoont om groene vruchten in rommelige scènes te lokaliseren. Hoewel YOLOv12N de hoogste mAP@50:95 van 0,7620 registreerde, presteerde RF-DETR consistent beter in complexe ruimtelijke scenario's. Voor multi-class detectie leidde RF-DETR met een mAP@50 van 0,8298, wat zijn vermogen toonde om onderscheid te maken tussen geoccludeerde en niet-geoccludeerde vruchten, terwijl YOLOv12L het hoogst scoorde in mAP@50:95 met 0,6622, wat wijst op betere classificatie in gedetailleerde occlusiecontexten. Analyse van de trainingsdynamiek benadrukte de snelle convergentie van RF-DETR, vooral in single-class instellingen waar het binnen 10 epochs een plateau bereikte, wat de efficiëntie van transformer-gebaseerde architecturen aantoont in het aanpassen aan dynamische visuele data. Deze bevindingen valideren de effectiviteit van RF-DETR voor precisielandbouwtoepassingen, terwijl YOLOv12 geschikt is voor scenario's met snelle respons. >Indextermen: RF-DETR objectdetectie, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNN's.
Vision foundation models (VFMs) zoals DINOv2 en CLIP hebben indrukwekkende resultaten behaald bij diverse downstream taken, maar hun beperkte feature-resolutie belemmert de prestaties in toepassingen die pixel-niveau begrip vereisen. Feature-upsampling biedt een veelbelovende richting om deze uitdaging aan te pakken. In dit werk identificeren we twee kritieke factoren voor het verbeteren van feature-upsampling: de architectuur van de upsampler en het trainingsdoel. Voor de architectuur van de upsampler introduceren we een op coördinaten gebaseerde cross-attention transformer die hoog-resolutie afbeeldingen integreert met coördinaten en laag-resolutie VFM-features om scherpe, hoogwaardige features te genereren. Voor het trainingsdoel stellen we voor om hoog-resolutie pseudo-grondtruth features te construeren door gebruik te maken van klasse-agnostische maskers en zelf-distillatie. Onze aanpak vangt effectief fijne details op en past zich flexibel aan aan diverse invoer- en feature-resoluties. Door experimenten tonen we aan dat onze aanpak bestaande feature-upsamplingtechnieken significant overtreft bij diverse downstream taken. Onze code is vrijgegeven op https://github.com/andrehuang/loftup.
We introduceren een aanpak voor het detecteren en volgen van gedetailleerde 3D-posities van meerdere personen vanuit een enkele monocular camerastroom. Ons systeem behoudt temporeel coherente voorspellingen in drukke scènes met complexe poses en occlusies. Ons model voert zowel een sterke per-frame detectie uit als een geleerde pose-update om personen van frame tot frame te volgen. In plaats van detecties over tijd te matchen, worden poses direct bijgewerkt vanuit een nieuw invoerbeeld, wat online tracking door occlusie mogelijk maakt. We trainen op talrijke beeld- en videodatasets met behulp van pseudo-gelabelde annotaties om een model te produceren dat de state-of-the-art systemen evenaart in nauwkeurigheid van 3D-pose-schatting, terwijl het sneller en nauwkeuriger is in het volgen van meerdere personen door de tijd heen. Code en gewichten zijn beschikbaar op https://github.com/apple/ml-comotion.
We ontwerpen een reeks minimale algoritmische taken die een losse abstractie vormen van open-einde, real-world taken. Dit stelt ons in staat om op een schone en controleerbare manier de creatieve grenzen van het huidige taalmodel te kwantificeren. Net als real-world taken die een creatieve, vooruitziende gedachtesprong vereisen, vereisen onze taken een impliciete, open-einde stochastische planningsstap die ofwel (a) nieuwe verbanden ontdekt in een abstract kennisgrafiek (zoals bij woordspelingen, het trekken van analogieën of onderzoek) ofwel (b) nieuwe patronen construeert (zoals bij het ontwerpen van wiskundige problemen of nieuwe eiwitten). In deze taken argumenteren we zowel empirisch als conceptueel hoe next-token leren kortzichtig is en excessief memoriseert; in vergelijking excelleren multi-token benaderingen, namelijk teacherless training en diffusiemodellen, in het produceren van diverse en originele output. Ten tweede vinden we in onze taken dat het beter is om ruis direct in de invoerlaag te injecteren (via een methode die we hash-conditioning noemen) om willekeur uit de Transformer te halen zonder de samenhang te schaden, in plaats van te vertrouwen op temperatuurbemonstering vanuit de uitvoerlaag. Ons werk biedt dus een principieel, minimaal testbed voor het analyseren van open-einde creatieve vaardigheden, en biedt nieuwe argumenten om verder te gaan dan next-token leren en softmax-gebaseerde bemonstering. We maken een deel van de code beschikbaar op https://github.com/chenwu98/algorithmic-creativity.
Medische Visuele Taalmodellen hebben groot potentieel getoond in diverse gezondheidszorgtoepassingen, waaronder het beschrijven van medische beelden en diagnostische ondersteuning. De meeste bestaande modellen zijn echter afhankelijk van tekstgebaseerde instructies, wat hun bruikbaarheid in echte klinische omgevingen beperkt, vooral in scenario's zoals chirurgie, waar tekstgebaseerde interactie vaak onpraktisch is voor artsen. Daarnaast ontbreekt het huidige modellen voor medische beeldanalyse meestal aan uitgebreide redeneringen achter hun voorspellingen, wat hun betrouwbaarheid voor klinische besluitvorming vermindert. Gezien het feit dat medische diagnostische fouten levensveranderende gevolgen kunnen hebben, is er een dringende behoefte aan interpreteerbare en rationele medische ondersteuning. Om deze uitdagingen aan te pakken, introduceren we een end-to-end spraakgestuurd medisch VLM, SilVar-Med, een multimodale medische beeldassistent die spraakinteractie integreert met VLMs, en daarmee pionierst in de taak van spraakgebaseerde communicatie voor medische beeldanalyse. Daarnaast richten we ons op de interpretatie van de redenering achter elke voorspelling van medische afwijkingen met een voorgestelde redeneringsdataset. Door uitgebreide experimenten demonstreren we een proof-of-concept studie voor redeneringsgestuurde medische beeldinterpretatie met end-to-end spraakinteractie. Wij geloven dat dit werk het veld van medische AI zal bevorderen door meer transparante, interactieve en klinisch haalbare diagnostische ondersteuningssystemen te stimuleren. Onze code en dataset zijn publiekelijk beschikbaar op SiVar-Med.