Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren een eenvoudige maar theoretisch onderbouwde verbetering van Supervised Fine-Tuning (SFT) voor het Large Language Model (LLM), waarmee we de beperkte generalisatie in vergelijking met reinforcement learning (RL) aanpakken. Door middel van wiskundige analyse tonen we aan dat de standaard SFT-gradiënten impliciet een problematische beloningsstructuur coderen die de generalisatiemogelijkheden van het model ernstig kan beperken. Om dit te verhelpen, stellen we Dynamic Fine-Tuning (DFT) voor, waarbij de gradientupdates voor elk token worden gestabiliseerd door de doelfunctie dynamisch te herschalen met de waarschijnlijkheid van dit token. Opmerkelijk genoeg presteert deze enkele regel code aanzienlijk beter dan standaard SFT op meerdere uitdagende benchmarks en basismodellen, wat een aanzienlijk verbeterde generalisatie aantoont. Daarnaast laat onze aanpak competitieve resultaten zien in offline RL-instellingen, wat een effectief maar eenvoudiger alternatief biedt. Dit werk verbindt theoretisch inzicht met praktische oplossingen en verbetert de SFT-prestaties aanzienlijk. De code zal beschikbaar zijn op https://github.com/yongliang-wu/DFT.
Zelf-ontwikkelende Large Language Models (LLMs) bieden een schaalbare weg naar superintelligentie door autonoom ervaringen te genereren, te verfijnen en ervan te leren. Bestaande methoden voor het trainen van dergelijke modellen zijn echter nog sterk afhankelijk van uitgebreide, door mensen samengestelde taken en labels, meestal via fine-tuning of reinforcement learning, wat een fundamenteel knelpunt vormt voor het bevorderen van AI-systemen naar capaciteiten die verder gaan dan menselijke intelligentie. Om deze beperking te overwinnen, introduceren we R-Zero, een volledig autonoom framework dat zijn eigen trainingsdata vanaf nul genereert. Uitgaande van een enkele basis-LLM, initialiseert R-Zero twee onafhankelijke modellen met verschillende rollen, een Uitdager en een Oplosser. Deze modellen worden afzonderlijk geoptimaliseerd en co-evolueren door interactie: de Uitdager wordt beloond voor het voorstellen van taken aan de rand van de capaciteit van de Oplosser, en de Oplosser wordt beloond voor het oplossen van steeds uitdagendere taken die door de Uitdager worden gesteld. Dit proces resulteert in een gericht, zelfverbeterend curriculum zonder vooraf bestaande taken en labels. Empirisch gezien verbetert R-Zero de redeneercapaciteit aanzienlijk over verschillende backbone-LLMs, bijvoorbeeld door Qwen3-4B-Base met +6,49 te verbeteren op wiskundige redeneerbenchmarks en met +7,54 op algemene redeneerbenchmarks.
We introduceren Genie Envisioner (GE), een geïntegreerd wereldplatform voor robotmanipulatie dat beleidsleren, evaluatie en simulatie combineert binnen een enkel video-generatief raamwerk. De kern van GE-Base is een grootschalig, instructie-geconditioneerd videodiffusiemodel dat de ruimtelijke, temporele en semantische dynamiek van real-world robotinteracties vastlegt in een gestructureerde latente ruimte. Gebouwd op deze basis, vertaalt GE-Act latente representaties naar uitvoerbare actietrajecten via een lichtgewicht, flow-matching decoder, wat precieze en generaliseerbare beleidsinferentie mogelijk maakt over diverse embodimenten met minimale supervisie. Om schaalbare evaluatie en training te ondersteunen, fungeert GE-Sim als een actie-geconditioneerde neurale simulator, die hoogwaardige rollouts produceert voor gesloten-lus beleidsontwikkeling. Het platform is verder uitgerust met EWMBench, een gestandaardiseerde benchmarksuite die visuele kwaliteit, fysieke consistentie en instructie-actie-alignment meet. Samen vormen deze componenten Genie Envisioner als een schaalbaar en praktisch fundament voor instructie-gedreven, algemeen-toepasbare embodied intelligentie. Alle code, modellen en benchmarks zullen openbaar worden vrijgegeven.
Hoewel Vision Language Models (VLMs) sterke perceptuele vaardigheden en indrukwekkend visueel redeneervermogen vertonen, hebben ze moeite met aandacht voor detail en precieze actieplanning in complexe, dynamische omgevingen, wat leidt tot ondermaatse prestaties. Taken in de echte wereld vereisen doorgaans complexe interacties, geavanceerd ruimtelijk redeneervermogen, langetermijnplanning en continue strategieverfijning, wat meestal inzicht in de fysieke regels van het betreffende scenario vereist. Het evalueren van deze capaciteiten in realistische scenario's is echter vaak buitensporig kostbaar. Om deze kloof te overbruggen, introduceren we DeepPHY, een nieuw benchmarkraamwerk dat is ontworpen om het begrip en redeneervermogen van VLMs over fundamentele fysische principes systematisch te evalueren via een reeks uitdagende gesimuleerde omgevingen. DeepPHY integreert meerdere fysieke redeneeromgevingen van verschillende moeilijkheidsgraden en bevat gedetailleerde evaluatiemetrics. Onze evaluatie toont aan dat zelfs state-of-the-art VLMs moeite hebben om beschrijvende fysieke kennis om te zetten in precieze, voorspellende controle.
Ondanks snelle vooruitgang in 3D-contentgeneratie blijft kwaliteitsbeoordeling voor de gegenereerde 3D-assets een uitdaging. Bestaande methoden baseren zich voornamelijk op beeldgebaseerde metrieken en werken uitsluitend op objectniveau, wat hun vermogen beperkt om ruimtelijke samenhang, materiaalauthenticiteit en hoogwaardige lokale details vast te leggen. 1) Om deze uitdagingen aan te pakken, introduceren we Hi3DEval, een hiërarchisch evaluatiekader speciaal ontworpen voor 3D-generatieve content. Het combineert zowel object- als onderdeelniveau-evaluatie, waardoor holistische beoordelingen over meerdere dimensies mogelijk zijn, evenals fijnmazige kwaliteitsanalyse. Daarnaast breiden we textuurevaluatie uit voorbij esthetisch uiterlijk door expliciet materiaalrealisme te beoordelen, met focus op attributen zoals albedo, verzadiging en metalliciteit. 2) Om dit kader te ondersteunen, construeren we Hi3DBench, een grootschalige dataset met diverse 3D-assets en hoogwaardige annotaties, vergezeld van een betrouwbaar multi-agent annotatiepijplijn. We stellen verder een 3D-bewust automatisch scoringssysteem voor, gebaseerd op hybride 3D-representaties. Specifiek benutten we videogebaseerde representaties voor objectniveau- en materiaalonderwerp-evaluaties om de modellering van spatio-temporele consistentie te verbeteren en gebruiken we voorgetrainde 3D-kenmerken voor onderdeelniveau-perceptie. Uitgebreide experimenten tonen aan dat onze aanpak bestaande beeldgebaseerde metrieken overtreft in het modelleren van 3D-kenmerken en een superieure afstemming met menselijke voorkeur bereikt, wat een schaalbare alternatief biedt voor handmatige evaluaties. De projectpagina is beschikbaar op https://zyh482.github.io/Hi3DEval/.
Retrieval-Augmented Generation (RAG)-systemen die gebruikmaken van Multimodale Large Language Models (MLLMs) tonen veelbelovende resultaten voor complex documentbegrip, maar hun ontwikkeling wordt ernstig belemmerd door ontoereikende evaluatie. Huidige benchmarks richten zich vaak op specifieke onderdelen van document-RAG-systemen en gebruiken synthetische data met onvolledige grondwaarheden en bewijslabels, waardoor ze de knelpunten en uitdagingen uit de praktijk niet weerspiegelen. Om deze beperkingen te overwinnen, introduceren we Double-Bench: een nieuw grootschalig, meertalig en multimodaal evaluatiesysteem dat in staat is om een gedetailleerde beoordeling te geven van elk onderdeel binnen document-RAG-systemen. Het omvat 3.276 documenten (72.880 pagina's) en 5.168 enkelvoudige en multi-hop queries in 6 talen en 4 documenttypen, met gestroomlijnde dynamische update-ondersteuning voor potentiële problemen met datacontaminatie. Queries zijn gebaseerd op uitgebreid gescande bewijspagina's en zijn door menselijke experts geverifieerd om maximale kwaliteit en volledigheid te garanderen. Onze uitgebreide experimenten met 9 state-of-the-art embeddingmodellen, 4 MLLMs en 4 end-to-end document-RAG-frameworks tonen aan dat de kloof tussen tekst- en visuele embeddingmodellen kleiner wordt, wat de noodzaak benadrukt om sterkere documentretrievalmodellen te ontwikkelen. Onze bevindingen onthullen ook het overmoed-dilemma binnen huidige document-RAG-frameworks, die geneigd zijn antwoorden te geven zelfs zonder ondersteunend bewijs. We hopen dat ons volledig open-source Double-Bench een rigoureuze basis biedt voor toekomstig onderzoek naar geavanceerde document-RAG-systemen. We zijn van plan om tijdige corpora te verzamelen en jaarlijks nieuwe benchmarks uit te brengen.
Welzijn omvat mentale, fysieke en sociale dimensies die essentieel zijn voor persoonlijke groei en weloverwogen levensbeslissingen. Naarmate individuen steeds vaker Large Language Models (LLMs) raadplegen om welzijn te begrijpen, ontstaat een belangrijke uitdaging: Kunnen LLMs verklaringen genereren die niet alleen accuraat zijn, maar ook afgestemd op diverse doelgroepen? Hoogwaardige verklaringen vereisen zowel feitelijke juistheid als het vermogen om te voldoen aan de verwachtingen van gebruikers met uiteenlopende expertise. In dit werk construeren we een grootschalige dataset bestaande uit 43.880 verklaringen van 2.194 welzijnsconcepten, gegenereerd door tien diverse LLMs. We introduceren een principe-gestuurd LLM-as-a-judge evaluatieraamwerk, waarbij we dubbele beoordelaars inzetten om de kwaliteit van verklaringen te beoordelen. Verder tonen we aan dat het fine-tunen van een open-source LLM met behulp van Supervised Fine-Tuning (SFT) en Direct Preference Optimization (DPO) de kwaliteit van gegenereerde verklaringen aanzienlijk kan verbeteren. Onze resultaten onthullen: (1) De voorgestelde LLM-beoordelaars sluiten goed aan bij menselijke evaluaties; (2) de kwaliteit van verklaringen varieert aanzienlijk tussen modellen, doelgroepen en categorieën; en (3) DPO- en SFT-gefine-tunede modellen presteren beter dan hun grotere tegenhangers, wat de effectiviteit van voorkeursgebaseerd leren voor gespecialiseerde verklaringstaken aantoont.
Onlangs zijn Large Reasoning Models (LRMs) geleidelijk aan een onderzoekshotspot geworden vanwege hun uitstekende prestaties bij het uitvoeren van complexe taken. Onder hen heeft DeepSeek R1 aanzienlijke aandacht gekregen vanwege zijn uitzonderlijke prestaties en open-source karakter, wat de vooruitgang in het onderzoek naar R1-stijl LRMs heeft gestimuleerd. In tegenstelling tot traditionele Large Language Models (LLMs) verbeteren deze modellen het logisch redeneren en besluitvormingsvermogen tijdens het redeneren door het integreren van mechanismen zoals lange ketens van gedachten en zelfreflectie via reinforcement learning. Met de wijdverbreide toepassing van deze modellen is echter geleidelijk het probleem van overdenken naar voren gekomen. Specifiek construeren deze modellen bij het genereren van antwoorden vaak te lange redeneerketens met overbodige of repetitieve stappen, wat leidt tot verminderde redeneerefficiëntie en mogelijk de nauwkeurigheid van het uiteindelijke antwoord beïnvloedt. Daarom zijn verschillende efficiënte redeneermethoden voorgesteld, die tot doel hebben de lengte van redeneerpaden te verminderen zonder de modelprestaties en redeneercapaciteit aan te tasten. Door de huidige onderzoeksvooruitgang op het gebied van efficiënte redeneermethoden systematisch te bekijken, categoriseren we bestaande werken in twee hoofdrichtingen op basis van het perspectief van single-model optimalisatie versus modelcollaboratie: (1) Efficiënt Redeneren met een Enkel Model, dat zich richt op het verbeteren van de redeneerefficiëntie van individuele modellen; en (2) Efficiënt Redeneren met Modelcollaboratie, dat het optimaliseren van redeneerpaden door samenwerking tussen meerdere modellen onderzoekt. Daarnaast onderhouden we een openbare GitHub-repository die de laatste voortgang in efficiënte redeneermethoden bijhoudt.
Dit artikel presenteert een multifunctioneel spraaksynthesesysteem dat stemklonen en emotiegestuurde spraaksynthese integreert binnen een uniform raamwerk. Het doel van dit werk is om lang bestaande uitdagingen aan te pakken bij het bereiken van zeer expressieve, controleerbare en natuurlijke spraakgeneratie die de sprekersidentiteit trouw bewaart in diverse linguïstische en emotionele contexten. Onze aanpak introduceert een effectief mechanisme voor spreker-emotie-ontvlechting met in-batch contrastief leren, waardoor onafhankelijke manipulatie van sprekersidentiteit en emotionele stijl mogelijk wordt, evenals een roterende integratiemethode voor emotionele inbedding voor soepele emotiecontrole. Om uitgebreide training en evaluatie te ondersteunen, hebben we CSEMOTIONS geconstrueerd, een hoogwaardige emotionele spraakdataset die 10 uur Mandarijnse spraak bevat van zes professionele sprekers in zeven emotionele categorieën. Uitgebreide experimenten tonen aan dat ons systeem, Marco-Voice, aanzienlijke verbeteringen bereikt in zowel objectieve als subjectieve metrieken. Uitgebreide evaluaties en analyses zijn uitgevoerd, en de resultaten laten zien dat MarcoVoice competitieve prestaties levert op het gebied van spraakhelderheid en emotionele rijkdom, wat een aanzienlijke vooruitgang vertegenwoordigt op het gebied van expressieve neurale spraaksynthese.
Autonome agents die computers bedienen via Grafische Gebruikersinterfaces (GUI's) worstelen vaak met efficiëntie en betrouwbaarheid bij complexe, langetermijntaken. Hoewel het uitrusten van deze agents met planners de taakdecompositie kan verbeteren, blijven ze beperkt door de inherente beperkingen van het uitvoeren van alle acties via GUI-manipulatie, wat leidt tot broosheid en inefficiëntie. In dit werk introduceren we een robuuster en flexibeler paradigma: het mogelijk maken voor agents om codering te gebruiken als een verbeterde actie. We presenteren CoAct-1, een nieuw multi-agent systeem dat GUI-gebaseerde controle synergetisch combineert met directe programmatische uitvoering. CoAct-1 beschikt over een Orchestrator die subtaken dynamisch delegeert aan een conventionele GUI Operator of een gespecialiseerde Programmer agent, die Python- of Bash-scripts kan schrijven en uitvoeren. Deze hybride aanpak stelt de agent in staat inefficiënte GUI-actiesequenties te omzeilen voor taken zoals bestandsbeheer en gegevensverwerking, terwijl visuele interactie nog steeds wordt benut wanneer nodig. We evalueren ons systeem op de uitdagende OSWorld-benchmark, waar CoAct-1 een nieuwe state-of-the-art slagingspercentage van 60,76% behaalt, wat aanzienlijk beter is dan eerdere methoden. Bovendien verbetert onze aanpak de efficiëntie aanzienlijk, door het gemiddelde aantal stappen dat nodig is om een taak te voltooien te reduceren tot slechts 10,15, vergeleken met 15 voor toonaangevende GUI-agents. Onze resultaten tonen aan dat het integreren van codering als een kernactie een krachtiger, efficiënter en schaalbaarder pad biedt naar gegeneraliseerde computerautomatisering.
Grote Multimodale Modellen (LMMs) hebben een opmerkelijke groei doorgemaakt en tonen indrukwekkende capaciteiten in het uitvoeren van complexe multimodale taken met uitzonderlijke prestaties. Recent onderzoek heeft benadrukt dat grote taalmodellen de neiging hebben om defecte invoer passief te accepteren, wat vaak leidt tot zinloze redeneringen op basis van ongeldige prompts. De cruciale vraag of LMMs actief foutieve invoer kunnen detecteren en onderzoeken, blijft echter nog onbeantwoord. Om dit gat te dichten, introduceren we het Input Scrutiny Ability Evaluation Framework (ISEval), dat zeven categorieën van gebrekkige premissen en drie evaluatiemetrics omvat. Onze uitgebreide evaluatie van tien geavanceerde LMMs heeft belangrijke bevindingen opgeleverd. De meeste modellen hebben moeite om actief gebrekkige tekstuele premissen te detecteren zonder begeleiding, wat wijst op een sterke afhankelijkheid van expliciete prompts voor het identificeren van premissefouten. Het type fout beïnvloedt de prestaties: modellen blinken uit in het identificeren van logische denkfouten, maar hebben moeite met oppervlakkige taalkundige fouten en bepaalde conditionele gebreken. De vertrouwensrelatie tussen modaliteiten varieert: Gemini 2.5 pro en Claude Sonnet 4 balanceren visuele en tekstuele informatie, terwijl aya-vision-8b te veel vertrouwt op tekst bij conflicten. Deze inzichten onderstrepen de dringende noodzaak om de proactieve verificatie van de geldigheid van invoer door LMMs te verbeteren en bieden nieuwe inzichten om het probleem te mitigeren. De code is beschikbaar op https://github.com/MLGroupJLU/LMM_ISEval.
Effectieve klantenservice vereist niet alleen nauwkeurige probleemoplossing, maar ook gestructureerde en empathische communicatie die aansluit bij professionele standaarden. Bestaande dialoogdatasets bieden echter vaak geen strategische richtlijnen, en real-world servicedata is moeilijk toegankelijk en te annoteren. Om dit aan te pakken, introduceren we de taak van Customer Support Conversation (CSC), gericht op het trainen van klantenservicemedewerkers om te reageren met behulp van goed gedefinieerde ondersteuningsstrategieën. We stellen een gestructureerd CSC-raamwerk voor, gebaseerd op COPC-richtlijnen, dat vijf conversatiefasen en twaalf strategieën definieert om hoogwaardige interacties te begeleiden. Op basis hiervan construeren we CSConv, een evaluatiedataset van 1.855 real-world klant-agentgesprekken die zijn herschreven met behulp van LLM's om bewust strategiegebruik te weerspiegelen, en dienovereenkomstig geannoteerd. Daarnaast ontwikkelen we een rollenspelbenadering die strategierijke gesprekken simuleert met behulp van LLM-gestuurde rollen die zijn afgestemd op het CSC-raamwerk, wat resulteert in de trainingsdataset RoleCS. Experimenten tonen aan dat het fine-tunen van sterke LLM's op RoleCS hun vermogen om hoogwaardige, strategie-afgestemde reacties te genereren op CSConv aanzienlijk verbetert. Menselijke evaluaties bevestigen verder verbeteringen in probleemoplossing. Alle code en data zullen openbaar beschikbaar worden gesteld op https://github.com/aliyun/qwen-dianjin.
Grote taalmodellen (LLMs) hebben indrukwekkende redeneervaardigheden getoond op een breed scala aan complexe taken. Het verbeteren van deze capaciteiten door middel van post-training blijft echter resource-intensief, met name wat betreft data en rekenkosten. Hoewel recente inspanningen gericht zijn geweest op het verbeteren van de steekproefefficiëntie door selectieve datacuratie, vertrouwen bestaande methoden vaak op heuristische of taakspecifieke strategieën die de schaalbaarheid belemmeren. In dit werk introduceren we InfiAlign, een schaalbaar en steekproefefficiënt post-trainingsframework dat supervised fine-tuning (SFT) integreert met Direct Preference Optimization (DPO) om LLMs af te stemmen voor verbeterd redeneren. De kern van InfiAlign is een robuust dataselectiepijplijn die automatisch hoogwaardige afstemmingsdata uit open-source redeneerdatasets selecteert met behulp van multidimensionale kwaliteitsmetrieken. Deze pijplijn maakt aanzienlijke prestatieverbeteringen mogelijk terwijl de databehoeften drastisch worden verminderd, en blijft uitbreidbaar naar nieuwe databronnen. Wanneer toegepast op het Qwen2.5-Math-7B-Base model, bereikt ons SFT-model prestaties die vergelijkbaar zijn met DeepSeek-R1-Distill-Qwen-7B, terwijl slechts ongeveer 12% van de trainingsdata wordt gebruikt, en toont het sterke generalisatie over diverse redeneertaken. Extra verbeteringen worden behaald door de toepassing van DPO, met name opmerkelijke vooruitgang in wiskundige redeneertaken. Het model behaalt een gemiddelde verbetering van 3,89% op AIME 24/25 benchmarks. Onze resultaten benadrukken de effectiviteit van het combineren van principiële dataselectie met volledige post-training, en bieden een praktische oplossing voor het afstemmen van grote redeneermodellen op een schaalbare en data-efficiënte manier. De modelcheckpoints zijn beschikbaar op https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
Video object segmentation (VOS) heeft als doel om gespecificeerde doelobjecten in een video te segmenteren. Hoewel state-of-the-art methoden indrukwekkende prestaties hebben behaald (bijv. 90+% J&F) op bestaande benchmarks zoals DAVIS en YouTube-VOS, bevatten deze datasets voornamelijk opvallende, dominante en geïsoleerde objecten, wat hun generalisatie naar realistische scenario's beperkt. Om VOS verder te ontwikkelen naar meer realistische omgevingen, werd coMplex video Object SEgmentation (MOSEv1) geïntroduceerd om VOS-onderzoek in complexe scènes te faciliteren. Gebaseerd op de sterke punten en beperkingen van MOSEv1, presenteren we MOSEv2, een aanzienlijk uitdagender dataset die is ontworpen om VOS-methoden verder te ontwikkelen onder realistische omstandigheden. MOSEv2 bestaat uit 5.024 video's en meer dan 701.976 hoogwaardige maskers voor 10.074 objecten in 200 categorieën. Vergeleken met zijn voorganger introduceert MOSEv2 aanzienlijk grotere scènecomplexiteit, waaronder vaker voorkomend verdwijnen en terugkeren van objecten, ernstige occlusies en drukte, kleinere objecten, evenals een reeks nieuwe uitdagingen zoals slecht weer (bijv. regen, sneeuw, mist), slecht verlichte scènes (bijv. nacht, onderwater), multi-shot sequenties, gecamoufleerde objecten, niet-fysieke doelen (bijv. schaduwen, reflecties), scenario's die externe kennis vereisen, enz. We benchmarken 20 representatieve VOS-methoden onder 5 verschillende instellingen en observeren consistente prestatieverminderingen. Bijvoorbeeld, SAM2 daalt van 76,4% op MOSEv1 naar slechts 50,9% op MOSEv2. We evalueren verder 9 video object tracking-methoden en vinden vergelijkbare dalingen, wat aantoont dat MOSEv2 uitdagingen biedt voor verschillende taken. Deze resultaten benadrukken dat, ondanks hoge nauwkeurigheid op bestaande datasets, huidige VOS-methoden nog steeds moeite hebben met realistische complexiteiten. MOSEv2 is publiekelijk beschikbaar op https://MOSE.video.
Realistische haarstrenggeneratie is cruciaal voor toepassingen zoals computergraphics en virtual reality. Hoewel diffusiemodellen kapsels kunnen genereren op basis van tekst of afbeeldingen, ontbreekt het deze invoer aan precisie en gebruiksvriendelijkheid. In plaats daarvan stellen we het eerste schetsgebaseerde strenggeneratiemodel voor, dat fijnere controle biedt terwijl het gebruiksvriendelijk blijft. Ons framework adresseert belangrijke uitdagingen, zoals het modelleren van complexe strenginteracties en diverse schetspatronen, door middel van twee belangrijke innovaties: een leerbare streng-upsamplingstrategie die 3D-strengen codeert in multi-schaal latente ruimtes, en een multi-schaal adaptief conditioneringsmechanisme dat gebruikmaakt van een transformer met diffusiekoppen om consistentie over verschillende granulariteitsniveaus te waarborgen. Experimenten op verschillende benchmarkdatasets tonen aan dat onze methode bestaande benaderingen overtreft in realisme en precisie. Kwalitatieve resultaten bevestigen verder de effectiviteit ervan. De code zal worden vrijgegeven op [GitHub](https://github.com/fighting-Zhang/StrandDesigner).
Diffusie-gebaseerde beeldcompressie heeft indrukwekkende perceptuele prestaties laten zien. Het lijdt echter aan twee kritieke tekortkomingen: (1) overmatige decodeerlatentie door multi-step sampling, en (2) slechte getrouwheid als gevolg van een te grote afhankelijkheid van generatieve prioriteiten. Om deze problemen aan te pakken, stellen we SODEC voor, een nieuw single-step diffusie beeldcompressiemodel. Wij beargumenteren dat bij beeldcompressie een voldoende informatief latent de multi-step verfijning overbodig maakt. Gebaseerd op dit inzicht maken we gebruik van een vooraf getraind VAE-gebaseerd model om latents met rijke informatie te produceren, en vervangen we het iteratieve denoisingsproces door een single-step decodering. Tegelijkertijd introduceren we, om de getrouwheid te verbeteren, de getrouwheidsbegeleidingsmodule, die uitvoer aanmoedigt die trouw is aan het originele beeld. Bovendien ontwerpen we de rate annealing trainingsstrategie om effectieve training onder extreem lage bitrates mogelijk te maken. Uitgebreide experimenten tonen aan dat SODEC bestaande methoden significant overtreft, met superieure rate-distortion-perceptie prestaties. Bovendien verbetert SODEC, in vergelijking met eerdere diffusie-gebaseerde compressiemodellen, de decodersnelheid met meer dan 20 keer. Code is vrijgegeven op: https://github.com/zhengchen1999/SODEC.
Redenerende Large Language Models (R-LLMs) hebben aanzienlijke vooruitgang geboekt in complexe redeneertaken, maar worstelen vaak met feitelijkheid, waarbij ze aanzienlijk meer hallucinaties genereren dan hun niet-redenerende tegenhangers op benchmarks voor lange feitelijke teksten. Het uitbreiden van online Reinforcement Learning (RL), een belangrijk onderdeel in recente ontwikkelingen van R-LLMs, naar de context van lange feitelijke teksten brengt echter verschillende unieke uitdagingen met zich mee vanwege het gebrek aan betrouwbare verificatiemethoden. Eerder werk heeft automatische evaluatieframeworks voor feitelijkheid, zoals FActScore, gebruikt om voorkeursdata te verzamelen in de offline RL-setting, maar we constateren dat het direct inzetten van dergelijke methoden als beloning in online RL leidt tot beloningsmanipulatie op meerdere manieren, zoals het produceren van minder gedetailleerde of relevante antwoorden. We stellen een nieuwe beloningsfunctie voor die tegelijkertijd rekening houdt met feitelijke precisie, het detailniveau van het antwoord en de relevantie van het antwoord, en passen online RL toe om hoogwaardig feitelijk redeneren te leren. Geëvalueerd op zes benchmarks voor lange feitelijke teksten, behaalt ons feitelijke redeneermodel een gemiddelde vermindering van 23,1 procentpunten in het hallucinatiepercentage, een toename van 23% in het detailniveau van de antwoorden, en geen achteruitgang in de algehele nuttigheid van de antwoorden.
Bestaande visie-taalmodellen (VLMs), zowel generalisten als specialisten, blijven beperkt door hun parameterschaal, hebben geen robuuste zelfcorrectie- mogelijkheden en presteren ondermaans bij taken met lange visuele contexten en complexe redeneringen, wat resulteert in suboptimale prestaties bij document- gebaseerde taken. Om dit aan te pakken, stellen we MACT voor, een Multi-Agent Collaboration-framework met Test-Time schaling, speciaal ontworpen voor visueel documentbegrip en visuele vraag-antwoordtaken (VQA). Het bestaat uit vier verschillende kleinschalige agents, namelijk planning, uitvoering, beoordeling en antwoordagents, met duidelijk gedefinieerde rollen en effectieve samenwerking. Opmerkelijk is dat het beoordelingsagent uitsluitend de juistheid verifieert en doorverwijst naar eerdere agents voor revisies, wat conventionele correctiestrategieën overtreft. Om de mogelijkheden van het framework verder te vergroten, stellen we gemengde beloningsmodellering voor die agentspecifieke vaardigheden en globale samenwerking in balans brengt, evenals agent-gewijze hybride test-time schaling, die verschillende schaalstrategieën aanpast voor elke agent op basis van hun functies. Geëvalueerd op benchmarks die zowel document-gebaseerde als niet-document-gebaseerde instellingen omvatten, toont onze MACT superieure prestaties met een kleinere parameterschaal zonder in te leveren op het vermogen voor algemene en wiskundige taken. Met name blinkt het uit in benchmarks met lange visuele contexten en ingewikkelde redeneringen. De drie varianten van MACT houden consequent de top drie posities in gemiddelde scores en leiden in 13 van de 15 benchmarks. Code zal beschikbaar zijn op: https://github.com/YU-deep/MACT.git.
Dit artikel introduceert een uitgebreide benchmark voor het evalueren van hoe grote taalmmodellen (LLMs) reageren op linguïstische sjibbolets: subtiele linguïstische markers die onbedoeld demografische kenmerken zoals geslacht, sociale klasse of regionale achtergrond kunnen onthullen. Door middel van zorgvuldig geconstrueerde interviewsimulaties met 100 gevalideerde vraag-antwoordparen demonstreren we hoe LLMs systematisch bepaalde linguïstische patronen benadelen, met name terughoudende taal, ondanks equivalente inhoudskwaliteit. Onze benchmark genereert gecontroleerde linguïstische variaties die specifieke fenomenen isoleren terwijl semantische equivalentie behouden blijft, wat een precieze meting van demografische bias in geautomatiseerde evaluatiesystemen mogelijk maakt. We valideren onze aanpak langs meerdere linguïstische dimensies, waarbij we aantonen dat terughoudende antwoorden gemiddeld 25,6% lagere beoordelingen ontvangen, en demonstreren de effectiviteit van de benchmark in het identificeren van modelspecifieke biases. Dit werk legt een fundamenteel raamwerk vast voor het detecteren en meten van linguïstische discriminatie in AI-systemen, met brede toepassingen voor eerlijkheid in geautomatiseerde besluitvormingscontexten.
Multimodale entiteitskoppeling speelt een cruciale rol in een breed scala aan toepassingen. Recente vooruitgang in methoden gebaseerd op grote taalmodellen is het dominante paradigma geworden voor deze taak, waarbij zowel tekstuele als visuele modaliteiten effectief worden benut om de prestaties te verbeteren. Ondanks hun succes kampen deze methoden nog steeds met twee uitdagingen, waaronder de onnodige integratie van beeldgegevens in bepaalde scenario's en de afhankelijkheid van slechts een eenmalige extractie van visuele kenmerken, wat hun effectiviteit en nauwkeurigheid kan ondermijnen. Om deze uitdagingen aan te pakken, stellen we een nieuw LLM-gebaseerd raamwerk voor voor de multimodale entiteitskoppelingstaak, genaamd Intra- en Inter-modale Collaboratieve Reflecties. Dit raamwerk prioriteert het benutten van tekstinformatie om de taak aan te pakken. Wanneer tekst alleen onvoldoende is om de juiste entiteit te koppelen via intra- en inter-modaliteitsevaluaties, gebruikt het een multi-ronde iteratieve strategie die belangrijke visuele aanwijzingen uit verschillende aspecten van de afbeelding integreert om redenering te ondersteunen en de matchnauwkeurigheid te verbeteren. Uitgebreide experimenten op drie veelgebruikte openbare datasets tonen aan dat ons raamwerk consistent beter presteert dan de huidige state-of-the-art methoden voor deze taak, met verbeteringen van respectievelijk 3,2%, 5,1% en 1,6%. Onze code is beschikbaar op https://github.com/ziyan-xiaoyu/I2CR/.
Alignment en uniformity zijn fundamentele principes binnen het domein van contrastief leren. In aanbevelingssystemen heeft eerder onderzoek aangetoond dat het optimaliseren van de Bayesian Personalized Ranking (BPR) loss bijdraagt aan de doelstellingen van alignment en uniformity. Specifiek streeft alignment ernaar de representaties van interagerende gebruikers en items dichter bij elkaar te brengen, terwijl uniformity vereist dat de embeddings van gebruikers en items uniform verdeeld zijn over een eenheidshypersfeer. Deze studie herziet de eigenschappen van alignment en uniformity in de context van multimodale aanbevelingssystemen en onthult een neiging bij bestaande modellen om uniformity te prioriteren ten koste van alignment. Onze hypothese daagt de conventionele aanname van gelijke behandeling van items via een uniformity loss uit en stelt een meer genuanceerde benadering voor waarbij items met vergelijkbare multimodale attributen convergeren naar nabijgelegen representaties binnen de hypersferische variëteit. Specifiek benutten we de inherente gelijkenis tussen de multimodale data van items om hun uniformity distributie te kalibreren, waardoor een meer uitgesproken afstotende kracht wordt geïnduceerd tussen ongelijke entiteiten binnen de embeddingruimte. Een theoretische analyse verduidelijkt de relatie tussen deze gekalibreerde uniformity loss en de conventionele uniformity functie. Bovendien introduceren we, om de fusie van multimodale kenmerken te verbeteren, een Spherical Bézier-methode die ontworpen is om een willekeurig aantal modaliteiten te integreren, terwijl ervoor wordt gezorgd dat de resulterende gefuseerde kenmerken beperkt blijven tot dezelfde hypersferische variëteit. Empirische evaluaties uitgevoerd op vijf real-world datasets bevestigen de superioriteit van onze aanpak ten opzichte van concurrerende baselines. We tonen ook aan dat de voorgestelde methoden een prestatieverbetering van tot wel 5,4% in NDCG@20 kunnen bereiken door de integratie van MLLM-geëxtraheerde kenmerken. Broncode is beschikbaar op: https://github.com/enoche/CM3.
Het redigeren van Persoonlijk Identificeerbare Informatie (PII) uit ongestructureerde tekst is cruciaal voor het waarborgen van gegevensprivacy in gereguleerde domeinen. Terwijl eerdere benaderingen vertrouwden op op regels gebaseerde systemen en domeinspecifieke Named Entity Recognition (NER)-modellen, slagen deze methoden er niet in om zich aan te passen aan verschillende formaten en contexten. Recente vooruitgang in Large Language Models (LLMs) biedt een veelbelovend alternatief, maar het effect van architectuur- en trainingskeuzes op de prestaties van redactie blijft onderbelicht. LLMs hebben sterke prestaties getoond in taken die contextueel taalbegrip vereisen, inclusief het redigeren van PII in vrije tekst. Eerder werk suggereert dat LLMs met de juiste aanpassing effectieve contextuele privacy-leerders kunnen worden. Echter, de gevolgen van architectuur- en trainingskeuzes voor PII-redactie blijven onderbelicht. In dit werk presenteren we een uitgebreide analyse van LLMs als privacy-beschermende PII-redactiesystemen. We evalueren een reeks LLM-architecturen en trainingsstrategieën op hun effectiviteit in PII-redactie. Onze analyse meet de prestaties van redactie, semantisch behoud en PII-lekkage, en vergelijkt deze resultaten met latentie en rekenkundige kosten. De resultaten bieden praktische richtlijnen voor het configureren van LLM-gebaseerde redacteurs die nauwkeurig, efficiënt en privacy-bewust zijn. Om reproduceerbaarheid en implementatie in de praktijk te ondersteunen, brengen we PRvL uit, een open-source suite van fijn afgestemde modellen en evaluatietools voor algemene PII-redactie. PRvL is volledig gebouwd op open-source LLMs en ondersteunt meerdere inferentie-instellingen voor flexibiliteit en naleving. Het is ontworpen om eenvoudig aan te passen te zijn voor verschillende domeinen en volledig operationeel te zijn binnen veilige, zelfbeheerde omgevingen. Dit stelt gegevensbezitters in staat om redacties uit te voeren zonder afhankelijk te zijn van diensten van derden of gevoelige inhoud buiten hun eigen infrastructuur bloot te stellen.
De prestaties van Large Language Models (LLMs) zijn aanzienlijk gevoelig voor de contextuele positie van informatie in de invoer. Om het mechanisme achter deze positionele bias te onderzoeken, onthullen onze uitgebreide experimenten een consistent fenomeen dat we de aandachtskom noemen: wanneer een reeks gestructureerde items (bijvoorbeeld opgehaalde documenten of few-shot voorbeelden) wordt gepresenteerd, wijzen modellen systematisch meer aandacht toe aan de items aan het begin en het einde van de reeks, terwijl die in het midden worden verwaarloosd. Cruciaal is dat onze analyse verder aantoont dat het toewijzen van meer aandacht aan kritieke informatie essentieel is voor het verbeteren van de modelprestaties. Op basis van deze inzichten introduceren we Attention-Driven Reranking (AttnRank), een tweestaps raamwerk dat (i) de intrinsieke positionele aandachtspreferenties van een model schat met behulp van een kleine kalibratieset, en (ii) opgehaalde documenten of few-shot voorbeelden herordent om de meest opvallende inhoud uit te lijnen met deze hoge-aandachtsposities. AttnRank is een model-agnostische, trainingsvrije en plug-and-play methode met minimale rekenkosten. Experimenten op multi-hop QA en few-shot in-context learning taken tonen aan dat AttnRank aanzienlijke verbeteringen bereikt over 10 grote taalmodellen van verschillende architecturen en schalen, zonder modelparameters of trainingsprocedures aan te passen.
Simultane Spraakvertaling (SimulST) systemen verwerken audio terwijl ze tegelijkertijd vertaalde tekst of spraak uitvoeren. Dergelijke systemen staan voor de aanzienlijke uitdaging om een balans te vinden tussen vertaalkwaliteit en latentie. We introduceren een strategie om deze afweging te optimaliseren: wacht alleen op meer invoer als je daardoor informatie verkrijgt. Gebaseerd op deze strategie presenteren we Regularized Entropy INformation Adaptation (REINA), een nieuw verliesfunctie om een adaptief beleid te trainen met behulp van een bestaand niet-streamend vertaalmodel. We leiden REINA af uit principes van de informatietheorie en laten zien dat REINA helpt om de gerapporteerde Pareto-grens van de latentie/kwaliteit-afweging te verbeteren ten opzichte van eerdere werken. Door REINA te gebruiken, trainen we een SimulST-model voor Frans, Spaans en Duits, zowel van als naar het Engels. Door alleen te trainen op open source of synthetisch gegenereerde data, behalen we state-of-the-art (SOTA) streamingresultaten voor modellen van vergelijkbare grootte. We introduceren ook een metriek voor streaming-efficiëntie, die kwantitatief aantoont dat REINA de latentie/kwaliteit-afweging met wel 21% verbetert in vergelijking met eerdere benaderingen, genormaliseerd tegen niet-streamende baseline BLEU-scores.
De opkomst van redeneermodellen en hun integratie in praktische AI-chatbots heeft geleid tot doorbraken in het oplossen van geavanceerde wiskundige problemen, diepgaande zoekopdrachten en extractieve vraag-antwoordproblemen die een complex en meerstaps denkproces vereisen. Toch ontbreekt een volledig begrip van waarom deze modellen meer hallucineren dan algemene taalmodellen. In dit onderzoekende studie verkennen we systematisch de redeneerfouten van hedendaagse taalmodellen bij meerstaps vraag-antwoordtaken. We introduceren een nieuw, genuanceerd foutencategorisatiekader dat fouten onderzoekt langs drie kritische dimensies: de diversiteit en uniciteit van betrokken brondocumenten ("hops"), de volledigheid in het vastleggen van relevante informatie ("dekking"), en cognitieve inefficiëntie ("overdenken"). Door middel van rigoureuze menselijke annotatie, ondersteund door aanvullende geautomatiseerde metrieken, onthult onze verkenning ingewikkelde foutpatronen die vaak verborgen blijven door nauwkeurigheidsgerichte evaluaties. Deze onderzoekende aanpak biedt diepere inzichten in de cognitieve beperkingen van huidige modellen en biedt praktische richtlijnen voor het verbeteren van redeneerbetrouwbaarheid, transparantie en robuustheid in toekomstige taalmodelleringsinspanningen.
Robuste hoofdcomponentenanalyse (RPCA) ontbindt een observatiematrix in een laag-rang achtergrondcomponent en een sparse objectcomponent. Deze mogelijkheid heeft de toepassing ervan mogelijk gemaakt in taken variërend van beeldherstel tot segmentatie. Traditionele RPCA-modellen kampen echter met rekenkundige lasten veroorzaakt door matrixoperaties, afhankelijkheid van fijn afgestelde hyperparameters en rigide aannames die de aanpassingsvermogen in dynamische scenario's beperken. Om deze beperkingen op te lossen, stellen we RPCANet++ voor, een raamwerk voor sparse objectsegmentatie dat de interpreteerbaarheid van RPCA combineert met efficiënte deep learning-architecturen. Onze aanpak ontvouwt een versoepeld RPCA-model in een gestructureerd netwerk bestaande uit een Achtergrondbenaderingsmodule (BAM), een Objectextractiemodule (OEM) en een Beeldherstelmodule (IRM). Om interstapelingsverlies in de BAM te verminderen, introduceren we een Geheugenversterkte Module (MAM) om het behoud van achtergrondkenmerken te verbeteren, terwijl een Diepe Contrastprior Module (DCPM) saliëntie-aanwijzingen benut om objectextractie te versnellen. Uitgebreide experimenten op diverse datasets tonen aan dat RPCANet++ state-of-the-art prestaties bereikt onder verschillende beeldscenario's. We verbeteren de interpreteerbaarheid verder via visuele en numerieke metingen van laag-rangheid en sparsiteit. Door de theoretische sterke punten van RPCA te combineren met de efficiëntie van deep learning-netwerken, zet onze aanpak een nieuwe standaard voor betrouwbare en interpreteerbare sparse objectsegmentatie. Codes zijn beschikbaar op onze Projectwebpagina https://fengyiwu98.github.io/rpcanetx.
Reference Expression Segmentation (RES) heeft als doel om beeldregio's te segmenteren die worden gespecificeerd door verwijzende uitdrukkingen en is populair geworden met de opkomst van multimodale grote modellen (MLLMs). Hoewel MLLMs uitblinken in semantisch begrip, worstelt hun token-generatieparadigma met pixelniveau dichte voorspellingen. Bestaande RES-methoden koppelen MLLMs ofwel aan het parameterzware Segment Anything Model (SAM) met 632M netwerkparameters, of nemen SAM-vrije lichtgewicht pijplijnen over die nauwkeurigheid opofferen. Om de afweging tussen prestaties en kosten aan te pakken, stellen we specifiek MLLMSeg voor, een nieuw raamwerk dat volledig gebruikmaakt van de inherente visuele detailkenmerken die zijn gecodeerd in de MLLM-visie-encoder zonder een extra visuele encoder te introduceren. Daarnaast stellen we een detailversterkte en semantisch consistente kenmerkenfusiemodule (DSFF) voor die de detailgerelateerde visuele kenmerken volledig integreert met de semantisch gerelateerde kenmerken die worden uitgevoerd door het grote taalmodel (LLM) van MLLM. Ten slotte stellen we een lichtgewicht maskerdecoder op met slechts 34M netwerkparameters die optimaal gebruikmaakt van gedetailleerde ruimtelijke kenmerken van de visuele encoder en semantische kenmerken van het LLM om nauwkeurige maskervoorspellingen te bereiken. Uitgebreide experimenten tonen aan dat onze methode over het algemeen zowel SAM-gebaseerde als SAM-vrije concurrenten overtreft, waardoor een betere balans tussen prestaties en kosten wordt bereikt. Code is beschikbaar op https://github.com/jcwang0602/MLLMSeg.
Multimodale taalmodellen (MLM's) tonen potentieel voor klinische beslissingsondersteuning en diagnostisch redeneren, wat het vooruitzicht op end-to-end geautomatiseerde interpretatie van medische beelden vergroot. Klinici zijn echter zeer selectief in het adopteren van AI-tools; een model dat fouten maakt op ogenschijnlijk eenvoudige perceptietaken, zoals het bepalen van de beeldoriëntatie of het identificeren of een CT-scan contrastversterkt is, zal waarschijnlijk niet worden geadopteerd voor klinische taken. Wij introduceren Medblink, een benchmark ontworpen om deze modellen te testen op dergelijke perceptuele vaardigheden. Medblink omvat acht klinisch relevante taken over meerdere beeldvormingsmodaliteiten en anatomische regio's, met in totaal 1.429 meerkeuzevragen over 1.605 afbeeldingen. We evalueren 19 state-of-the-art MLM's, waaronder algemene (GPT4o, Claude 3.5 Sonnet) en domeinspecifieke (Med Flamingo, LLaVA Med, RadFM) modellen. Terwijl menselijke annotators een nauwkeurigheid van 96,4% behalen, bereikt het best presterende model slechts 65%. Deze resultaten laten zien dat huidige MLM's vaak falen bij routinematige perceptuele controles, wat de noodzaak suggereert om hun visuele verankering te versterken om klinische adoptie te ondersteunen. De gegevens zijn beschikbaar op onze projectpagina.