Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren InternLM-XComposer-2.5 (IXC-2.5), een veelzijdig groot-visie taalmodel dat lange-contextuele invoer en uitvoer ondersteunt. IXC-2.5 blinkt uit in diverse tekst-beeld begrips- en compositietoepassingen en bereikt GPT-4V-niveau capaciteiten met slechts een 7B LLM-backend. Getraind met 24K interleaved beeld-tekst contexten, kan het naadloos worden uitgebreid naar 96K lange contexten via RoPE-extrapolatie. Deze lange-context mogelijkheid stelt IXC-2.5 in staat om uit te blinken in taken die uitgebreide invoer- en uitvoercontexten vereisen. Vergeleken met de vorige 2.0-versie, beschikt InternLM-XComposer-2.5 over drie grote upgrades in visie-taalbegrip: (1) Ultra-Hoge Resolutie Begrip, (2) Fijnmazig Videobegrip, en (3) Multi-Turn Multi-Beeld Dialoog. Naast begrip breidt IXC-2.5 uit naar twee overtuigende toepassingen met extra LoRA-parameters voor tekst-beeldcompositie: (1) Het Maken van Webpagina's en (2) Het Samenstellen van Hoogwaardige Tekst-Beeld Artikelen. IXC-2.5 is geëvalueerd op 28 benchmarks en overtreft bestaande open-source state-of-the-art modellen op 16 benchmarks. Het overtreft of concurreert ook nauw met GPT-4V en Gemini Pro op 16 sleuteltaken. De InternLM-XComposer-2.5 is publiekelijk beschikbaar op https://github.com/InternLM/InternLM-XComposer.
Benchmarks die nauw aansluiten bij downstream toepassingsscenario's zijn essentieel voor de soepele adoptie van nieuw onderzoek in tabelvormige machine learning (ML). In dit werk onderzoeken we bestaande tabelvormige benchmarks en identificeren we twee veelvoorkomende kenmerken van industriële tabelgegevens die ondervertegenwoordigd zijn in de datasets die beschikbaar zijn voor de academische gemeenschap. Ten eerste veranderen tabelgegevens vaak in de loop van de tijd in real-world implementatiescenario's. Dit heeft invloed op de modelprestaties en vereist tijdgebaseerde train- en testsplitsingen voor een correcte model evaluatie. Toch ontbreekt het bestaande academische tabeldatasets vaak aan timestamp metadata om dergelijke evaluatie mogelijk te maken. Ten tweede komt een aanzienlijk deel van de datasets in productieomgevingen voort uit uitgebreide data-acquisitie- en feature engineering-pijplijnen. Voor elke specifieke dataset kan dit een verschillende impact hebben op het absolute en relatieve aantal voorspellende, niet-informatieve en gecorreleerde features, wat op zijn beurt de modelselectie kan beïnvloeden. Om de bovengenoemde hiaten in academische benchmarks op te vullen, introduceren we TabReD – een verzameling van acht industriële tabeldatasets die een breed scala aan domeinen bestrijken, van financiën tot voedselbezorgdiensten. We evalueren een groot aantal tabelvormige ML-modellen in de feature-rijke, temporeel evoluerende data-omgeving die door TabReD wordt gefaciliteerd. We tonen aan dat evaluatie op tijdgebaseerde datasplitsingen leidt tot een andere rangschikking van methoden, vergeleken met evaluatie op willekeurige splitsingen die gebruikelijker zijn in academische benchmarks. Bovendien laten MLP-achtige architecturen en GBDT op de TabReD-datasets de beste resultaten zien, terwijl meer geavanceerde DL-modellen hun effectiviteit nog moeten bewijzen.
Classifier-free guidance (CFG) is de standaardmethode geworden om de kwaliteit van conditionele diffusiemodellen te verbeteren. Het gebruik van CFG vereist echter ofwel het trainen van een onvoorwaardelijk model naast het hoofd-diffusiemodel, ofwel het aanpassen van het trainingsproces door periodiek een nulconditie in te voegen. Er is ook geen duidelijke uitbreiding van CFG naar onvoorwaardelijke modellen. In dit artikel herzien we de kernprincipes van CFG en introduceren we een nieuwe methode, independent condition guidance (ICG), die de voordelen van CFG biedt zonder dat er speciale trainingsprocedures nodig zijn. Onze aanpak vereenvoudigt het trainingsproces van conditionele diffusiemodellen en kan ook worden toegepast tijdens inferentie op elk vooraf getraind conditioneel model. Daarnaast stellen we, door gebruik te maken van de tijdstapinformatie die in alle diffusienetwerken is gecodeerd, een uitbreiding van CFG voor, genaamd time-step guidance (TSG), die kan worden toegepast op elk diffusiemodel, inclusief onvoorwaardelijke modellen. Onze begeleidingstechnieken zijn eenvoudig te implementeren en hebben dezelfde steekproefkosten als CFG. Door middel van uitgebreide experimenten tonen we aan dat ICG de prestaties van standaard CFG evenaart bij verschillende conditionele diffusiemodellen. Bovendien laten we zien dat TSG de generatiekwaliteit op een vergelijkbare manier verbetert als CFG, zonder afhankelijk te zijn van enige conditionele informatie.
De visuele projector fungeert als een essentiële brug tussen de visuele encoder en het Large Language Model (LLM) in een Multimodaal LLM (MLLM). Typisch gebruiken MLLM's een eenvoudig MLP om alle visuele contexten te behouden via een één-op-één transformatie. Echter, de visuele tokens zijn redundant en kunnen aanzienlijk toenemen bij het verwerken van afbeeldingen met hoge resolutie, wat de efficiëntie van MLLM's aanzienlijk aantast. Sommige recente werken hebben een resampler of abstractor geïntroduceerd om het aantal resulterende visuele tokens te verminderen. Helaas slagen zij er niet in om fijnere details vast te leggen en ondermijnen zij de visuele redeneervaardigheden van MLLM's. In dit werk stellen we een nieuwe visuele projector voor, die een grof-naar-fijn schema hanteert om de verrijkte kenmerken te injecteren en gecondenseerde visuele tokens te genereren. Specifiek interpoleren we eerst de visuele kenmerken als een laag-resolutie puntquery, wat de algehele visuele representatie als basis biedt. Vervolgens introduceren we een regio-naar-punt injectiemodule die hoog-resolutie, multi-level regio-gebaseerde cues gebruikt als fijnmazige referentiesleutels en -waarden, waardoor ze volledig kunnen worden opgenomen binnen het corresponderende lokale contextgebied. Deze stap werkt de grove puntquery effectief bij, waardoor deze wordt omgezet in een verrijkte query voor het daaropvolgende LLM-redeneren. Uitgebreide experimenten tonen aan dat onze aanpak de visuele tokens met 75%~89% comprimeert, terwijl vergelijkbare of zelfs betere prestaties worden behaald op diverse benchmarks met aanzienlijk hogere efficiëntie. De broncodes zijn te vinden op https://github.com/CircleRadon/TokenPacker.
Onlangs hebben audiogeneratietaken aanzienlijke onderzoeksinteresse aangetrokken. Nauwkeurige temporele beheersbaarheid is essentieel om audiogeneratie te integreren met praktische toepassingen. In dit werk stellen we een temporeel gecontroleerd audiogeneratieframework voor, genaamd PicoAudio. PicoAudio integreert temporele informatie om audiogeneratie te sturen via een op maat gemaakt modelontwerp. Het maakt gebruik van dataverzameling, segmentatie, filtering en simulatie van fijnmazige temporeel uitgelijnde audio-tekstgegevens. Zowel subjectieve als objectieve evaluaties tonen aan dat PicoAudio de huidige state-of-the-art generatiemodellen aanzienlijk overtreft wat betreft de beheersbaarheid van tijdstempels en voorkomingsfrequentie. De gegenereerde voorbeelden zijn beschikbaar op de demowebsite https://PicoAudio.github.io.
Diffusiemodellen (DMs) hebben generatief leren gerevolutioneerd. Ze maken gebruik van een diffusieproces om gegevens te coderen in een eenvoudige Gaussische verdeling. Het coderen van een complexe, potentieel multimodale gegevensverdeling in een enkele continue Gaussische verdeling vormt echter een mogelijk onnodig uitdagend leerprobleem. Wij stellen Discrete-Continue Latente Variabele Diffusiemodellen (DisCo-Diff) voor om deze taak te vereenvoudigen door aanvullende discrete latente variabelen te introduceren. We verrijken DMs met leerbare discrete latente variabelen, die worden afgeleid met een encoder, en trainen het DM en de encoder end-to-end. DisCo-Diff is niet afhankelijk van vooraf getrainde netwerken, waardoor het framework universeel toepasbaar is. De discrete latente variabelen vereenvoudigen het leren van de complexe ruis-naar-gegevens mapping van het DM aanzienlijk door de kromming van de generatieve ODE van het DM te verminderen. Een aanvullende autoregressieve transformer modelleert de verdeling van de discrete latente variabelen, een eenvoudige stap omdat DisCo-Diff slechts weinig discrete variabelen met kleine codeboeken vereist. We valideren DisCo-Diff op speelgoedgegevens, verschillende beeld-synthesetaken en moleculair docken, en ontdekken dat de introductie van discrete latente variabelen de modelprestaties consistent verbetert. DisCo-Diff behaalt bijvoorbeeld state-of-the-art FID-scores op klasse-geconditioneerde ImageNet-64/128 datasets met een ODE-sampler.
Grote taalmodellen (LLM's), bekend om hun uitzonderlijke redeneervermogen, generaliseerbaarheid en vloeiendheid in diverse domeinen, bieden een veelbelovende weg voor het verbeteren van spraakgerelateerde taken. In dit artikel richten we ons op het integreren van decoder-only LLM's voor de taak van spraak-naar-tekst vertaling (S2TT). We stellen een decoder-only architectuur voor die het LLM in staat stelt om direct de gecodeerde spraakrepresentatie te verwerken en de tekstvertaling te genereren. Daarnaast onderzoeken we de effecten van verschillende parameter-efficiënte fine-tuning technieken en taakformuleringen. Ons model behaalt state-of-the-art prestaties op CoVoST 2 en FLEURS onder modellen die zijn getraind zonder propriëtaire data. We voeren ook analyses uit om de ontwerpkeuzes van ons voorgestelde model te valideren en inzichten te bieden voor de integratie van LLM's in S2TT.
Grote Taalmodellen (LLMs) zijn kwetsbaar voor jailbreaks–methoden om schadelijke of over het algemeen ontoelaatbare uitvoer te ontlokken. Veiligheidsmaatregelen worden ontwikkeld en beoordeeld op hun effectiviteit in het verdedigen tegen jailbreak-aanvallen, wat suggereert dat veiligheid gelijkstaat aan robuustheid. Wij stellen dat huidige verdedigingsmechanismen, zoals uitvoerfilters en afstemming via fine-tuning, fundamenteel ontoereikend zijn en zullen blijven voor het waarborgen van modelsafety. Deze verdedigingen gaan niet in op risico's die voortkomen uit queries met dubbele intentie en de mogelijkheid om onschuldige uitvoer te combineren om schadelijke doelen te bereiken. Om dit kritieke gat te dichten, introduceren we een informatie-theoretisch dreigingsmodel genaamd inferentiële tegenstanders, die ontoelaatbare informatielekken uit modeluitvoer exploiteren om kwaadaardige doelen te bereiken. We onderscheiden deze van veelvoorkomende beveiligingstegenstanders die alleen proberen slachtoffermodellen te dwingen specifieke ontoelaatbare uitvoer te genereren. We tonen de haalbaarheid aan van het automatiseren van inferentiële tegenstanders door vraagdecompositie en responsaggregatie. Om veiligheidsgaranties te bieden, definiëren we een informatiecensuurcriterium voor censuurmechanismen, dat het lekken van ontoelaatbare informatie begrenst. We stellen een verdedigingsmechanisme voor dat deze grens waarborgt en onthullen een intrinsieke veiligheid-nuttigheid trade-off. Ons werk biedt het eerste theoretisch onderbouwde inzicht in de vereisten voor het uitbrengen van veilige LLMs en de daarbij betrokken nuttigheidskosten.
Positiebias is een veelvoorkomend probleem gebleken bij moderne taalmmodellen (LMs), waarbij de modellen inhoud prioriteren op basis van de positie ervan binnen de gegeven context. Deze bias leidt vaak tot onverwachte modelfouten en schaadt de prestaties, robuustheid en betrouwbaarheid in diverse toepassingen. Onze mechanistische analyse schrijft de positiebias toe aan twee componenten die in bijna alle state-of-the-art LMs worden gebruikt: causale aandacht en relatieve positionele coderingen. Specifiek ontdekken we dat causale aandacht modellen over het algemeen doet neigen naar inhoud die verder weg staat, terwijl relatieve positionele coderingen zoals RoPE juist voorkeur geven aan nabije inhoud, gebaseerd op de analyse van retrieval-augmented vraag-antwoord (QA) taken. Verder toont ons empirisch onderzoek naar objectdetectie aan dat positiebias ook aanwezig is in visie-taalmmodellen (VLMs). Op basis van bovenstaande analyses stellen we voor om positiebias veroorzaakt door verschillende invoersegmentvolgordes (bijv. opties in LM-as-a-judge, opgehaalde documenten in QA) te ELIMINEREN op een TRAINING-FREE ZERO-SHOT manier. Onze methode verandert de causale aandacht in bidirectionele aandacht tussen segmenten en gebruikt modelaandachtswaarden om de relatieve volgorde van segmenten te bepalen in plaats van de volgorde die in de invoerprompts wordt gegeven, waardoor Position-INvariant inferencE (PINE) op segmentniveau mogelijk wordt. Door positiebias te elimineren, behalen modellen betere prestaties en betrouwbaarheid in downstream taken waar positiebias veel voorkomt, zoals LM-as-a-judge en retrieval-augmented QA. Opmerkelijk is dat PINE vooral nuttig is bij het aanpassen van LMs voor het evalueren van redeneerparen: het levert in de meeste gevallen consistent 8 tot 10 procentpunt prestatieverbetering op, en zorgt ervoor dat Llama-3-70B-Instruct zelfs beter presteert dan GPT-4-0125-preview op de RewardBench redeneersubset.