Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz der schnellen Integration von Video-Perzeptionsfähigkeiten in Große Multimodale Modelle (LMMs) sind die zugrunde liegenden Mechanismen, die ihr Verständnis von Videos steuern, schlecht verstanden. Folglich werden viele Designentscheidungen in diesem Bereich ohne angemessene Rechtfertigung oder Analyse getroffen. Die hohe Rechenleistung, die für das Training und die Bewertung solcher Modelle erforderlich ist, gepaart mit begrenzter offener Forschung, behindert die Entwicklung von Video-LMMs. Um dem entgegenzuwirken, präsentieren wir eine umfassende Studie, die dazu beiträgt, zu enthüllen, was das Videoverständnis in LMMs effektiv vorantreibt. Wir beginnen damit, die Hauptursachen für die hohen Rechenanforderungen im Zusammenhang mit der Video-LMM-Forschung kritisch zu untersuchen und entdecken die Skalierungskonsistenz, bei der Design- und Trainingsentscheidungen, die bei kleineren Modellen und Datensätzen getroffen werden (bis zu einer kritischen Größe), effektiv auf größere Modelle übertragen werden. Unter Nutzung dieser Erkenntnisse haben wir viele video-spezifische Aspekte von Video-LMMs erforscht, einschließlich Video-Sampling, Architekturen, Datenzusammensetzung, Trainingspläne und mehr. Zum Beispiel haben wir gezeigt, dass fps-Sampling während des Trainings weitaus bevorzugt wird gegenüber gleichmäßigem Frame-Sampling und welche Vision-Encoder am besten für die Video-Repräsentation geeignet sind. Basierend auf diesen Erkenntnissen stellen wir Apollo vor, eine hochmoderne Familie von LMMs, die eine überlegene Leistung über verschiedene Modellgrößen hinweg erzielen. Unsere Modelle können einstündige Videos effizient wahrnehmen, wobei Apollo-3B die meisten bestehenden 7B-Modelle mit beeindruckenden 55,1 auf LongVideoBench übertrifft. Apollo-7B ist im Vergleich zu 7B LMMs auf dem neuesten Stand mit 70,9 auf MLVU und 63,3 auf Video-MME.
Das Verständnis, die Navigation und die Erkundung der 3D-physikalischen realen Welt waren schon lange eine zentrale Herausforderung in der Entwicklung der künstlichen Intelligenz. In dieser Arbeit gehen wir einen Schritt in Richtung dieses Ziels, indem wir GenEx vorstellen, ein System, das in der Lage ist, komplexe verkörperte Weltexploration zu planen, geleitet von seiner generativen Vorstellungskraft, die Erwartungen über die umgebenden Umgebungen bildet. GenEx generiert eine vollständige 3D-konsistente imaginative Umgebung aus nur einem einzigen RGB-Bild und belebt sie durch Panorama-Videostreams. Durch die Nutzung skalierbarer 3D-Weltdaten, die aus der Unreal Engine stammen, ist unser generatives Modell in der physischen Welt verankert. Es erfasst eine kontinuierliche 360-Grad-Umgebung mit geringem Aufwand und bietet eine grenzenlose Landschaft für KI-Agenten, um zu erkunden und zu interagieren. GenEx erreicht eine hochwertige Weltgenerierung, robuste Schleifenkonsistenz über lange Trajektorien und zeigt starke 3D-Fähigkeiten wie Konsistenz und aktives 3D-Mapping. Angetrieben von der generativen Vorstellungskraft der Welt sind GPT-unterstützte Agenten in der Lage, komplexe verkörperte Aufgaben auszuführen, einschließlich sowohl zielagnostischer Exploration als auch zielgesteuerter Navigation. Diese Agenten nutzen vorhersagende Erwartungen bezüglich unerforschter Teile der physischen Welt, um ihre Überzeugungen zu verfeinern, verschiedene Ergebnisse basierend auf potenziellen Entscheidungen zu simulieren und informiertere Entscheidungen zu treffen. Zusammenfassend zeigen wir, dass GenEx eine transformative Plattform für die Weiterentwicklung von verkörpertem KI in imaginären Räumen bietet und das Potenzial hat, diese Fähigkeiten auf die Erforschung der realen Welt auszudehnen.
Der bemerkenswerte Erfolg von Large Language Models (LLMs) hat sich auf den multimodalen Bereich ausgeweitet und herausragende Leistungen in der Bildverarbeitung und -generierung erzielt. Aktuelle Bemühungen zur Entwicklung vereinheitlichter Multimodal Large Language Models (MLLMs), die diese Fähigkeiten integrieren, haben vielversprechende Ergebnisse gezeigt. Allerdings beinhalten bestehende Ansätze oft komplexe Designs in der Modellarchitektur oder im Trainingsablauf, was die Schwierigkeit des Modelltrainings und der Skalierung erhöht. In diesem Artikel schlagen wir SynerGen-VL vor, ein einfaches, aber leistungsstarkes encoderfreies MLLM, das sowohl die Bildverarbeitung als auch -generierung beherrscht. Um die Herausforderungen zu bewältigen, die in bestehenden encoderfreien vereinheitlichten MLLMs identifiziert wurden, führen wir den Token-Faltungmechanismus und die auf Vision-Experten basierende progressive Ausrichtungs-Vortrainingsstrategie ein, die eine effektive Unterstützung für die Bildverarbeitung in hoher Auflösung bieten und gleichzeitig die Trainingskomplexität reduzieren. Nach dem Training auf umfangreichen gemischten Bild-Text-Daten mit einem vereinheitlichten Ziel der nächsten Token-Vorhersage erzielt SynerGen-VL die Leistung bestehender encoderfreier vereinheitlichter MLLMs mit vergleichbaren oder kleineren Parametergrößen oder übertrifft sie sogar und verringert den Abstand zu spezifischen State-of-the-Art-Modellen, was einen vielversprechenden Weg zu zukünftigen vereinheitlichten MLLMs aufzeigt. Unser Code und unsere Modelle werden veröffentlicht.
Mit dem Fortschreiten der KI steigt die Nachfrage nach Systemen, die über sprachbasierte Unterstützung hinausgehen und sich hin zu intelligenten Agenten bewegen, die in der Lage sind, realweltliche Aktionen auszuführen. Diese Entwicklung erfordert den Übergang von traditionellen Large Language Models (LLMs), die sich auf die Generierung von Textantworten spezialisiert haben, zu Large Action Models (LAMs), die für die Generierung und Ausführung von Aktionen in dynamischen Umgebungen konzipiert sind. Durch Agentensysteme ermöglicht, haben LAMs das Potenzial, die KI von passivem Sprachverständnis zu aktivem Aufgabenerfüllung zu transformieren und markieren einen bedeutenden Meilenstein auf dem Weg zur künstlichen allgemeinen Intelligenz. In diesem Paper präsentieren wir einen umfassenden Rahmen für die Entwicklung von LAMs und bieten einen systematischen Ansatz für ihre Erstellung, von der Konzeption bis zur Bereitstellung. Wir beginnen mit einem Überblick über LAMs, heben ihre einzigartigen Merkmale hervor und grenzen sie von LLMs ab. Anhand eines Agenten auf Basis des Windows-Betriebssystems als Fallstudie bieten wir eine detaillierte, schrittweise Anleitung zu den Schlüsselstadien der LAM-Entwicklung, einschließlich Datensammlung, Modelltraining, Umgebungseinbindung, Fundierung und Evaluation. Dieser verallgemeinerbare Arbeitsablauf kann als Blaupause für die Erstellung funktionaler LAMs in verschiedenen Anwendungsbereichen dienen. Abschließend identifizieren wir die aktuellen Einschränkungen von LAMs und diskutieren zukünftige Forschungsrichtungen und industrielle Bereitstellungsmöglichkeiten, wobei die Herausforderungen und Chancen betont werden, die bei der Realisierung des vollen Potenzials von LAMs in realen Anwendungen bevorstehen. Der Code für den in diesem Paper verwendeten Datensammlungsprozess ist öffentlich verfügbar unter: https://github.com/microsoft/UFO/tree/main/dataflow, und umfassende Dokumentation ist unter https://microsoft.github.io/UFO/dataflow/overview/ zu finden.
Dieses Paper stellt BiMediX2 vor, ein zweisprachiges (Arabisch-Englisch) Bio-Medizinisches Experten Großes Multimodales Modell (LMM) mit einer vereinheitlichten Architektur, die Text- und visuelle Modalitäten integriert, um fortgeschrittenes Bildverständnis und medizinische Anwendungen zu ermöglichen. BiMediX2 nutzt die Llama3.1-Architektur und integriert Text- und visuelle Fähigkeiten, um nahtlose Interaktionen sowohl auf Englisch als auch auf Arabisch zu ermöglichen, unterstützt textbasierte Eingaben und mehrstufige Gespräche, die medizinische Bilder beinhalten. Das Modell wird auf einem umfangreichen zweisprachigen Gesundheitsdatensatz trainiert, der aus 1,6 Mio. Beispielen verschiedener medizinischer Interaktionen für Text- und Bildmodalitäten besteht, gemischt in Arabisch und Englisch. Wir schlagen auch den ersten zweisprachigen GPT-4o-basierten medizinischen LMM-Benchmark namens BiMed-MBench vor. BiMediX2 wird in textbasierten und bildbasierten Aufgaben benchmarked und erzielt Spitzenleistungen in mehreren medizinischen Benchmarks. Es übertrifft aktuelle Spitzenmodelle in medizinischen LLM-Evaluierungsbenchmarks. Unser Modell setzt auch einen neuen Maßstab in multimodalen medizinischen Evaluierungen mit über 9% Verbesserung in Englisch und über 20% in Arabisch. Darüber hinaus übertrifft es GPT-4 um etwa 9% in UPHILL-Faktengenauigkeitsevaluierungen und glänzt in verschiedenen medizinischen visuellen Frage-Antwort-, Berichterstellung- und Berichtszusammenfassungsaufgaben. Die Projektseite inklusive Quellcode und des trainierten Modells ist verfügbar unter https://github.com/mbzuai-oryx/BiMediX2.
Visuelle Diffusionsmodelle erzielen bemerkenswerte Fortschritte, werden jedoch in der Regel auf begrenzten Auflösungen trainiert, aufgrund des Mangels an hochauflösenden Daten und begrenzten Rechenressourcen, was ihre Fähigkeit zur Erzeugung hochwertiger Bilder oder Videos in höheren Auflösungen beeinträchtigt. Kürzliche Bemühungen haben tuningfreie Strategien erforscht, um das ungenutzte Potenzial der hochauflösenden visuellen Generierung von vorab trainierten Modellen zu zeigen. Diese Methoden neigen jedoch immer noch dazu, visuelle Inhalte von geringer Qualität mit sich wiederholenden Mustern zu erzeugen. Das Hauptproblem liegt in der unvermeidlichen Zunahme von hochfrequenten Informationen, wenn das Modell visuelle Inhalte erzeugt, die die Trainingsauflösung überschreiten, was zu unerwünschten sich wiederholenden Mustern führt, die aus den angesammelten Fehlern resultieren. Um diese Herausforderung anzugehen, schlagen wir FreeScale vor, ein tuningfreies Inferenzparadigma, um die hochauflösende visuelle Generierung durch Skalenfusion zu ermöglichen. Speziell verarbeitet FreeScale Informationen von verschiedenen rezeptiven Skalen und fusioniert sie dann, indem gewünschte Frequenzkomponenten extrahiert werden. Umfangreiche Experimente bestätigen die Überlegenheit unseres Paradigmas bei der Erweiterung der Fähigkeiten der hochauflösenden visuellen Generierung sowohl für Bild- als auch für Video-Modelle. Bemerkenswert ist, dass FreeScale im Vergleich zur bisher besten Methode erstmals die Generierung von 8k-Auflösungsbildern ermöglicht.
Wir untersuchen den Einsatz von Residual Vector Quantization (RVQ) für die hochauflösende Generierung in vektor-quantisierten generativen Modellen. Diese Quantisierungstechnik gewährleistet eine höhere Datenfidelität durch die Verwendung von detaillierteren Tokens. Allerdings führt eine Erhöhung der Token-Anzahl in generativen Modellen zu langsameren Inferenzgeschwindigkeiten. Zu diesem Zweck stellen wir ResGen vor, ein effizientes RVQ-basiertes diskretes Diffusionsmodell, das hochauflösende Proben generiert, ohne die Probenahmegeschwindigkeit zu beeinträchtigen. Unsere Schlüsselidee besteht darin, die direkte Vorhersage der Vektoreinbettung von kollektiven Tokens anstelle von individuellen zu nutzen. Darüber hinaus zeigen wir, dass unsere vorgeschlagene Token-Maskierung und Multi-Token-Vorhersagemethode in einem fundierten probabilistischen Rahmen mithilfe eines diskreten Diffusionsprozesses und variationaler Inferenz formuliert werden können. Wir validieren die Wirksamkeit und Generalisierbarkeit der vorgeschlagenen Methode bei zwei anspruchsvollen Aufgaben in verschiedenen Modalitäten: bedingte Bildgenerierung auf ImageNet 256x256 und Zero-Shot Text-zu-Sprache-Synthese. Experimentelle Ergebnisse zeigen, dass ResGen in beiden Aufgaben autoregressive Gegenstücke übertrifft und eine überlegene Leistung ohne Beeinträchtigung der Probenahmegeschwindigkeit bietet. Darüber hinaus zeigen unsere generativen Modelle bei Skalierung der Tiefe von RVQ eine verbesserte Generierungsfidelität oder schnellere Probenahmegeschwindigkeiten im Vergleich zu ähnlich großen Basismodellen. Die Projektseite ist unter https://resgen-genai.github.io zu finden.
Die Generierung von Text-zu-Video hat sich in den letzten Jahren rapide weiterentwickelt und beeindruckende Ergebnisse geliefert. Das Training basiert in der Regel auf Video-Untertitel-Paardaten, die eine entscheidende Rolle bei der Verbesserung der Generierungsleistung spielen. Allerdings leiden aktuelle Video-Untertitel häufig unter unzureichenden Details, Halluzinationen und ungenauer Bewegungsdarstellung, was die Treue und Konsistenz der generierten Videos beeinträchtigt. In dieser Arbeit schlagen wir ein neuartiges instanzbewusstes strukturiertes Untertitel-Framework namens InstanceCap vor, um erstmals eine instanzbasierte und feingliedrige Video-Untertitelung zu erreichen. Basierend auf diesem Schema entwerfen wir einen Hilfsmodelle-Cluster, um das ursprüngliche Video in Instanzen umzuwandeln und die Instanztreue zu verbessern. Video-Instanzen werden weiterhin verwendet, um dichte Anregungen in strukturierte Phrasen umzuwandeln, um prägnante und präzise Beschreibungen zu erreichen. Darüber hinaus wird ein 22K InstanceVid-Datensatz für das Training kuratiert und eine auf die InstanceCap-Struktur zugeschnittene Verbesserungspipeline für die Inferenz vorgeschlagen. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes InstanceCap signifikant bessere Leistungen als frühere Modelle erbringt, eine hohe Treue zwischen Untertiteln und Videos gewährleistet und Halluzinationen reduziert.
Dieses Paper stellt eine abstimmmungsfreie Methode sowohl für die Objekteinfügung als auch für die subjektgesteuerte Generierung vor. Die Aufgabe besteht darin, ein Objekt basierend auf mehreren Ansichten in eine Szene einzufügen, die entweder durch ein Bild oder Text spezifiziert ist. Bestehende Methoden haben Schwierigkeiten, die anspruchsvollen Ziele der Aufgabe vollständig zu erreichen: (i) das nahtlose Einfügen des Objekts in die Szene mit fotorealistischer Pose und Beleuchtung und (ii) die Bewahrung der Identität des Objekts. Wir nehmen an, dass zur Erreichung dieser Ziele eine umfangreiche Überwachung erforderlich ist, aber das manuelle Sammeln ausreichender Daten schlichtweg zu teuer ist. Die Schlüsselbeobachtung in diesem Paper ist, dass viele maschinell hergestellte Objekte in mehreren Bildern großer unbeschrifteter Datensätze in verschiedenen Szenen, Posen und Beleuchtungsbedingungen wiederkehren. Wir nutzen diese Beobachtung, um eine umfangreiche Überwachung zu schaffen, indem wir Sets verschiedener Ansichten desselben Objekts abrufen. Dieser leistungsstarke gepaarte Datensatz ermöglicht es uns, eine einfache Text-zu-Bild-Diffusionsarchitektur zu trainieren, um die Objekt- und Szenenbeschreibungen auf das zusammengesetzte Bild abzubilden. Wir vergleichen unsere Methode, ObjectMate, mit State-of-the-Art-Methoden für die Objekteinfügung und die subjektgesteuerte Generierung unter Verwendung einer einzelnen oder mehreren Referenzen. Empirisch gesehen erreicht ObjectMate eine überlegene Identitätserhaltung und eine realistischere Komposition. Im Gegensatz zu vielen anderen Multi-Referenz-Methoden erfordert ObjectMate keine langsame Abstimmung zur Testzeit.
Obwohl Rectified Flows (ReFlows) mit Destillation einen vielversprechenden Weg für schnelles Sampling bieten, verwandelt ihre schnelle Inversion Bilder zurück in strukturiertes Rauschen für die Wiederherstellung, und die anschließende Bearbeitung bleibt ungelöst. Dieser Artikel stellt FireFlow vor, einen einfachen, aber effektiven Zero-Shot-Ansatz, der die beeindruckende Kapazität von ReFlow-basierten Modellen (wie FLUX) bei der Generierung erbt und gleichzeitig seine Fähigkeiten auf genaue Inversion und Bearbeitung in 8 Schritten erweitert. Wir zeigen zunächst, dass ein sorgfältig entworfener numerischer Solver für die ReFlow-Inversion entscheidend ist, um eine genaue Inversion und Rekonstruktion mit der Präzision eines Löser zweiter Ordnung zu ermöglichen, während die praktische Effizienz eines Löser erster Ordnung beibehalten wird. Dieser Solver erzielt eine 3-fache Laufzeitbeschleunigung im Vergleich zu modernsten ReFlow-Inversions- und Bearbeitungstechniken und liefert dabei kleinere Rekonstruktionsfehler und überlegene Bearbeitungsergebnisse im trainingsfreien Modus. Der Code ist verfügbar unter https://github.com/HolmesShuan/FireFlow{diese URL}.
Langkontext-LLMs haben zahlreiche nachgelagerte Anwendungen ermöglicht, aber auch bedeutende Herausforderungen in Bezug auf Rechen- und Speichereffizienz eingeführt. Um diesen Herausforderungen zu begegnen, wurden Optimierungen für die Inferenz mit langem Kontext entwickelt, die sich auf den KV-Cache konzentrieren. Allerdings bewerten bestehende Benchmarks oft nur Einzelanfragen und vernachlässigen dabei den gesamten Lebenszyklus des KV-Caches bei der Verwendung in der realen Welt. Dieses Versäumnis ist besonders kritisch, da die Wiederverwendung des KV-Caches weit verbreitet ist in LLM-Inferenz-Frameworks wie vLLM und SGLang sowie bei LLM-Anbietern wie OpenAI, Microsoft, Google und Anthropic. Um diese Lücke zu schließen, stellen wir SCBench (SharedContextBench) vor, einen umfassenden Benchmark zur Bewertung von Langkontext-Methoden aus einer KV-Cache-zentrierten Perspektive: 1) KV-Cache-Erzeugung, 2) KV-Cache-Komprimierung, 3) KV-Cache-Abruf, 4) KV-Cache-Laden. Speziell verwendet SCBench Testbeispiele mit gemeinsamem Kontext, die 12 Aufgaben mit zwei gemeinsamen Kontextmodi umfassen und vier Kategorien von Langkontext-Fähigkeiten abdecken: Zeichenfolgenabruf, semantischer Abruf, globale Informationen und Mehrfachaufgaben. Damit bieten wir eine umfassende KV-Cache-zentrierte Analyse von acht Kategorien von Langkontext-Lösungen, einschließlich Gated Linear RNNs, Mamba-Attention-Hybriden und effizienten Methoden wie spärliche Aufmerksamkeit, KV-Cache-Verwerfen, Quantisierung, Abruf, Laden und Prompt-Komprimierung. Die Bewertung wird an 8 Langkontext-LLMs durchgeführt. Unsere Ergebnisse zeigen, dass sub-O(n)-Speichermethoden in Multi-Turn-Szenarien leiden, während spärliche Codierung mit O(n)-Speicher und sub-O(n^2)-Vorbefüllungsberechnung robust funktionieren. Dynamische Sparsamkeit liefert ausdrucksstärkere KV-Caches als statische Muster, und Schichtebene-Sparsamkeit in Hybridarchitekturen reduziert den Speicherverbrauch bei starker Leistung. Darüber hinaus identifizieren wir Probleme mit der Aufmerksamkeitsverteilungsverschiebung in Langgenerierungsszenarien. https://aka.ms/SCBench.
Die Generierung von Text-zu-Video verbessert die Inhaltsentwicklung, ist jedoch äußerst rechenintensiv: Die Rechenkosten von Diffusions-Transformatoren (DiTs) steigen quadratisch mit der Anzahl der Pixel. Dies macht die Generierung von Videos von geringer Länge extrem teuer und beschränkt die meisten bestehenden Modelle auf die Erzeugung von Videos von nur 10-20 Sekunden Länge. Wir schlagen ein Linear-komplexes Text-zu-Video-Generierungs (LinGen) Framework vor, dessen Kosten linear mit der Anzahl der Pixel skalieren. LinGen ermöglicht erstmals die Generierung von hochauflösenden Videos von geringer Länge auf einer einzelnen GPU, ohne die Qualität zu beeinträchtigen. Es ersetzt den rechenintensiven und quadratisch-komplexen Block der Selbst-Aufmerksamkeit durch einen linear-komplexen Block namens MATE, der aus einem MA-Zweig und einem TE-Zweig besteht. Der MA-Zweig zielt auf kurz- bis langreichweitige Korrelationen ab, indem er einen bidirektionalen Mamba2-Block mit unserer Token-Umordnungsmethode, Rotary Major Scan, und unseren für die Generierung langer Videos entwickelten Überprüfungstoken kombiniert. Der TE-Zweig ist ein neuartiger TEmporal Swin Attention-Block, der sich auf zeitliche Korrelationen zwischen benachbarten Tokens und mittelreichweitigen Tokens konzentriert. Der MATE-Block behebt das Problem der Adjazenz-Erhaltung von Mamba und verbessert die Konsistenz der generierten Videos erheblich. Experimentelle Ergebnisse zeigen, dass LinGen die DiT in der Videoqualität übertrifft (mit einer Gewinnrate von 75,6%) und gleichzeitig die FLOPs (Latenz) um bis zu 15-mal (11,5-mal) reduziert. Darüber hinaus zeigen sowohl automatische Metriken als auch eine menschliche Bewertung, dass unser LinGen-4B eine vergleichbare Videoqualität zu führenden Modellen bietet (mit einer Gewinnrate von 50,5%, 52,1%, 49,1% im Vergleich zu Gen-3, LumaLabs und Kling). Dies ebnet den Weg für die Generierung von Filmen von Stundenlänge und die Echtzeit-Interaktive-Video-Generierung. Wir stellen Ergebnisse zur 68-Sekunden-Videoerzeugung und weitere Beispiele auf unserer Projektwebsite zur Verfügung: https://lineargen.github.io/.
Rektifizierte Flussmodelle haben sich als dominanter Ansatz in der Bildgenerierung etabliert und zeigen beeindruckende Fähigkeiten in der Synthese hochwertiger Bilder. Trotz ihrer Effektivität bei der visuellen Generierung haben rektifizierte Flussmodelle oft Schwierigkeiten mit der entwirrten Bearbeitung von Bildern. Diese Einschränkung verhindert die Möglichkeit, präzise, attributspezifische Modifikationen vorzunehmen, ohne nicht zusammenhängende Aspekte des Bildes zu beeinflussen. In diesem Papier stellen wir FluxSpace vor, eine domänenagnostische Bildbearbeitungsmethode, die einen Repräsentationsraum nutzt, um die Semantik von Bildern zu steuern, die von rektifizierten Flusstransformatoren wie Flux generiert werden. Durch die Nutzung der von den Transformerblöcken in den rektifizierten Flussmodellen gelernten Repräsentationen schlagen wir eine Reihe semantisch interpretierbarer Repräsentationen vor, die eine Vielzahl von Bildbearbeitungsaufgaben ermöglichen, von feinkörniger Bildbearbeitung bis zur künstlerischen Schöpfung. Diese Arbeit bietet einen skalierbaren und effektiven Ansatz zur Bildbearbeitung sowie dessen Entwirrungsfähigkeiten.
Die multimodale Musikgenerierung zielt darauf ab, Musik aus verschiedenen Eingabemodalitäten wie Text, Videos und Bildern zu erzeugen. Bestehende Methoden verwenden einen gemeinsamen Einbettungsraum für die multimodale Fusion. Obwohl sie in anderen Modalitäten wirksam sind, stehen sie bei der Anwendung in der multimodalen Musikgenerierung vor Herausforderungen wie Datenknappheit, schwacher kreuzmodaler Ausrichtung und begrenzter Steuerbarkeit. Dieser Artikel befasst sich mit diesen Problemen, indem er explizite Brücken zwischen Text und Musik für die multimodale Ausrichtung verwendet. Wir stellen eine neuartige Methode namens Visuals Music Bridge (VMB) vor. Speziell konvertiert ein Multimodales Musikbeschreibungsmodell visuelle Eingaben in detaillierte textuelle Beschreibungen, um die Textbrücke bereitzustellen; ein Dual-Track Musikabrufmodul, das breite und gezielte Abrufstrategien kombiniert, um die Musikbrücke bereitzustellen und Benutzersteuerung zu ermöglichen. Schließlich entwerfen wir ein explizit konditioniertes Musikgenerierungsframework, um Musik basierend auf den beiden Brücken zu erzeugen. Wir führen Experimente zu Video-zu-Musik, Bild-zu-Musik, Text-zu-Musik und kontrollierbaren Musikgenerierungsaufgaben durch, zusammen mit Experimenten zur Steuerbarkeit. Die Ergebnisse zeigen, dass VMB die Musikqualität, Modalität und Anpassungsausrichtung im Vergleich zu früheren Methoden signifikant verbessert. VMB setzt einen neuen Standard für interpretierbare und expressive multimodale Musikgenerierung mit Anwendungen in verschiedenen Multimediafeldern. Demos und Code sind verfügbar unter https://github.com/wbs2788/VMB.
Die Effektivität großer Sprachmodelle (LLMs) hängt eng mit dem Design von Eingabeaufforderungen zusammen, wodurch die Optimierung der Aufforderungen entscheidend ist, um ihre Leistung über eine Vielzahl von Aufgaben hinweg zu verbessern. Viele bestehende Ansätze zur Automatisierung des Aufforderungsdesigns stützen sich ausschließlich auf textuelles Feedback und verfeinern die Aufforderungen ausschließlich auf der Grundlage von Inferenzfehlern, die von großen, rechenintensiven LLMs identifiziert wurden. Leider haben kleinere Modelle Schwierigkeiten, hochwertiges Feedback zu generieren, was zu einer vollständigen Abhängigkeit von der Beurteilung durch große LLMs führt. Darüber hinaus können diese Methoden keine direkteren und feiner abgestuften Informationen wie Gradienten nutzen, da sie ausschließlich im Textbereich arbeiten. Zu diesem Zweck stellen wir GReaTer vor, eine neuartige Technik zur Optimierung von Eingabeaufforderungen, die direkt Gradienteninformationen über aufgabenspezifisches Denken einbezieht. Durch die Nutzung von Verlustgradienten ermöglicht GReaTer die Selbstoptimierung von Aufforderungen für Open-Source, leichtgewichtige Sprachmodelle, ohne auf teure geschlossene LLMs angewiesen zu sein. Dies ermöglicht eine leistungsstarke Optimierung von Aufforderungen ohne Abhängigkeit von massiven LLMs und schließt die Lücke zwischen kleineren Modellen und dem oft erforderlichen anspruchsvollen Denken zur Aufforderungsverfeinerung. Umfangreiche Bewertungen über verschiedene Denkaufgaben wie BBH, GSM8k und FOLIO zeigen, dass GReaTer konsequent bessere Leistungen erbringt als bisherige State-of-the-Art-Methoden zur Aufforderungsoptimierung, selbst solche, die auf leistungsstarken LLMs beruhen. Darüber hinaus zeigen durch GReaTer optimierte Aufforderungen häufig eine bessere Übertragbarkeit und steigern in einigen Fällen die Leistung auf ein Niveau, das mit oder sogar über dem von größeren Sprachmodellen erreichten vergleichbar ist, was die Effektivität der Aufforderungsoptimierung unter Verwendung von Gradienten über Denken hervorhebt. Der Code von GReaTer ist unter https://github.com/psunlpgroup/GreaTer verfügbar.
Wir präsentieren SmolTulu-1.7b-Instruct, in diesem Bericht als SmolTulu-DPO-1130 bezeichnet, ein anweisungsgesteuertes Sprachmodell, das die Post-Training-Pipeline von AllenAI's Tulu 3 anpasst, um das Basismodell Huggingface's SmolLM2-1.7B zu verbessern. Durch umfassende empirische Analysen unter Verwendung eines 135-Millionen-Parameter-Modells zeigen wir, dass das Verhältnis zwischen Lernrate und Batch-Größe die Modellleistung in einer aufgabenabhängigen Weise signifikant beeinflusst. Unsere Ergebnisse zeigen eine klare Aufteilung: Aufgaben des logischen Denkens wie ARC und GSM8K profitieren von höheren Verhältnissen von Lernrate zu Batch-Größe, während Aufgaben der Mustererkennung wie HellaSwag und IFEval optimale Leistungen bei niedrigeren Verhältnissen zeigen. Diese Erkenntnisse führten zur Entwicklung von SmolTulu, das Spitzenleistungen unter den Modellen mit weniger als 2 Milliarden Parametern bei der Befolgung von Anweisungen erzielt, mit 67,7 % bei IFEval (Delta11 %) und mathematischem Denken mit 51,6 % bei GSM8K (Delta3,4 %), wobei eine alternative Version 57,1 % bei ARC erzielt (Delta5,4 %). Wir veröffentlichen unser Modell, Trainingsrezepte und Ablationsstudien, um weitere Forschung in der effizienten Modellausrichtung zu erleichtern, und zeigen, dass eine sorgfältige Anpassung der Optimierungsdynamik dazu beitragen kann, die Leistungslücke zwischen kleinen und großen Sprachmodellen zu überbrücken.
Obwohl große Vision-Language-Action (VLA)-Modelle, die auf umfangreichen Roboterdatensätzen vortrainiert sind, vielversprechende generalistische Richtlinien für das robotische Lernen bieten, haben sie immer noch Schwierigkeiten mit räumlich-zeitlichen Dynamiken in der interaktiven Robotik, was sie weniger effektiv bei der Bewältigung komplexer Aufgaben wie Manipulation macht. In dieser Arbeit stellen wir visuelle Spur-Anregung vor, einen einfachen, aber effektiven Ansatz, um das räumlich-zeitliche Bewusstsein von VLA-Modellen für die Aktionsvorhersage zu erleichtern, indem Zustands-Aktions-Trajektorien visuell codiert werden. Wir entwickeln ein neues TraceVLA-Modell durch Feinabstimmung von OpenVLA auf unserem eigenen gesammelten Datensatz von 150K Roboter-Manipulationstrajektorien unter Verwendung visueller Spur-Anregung. Evaluierungen von TraceVLA über 137 Konfigurationen in SimplerEnv und 4 Aufgaben an einem physischen WidowX-Roboter zeigen eine Spitzenleistung, die OpenVLA um 10% in SimplerEnv und 3,5-fach in Echtroboteraufgaben übertrifft und eine robuste Verallgemeinerung über verschiedene Verkörperungen und Szenarien aufweist. Um die Wirksamkeit und Allgemeingültigkeit unserer Methode weiter zu validieren, präsentieren wir ein kompaktes VLA-Modell basierend auf 4B Phi-3-Vision, vortrainiert auf der Open-X-Verkörperung und feinabgestimmt auf unserem Datensatz, das dem 7B OpenVLA-Benchmark ebenbürtig ist und die Inferenzeffizienz signifikant verbessert.
Tiefe neuronale Netzwerke (DNNs) bieten erhebliches Potenzial zur Verbesserung der Brustkrebsdiagnose in der medizinischen Bildgebung. Diese Modelle sind jedoch äußerst anfällig für adversarielle Angriffe - kleine, unmerkliche Änderungen, die Klassifizierer in die Irre führen können - was ernsthafte Bedenken hinsichtlich ihrer Zuverlässigkeit und Sicherheit aufwirft. Traditionelle Angriffe basieren auf festen Norm-Störungen, die nicht mit der menschlichen Wahrnehmung übereinstimmen. Im Gegensatz dazu erfordern diffusionsbasierte Angriffe vorab trainierte Modelle, die bei deren Nichtverfügbarkeit erhebliche Datenmengen erfordern und somit den praktischen Einsatz in datenarmen Szenarien einschränken. In der medizinischen Bildgebung ist dies jedoch aufgrund der begrenzten Verfügbarkeit von Datensätzen oft nicht umsetzbar. Aufbauend auf den neuesten Fortschritten bei erlernbaren Anweisungen schlagen wir Prompt2Perturb (P2P) vor, eine neuartige sprachgesteuerte Angriffsmethode, die in der Lage ist, sinnvolle Angriffsbeispiele zu generieren, die durch Textanweisungen gesteuert werden. Während der Phase des Anlernens der Anweisungen nutzt unser Ansatz erlernbare Anweisungen innerhalb des Textencoders, um subtile, aber wirkungsvolle Störungen zu erzeugen, die unmerklich bleiben, während sie das Modell auf gezielte Ergebnisse lenken. Im Gegensatz zu aktuellen auf dem Lernen von Anweisungen basierenden Ansätzen zeichnet sich unser P2P dadurch aus, dass Texteinbettungen direkt aktualisiert werden, was die Notwendigkeit einer Neuschulung von Diffusionsmodellen vermeidet. Darüber hinaus nutzen wir die Erkenntnis, dass die Optimierung nur der frühen umgekehrten Diffusionsschritte die Effizienz steigert und gleichzeitig sicherstellt, dass die erzeugten adversariellen Beispiele subtile Rauschelemente enthalten, wodurch die Ultraschallbildqualität erhalten bleibt, ohne auffällige Artefakte einzuführen. Wir zeigen, dass unsere Methode in FID und LPIPS drei Brustultraschalldatensätze übertroffen hat. Darüber hinaus sind die erzeugten Bilder sowohl in ihrem Erscheinungsbild natürlicher als auch effektiver im Vergleich zu bestehenden adversariellen Angriffen. Unser Code wird öffentlich verfügbar sein unter https://github.com/yasamin-med/P2P.