Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir schlagen SlowFast-LLaVA (kurz SF-LLaVA) vor, ein trainingsfreies Video-Large Language Model (LLM), das detaillierte räumliche Semantik und langfristigen zeitlichen Kontext gemeinsam erfassen kann, ohne das Token-Budget üblicher LLMs zu überschreiten. Dies wird durch die Verwendung eines Zwei-Strom SlowFast-Designs von Eingaben für Video-LLMs erreicht, um Merkmale von ausgewählten Videoframes auf effektive Weise zu aggregieren. Speziell extrahiert der Langsame Pfad Merkmale mit einer niedrigen Bildrate, während so viele räumliche Details wie möglich beibehalten werden (zum Beispiel mit 24x24 Tokens), und der Schnelle Pfad arbeitet mit einer hohen Bildrate, verwendet jedoch einen größeren räumlichen Pooling-Stride (zum Beispiel ein Downsampling von 6x), um sich auf die Bewegungshinweise zu konzentrieren. Dieses Design ermöglicht es uns, sowohl räumliche als auch zeitliche Merkmale angemessen zu erfassen, die für das Verständnis von Details im Video vorteilhaft sind. Experimentelle Ergebnisse zeigen, dass SF-LLaVA bestehende trainingsfreie Methoden auf einer Vielzahl von Videoaufgaben übertrifft. Auf einigen Benchmarks erzielt es vergleichbare oder sogar bessere Leistungen im Vergleich zu State-of-the-Art Video-LLMs, die auf Videodatensätzen feinabgestimmt sind.
Große Sprachmodelle (LLMs), die auf verschiedene Bereitstellungsskalen und -größen abzielen, werden derzeit durch das Training jeder Variante von Grund auf erstellt; dies ist äußerst rechenintensiv. In diesem Papier untersuchen wir, ob das Beschneiden eines vorhandenen LLM und anschließendes Neutrainieren mit einem Bruchteil (<3%) der ursprünglichen Trainingsdaten eine geeignete Alternative zum wiederholten vollständigen Neutrainieren sein kann. Zu diesem Zweck entwickeln wir einen Satz praktischer und effektiver Komprimierungsempfehlungen für LLMs, die Tiefe, Breite, Aufmerksamkeit und MLP-Beschneidung mit auf Wissensvermittlung basierendem Neutrainieren kombinieren; wir gelangen zu diesen Empfehlungen durch eine detaillierte empirische Exploration von Beschneidungsstrategien für jede Achse, Methoden zur Kombination von Achsen, Vermittlungsstrategien und Suchtechniken zur Ermittlung optimaler komprimierter Architekturen. Wir verwenden diesen Leitfaden, um die Nemotron-4-Familie von LLMs um den Faktor 2-4x zu komprimieren und vergleichen deren Leistung mit ähnlich großen Modellen in einer Vielzahl von Sprachmodellierungsaufgaben. Die Ableitung von 8B- und 4B-Modellen aus einem bereits vortrainierten 15B-Modell mit unserem Ansatz erfordert bis zu 40-mal weniger Trainings-Token pro Modell im Vergleich zum Training von Grund auf; dies führt zu einer Rechenkosteneinsparung von 1,8x für das Training der gesamten Modellfamilie (15B, 8B und 4B). Minitron-Modelle zeigen eine bis zu 16%ige Verbesserung der MMLU-Werte im Vergleich zum Training von Grund auf, performen vergleichbar mit anderen Community-Modellen wie Mistral 7B, Gemma 7B und Llama-3 8B und übertreffen modernste Komprimierungstechniken aus der Literatur. Wir haben die Minitron-Modellgewichte auf Huggingface als Open Source veröffentlicht, zusammen mit entsprechendem ergänzendem Material, einschließlich Beispielcode auf GitHub.
Das enorme Ausmaß der modernsten Grundlagenmodelle hat den Zugang für Wissenschaftler eingeschränkt, da maßgeschneiderte Experimente mit großen Modellgrößen teure Hardware und komplexe Ingenieurskunst erfordern, die für die meisten Forscher unpraktisch ist. Um diese Probleme zu lindern, stellen wir NNsight vor, ein Open-Source-Python-Paket mit einer einfachen, flexiblen API, die Interventionen in jedem PyTorch-Modell durch den Aufbau von Berechnungsgraphen ausdrücken kann. Wir stellen auch NDIF vor, eine kollaborative Forschungsplattform, die Forschern über die NNsight-API Zugang zu Grundlagenmaßstäben von LLMs bietet. Code, Dokumentation und Tutorials sind unter https://www.nnsight.net verfügbar.
Das Verständnis der Wissensmechanismen in Large Language Models (LLMs) ist entscheidend für die Weiterentwicklung hin zu vertrauenswürdiger KI. Diese Arbeit überprüft die Analyse der Wissensmechanismen anhand einer neuen Taxonomie, die die Wissensnutzung und -entwicklung umfasst. Die Wissensnutzung untersucht den Mechanismus der Memorierung, des Verstehens und der Anwendung sowie der Erstellung von Wissen. Die Wissensentwicklung konzentriert sich auf die dynamische Progression des Wissens innerhalb einzelner und Gruppen von LLMs. Darüber hinaus diskutieren wir, welches Wissen LLMs erlangt haben, die Gründe für die Fragilität des parametrischen Wissens und das potenzielle dunkle Wissen (Hypothese), das schwierig zu bewältigen sein wird. Wir hoffen, dass diese Arbeit dazu beitragen kann, das Wissen in LLMs zu verstehen und Einblicke für zukünftige Forschung zu liefern.
Große multimodale Modelle (LMMs) bieten beträchtliches Potenzial in verschiedenen Bereichen, von persönlicher Unterstützung bei täglichen Aufgaben bis hin zu anspruchsvollen Anwendungen wie medizinischer Diagnostik. Ihre Fähigkeiten haben jedoch Grenzen im Bereich der Videospiele, wie z.B. Herausforderungen bei der Szenenverarbeitung, Halluzinationen und ungenaue Beschreibungen von Videospielinhalten, insbesondere in Open-Source-Modellen. Dieser Artikel beschreibt die Entwicklung von VideoGameBunny, einem LLaVA-ähnlichen Modell basierend auf Bunny, das speziell für das Verstehen von Bildern aus Videospielen entwickelt wurde. Wir veröffentlichen Zwischenstände, Trainingsprotokolle und einen umfangreichen Datensatz, der 185.259 Videospielbilder aus 413 Titeln umfasst, sowie 389.565 Bild-Anweisungspaare, die Bildunterschriften, Frage-Antwort-Paare und eine JSON-Repräsentation von 16 Elementen von 136.974 Bildern enthalten. Unsere Experimente zeigen, dass unsere hochwertigen spielbezogenen Daten das Potenzial haben, ein relativ kleines Modell dazu zu bringen, das weitaus größere state-of-the-art Modell LLaVa-1.6-34b zu übertreffen (das mehr als 4-mal so viele Parameter hat). Unsere Studie ebnet den Weg für zukünftige Forschung im Bereich des Verständnisses von Videospielen bei Aufgaben wie Spielen, Kommentieren und Debuggen. Code und Daten sind verfügbar unter https://videogamebunny.github.io/
Das Multi-Agenten-Verstärkungslernen (MARL) hat in letzter Zeit bei der Lösung anspruchsvoller kooperativer und kompetitiver Multi-Agenten-Probleme in verschiedenen Umgebungen mit meist wenigen Agenten und vollständiger Beobachtbarkeit hervorragende Leistungen erbracht. Darüber hinaus wird vorgeschlagen, eine Reihe wichtiger robotikbezogener Aufgaben, wie die Navigation von Multi-Robotern und das Hindernisvermeidung, die bisher konventionell mit den klassischen nicht erlernbaren Methoden (z. B. heuristische Suche) angegangen wurden, nun mit lernbasierten oder hybriden Methoden zu lösen. Dennoch ist es in diesem Bereich schwer, wenn nicht sogar unmöglich, einen fairen Vergleich zwischen klassischen, lernbasierten und hybriden Ansätzen durchzuführen, aufgrund des Mangels an einem einheitlichen Rahmenwerk, das sowohl das Lernen als auch die Bewertung unterstützt. Zu diesem Zweck stellen wir POGEMA vor, eine Reihe umfassender Tools, die eine schnelle Lernumgebung, einen Generator von Probleminstanzen, die Sammlung vordefinierter Instanzen, ein Visualisierungstool und ein Benchmarking-Tool umfassen, das eine automatisierte Bewertung ermöglicht. Wir führen ein Bewertungsprotokoll ein und spezifizieren es, das eine Reihe domänenbezogener Metriken definiert, die auf den Grundlagen der primären Bewertungsindikatoren (wie Erfolgsrate und Pfadlänge) berechnet werden, um einen fairen mehrfachen Vergleich zu ermöglichen. Die Ergebnisse eines solchen Vergleichs, der eine Vielzahl modernster MARL-, suchbasierter und hybrider Methoden umfasst, werden präsentiert.
Große multimodale Modelle (LMMs) verarbeiten zunehmend längere und reichhaltigere Eingaben. Trotz des Fortschritts stehen nur wenige öffentliche Benchmarks zur Verfügung, um eine solche Entwicklung zu messen. Um diese Lücke zu schließen, stellen wir LongVideoBench vor, einen Frage-Antwort-Benchmark, der video-sprachlich durchsetzte Eingaben von bis zu einer Stunde Länge bietet. Unser Benchmark umfasst 3.763 Web-gesammelte Videos mit variabler Länge und ihren Untertiteln zu verschiedenen Themen, die darauf ausgelegt sind, LMMs umfassend auf ihr Verständnis von langfristiger multimodaler Verarbeitung zu bewerten. Um dies zu erreichen, betrachten wir die Hauptherausforderung darin, detaillierte multimodale Informationen aus langen Eingaben genau abzurufen und zu analysieren. Daher formulieren wir eine neuartige Video-Frage-Antwort-Aufgabe namens "referring reasoning". Speziell enthält die Frage einen Verweisungs-Query, der sich auf verwandte Video-Kontexte bezieht, genannt referenzierter Kontext. Das Modell muss dann relevante Video-Details aus dem referenzierten Kontext analysieren. Im Rahmen des Verweisungs-Reasonings kuratieren wir 6.678 menschenannotierte Multiple-Choice-Fragen in 17 feingranulierten Kategorien und etablieren einen der umfassendsten Benchmarks für das Verständnis von langen Videoinhalten. Evaluationen deuten darauf hin, dass LongVideoBench selbst für die fortschrittlichsten proprietären Modelle (z.B. GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo) signifikante Herausforderungen darstellt, während ihre Open-Source-Gegenstücke einen noch größeren Leistungsunterschied aufweisen. Darüber hinaus zeigen unsere Ergebnisse, dass die Leistung der Modelle im Benchmark nur dann verbessert wird, wenn sie in der Lage sind, mehr Frames zu verarbeiten, was LongVideoBench als wertvollen Benchmark zur Bewertung von LMMs der nächsten Generation mit langen Kontexten positioniert.
Das Lernen durch Verstärkung aus menschlichem Feedback (RLHF) ist ein Schlüsselfaktor für Qualität und Sicherheit in hochmodernen großen Sprachmodellen. Dennoch ist eine überraschend einfache und starke Strategie zur Inferenzzeit die Best-of-N-Auswahl, die die beste Generierung aus N Kandidaten auswählt. In diesem Paper schlagen wir Best-of-N-Destillation (BOND) vor, einen neuartigen RLHF-Algorithmus, der versucht, Best-of-N nachzuahmen, jedoch ohne dessen erheblichen Rechenaufwand zur Inferenzzeit. Konkret handelt es sich bei BOND um einen Verteilungsangleichungsalgorithmus, der die Verteilung der Generierungen der Richtlinie dazu zwingt, der Best-of-N-Verteilung näher zu kommen. Wir verwenden die Jeffreys-Divergenz (eine lineare Kombination aus vorwärts und rückwärts KL), um zwischen Modusabdeckung und Modussuchverhalten zu balancieren, und leiten eine iterative Formulierung ab, die einen beweglichen Anker für Effizienz nutzt. Wir zeigen die Wirksamkeit unseres Ansatzes und mehrerer Designentscheidungen durch Experimente zur abstrakten Zusammenfassung und Gemma-Modelle auf. Die Ausrichtung der Gemma-Richtlinien mit BOND übertrifft andere RLHF-Algorithmen, indem sie die Ergebnisse auf mehreren Benchmarks verbessert.
Obwohl Neural Radiance Fields (NeRFs) eine außergewöhnliche Qualität gezeigt haben, bleibt ihre langwierige Trainingsdauer eine Einschränkung. Generalisierbare und MVS-basierte NeRFs, obwohl sie in der Lage sind, die Trainingszeit zu verringern, gehen oft mit Qualitätskompromissen einher. Dieses Paper stellt einen neuartigen Ansatz namens BoostMVSNeRFs vor, um die Rendering-Qualität von MVS-basierten NeRFs in großangelegten Szenen zu verbessern. Zunächst identifizieren wir Einschränkungen in MVS-basierten NeRF-Methoden, wie eingeschränkte Viewport-Abdeckung und Artefakte aufgrund begrenzter Eingangsansichten. Anschließend beheben wir diese Einschränkungen, indem wir eine neue Methode vorschlagen, die während des Volumen-Renderings mehrere Kosten-Volumina auswählt und kombiniert. Unsere Methode erfordert kein Training und kann sich in feed-forward Manier an jede MVS-basierte NeRF-Methode anpassen, um die Rendering-Qualität zu verbessern. Darüber hinaus ist unser Ansatz auch end-to-end trainierbar, was Feinabstimmungen auf spezifischen Szenen ermöglicht. Wir zeigen die Wirksamkeit unserer Methode durch Experimente an großangelegten Datensätzen, die signifikante Verbesserungen der Rendering-Qualität in großangelegten Szenen und unbegrenzten Outdoor-Szenarien aufzeigen. Wir veröffentlichen den Quellcode von BoostMVSNeRFs unter https://su-terry.github.io/BoostMVSNeRFs/.
Diffusionsmodelle verstricken Inhalts- und Stilgenerierung während des Rauschunterdrückungsprozesses, was zu unerwünschten Inhaltsänderungen führt, wenn sie direkt auf Stilisierungsaufgaben angewendet werden. Bestehende Methoden haben Schwierigkeiten, das Diffusionsmodell effektiv zu steuern, um die ästhetischen Anforderungen auf Stilisierungsebene zu erfüllen. In diesem Artikel stellen wir Artist vor, einen trainingsfreien Ansatz, der die ästhetische Steuerung der Inhalts- und Stilgenerierung eines vorab trainierten Diffusionsmodells für textgesteuerte Stilisierung ermöglicht. Unser Schlüsselerkenntnis besteht darin, die Rauschunterdrückung von Inhalt und Stil in separate Diffusionsprozesse zu entflechten, während Informationen zwischen ihnen geteilt werden. Wir schlagen einfache, aber effektive Methoden zur Inhalts- und Stilsteuerung vor, die die Generierung stilirrelevanter Inhalte unterdrücken und zu harmonischen Stilisierungsergebnissen führen. Umfangreiche Experimente zeigen, dass unsere Methode herausragende ästhetische Stilisierungsanforderungen erfüllt, feine Details im Inhaltsbild bewahrt und gut mit der Stilvorgabe übereinstimmt. Darüber hinaus präsentieren wir die hohe Steuerbarkeit der Stärke der Stilisierung aus verschiedenen Perspektiven. Der Code wird veröffentlicht, Projekt-Homepage: https://DiffusionArtist.github.io
Obwohl Flow Matching und Diffusionsmodelle als leistungsstarke generative Paradigmen für kontinuierliche Variablen wie Bilder und Videos aufgetaucht sind, ist ihre Anwendung auf hochdimensionale diskrete Daten, wie Sprache, noch begrenzt. In dieser Arbeit präsentieren wir Discrete Flow Matching, ein neuartiges diskretes Flussparadigma, das speziell für die Generierung diskreter Daten entwickelt wurde. Discrete Flow Matching bietet mehrere wesentliche Beiträge: (i) Es arbeitet mit einer allgemeinen Familie von Wahrscheinlichkeitspfaden, die zwischen Quell- und Zielverteilungen interpolieren; (ii) es ermöglicht eine generische Formel zum Samplen von diesen Wahrscheinlichkeitspfaden unter Verwendung von erlernten Posteriors wie dem Wahrscheinlichkeitsdenoiser (x-Vorhersage) und dem Rausch-Vorhersage (Epsilon-Vorhersage); (iii) praktisch gesehen verbessert die Fokussierung auf spezifische Wahrscheinlichkeitspfade, die mit verschiedenen Zeitplänen definiert sind, die generative Perplexität erheblich im Vergleich zu früheren diskreten Diffusions- und Flussmodellen; und (iv) durch Skalierung von Discrete Flow Matching-Modellen auf bis zu 1,7 Milliarden Parameter erreichen wir 6,7% Pass@1 und 13,4% Pass@10 bei HumanEval sowie 6,7% Pass@1 und 20,6% Pass@10 bei 1-shot MBPP-Codierungstests. Unser Ansatz ist in der Lage, hochwertige diskrete Daten auf nicht-autoregressive Weise zu generieren und schließt signifikant die Lücke zwischen autoregressiven Modellen und diskreten Flussmodellen.
Die Generierung von 3D-Szenen ist in verschiedenen Bereichen, darunter Virtual Reality, Gaming und der Filmindustrie, stark gefragt. Dank der leistungsstarken generativen Fähigkeiten von Text-zu-Bild-Diffusionsmodellen, die zuverlässige Priors liefern, ist die Erstellung von 3D-Szenen nur anhand von Texteingaben möglich geworden, was die Forschung im Bereich der textgesteuerten 3D-Szenengenerierung erheblich vorantreibt. Um mehrfache Ansichten von 2D-Diffusionsmodellen zu erhalten, verwenden gängige Methoden in der Regel das Diffusionsmodell, um ein initiales lokales Bild zu generieren, gefolgt von der schrittweisen Erweiterung des lokalen Bildes mithilfe von Diffusionsmodellen, um Szenen allmählich zu generieren. Dennoch neigen diese auf Erweiterung basierenden Ansätze dazu, globale inkonsistente Szenengenerierungsergebnisse mit unvollständigem Grad zu erzeugen, was ihre breitere Anwendung einschränkt. Um diese Probleme zu bewältigen, stellen wir HoloDreamer vor, ein Framework, das zunächst hochauflösende Panoramen als ganzheitliche Initialisierung der vollständigen 3D-Szene generiert und dann 3D-Gauß-Splatting (3D-GS) nutzt, um die 3D-Szene schnell zu rekonstruieren, was die Erstellung von konsistenten und vollständig umschlossenen 3D-Szenen erleichtert. Konkret schlagen wir die Generierung von stilisierten equirectangular Panoramen vor, ein Verfahren, das mehrere Diffusionsmodelle kombiniert, um stilisierte und detaillierte equirectangular Panoramen aus komplexen Texteingaben zu ermöglichen. Anschließend wird die verbesserte zweistufige Panorama-Rekonstruktion eingeführt, die eine zweistufige Optimierung von 3D-GS durchführt, um den fehlenden Bereich zu ergänzen und die Integrität der Szene zu verbessern. Umfassende Experimente haben gezeigt, dass unsere Methode hinsichtlich der Gesamtvisuellen Konsistenz und Harmonie sowie der Rekonstruktionsqualität und Rendering-Robustheit bei der Generierung vollständig umschlossener Szenen frühere Arbeiten übertrifft.
Allgemeine Künstliche Intelligenz (KI)-Systeme werden auf massiven Datensätzen aus öffentlichen Webdaten aufgebaut, die zu Korpora wie C4, RefinedWeb und Dolma zusammengefasst werden. Nach unserem Kenntnisstand führen wir die erste umfassende, groß angelegte, längsschnittliche Überprüfung der Einwilligungsprotokolle für die Webdomains durch, die den KI-Trainingskorpora zugrunde liegen. Unsere Überprüfung von 14.000 Webdomains bietet einen umfassenden Einblick in durchsuchbare Webdaten und wie sich die Einwilligungsvorlieben zur Nutzung im Laufe der Zeit ändern. Wir beobachten eine Verbreitung von KI-spezifischen Klauseln zur Beschränkung der Nutzung, akute Unterschiede bei den Einschränkungen für KI-Entwickler sowie allgemeine Inkonsistenzen zwischen den ausgedrückten Absichten der Websites in ihren Nutzungsbedingungen und ihrer robots.txt. Wir diagnostizieren diese als Symptome ineffektiver Webprotokolle, die nicht darauf ausgelegt sind, mit der weit verbreiteten Umnutzung des Internets für KI umzugehen. Unsere längsschnittlichen Analysen zeigen, dass es innerhalb eines Jahres (2023-2024) einen rapiden Anstieg der Datenbeschränkungen von Webquellen gegeben hat, wodurch ~5%+ aller Tokens in C4 oder 28%+ der am aktivsten gepflegten, kritischen Quellen in C4 vollständig eingeschränkt sind. Bei den Nutzungsbedingungen für das Crawlen sind nun volle 45% von C4 eingeschränkt. Wenn diese Beschränkungen respektiert oder durchgesetzt werden, beeinflussen sie schnell die Vielfalt, Aktualität und Skalierungsgesetze für allgemeine KI-Systeme. Wir möchten die aufkommende Krise bei der Datenzustimmung veranschaulichen, die einen Großteil des offenen Webs für kommerzielle KI, aber auch für nicht-kommerzielle KI und akademische Zwecke ausschließt.
Diffusionsmodelle haben aufgrund ihrer leistungsstarken generativen Fähigkeiten große Fortschritte in der Bildanimation erzielt. Die Aufrechterhaltung der räumlich-zeitlichen Konsistenz mit detaillierten Informationen aus dem statischen Eingangsbild im Laufe der Zeit (z. B. Stil, Hintergrund und Objekt des statischen Eingangsbildes) und die Gewährleistung von Geschmeidigkeit in animierten Videogeschichten, die von Textvorgaben geleitet werden, bleiben jedoch nach wie vor herausfordernd. In diesem Papier stellen wir Cinemo vor, einen neuartigen Ansatz zur Bildanimation, um eine bessere Bewegungssteuerbarkeit sowie eine stärkere zeitliche Konsistenz und Geschmeidigkeit zu erreichen. Im Allgemeinen schlagen wir drei effektive Strategien in den Trainings- und Inferenzphasen von Cinemo vor, um unser Ziel zu erreichen. In der Trainingsphase konzentriert sich Cinemo darauf, die Verteilung von Bewegungsresten zu erlernen, anstatt direkt die nachfolgende Bewegung über ein Bewegungsdiffusionsmodell vorherzusagen. Darüber hinaus wird eine Strategie auf Basis des strukturellen Ähnlichkeitsindex vorgeschlagen, um Cinemo eine bessere Steuerbarkeit der Bewegungsintensität zu ermöglichen. In der Inferenzphase wird eine Rauschverfeinerungstechnik auf Basis der diskreten Kosinustransformation eingeführt, um plötzliche Bewegungsänderungen zu mildern. Diese drei Strategien ermöglichen es Cinemo, äußerst konsistente, geschmeidige und steuerbare Ergebnisse zu erzielen. Im Vergleich zu früheren Methoden bietet Cinemo eine einfachere und präzisere Benutzersteuerbarkeit. Umfangreiche Experimente gegen mehrere State-of-the-Art-Methoden, einschließlich kommerzieller Tools und Forschungsansätze, über mehrere Metriken hinweg, zeigen die Wirksamkeit und Überlegenheit unseres vorgeschlagenen Ansatzes.
Die belohnungsbasierte Feinabstimmung ist entscheidend, um Sprachrichtlinien mit beabsichtigtem Verhalten (z.B. Kreativität und Sicherheit) in Einklang zu bringen. Eine zentrale Herausforderung besteht darin, steuerbare Sprachmodelle zu entwickeln, die mehrere (konkurrierende) Ziele flexibel und effizient ausbalancieren können. In diesem Artikel wird das Conditioned Language Policy (CLP) vorgestellt, ein allgemeines Rahmenwerk zur Feinabstimmung von Sprachmodellen auf mehrere Ziele. Aufbauend auf Techniken des Multi-Task-Trainings und der parameter-effizienten Feinabstimmung kann CLP steuerbare Modelle lernen, die konkurrierende Ziele effektiv zum Zeitpunkt der Inferenz ausbalancieren können. Dies erfordert bemerkenswerterweise weder das Training noch das Aufrechterhalten mehrerer Modelle, um unterschiedliche Ausgewogenheiten zwischen den Zielen zu erreichen. Durch eine umfangreiche Reihe von Experimenten und Ablationen zeigen wir, dass das CLP-Rahmenwerk steuerbare Modelle lernt, die die aktuellen State-of-the-Art-Ansätze für die Feinabstimmung von mehreren Zielen übertreffen und Pareto-dominieren.
Auf der Grundlage der Leistung von LLMs haben zahlreiche multimodale große Sprachmodelle (MLLMs) in letzter Zeit bemerkenswerte Leistungen bei verschiedenen Vision-Sprach-Aufgaben über mehrere Benchmarks erzielt. Die meisten bestehenden MLLMs und Benchmarks konzentrieren sich jedoch hauptsächlich auf Szenarien mit einzelnen Bildern als Eingabe und lassen die Leistung von MLLMs bei der Verarbeitung realistischer Szenarien mit mehreren Bildern weitgehend unerforscht. Obwohl einige Benchmarks mehrere Bilder berücksichtigen, sind ihre Bewertungsdimensionen und Stichproben sehr begrenzt. Daher schlagen wir in diesem Papier einen neuen Benchmark namens MIBench vor, um die feinkörnigen Fähigkeiten von MLLMs in Multi-Bild-Szenarien umfassend zu bewerten. Speziell kategorisiert MIBench die Multi-Bild-Fähigkeiten in drei Szenarien: Multi-Bild-Anleitung (MII), multimodale Wissenssuche (MKS) und multimodales kontextbezogenes Lernen (MIC) und konstruiert 13 Aufgaben mit insgesamt 13.000 annotierten Stichproben. Bei der Datenerstellung extrahieren wir für MII und MKS korrekte Optionen aus manuellen Annotationen und erstellen anspruchsvolle Ablenkungen, um Multiple-Choice-Fragen zu erhalten. Für MIC setzen wir vier Teilaufgaben fest und transformieren die Originaldatensätze in Formate für kontextbezogenes Lernen, um eine eingehende Bewertung zu ermöglichen. Wir bewerten mehrere Open-Source MLLMs und Closed-Source MLLMs auf dem vorgeschlagenen MIBench. Die Ergebnisse zeigen, dass obwohl aktuelle Modelle in Einzelbild-Aufgaben hervorragende Leistungen erbringen, sie signifikante Schwächen aufweisen, wenn sie mit Multi-Bild-Eingaben konfrontiert werden, wie verwirrte feinkörnige Wahrnehmung, begrenztes Multi-Bild-Argumentieren und instabiles kontextbezogenes Lernen. Die annotierten Daten in MIBench sind verfügbar unter https://huggingface.co/datasets/StarBottle/MIBench.
Sprachagenten, die auf Sprachmodellen (LMs) aufbauen, sind Systeme, die mit komplexen Umgebungen interagieren können, wie zum Beispiel dem offenen Web. In dieser Arbeit untersuchen wir, ob solche Agenten realistische und zeitaufwändige Aufgaben im Web ausführen können, z. B. die Überwachung von Immobilienmärkten oder die Lokalisierung relevanter nahegelegener Unternehmen. Wir stellen AssistantBench vor, einen anspruchsvollen neuen Benchmark, der aus 214 realistischen Aufgaben besteht, die automatisch bewertet werden können und verschiedene Szenarien und Domänen abdecken. Wir stellen fest, dass AssistantBench die Grenzen aktueller Systeme aufzeigt, einschließlich Sprachmodellen und abrufgestützten Sprachmodellen, da kein Modell eine Genauigkeit von mehr als 25 Punkten erreicht. Obwohl geschlossene LMs gut abschneiden, weisen sie eine geringe Präzision auf, da sie dazu neigen, Fakten zu halluzinieren. Modernste Web-Agenten erreichen einen Score nahe Null. Darüber hinaus stellen wir SeePlanAct (SPA) vor, einen neuen Web-Agenten, der signifikant besser abschneidet als frühere Agenten, und ein Ensemble aus SPA und geschlossenen Modellen erzielt die beste Gesamtleistung. Darüber hinaus analysieren wir die Fehler aktueller Systeme und heben hervor, dass die Navigation im Web nach wie vor eine große Herausforderung darstellt.
Bestehende Text-zu-Musik-Modelle können hochwertige Audiodateien mit großer Vielfalt erzeugen. Allerdings können textuelle Anweisungen allein temporale Musikmerkmale wie Akkorde und Rhythmus der generierten Musik nicht präzise steuern. Um diese Herausforderung anzugehen, stellen wir MusiConGen vor, ein zeitlich konditioniertes Transformer-basiertes Text-zu-Musik-Modell, das auf dem vorab trainierten MusicGen-Framework aufbaut. Unsere Innovation liegt in einem effizienten Feinabstimmungsmechanismus, der speziell für Consumer-Grade-GPUs entwickelt wurde und automatisch extrahierte Rhythmen und Akkorde als Bedingungssignal integriert. Während der Inferenz kann die Bedingung entweder musikalische Merkmale sein, die aus einem Referenz-Audiosignal extrahiert wurden, oder vom Benutzer definierte symbolische Akkordsequenzen, BPM und textuelle Anweisungen. Unsere Leistungsbewertung anhand zweier Datensätze - einer abgeleitet von extrahierten Merkmalen und der andere von benutzererstellten Eingaben - zeigt, dass MusiConGen realistische Begleitmusik erzeugen kann, die gut mit den spezifizierten Bedingungen übereinstimmt. Wir stellen den Code und die Modell-Checkpoints als Open Source zur Verfügung und bieten Online-Audio-Beispiele unter https://musicongen.github.io/musicongen_demo/.
Wir stellen LocoTrack vor, ein äußerst präzises und effizientes Modell, das für die Aufgabe des Verfolgens eines beliebigen Punktes (TAP) in Videosequenzen entwickelt wurde. Frühere Ansätze für diese Aufgabe stützen sich oft auf lokale 2D-Korrelationskarten, um Korrespondenzen von einem Punkt im Abfragebild zu einer lokalen Region im Zielbild herzustellen. Diese Ansätze haben häufig Schwierigkeiten mit homogenen Regionen oder sich wiederholenden Merkmalen, was zu Übereinstimmungsunklarheiten führt. LocoTrack überwindet diese Herausforderung mit einem innovativen Ansatz, der alle Paarkorrespondenzen über Regionen, d.h. lokale 4D-Korrelation, nutzt, um präzise Korrespondenzen herzustellen. Die bidirektionale Korrespondenz und die Übereinstimmungsglättung verbessern die Robustheit gegen Unklarheiten signifikant. Wir integrieren auch einen leichten Korrelationsencoder, um die Rechenleistung zu verbessern, und eine kompakte Transformer-Architektur, um langfristige zeitliche Informationen zu integrieren. LocoTrack erzielt eine unübertroffene Genauigkeit auf allen TAP-Vid-Benchmarks und arbeitet fast 6-mal schneller als der derzeitige Stand der Technik.
Die Layoutgenerierung ist die grundlegende Aufgabe des intelligenten Designs, die die Integration von visueller Ästhetik und harmonischem Ausdruck der Inhaltsvermittlung erfordert. Allerdings stehen bestehende Methoden immer noch vor Herausforderungen bei der Generierung präziser und visuell ansprechender Layouts, einschließlich Blockierung, Überlappung oder räumlicher Verschiebung zwischen Layouts, die eng mit der räumlichen Struktur grafischer Layouts zusammenhängen. Wir stellen fest, dass diese Methoden sich übermäßig auf Inhaltsinformationen konzentrieren und Einschränkungen in der räumlichen Struktur des Layouts fehlen, was zu einem Ungleichgewicht bei der Erlernung von inhaltsbezogenen und grafikbezogenen Merkmalen führt. Um dieses Problem anzugehen, schlagen wir die Generierung von Layouts mit ausgewogenem Inhalt und Grafik durch ein Transformer-basiertes Diffusionsmodell (CGB-DM) vor. Speziell entwerfen wir zunächst einen Regler, der das vorhergesagte Inhalts- und Grafikgewicht ausbalanciert, um der Tendenz entgegenzuwirken, mehr Aufmerksamkeit auf den Inhalt auf der Leinwand zu richten. Zweitens führen wir eine grafische Einschränkung der Salienz-Bounding-Box ein, um die Ausrichtung geometrischer Merkmale zwischen Layout-Repräsentationen und Bildern weiter zu verbessern. Darüber hinaus passen wir ein Transformer-basiertes Diffusionsmodell als Rückgrat an, dessen leistungsstarke Generierungsfähigkeit die Qualität bei der Layoutgenerierung sicherstellt. Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode sowohl in quantitativen als auch qualitativen Bewertungen eine Spitzenleistung erzielt hat. Unser Modellrahmen kann auch auf andere grafische Designbereiche erweitert werden.
Die thermische Bildgebung hat eine Vielzahl von Anwendungen, von der landwirtschaftlichen Überwachung über die Gebäudeinspektion bis hin zur Bildgebung bei schlechter Sicht, wie bei schwachem Licht, Nebel und Regen. Die Rekonstruktion thermischer Szenen in 3D birgt jedoch mehrere Herausforderungen aufgrund der im Vergleich zu anderen Bildern mit langwelligem Infrarot (LWIR) niedrigeren Auflösung und begrenzten Merkmale. Um diese Herausforderungen zu überwinden, schlagen wir einen einheitlichen Rahmen für die Szenenrekonstruktion aus einer Reihe von LWIR- und RGB-Bildern vor, wobei ein multispektrales Strahlungsfeld verwendet wird, um eine Szene darzustellen, die von sichtbaren und Infrarotkameras betrachtet wird und somit Informationen über beide Spektren nutzt. Wir kalibrieren die RGB- und Infrarotkameras zueinander als Vorverarbeitungsschritt unter Verwendung eines einfachen Kalibrierungsziels. Wir demonstrieren unsere Methode an realen Sets von RGB- und LWIR-Fotografien, die mit einer handgehaltenen Wärmebildkamera aufgenommen wurden, und zeigen die Wirksamkeit unserer Methode bei der Szenendarstellung über die sichtbaren und Infrarotspektren hinweg. Wir zeigen, dass unsere Methode zur thermischen Superauflösung in der Lage ist und visuell Hindernisse entfernt, um Objekte freizulegen, die in den RGB- oder Wärmebildkanälen verdeckt sind. Bitte besuchen Sie https://yvette256.github.io/thermalnerf für Videobeweise sowie unseren Code und die Veröffentlichung des Datensatzes.
Wir stellen Temporale Residuale Jacobians als eine neuartige Darstellung vor, um datengesteuerte Bewegungsübertragung zu ermöglichen. Unser Ansatz setzt keine Verwendung von Rigging oder Zwischenform-Keyframes voraus, erzeugt geometrisch und zeitlich konsistente Bewegungen und kann verwendet werden, um lange Bewegungssequenzen zu übertragen. Zentral für unseren Ansatz sind zwei gekoppelte neuronale Netzwerke, die lokal geometrische und zeitliche Veränderungen vorhersagen, die anschließend räumlich und zeitlich integriert werden, um die endgültigen animierten Meshes zu erzeugen. Die beiden Netzwerke werden gemeinsam trainiert, ergänzen sich bei der Erzeugung von räumlichen und zeitlichen Signalen und werden direkt mit 3D-Positionsdaten überwacht. Während der Inferenz löst unsere Methode im Fehlen von Keyframes im Wesentlichen ein Bewegungsextrapolationsproblem. Wir testen unser Setup an verschiedenen Meshes (synthetische und gescannte Formen), um seine Überlegenheit bei der Erzeugung realistischer und natürlicher Animationen auf unbekannten Körperformen im Vergleich zu den besten Alternativen zu demonstrieren. Zusätzliches Video und Code sind verfügbar unter https://temporaljacobians.github.io/.
Dieses Papier stellt GET-Zero vor, eine Modellarchitektur und Schulungsverfahren zur Erlangung einer verkörperungsbewussten Steuerungsstrategie, die sich unmittelbar an neue Hardwareänderungen anpassen kann, ohne erneut trainiert werden zu müssen. Hierfür präsentieren wir den Graph Embodiment Transformer (GET), ein Transformer-Modell, das die Verkörperungsgraphen-Konnektivität als erlernte strukturelle Voreingenommenheit im Aufmerksamkeitsmechanismus nutzt. Wir verwenden Verhaltensklonierung, um Demonstrationsdaten von verkörperungsspezifischen Expertenstrategien in ein verkörperungsbewusstes GET-Modell zu destillieren, das auf die Hardwarekonfiguration des Roboters konditioniert ist, um Steuerungsentscheidungen zu treffen. Wir führen eine Fallstudie zu einer geschickten Objektdrehung in der Hand durch, wobei verschiedene Konfigurationen einer vierfingrigen Roboterhand mit entfernten Gelenken und mit Verlängerungen der Verbindungslänge verwendet werden. Durch die Verwendung des GET-Modells zusammen mit einem Selbstmodellierungsverlust ermöglicht GET-Zero eine Null-Schuss-Verallgemeinerung auf unerkannte Variationen in der Graphenstruktur und Verbindungslänge, was zu einer 20%igen Verbesserung gegenüber Basislinienmethoden führt. Der gesamte Code und qualitative Videobeweise sind auf https://get-zero-paper.github.io verfügbar.
Die jüngsten Fortschritte bei Large Multimodal Models (LMMs) haben signifikante Fortschritte im Bereich des visuellen Frage-Antwortens bei Einzelbildern erzielt. Diese Modelle stehen jedoch vor erheblichen Herausforderungen, wenn sie mit Anfragen konfrontiert werden, die umfangreiche Bildersammlungen umfassen, ähnlich wie in realen Szenarien wie der Suche in großen Fotoalben, der Suche nach spezifischen Informationen im Internet oder der Überwachung von Umweltveränderungen durch Satellitenbilder. Dieser Artikel untersucht die Aufgabe des Multi-Image Visual Question Answering (MIQA): Angesichts einer großen Menge von Bildern und einer natürlichsprachlichen Anfrage soll die Aufgabe eine relevante und fundierte Antwort generieren. Wir schlagen einen neuen öffentlichen Benchmark namens "Visual Haystacks (VHs)" vor, der speziell entwickelt wurde, um die Fähigkeiten von LMMs bei der visuellen Suche und dem Schlussfolgern über unzusammenhängende Bilder-Sets zu bewerten, wobei wir umfassende Bewertungen durchführen, die zeigen, dass selbst robuste Closed-Source-Modelle erhebliche Schwierigkeiten haben. Zur Behebung dieser Mängel führen wir MIRAGE (Multi-Image Retrieval Augmented Generation) ein, ein neuartiges Retrieval/QA-Framework, das für LMMs entwickelt wurde und die Herausforderungen von MIQA mit deutlichen Effizienz- und Genauigkeitsverbesserungen gegenüber Basislinienmethoden angeht. Unsere Evaluation zeigt, dass MIRAGE geschlossene GPT-4o-Modelle auf dem VHs-Benchmark um bis zu 11% übertrifft und bis zu 3,4-fache Verbesserungen in der Effizienz gegenüber textbasierten mehrstufigen Ansätzen bietet.