papers.description
Wir stellen Transfusion vor, ein Rezept zur Schulung eines multimodalen Modells über diskrete und kontinuierliche Daten. Transfusion kombiniert die Verlustfunktion des Sprachmodellierens (Vorhersage des nächsten Tokens) mit Diffusion, um einen einzigen Transformer über gemischte Modalitätssequenzen zu trainieren. Wir trainieren mehrere Transfusion-Modelle mit bis zu 7 Milliarden Parametern von Grund auf auf einer Mischung aus Text- und Bilddaten vor und etablieren Skalierungsgesetze im Hinblick auf eine Vielzahl von uni- und multimodalen Benchmarks. Unsere Experimente zeigen, dass Transfusion signifikant besser skaliert als die Quantisierung von Bildern und das Training eines Sprachmodells über diskrete Bildtokens. Durch die Einführung von modalitätsspezifischen Codierungs- und Decodierungsschichten können wir die Leistung der Transfusion-Modelle weiter verbessern und jedes Bild sogar auf nur 16 Patches komprimieren. Wir zeigen weiterhin, dass die Skalierung unseres Transfusion-Rezepts auf 7 Milliarden Parameter und 2 Billionen multimodale Tokens ein Modell hervorbringt, das Bilder und Text auf Augenhöhe mit ähnlich skalierten Diffusionsmodellen und Sprachmodellen generieren kann und die Vorteile beider Welten nutzt.
Die jüngsten Fortschritte bei Large Language Models (LLMs) haben die Interpretation und Verarbeitung von tabellarischen Daten deutlich verbessert und bisher unvorstellbare Fähigkeiten eingeführt. Trotz dieser Errungenschaften stoßen LLMs immer noch auf erhebliche Herausforderungen bei der Anwendung in industriellen Szenarien, insbesondere aufgrund der erhöhten Komplexität des erforderlichen Denkens mit realen tabellarischen Daten. Dies unterstreicht eine bemerkenswerte Diskrepanz zwischen akademischen Benchmarks und praktischen Anwendungen. Um diese Diskrepanz zu adressieren, führen wir eine detaillierte Untersuchung zur Anwendung von tabellarischen Daten in industriellen Szenarien durch und schlagen einen umfassenden und komplexen Benchmark namens TableBench vor, der 18 Felder innerhalb von vier Hauptkategorien von Table Question Answering (TableQA) Fähigkeiten umfasst. Darüber hinaus stellen wir TableLLM vor, das auf unserem sorgfältig erstellten Trainingssatz TableInstruct trainiert wurde und vergleichbare Leistungen mit GPT-3.5 erzielt. Umfangreiche Experimente, die auf TableBench durchgeführt wurden, zeigen, dass sowohl Open-Source als auch proprietäre LLMs noch erhebliches Verbesserungspotenzial haben, um den Anforderungen der realen Welt gerecht zu werden, wobei das fortschrittlichste Modell, GPT-4, nur eine bescheidene Punktzahl im Vergleich zu Menschen erreicht.
Die Einbeziehung von Code in das Vormischungsdatengemisch, selbst für Modelle, die nicht speziell für Code entwickelt wurden, ist zu einer gängigen Praxis beim Vormischen von LLMs geworden. Während unter Praktikern eine anekdotische Übereinstimmung besteht, dass Code-Daten eine wichtige Rolle für die Leistung allgemeiner LLMs spielen, gibt es nur begrenzte Arbeiten, die den genauen Einfluss von Code auf Nicht-Code-Aufgaben analysieren. In dieser Arbeit untersuchen wir systematisch den Einfluss von Code-Daten auf die allgemeine Leistung. Wir fragen "Welchen Einfluss haben Code-Daten, die beim Vormischen verwendet werden, auf eine Vielzahl von nachgelagerten Aufgaben jenseits der Code-Generierung?" Wir führen umfangreiche Ablationen durch und bewerten über eine breite Palette von natürlichsprachlichen Schlussfolgerungsaufgaben, Weltwissensaufgaben, Code-Benchmarks und LLM-als-Richter-Gewinnraten für Modelle mit Größen von 470 Mio. bis 2,8 Mrd. Parametern. Über verschiedene Einstellungen hinweg stellen wir konsistente Ergebnisse fest, dass Code ein entscheidender Baustein für die Verallgemeinerung weit über Codieraufgaben hinaus ist und Verbesserungen der Code-Qualität einen überproportionalen Einfluss auf alle Aufgaben haben. Insbesondere führt die Zugabe von Code im Vergleich zum ausschließlichen Vormischen von Text zu einem relativen Anstieg von bis zu 8,2 % bei der natürlichsprachlichen Schlussfolgerung, 4,2 % beim Weltwissen, einer 6,6%igen Verbesserung bei generativen Gewinnraten und einer 12-fachen Steigerung der Code-Performance. Unsere Arbeit legt nahe, dass Investitionen in die Code-Qualität und die Erhaltung des Codes während des Vormischens positive Auswirkungen haben.
Wir schlagen vor, Patch-Repräsentationen über Ansichten hinweg als neuartiges selbstüberwachtes Lernsignal zu sortieren, um vortrainierte Repräsentationen zu verbessern. Zu diesem Zweck führen wir NeCo ein: Patch-Nachbar-Konsistenz, ein neuartiger Trainingsverlust, der die konsistente nächstgelegene Nachbar auf Patch-Ebene zwischen einem Schüler- und Lehrmodell im Vergleich zu Referenzbatches erzwingt. Unsere Methode nutzt eine differenzierbare Sortiermethode, die auf vortrainierten Repräsentationen angewendet wird, wie z.B. DINOv2-Register, um das Lernsignal zu booten und weiter zu verbessern. Dieses dichte Post-Pretraining führt zu überlegener Leistung über verschiedene Modelle und Datensätze, obwohl nur 19 Stunden auf einer einzigen GPU benötigt werden. Wir zeigen, dass diese Methode hochwertige dichte Merkmalscodierer erzeugt und mehrere neue Spitzenleistungsergebnisse etabliert: +5,5 % und +6 % für nicht-parametrische kontextbezogene semantische Segmentierung auf ADE20k und Pascal VOC, sowie +7,2 % und +5,7 % für lineare Segmentierungsbewertungen auf COCO-Things und -Stuff.
Große Sprachmodelle (LLMs) sind in langen Kontextanwendungen wie interaktiven Chatbots, Dokumentenanalyse und Agenten-Workflows immer verbreiteter geworden, aber es ist eine Herausforderung, langen Kontextanfragen mit geringer Latenz und hoher Durchsatzrate gerecht zu werden. Spekulatives Decodieren (SD) ist eine weit verbreitete Technik, um die Latenz zu reduzieren, ohne die Leistung zu beeinträchtigen, aber die herkömmliche Weisheit legt nahe, dass seine Wirksamkeit auf kleine Batch-Größen begrenzt ist. In MagicDec zeigen wir, dass SD überraschenderweise auch für ein hohes Durchsatzinferenzregime für mittlere bis lange Sequenzen eine Beschleunigung erreichen kann. Noch interessanter ist, dass eine intelligente Entwurfsstrategie mit zunehmender Batch-Größe basierend auf unserer gründlichen Analyse eine bessere Beschleunigung erzielen kann. MagicDec identifiziert zunächst die Engpässe bei zunehmender Batch-Größe und Sequenzlänge und nutzt diese Erkenntnisse, um spekulatives Decodieren effektiver für Inferenz mit hoher Durchsatzrate einzusetzen. Anschließend nutzt es Entwurfsmodelle mit spärlichem KV-Cache, um den KV-Engpass zu bewältigen, der sowohl mit der Sequenzlänge als auch der Batch-Größe skaliert.
Diffusionsmodelle haben sich aufgrund ihrer beeindruckenden Fähigkeiten als Spitzenreiter in der Text-zu-Bild-Generierung etabliert. Dennoch führt die feste Bildauflösung während des Trainings oft zu Herausforderungen bei der Generierung von hochauflösenden Bildern, wie semantische Ungenauigkeiten und Objektreplikationen. Dieser Artikel stellt MegaFusion vor, einen neuartigen Ansatz, der bestehende auf Diffusion basierende Text-zu-Bild-Generierungsmodelle für eine effiziente Generierung in höherer Auflösung ohne zusätzliches Feintuning oder zusätzliche Anpassung erweitert. Konkret verwenden wir eine innovative Trunkierungs- und Relaisstrategie, um die Denoising-Prozesse über verschiedene Auflösungen hinweg zu verbinden, was eine Generierung von hochauflösenden Bildern in grob-zu-fein Weise ermöglicht. Darüber hinaus passen wir durch die Integration von dilatierten Faltungen und der Neuordnung von Rauschen die Prioritäten des Modells weiter für höhere Auflösungen an. Die Vielseitigkeit und Wirksamkeit von MegaFusion machen es universell anwendbar für sowohl Latent-Space- als auch Pixel-Space-Diffusionsmodelle sowie andere abgeleitete Modelle. Umfangreiche Experimente bestätigen, dass MegaFusion die Fähigkeit bestehender Modelle signifikant steigert, Bilder mit Megapixeln und verschiedenen Seitenverhältnissen zu erzeugen, während nur etwa 40% der ursprünglichen Rechenkosten benötigt werden.
In der heutigen Ära, in der große Sprachmodelle (LLMs) in zahlreiche Anwendungen der realen Welt integriert sind, ist es entscheidend für eine verantwortungsvolle KI-Nutzung, deren Sicherheit und Robustheit zu gewährleisten. Automatisierte Red-Teaming-Methoden spielen dabei eine Schlüsselrolle, indem sie feindliche Angriffe generieren, um potenzielle Schwachstellen in diesen Modellen zu identifizieren und zu mildern. Allerdings haben bestehende Methoden oft mit langsamer Leistung, begrenzter kategorischer Vielfalt und hohem Ressourcenbedarf zu kämpfen. Während Rainbow Teaming, ein neuer Ansatz, die Vielfalts-Herausforderung angeht, indem es die Generierung feindlicher Anfragen als eine Suche nach Qualität und Vielfalt darstellt, bleibt es langsam und erfordert einen großen feinabgestimmten Mutator für optimale Leistung. Um diese Einschränkungen zu überwinden, schlagen wir Ferret vor, einen innovativen Ansatz, der auf Rainbow Teaming aufbaut, indem er mehrere feindliche Anfrage-Mutationen pro Iteration generiert und eine Bewertungsfunktion verwendet, um die effektivste feindliche Anfrage zu bewerten und auszuwählen. Wir untersuchen verschiedene Bewertungsfunktionen, einschließlich Belohnungsmodellen, Llama Guard und LLM-als-Richter, um feindliche Mutationen basierend auf ihrem potenziellen Schaden zu bewerten und die Effizienz der Suche nach schädlichen Mutationen zu verbessern. Unsere Ergebnisse zeigen, dass Ferret, indem es ein Belohnungsmodell als Bewertungsfunktion verwendet, die Gesamterfolgsrate von Angriffen (ASR) auf 95% verbessert, was 46% höher ist als bei Rainbow Teaming. Darüber hinaus reduziert Ferret die Zeit, die benötigt wird, um eine ASR von 90% zu erreichen, um 15,2% im Vergleich zum Ausgangspunkt und generiert feindliche Anfragen, die übertragbar sind, d.h. wirksam bei anderen LLMs größerer Größe. Unser Code ist verfügbar unter https://github.com/declare-lab/ferret.
Ein "Match Cut" ist eine gängige Videobearbeitungstechnik, bei der ein Paar von Aufnahmen mit ähnlicher Komposition fließend von einer zur anderen übergeht. Obwohl Match Cuts oft visuell sind, beinhalten bestimmte Match Cuts auch den fließenden Übergang von Audio, bei dem Klänge aus verschiedenen Quellen zu einem ununterscheidbaren Übergang zwischen zwei Aufnahmen verschmelzen. In diesem Paper untersuchen wir die Fähigkeit, "Audio-Match Cuts" innerhalb von Videos und Filmen automatisch zu finden und zu erstellen. Wir erstellen eine selbstüberwachte Audio-Repräsentation für das Audio-Match-Cutting und entwickeln einen grob-zu-fein Audio-Match-Pipeline, die passende Aufnahmen empfiehlt und das gemischte Audio erstellt. Darüber hinaus annotieren wir einen Datensatz für die vorgeschlagene Audio-Match-Cut-Aufgabe und vergleichen die Fähigkeit mehrerer Audio-Repräsentationen, Audio-Match-Cut-Kandidaten zu finden. Schließlich bewerten wir mehrere Methoden, um zwei übereinstimmende Audio-Kandidaten zu mischen, mit dem Ziel, einen reibungslosen Übergang zu schaffen. Das Projekt und Beispiele sind verfügbar unter: https://denfed.github.io/audiomatchcut/
Transformer-basierte große Sprachmodelle (LLMs) zeigen Einschränkungen wie das Generieren unsicherer Antworten, unzuverlässiges Schlussfolgern usw. Bestehende Interventionsansätze für die Inferenz versuchen, diese Probleme zu mildern, indem sie zusätzliche Modelle zur Feinabstimmung verwenden, um Kalibrierungssignale (wie Belohnungen) zu erzeugen, die den Dekodierungsprozess des LLMs lenken. Diese Lösung führt jedoch aufgrund der erforderlichen separaten Modelle zu erheblichem Zeit- und Speicheroverhead. In dieser Arbeit wird die nicht störende Parameter-Einfügung (Otter) vorgeschlagen, bei der zusätzliche Parameter in die Transformer-Architektur eingefügt werden, um Kalibrierungssignale zusammen mit der ursprünglichen LLM-Ausgabe vorherzusagen. Otter bietet Spitzenleistung bei mehreren anspruchsvollen Aufgaben, während bis zu 86,5\% zusätzlicher Speicher und 98,5\% zusätzliche Zeit eingespart werden. Darüber hinaus integriert sich Otter nahtlos in bestehende Inferenz-Engines, erfordert nur eine Code-Änderung in einer Zeile und die ursprüngliche Modellantwort bleibt nach der Parameter-Einfügung zugänglich. Unser Code ist öffentlich unter https://github.com/chenhan97/Otter verfügbar.
Der rasante Fortschritt von Text-zu-Bild-Generierungssystemen, wie sie beispielsweise von Modellen wie Stable Diffusion, Midjourney, Imagen und DALL-E verkörpert werden, hat Bedenken hinsichtlich ihres potenziellen Missbrauchs verstärkt. Als Reaktion darauf haben Unternehmen wie Meta und Google ihre Bemühungen verstärkt, Wasserzeichentechniken auf KI-generierten Bildern zu implementieren, um die Verbreitung potenziell irreführender visueller Inhalte einzudämmen. In diesem Paper argumentieren wir jedoch, dass aktuelle Bild-Wasserzeichnungsmethoden anfällig sind und durch visuelle Paraphrasenangriffe umgangen werden können. Der vorgeschlagene visuelle Paraphraser arbeitet in zwei Schritten. Zunächst generiert er eine Bildunterschrift für das gegebene Bild mithilfe von KOSMOS-2, einem der neuesten State-of-the-Art-Bildunterschriftsysteme. Anschließend übergibt er sowohl das Originalbild als auch die generierte Bildunterschrift an ein Bild-zu-Bild-Diffusionssystem. Während des Rauschunterdrückungsschritts des Diffusions-Pipelinesystems generiert das System ein visuell ähnliches Bild, das durch die Textunterschrift geleitet wird. Das resultierende Bild ist eine visuelle Paraphrase und frei von Wasserzeichen. Unsere empirischen Ergebnisse zeigen, dass visuelle Paraphrasenangriffe Wasserzeichen effektiv von Bildern entfernen können. Dieses Paper bietet eine kritische Bewertung und zeigt empirisch die Anfälligkeit bestehender Wasserzeichnungstechniken für visuelle Paraphrasenangriffe auf. Obwohl wir keine Lösungen für dieses Problem vorschlagen, dient dieses Paper als Aufruf an die wissenschaftliche Gemeinschaft, die Entwicklung robusterer Wasserzeichnungstechniken zu priorisieren. Unser erstmaliger visueller Paraphrasendatensatz und der begleitende Code sind öffentlich verfügbar.
Die spezialisierte Sprache und komplexen Konzepte in der Physik stellen bedeutende Herausforderungen für die Informationsgewinnung durch Natural Language Processing (NLP) dar. Zentral für effektive NLP-Anwendungen ist das Texteinbettungsmodell, das Text in dichte Vektorrepräsentationen zur effizienten Informationsgewinnung und semantischen Analyse umwandelt. In dieser Arbeit stellen wir PhysBERT vor, das erste physikspezifische Texteinbettungsmodell. Vortrainiert auf einem kuratierten Korpus von 1,2 Millionen arXiv-Physikartikeln und feinabgestimmt mit überwachten Daten, übertrifft PhysBERT führende allgemeine Modelle in physikspezifischen Aufgaben, einschließlich der Effektivität bei der Feinabstimmung für spezifische physikalische Teilgebiete.
Eventkamera-basiertes visuelles Tracking hat in den letzten Jahren aufgrund des einzigartigen Bildgebungsprinzips und der Vorteile von geringem Energieverbrauch, hohem Dynamikumfang und hoher zeitlicher Auflösung immer mehr Aufmerksamkeit erregt. Aktuelle ereignisbasierte Tracking-Algorithmen stoßen allmählich an ihre Leistungsgrenzen, aufgrund der Verwendung von Vision-Transformer und des statischen Templates zur Lokalisierung des Zielobjekts. In diesem Artikel schlagen wir ein neuartiges Mamba-basiertes visuelles Tracking-Framework vor, das das Zustandsraummodell mit linearer Komplexität als Backbone-Netzwerk verwendet. Die Suchbereiche und das Zieltemplate werden in das Vision-Mamba-Netzwerk eingespeist, um gleichzeitig Merkmalsextraktion und Interaktion durchzuführen. Die Ausgabetoken der Suchbereiche werden dem Tracking-Head zur Ziellokalisierung zugeführt. Darüber hinaus erwägen wir die Einführung einer dynamischen Template-Aktualisierungsstrategie in das Tracking-Framework unter Verwendung des Memory-Mamba-Netzwerks. Durch Berücksichtigung der Vielfalt der Proben in der Zieltemplate-Bibliothek und durch geeignete Anpassungen des Template-Speichermoduls kann ein effektiveres dynamisches Template integriert werden. Die effektive Kombination von dynamischen und statischen Templates ermöglicht es unserem Mamba-basierten Tracking-Algorithmus, auf mehreren groß angelegten Datensätzen, einschließlich EventVOT, VisEvent und FE240hz, ein gutes Gleichgewicht zwischen Genauigkeit und Rechenleistung zu erreichen. Der Quellcode wird auf https://github.com/Event-AHU/MambaEVT veröffentlicht.
Es war ein langjähriges Forschungsziel, Roboterhänden menschenähnliche Geschicklichkeit zu verleihen. Das bi-manuelle Roboterpianospielen stellt eine Aufgabe dar, die Herausforderungen aus dynamischen Aufgaben, wie dem Generieren schneller und präziser Bewegungen, mit langsameren, aber kontaktreichen Manipulationsproblemen kombiniert. Obwohl auf Verstärkungslernen basierende Ansätze vielversprechende Ergebnisse in der Einzelaufgabenleistung gezeigt haben, haben diese Methoden Schwierigkeiten in einer Multi-Song-Umgebung. Unsere Arbeit zielt darauf ab, diese Lücke zu schließen und damit Imitationslernansätzen für das Roboterpianospielen im großen Maßstab zu ermöglichen. Zu diesem Zweck führen wir den Robot Piano 1 Million (RP1M) Datensatz ein, der bi-manuelle Roboterklavierbewegungsdaten von mehr als einer Million Trajektorien enthält. Wir formulieren Fingerplatzierungen als ein optimales Transportproblem, was die automatische Annotation großer Mengen unbeschrifteter Lieder ermöglicht. Die Bewertung bestehender Imitationslernansätze zeigt, dass solche Ansätze durch die Nutzung von RP1M eine Spitzenleistung im Roboterklavierspielen erreichen.
Die 3D-Gaußsplatting (3DGS) ist zur Standardmethode der 3D-Repräsentation in vielen visuellen Aufgaben geworden. Dies erfordert ein direktes 3D-Verständnis in diesem Repräsentationsraum. Um die Forschung in diese Richtung zu erleichtern, haben wir zunächst einen groß angelegten Datensatz von 3DGS unter Verwendung der häufig verwendeten ShapeNet- und ModelNet-Datensätze erstellt. Unser Datensatz ShapeSplat besteht aus 65.000 Objekten aus 87 einzigartigen Kategorien, deren Bezeichnungen mit den jeweiligen Datensätzen übereinstimmen. Die Erstellung dieses Datensatzes erforderte die Rechenleistung von 2 GPU-Jahren auf einer TITAN XP GPU. Wir nutzen unseren Datensatz für unüberwachtes Pretraining und überwachtes Feintuning für Klassifizierungs- und Segmentierungsaufgaben. Zu diesem Zweck führen wir \textit{Gaussian-MAE} ein, das die einzigartigen Vorteile des Repräsentationslernens aus Gauß-Parametern hervorhebt. Durch umfangreiche Experimente liefern wir mehrere wertvolle Erkenntnisse. Insbesondere zeigen wir, dass (1) die Verteilung der optimierten GS-Zentroide signifikant von der gleichmäßig ausgewählten Punktewolke (die für die Initialisierung verwendet wird) abweicht; (2) diese Änderung in der Verteilung zu einer Verschlechterung bei der Klassifizierung, aber zu einer Verbesserung bei Segmentierungsaufgaben führt, wenn nur die Zentroide verwendet werden; (3) um zusätzliche Gauß-Parameter zu nutzen, schlagen wir die Gruppierung von Gauß-Merkmalen in einem normalisierten Merkmalsraum vor, zusammen mit einer Splat-Pooling-Schicht, die eine maßgeschneiderte Lösung bietet, um ähnliche Gaußsche Funktionen effektiv zu gruppieren und einzubetten, was zu einer bemerkenswerten Verbesserung bei Feintuning-Aufgaben führt.
Die städtische Mobilität und Transportsysteme wurden tiefgreifend durch die Fortschritte in der autonomen Fahrzeugtechnologie transformiert. Baidu Apollo Go, ein wegweisender Robotaxi-Service des chinesischen Technologieriesen Baidu, wurde kürzlich in großen Städten wie Peking und Wuhan weit verbreitet eingesetzt, was zu vermehrten Diskussionen führte und einen Einblick in die Zukunft der städtischen Mobilität bietet. Diese Studie untersucht die öffentliche Einstellung gegenüber Apollo Go in ganz China mithilfe einer Sentiment-Analyse mit einem hybriden BERT-Modell auf 36.096 Weibo-Beiträgen von Januar bis Juli 2024. Die Analyse zeigt, dass 89,56\% der Beiträge, die sich auf Apollo Go beziehen, im Juli gruppiert sind. Von Januar bis Juli war die öffentliche Stimmung größtenteils positiv, aber negative Kommentare begannen zuzunehmen, nachdem es am 21. Juli zu einem viel diskutierten Thema geworden war. Die räumliche Analyse zeigt eine starke Korrelation zwischen Provinzen mit hoher Diskussionsintensität und denen, in denen Apollo Go tätig ist. Anfangs dominierten Hubei und Guangdong das Online-Posting-Volumen, aber bis Juli hatten Guangdong, Peking und internationale Regionen Hubei überholt. Die Einstellungen variierten erheblich zwischen den Provinzen, wobei Xinjiang und Qinghai Optimismus zeigten und Tibet und Gansu Bedenken hinsichtlich der Auswirkungen auf herkömmliche Taxidienste äußerten. Die Sentiment-Analyse ergab, dass positive Kommentare sich auf Technologieanwendungen und persönliche Erfahrungen konzentrierten, während negative Kommentare sich auf Arbeitsplatzverdrängung und Sicherheitsbedenken konzentrierten. Zusammenfassend hebt diese Studie die Unterschiede in der öffentlichen Wahrnehmung von autonomen Ride-Hailing-Services hervor und bietet wertvolle Einblicke für Planer, Politiker und Dienstleister. Das Modell ist auf Hugging Face unter https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao veröffentlicht und das Repository auf GitHub unter https://github.com/GIStudio/trb2024.