Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) zeichnen sich durch ihre massiven Parameteranzahlen aus, die in der Regel zu erheblicher Redundanz führen. Diese Arbeit stellt MaskLLM vor, eine erlernbare Beschneidungsmethode, die Semi-strukturierte (oder "N:M") Sparsamkeit in LLMs einführt, um den Rechenaufwand während der Inferenz zu reduzieren. Anstatt ein neues Wichtigkeitskriterium zu entwickeln, modelliert MaskLLM N:M-Muster explizit als erlernbare Verteilung durch Gumbel-Softmax-Abtastung. Dieser Ansatz erleichtert das End-to-End-Training auf groß angelegten Datensätzen und bietet zwei bemerkenswerte Vorteile: 1) Hochwertige Masken - unsere Methode skaliert effektiv auf große Datensätze und lernt präzise Masken; 2) Übertragbarkeit - die probabilistische Modellierung der Maskenverteilung ermöglicht das Transferlernen von Sparsamkeit über Domänen oder Aufgaben hinweg. Wir haben MaskLLM unter Verwendung von 2:4-Sparsamkeit auf verschiedenen LLMs, einschließlich LLaMA-2, Nemotron-4 und GPT-3, mit Größen von 843M bis 15B Parametern, bewertet, und unsere empirischen Ergebnisse zeigen signifikante Verbesserungen gegenüber state-of-the-art Methoden. Beispielsweise erreichen führende Ansätze eine Perplexität (PPL) von 10 oder mehr auf Wikitext im Vergleich zu den 5,12 PPL des dichten Modells, aber MaskLLM erreicht allein durch das Erlernen der Masken mit eingefrorenen Gewichten eine deutlich niedrigere PPL von 6,72. Darüber hinaus ermöglicht die erlernbare Natur von MaskLLM maßgeschneiderte Masken für den verlustfreien Einsatz von 2:4-Sparsamkeit in nachgelagerten Aufgaben oder Domänen. Der Code ist unter https://github.com/NVlabs/MaskLLM verfügbar.
GPT-4o, ein omni-modales Modell, das Gespräche mit vielfältigen Emotionen und Tonlagen ermöglicht, markiert einen Meilenstein für omni-modale Grundlagenmodelle. Allerdings bleibt es eine Herausforderung in der Open-Source-Community, große Sprachmodelle dazu zu befähigen, Bilder, Texte und Sprache end-to-end mit öffentlich verfügbaren Daten wahrzunehmen und zu generieren. Bestehende Vision-Sprach-Modelle sind auf externe Tools zur Sprachverarbeitung angewiesen, während Sprach-Sprach-Modelle immer noch unter begrenzten oder sogar fehlenden Fähigkeiten zur Bildverarbeitung leiden. Um diese Lücke zu schließen, schlagen wir EMOVA (EMotionally Omni-present Voice Assistant) vor, um großen Sprachmodellen end-to-end Sprachfähigkeiten zu verleihen, während gleichzeitig die führende Leistung in der Vision-Sprachverarbeitung beibehalten wird. Mit einem semantisch-akustisch entkoppelten Sprach-Tokenizer stellen wir überraschenderweise fest, dass eine omni-modale Ausrichtung die Fähigkeiten in der Vision-Sprachverarbeitung und Sprachverarbeitung im Vergleich zu den entsprechenden bi-modalen Ausrichtungen weiter verbessern kann. Darüber hinaus wird ein leichtgewichtiges Stilmodul für flexible Steuerungsmöglichkeiten des Sprachstils (z.B. Emotionen und Tonlagen) vorgeschlagen. EMOVA erzielt erstmalig Spitzenleistungen sowohl in den Vision-Sprach- als auch Sprach-Benchmarks und unterstützt gleichzeitig omni-modale gesprochene Dialoge mit lebendigen Emotionen.
In jüngster Zeit haben Fortschritte bei Large Multimodal Models (LMMs) ihre Fähigkeiten in 2D-Visionsverständnisaufgaben erheblich verbessert, was es ihnen ermöglicht, Bilder und Videos effektiv zu verarbeiten und zu verstehen. Die Entwicklung von LMMs mit 3D-Bewusstsein für das Verständnis von 3D-Szenen wurde jedoch durch den Mangel an groß angelegten 3D-Vision-Sprach-Datensätzen und leistungsstarken 3D-Encodern behindert. In diesem Artikel stellen wir ein einfaches, aber effektives Framework namens LLaVA-3D vor. Durch die Nutzung der starken 2D-Verständnisvoraussetzungen von LLaVA passt unser LLaVA-3D LLaVA effizient für das Verständnis von 3D-Szenen an, ohne die 2D-Verständnisfähigkeiten zu beeinträchtigen. Um dies zu erreichen, verwenden wir eine einfache, aber effektive Darstellung, 3D Patch, der 2D CLIP Patch-Merkmale mit ihren entsprechenden Positionen im 3D-Raum verbindet. Durch die Integration der 3D Patches in 2D LMMs und die Verwendung einer gemeinsamen 2D- und 3D-Vision-Sprach-Anpassung erreichen wir eine einheitliche Architektur sowohl für das 2D-Bildverständnis als auch für das 3D-Szenenverständnis. Experimentelle Ergebnisse zeigen, dass LLaVA-3D 3,5-mal schneller konvergiert als bestehende 3D LMMs, wenn sie auf 3D-Vision-Sprach-Datensätzen trainiert werden. Darüber hinaus erzielt LLaVA-3D nicht nur eine Spitzenleistung bei verschiedenen 3D-Aufgaben, sondern behält auch vergleichbare 2D-Bildverständnis- und Vision-Sprach-Konversationsfähigkeiten wie LLaVA bei.
Durch die Nutzung der visuellen Vorkenntnisse von vortrainierten Text-zu-Bild-Diffusionsmodellen wird eine vielversprechende Lösung geboten, um die Null-Schuss-Verallgemeinerung bei dichten Vorhersageaufgaben zu verbessern. Allerdings verwenden bestehende Methoden oft unkritisch die originale Diffusionsformulierung, die aufgrund der grundlegenden Unterschiede zwischen dichten Vorhersagen und Bildgenerierung möglicherweise nicht optimal ist. In diesem Paper bieten wir eine systematische Analyse der Diffusionsformulierung für die dichte Vorhersage, wobei wir uns auf Qualität und Effizienz konzentrieren. Wir stellen fest, dass der ursprüngliche Parametertyp für die Bildgenerierung, der darauf trainiert ist, Rauschen vorherzusagen, für die dichte Vorhersage schädlich ist; der mehrstufige Rausch-/Entrauschungs-Diffusionsprozess ist ebenfalls unnötig und schwierig zu optimieren. Basierend auf diesen Erkenntnissen stellen wir Lotus vor, ein auf Diffusion basierendes visuelles Grundlagenmodell mit einem einfachen, aber effektiven Anpassungsprotokoll für dichte Vorhersagen. Speziell wird Lotus darauf trainiert, direkt Annotationen anstelle von Rauschen vorherzusagen, um schädliche Varianz zu vermeiden. Wir reformulieren auch den Diffusionsprozess zu einem einstufigen Verfahren, was die Optimierung vereinfacht und die Inferenzgeschwindigkeit signifikant erhöht. Darüber hinaus führen wir eine neue Abstimmungsstrategie namens Detailbewahrer ein, die genauere und feingliedrigere Vorhersagen ermöglicht. Lotus erreicht ohne Skalierung der Trainingsdaten oder der Modellkapazität eine Spitzenleistung bei der Null-Schuss-Tiefen- und Normalenschätzung über verschiedene Datensätze hinweg. Es verbessert auch die Effizienz erheblich, da es hunderte Male schneller ist als die meisten bestehenden diffusionsbasierten Methoden.
Die Feinabstimmung von Anweisungen bedeutet in der Regel, ein Sprachmodell an Anweisungs-Antwort-Paaren anzupassen. Wir entdecken zwei Formen der Anpassung (Abstimmung), die im Vergleich zur Anpassung von Anweisungen mangelhaft sind, aber dennoch zu Anweisungsfolgen führen; dies bezeichnen wir als implizite Anpassung von Anweisungen. Zunächst stellen wir fest, dass Anweisungs-Antwort-Paare nicht notwendig sind: Das Training ausschließlich auf Antworten, ohne entsprechende Anweisungen, führt zu Anweisungsfolgen. Dies legt nahe, dass vorab trainierte Modelle eine Anweisungs-Antwort-Zuordnung haben, die durch das Lehren des Modells der gewünschten Verteilung von Antworten offenbart wird. Allerdings stellen wir dann fest, dass es nicht notwendig ist, die gewünschte Verteilung von Antworten zu lehren: Das Training von Anweisungen und Antworten auf eng begrenzten Daten wie Gedichten führt dennoch zu einem breiten Verhalten der Anweisungsfolge wie der Generierung von Rezepten. Insbesondere wenn Anweisungen sehr unterschiedlich von denen im eng begrenzten Feinabstimmungsbereich sind, halten sich die Antworten der Modelle nicht an den Stil des Feinabstimmungsbereichs. Um mit der Erklärung der impliziten Anpassung von Anweisungen zu beginnen, stellen wir die Hypothese auf, dass sehr einfache Änderungen an der Verteilung eines Sprachmodells zu Anweisungsfolgen führen. Wir unterstützen dies, indem wir ein regelbasiertes Sprachmodell von Hand schreiben, das in einem Produkt-von-Experten mit einem vorab trainierten Modell zu Anweisungsfolgen führt. Die Regeln bestehen darin, die Wahrscheinlichkeit des Beendens der Sequenz langsam zu erhöhen, Wiederholungen zu bestrafen und die Wahrscheinlichkeiten von 15 Wörtern gleichmäßig zu ändern. Zusammenfassend können Anpassungen, die nicht darauf ausgelegt sind, Anweisungsfolgen zu erzielen, dies implizit tun.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei der Verarbeitung langer Kontexteingaben gezeigt, allerdings geht dies mit einem erhöhten Bedarf an Rechenressourcen und Latenz einher. Unsere Forschung stellt einen neuartigen Ansatz für das Problem des langen Kontexts vor, um die Inferenz von LLMs zu beschleunigen und den GPU-Speicherverbrauch zu reduzieren. Unsere Forschung zeigt, dass LLMs relevante Tokens in den frühen Schichten identifizieren können, bevor sie Antworten auf eine Abfrage generieren. Unter Nutzung dieses Erkenntnisses schlagen wir einen Algorithmus vor, der die frühen Schichten eines LLMs als Filter verwendet, um Eingabetokens auszuwählen und zu komprimieren, wodurch die Kontextlänge für die nachfolgende Verarbeitung signifikant reduziert wird. Unsere Methode, GemFilter, zeigt erhebliche Verbesserungen sowohl in Geschwindigkeit als auch Speichereffizienz im Vergleich zu bestehenden Techniken wie der Standard-Attention und SnapKV/H2O. Bemerkenswert ist, dass sie im Vergleich zu SOTA-Methoden eine 2,4-fache Beschleunigung und eine 30\%ige Reduzierung des GPU-Speicherverbrauchs erreicht. Die Evaluation anhand der Nadel-im-Heuhaufen-Aufgabe zeigt, dass GemFilter die Standard-Attention und SnapKV signifikant übertrifft und vergleichbare Leistungen bei der LongBench-Herausforderung zeigt. GemFilter ist einfach, erfordert kein Training und ist breit anwendbar für verschiedene LLMs. Entscheidend ist, dass es Interpretierbarkeit bietet, indem es Menschen ermöglicht, die ausgewählte Eingabesequenz zu überprüfen. Diese Ergebnisse bieten nicht nur praktische Vorteile für den Einsatz von LLMs, sondern verbessern auch unser Verständnis der internen Mechanismen von LLMs und ebnet den Weg für weitere Optimierungen im Design und der Inferenz von LLMs. Unser Code ist verfügbar unter https://github.com/SalesforceAIResearch/GemFilter.
Latente Diffusionsmodelle (LDMs) haben in den letzten Jahren signifikante Fortschritte auf dem Gebiet der Bildgenerierung gemacht. Ein großer Vorteil von LDMs ist ihre Fähigkeit, in einem komprimierten latenten Raum zu arbeiten, was ein effizienteres Training und Deployment ermöglicht. Trotz dieser Vorteile bestehen jedoch nach wie vor Herausforderungen bei LDMs. Zum Beispiel wurde beobachtet, dass LDMs häufig hochfrequente Details und komplexe Kompositionen unvollkommen generieren. Wir vermuten, dass ein Grund für diese Mängel darin liegt, dass sowohl das Vor- als auch das Nachtraining von LDMs im latenten Raum durchgeführt werden, der in der Regel eine 8-mal 8 niedrigere räumliche Auflösung als die Ausgabebilder aufweist. Um dieses Problem anzugehen, schlagen wir vor, in den Nachschulungsprozess eine Pixelraumüberwachung hinzuzufügen, um hochfrequente Details besser zu erhalten. Experimentell zeigen wir, dass die Hinzufügung eines Pixelraumziels sowohl die Qualität des überwachten Feintunings als auch das präferenzbasierte Nachtraining in einem erheblichen Maße auf einem modernen DiT-Transformer und U-Net-Diffusionsmodellen in Bezug auf visuelle Qualität und visuelle Fehlermetriken verbessert, während die Textausrichtungsqualität gleichbleibend bleibt.
In der Ära großer Sprachmodelle (LLMs) wird dank des schnellen Entwicklungstrends von Sprachbenutzeroberflächen eine immense Menge an Konversationsprotokollen angehäuft. Die Konversationsanalyse (CA) zielt darauf ab, wichtige Informationen aus Konversationsdaten zu entdecken und zu analysieren, manuelle Prozesse zu optimieren sowie Geschäftseinblicke und Entscheidungsfindung zu unterstützen. Der Bedarf der CA, handlungsrelevante Erkenntnisse zu extrahieren und Empowerment voranzutreiben, wird zunehmend deutlicher und erregt weitreichende Aufmerksamkeit. Allerdings führt das Fehlen eines klaren Anwendungsbereichs für CA zu einer Vielzahl von Techniken, die es schwierig machen, eine systematische technische Synergie zur Stärkung von Geschäftsanwendungen zu bilden. In diesem Papier führen wir eine gründliche Überprüfung durch und systematisieren die CA-Aufgabe, um die bestehenden verwandten Arbeiten zusammenzufassen. Insbesondere definieren wir die CA-Aufgabe formell, um der fragmentierten und chaotischen Landschaft in diesem Bereich zu begegnen, und leiten vier Schlüsselschritte der CA ab, angefangen bei der Rekonstruktion der Konversationsszene über die eingehende Attributionsanalyse bis hin zur gezielten Schulung, um schließlich auf der Grundlage der gezielten Schulung Konversationen zu generieren, um spezifische Ziele zu erreichen. Darüber hinaus präsentieren wir relevante Benchmarks, diskutieren potenzielle Herausforderungen und weisen auf zukünftige Richtungen sowohl in der Industrie als auch in der Akademie hin. Angesichts der aktuellen Fortschritte wird deutlich, dass die Mehrheit der Bemühungen immer noch auf der Analyse oberflächlicher Konversationselemente liegt, was eine beträchtliche Kluft zwischen Forschung und Geschäft darstellt. Mit Hilfe von LLMs zeigt die jüngste Arbeit einen Trend zur Erforschung von Kausalität und strategischen Aufgaben, die anspruchsvoll und auf hohem Niveau sind. Die analysierten Erfahrungen und Erkenntnisse werden zwangsläufig einen breiteren Anwendungswert in Geschäftsabläufen haben, die auf Konversationsprotokollen abzielen.
Wir präsentieren Disco4D, ein neuartiges Gaussian-Splatting-Framework für die 4D-Menschengenerierung und -animation aus einem einzigen Bild. Im Gegensatz zu bestehenden Methoden entwirrt Disco4D deutlich Kleidungsstücke (mit Gaußschen Modellen) vom menschlichen Körper (mit dem SMPL-X-Modell) und verbessert somit signifikant die Generierungsdetails und Flexibilität. Es weist folgende technische Innovationen auf. 1) Disco4D lernt, die Kleidungsgaußschen effizient über die SMPL-X-Gaußschen zu passen. 2) Es übernimmt Diffusionsmodelle, um den 3D-Generierungsprozess zu verbessern, z. B. die Modellierung verdeckter Teile, die im Eingabebild nicht sichtbar sind. 3) Es lernt eine Identitätskodierung für jeden Kleidungsgauß, um die Trennung und Extraktion von Kleidungsassets zu erleichtern. Darüber hinaus unterstützt Disco4D auf natürliche Weise die 4D-Menschenanimation mit lebendiger Dynamik. Umfangreiche Experimente zeigen die Überlegenheit von Disco4D bei 4D-Menschengenerierungs- und Animationsaufgaben. Unsere Visualisierungen finden Sie unter https://disco-4d.github.io/.
In den letzten Jahren sind Multi-Vektor-Abrufmethoden, angeführt von ColBERT, zu einem zunehmend beliebten Ansatz für neuronale Information Retrieval (IR) geworden. Durch die Speicherung von Repräsentationen auf Token-Ebene anstelle von Dokumentenebene haben diese Methoden eine sehr starke Abrufleistung gezeigt, insbesondere in Out-of-Domain-Einstellungen. Die Speicher- und Speicheranforderungen, die erforderlich sind, um die große Anzahl zugehöriger Vektoren zu speichern, bleiben jedoch ein wichtiger Nachteil, der die praktische Übernahme behindert. In diesem Papier stellen wir einen einfachen clusteringbasierten Token-Pooling-Ansatz vor, um die Anzahl der zu speichernden Vektoren aggressiv zu reduzieren. Diese Methode kann den Speicher- und Speicherplatzbedarf von ColBERT-Indizes um 50 % reduzieren, ohne dass die Abrufleistung praktisch beeinträchtigt wird. Diese Methode ermöglicht auch weitere Reduzierungen, wobei die Vektoranzahl um 66 % bis 75 % reduziert wird, wobei die Beeinträchtigung auf den meisten Datensätzen unter 5 % bleibt. Diese Herangehensweise erfordert keine architektonische Änderung oder Verarbeitung zur Abfragezeit und kann als einfacher Ersatz bei der Indizierung mit einem beliebigen ColBERT-ähnlichen Modell verwendet werden.
Menschen können lernen, neue Objekte zu manipulieren, indem sie einfach anderen zuschauen; wenn Robotern die Fähigkeit gegeben wird, von solchen Demonstrationen zu lernen, würde dies eine natürliche Schnittstelle ermöglichen, um neue Verhaltensweisen festzulegen. Diese Arbeit entwickelt Robot See Robot Do (RSRD), eine Methode zur Imitation von artikulierter Objektmanipulation aus einer einzelnen monokularen RGB-Menschendemonstration unter Verwendung eines einzigen statischen Multi-View-Objektscans. Zunächst schlagen wir 4D Differentiable Part Models (4D-DPM) vor, eine Methode zur Wiederherstellung von 3D-Teilbewegungen aus einem monokularen Video mit differenzierbarer Darstellung. Dieser Analyse-durch-Synthese-Ansatz verwendet teilzentrierte Merkmalsfelder in einer iterativen Optimierung, die die Verwendung geometrischer Regularisierer ermöglicht, um 3D-Bewegungen nur aus einem einzigen Video wiederherzustellen. Basierend auf dieser 4D-Rekonstruktion repliziert der Roboter Objekttrajektorien, indem er bimanuelle Armbewegungen plant, die die demonstrierte Teilbewegung des Objekts induzieren. Indem Demonstrationen als teilzentrierte Trajektorien dargestellt werden, konzentriert sich RSRD darauf, das beabsichtigte Verhalten der Demonstration zu replizieren, während die eigenen morphologischen Grenzen des Roboters berücksichtigt werden, anstatt zu versuchen, die Bewegung der Hand zu reproduzieren. Wir bewerten die 3D-Tracking-Genauigkeit von 4D-DPM anhand von Ground-Truth-annotierten 3D-Teiltrajektorien und die physische Ausführungsleistung von RSRD an 9 Objekten in jeweils 10 Versuchen an einem bimanuellen YuMi-Roboter. Jede Phase von RSRD erreicht eine durchschnittliche Erfolgsrate von 87 %, was eine Gesamterfolgsrate von 60 % über 90 Versuche ergibt. Bemerkenswerterweise wird dies nur unter Verwendung von Merkmalsfeldern erreicht, die aus großen vorab trainierten Vision-Modellen extrahiert wurden - ohne spezifisches Training, Feinabstimmung, Datensammlung oder Annotation. Projektseite: https://robot-see-robot-do.github.io
Die Extraktion aussagekräftiger Erkenntnisse aus großen und komplexen Datensätzen birgt erhebliche Herausforderungen, insbesondere hinsichtlich der Genauigkeit und Relevanz der abgerufenen Informationen. Traditionelle Methoden der Datensuche wie sequenzielle Suche und indexbasierte Suche scheitern oft bei der Handhabung komplexer und miteinander verbundener Datenstrukturen, was zu unvollständigen oder irreführenden Ergebnissen führt. Um diese Einschränkungen zu überwinden, stellen wir Structured-GraphRAG vor, ein vielseitiges Framework, das darauf abzielt, die Informationssuche über strukturierte Datensätze in natürlichsprachlichen Abfragen zu verbessern. Structured-GraphRAG nutzt mehrere Wissensgraphen, die Daten in strukturierter Form darstellen und komplexe Beziehungen zwischen Entitäten erfassen, um eine nuanciertere und umfassendere Informationssuche zu ermöglichen. Dieser graphenbasierte Ansatz verringert das Risiko von Fehlern in den Ausgaben von Sprachmodellen, indem Antworten in strukturierter Form verankert werden und somit die Zuverlässigkeit der Ergebnisse erhöht wird. Wir zeigen die Wirksamkeit von Structured-GraphRAG, indem wir seine Leistung mit der einer kürzlich veröffentlichten Methode unter Verwendung von traditioneller abrufgestützter Generierung vergleichen. Unsere Ergebnisse zeigen, dass Structured-GraphRAG die Effizienz der Abfrageverarbeitung signifikant verbessert und die Antwortzeiten reduziert. Obwohl unsere Fallstudie sich auf Fußballdaten konzentriert, ist das Design des Frameworks breit anwendbar und bietet ein leistungsstarkes Werkzeug für die Datenanalyse und die Verbesserung von Sprachmodellanwendungen in verschiedenen strukturierten Bereichen.