Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieses Paper präsentiert die Block-Transformer-Architektur, die hierarchisches globales-zu-lokales Modellieren in autoregressiven Transformatoren übernimmt, um die Inferenz-Engpässe von Selbst-Aufmerksamkeit zu mildern. Um Selbst-Aufmerksamkeit anzuwenden, muss der Schlüssel-Wert (KV)-Cache aller vorherigen Sequenzen bei jedem Decodierungsschritt aus dem Speicher abgerufen werden. Dadurch wird dieser KV-Cache-IO zu einem signifikanten Engpass bei der Stapel-Inferenz. Wir stellen fest, dass diese Kosten aus der Anwendung von Selbst-Aufmerksamkeit auf den globalen Kontext resultieren, daher isolieren wir die teuren Engpässe des globalen Modellierens in unteren Schichten und wenden schnelles lokales Modellieren in oberen Schichten an. Um die verbleibenden Kosten in den unteren Schichten zu mildern, aggregieren wir Eingabetoken in Blöcke fester Größe und wenden dann Selbst-Aufmerksamkeit auf dieser groben Ebene an. Kontextinformationen werden in eine einzelne Einbettung aggregiert, um es den oberen Schichten zu ermöglichen, den nächsten Block von Token zu decodieren, ohne globale Aufmerksamkeit. Ohne globale Aufmerksamkeitsengpässe können die oberen Schichten die Rechenhardware voll ausnutzen, um die Inferenzdurchsatz zu maximieren. Durch die Nutzung von globalen und lokalen Modulen zeigt die Block-Transformer-Architektur 10-20-fache Gewinne beim Inferenzdurchsatz im Vergleich zu herkömmlichen Transformatoren mit äquivalenter Perplexität. Unsere Arbeit stellt einen neuen Ansatz zur Optimierung der Sprachmodell-Inferenz durch die neuartige Anwendung von globalem-zu-lokalem Modellieren vor. Der Code ist verfügbar unter https://github.com/itsnamgyu/block-transformer.
Die schnelle Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) wie GPT-4V hat einen bedeutenden Schritt in Richtung künstlicher allgemeiner Intelligenz markiert. Bestehende Methoden konzentrieren sich hauptsächlich darauf, Vision-Encoder mit LLMs durch überwachtes Feintuning (SFT) auszurichten, um den LLMs multimodale Fähigkeiten zu verleihen, wodurch die inhärente Fähigkeit von MLLMs, auf mehrere Sprachen zu reagieren, im Laufe des Trainingsprozesses zunehmend abnimmt. Wir stellen empirisch fest, dass die unausgeglichenen SFT-Datensätze, die hauptsächlich aus englischzentrierten Bild-Text-Paaren bestehen, zu einer signifikant reduzierten Leistung in nicht-englischen Sprachen führen. Dies liegt am Scheitern der Ausrichtung des Vision-Encoders und LLMs mit mehrsprachigen Tokens während des SFT-Prozesses. In diesem Papier stellen wir Parrot vor, eine neuartige Methode, die textuelle Anleitung nutzt, um die visuelle Token-Ausrichtung auf Sprachebene voranzutreiben. Parrot lässt die visuellen Tokens von verschiedenen Spracheingaben abhängen und verwendet Mixture-of-Experts (MoE), um die Ausrichtung von mehrsprachigen Tokens zu fördern. Insbesondere zur Verbesserung der Ausrichtung nicht-englischer visueller Tokens berechnen wir die Kreuz-Aufmerksamkeit unter Verwendung der ursprünglichen visuellen Merkmale und textuellen Einbettungen, deren Ergebnis dann in den MoE-Router eingespeist wird, um die relevantesten Experten auszuwählen. Die ausgewählten Experten wandeln anschließend die ursprünglichen visuellen Tokens in sprachspezifische visuelle Tokens um. Darüber hinaus, angesichts des aktuellen Mangels an Benchmarks zur Bewertung mehrsprachiger Fähigkeiten in diesem Bereich, sammeln wir und stellen einen Massiven Multilingualen Multimodalen Benchmark zur Verfügung, der 6 Sprachen, 15 Kategorien und 12.000 Fragen umfasst, genannt MMMB. Unsere Methode zeigt nicht nur eine Spitzenleistung auf dem mehrsprachigen MMBench und MMMB, sondern überzeugt auch bei einer Vielzahl von multimodalen Aufgaben. Sowohl der Quellcode als auch der Trainingsdatensatz von Parrot werden öffentlich zugänglich gemacht.
Die Aufgaben zur Bedienung mobiler Geräte werden zunehmend zu einem beliebten Multi-Modalen KI-Anwendungsszenario. Aktuelle Multi-Modale Große Sprachmodelle (MLLMs), die durch ihre Trainingsdaten eingeschränkt sind, verfügen nicht über die Fähigkeit, effektiv als Bedienungshelfer zu fungieren. Stattdessen werden MLLM-basierte Agenten, die ihre Fähigkeiten durch Werkzeugaufrufe erweitern, allmählich auf dieses Szenario angewendet. Die beiden Hauptnavigationsherausforderungen bei Aufgaben zur Bedienung mobiler Geräte, die Navigation des Aufgabenfortschritts und die Fokussierung auf Inhalte, sind unter der Single-Agenten-Architektur bestehender Arbeiten erheblich kompliziert. Dies liegt an den überlangen Token-Sequenzen und dem verschachtelten Text-Bild-Datenformat, die die Leistung einschränken. Um diesen Navigationsherausforderungen effektiv zu begegnen, schlagen wir Mobile-Agent-v2 vor, eine Multi-Agenten-Architektur zur Unterstützung der Bedienung mobiler Geräte. Die Architektur umfasst drei Agenten: Planungsagent, Entscheidungsagent und Reflexionsagent. Der Planungsagent generiert den Aufgabenfortschritt, um die Navigation der Historieoperationen effizienter zu gestalten. Um den Fokus auf Inhalte zu behalten, entwerfen wir eine Speichereinheit, die sich mit dem Aufgabenfortschritt aktualisiert. Darüber hinaus beobachtet der Reflexionsagent die Ergebnisse jeder Operation und korrigiert etwaige Fehler bei fehlerhaften Operationen. Experimentelle Ergebnisse zeigen, dass Mobile-Agent-v2 im Vergleich zur Single-Agenten-Architektur von Mobile-Agent eine über 30%ige Verbesserung bei der Aufgabenerfüllung erzielt. Der Code ist unter https://github.com/X-PLUG/MobileAgent als Open-Source verfügbar.
Bestehende Methoden zur Erstellung von 3D-Modellen aus Einzelbildern umfassen in der Regel einen zweistufigen Prozess, bei dem zunächst Multi-View-Bilder generiert und diese dann für die 3D-Rekonstruktion verwendet werden. Das separate Training dieser beiden Stufen führt jedoch im Inferenzschritt zu erheblichen Datenverzerrungen, was sich negativ auf die Qualität der rekonstruierten Ergebnisse auswirkt. Wir stellen ein vereinheitlichtes 3D-Generierungs-Framework namens Ouroboros3D vor, das die auf Diffusion basierende Generierung von Multi-View-Bildern und die 3D-Rekonstruktion in einen rekursiven Diffusionsprozess integriert. In unserem Framework werden diese beiden Module durch einen Selbstkonditionierungsmechanismus gemeinsam trainiert, der es ihnen ermöglicht, sich an die jeweiligen Eigenschaften des anderen anzupassen, um robuste Inferenzen zu ermöglichen. Während des Multi-View-Denoising-Prozesses verwendet das Multi-View-Diffusionsmodell die 3D-bewussten Karten, die vom Rekonstruktionsmodul im vorherigen Zeitschritt gerendert wurden, als zusätzliche Bedingungen. Das rekursive Diffusionsframework mit 3D-bewusstem Feedback vereint den gesamten Prozess und verbessert die geometrische Konsistenz. Experimente zeigen, dass unser Framework die Trennung dieser beiden Stufen und bestehende Methoden, die sie im Inferenzschritt kombinieren, übertrifft. Projektseite: https://costwen.github.io/Ouroboros3D/
Transformer sind schnell zur bevorzugten Wahl für die Audio-Klassifizierung geworden und haben Methoden, die auf CNNs basieren, übertroffen. Allerdings zeigen Audio-Spektrogramm-Transformer (ASTs) aufgrund von Selbst-Aufmerksamkeit eine quadratische Skalierung. Die Beseitigung dieser quadratischen Selbst-Aufmerksamkeitskosten stellt eine vielversprechende Richtung dar. In letzter Zeit haben Zustandsraummodelle (SSMs) wie Mamba Potenzial in Sprach- und Bildaufgaben in dieser Hinsicht gezeigt. In dieser Studie untersuchen wir, ob die Abhängigkeit von Selbst-Aufmerksamkeit für Audio-Klassifizierungsaufgaben notwendig ist. Durch die Einführung von Audio Mamba (AuM), dem ersten selbst-Aufmerksamkeit-freien, rein auf SSM basierenden Modell für die Audio-Klassifizierung, wollen wir diese Frage beantworten. Wir evaluieren AuM an verschiedenen Audio-Datensätzen - bestehend aus sechs verschiedenen Benchmarks - wo es vergleichbare oder bessere Leistung im Vergleich zu etablierten AST-Modellen erzielt.
Die Layoutgenerierung ist der Schlüssel zur automatisierten grafischen Gestaltung und erfordert das Anordnen der Position und Größe verschiedener multimodaler Designelemente auf visuell ansprechende und einschränkungskonforme Weise. Frühere Ansätze sind entweder ineffizient für Anwendungen im großen Maßstab oder mangelt es an Flexibilität für unterschiedliche Designanforderungen. Unsere Forschung stellt ein einheitliches Framework für die automatisierte grafische Layoutgenerierung vor, das das multimodale große Sprachmodell (MLLM) nutzt, um verschiedene Designaufgaben zu bewältigen. Im Gegensatz dazu verwendet unsere datengesteuerte Methode strukturierten Text (im JSON-Format) und visuelle Anweisungsoptimierung, um Layouts unter spezifischen visuellen und textuellen Einschränkungen zu generieren, einschließlich benutzerdefinierter Spezifikationen in natürlicher Sprache. Wir führten umfangreiche Experimente durch und erzielten eine Spitzenleistung auf öffentlichen Benchmarks für die multimodale Layoutgenerierung, was die Wirksamkeit unserer Methode zeigt. Darüber hinaus, da bestehende Datensätze die Komplexität realer grafischer Designs nur begrenzt erfassen, schlagen wir zwei neue Datensätze für deutlich anspruchsvollere Aufgaben vor (benutzerbeschränkte Generierung und komplizierter Poster), um die Nützlichkeit unseres Modells in realen Situationen weiter zu validieren. Durch seine überlegene Zugänglichkeit und Anpassungsfähigkeit automatisiert dieser Ansatz weitere grafische Designaufgaben im großen Maßstab. Der Code und die Datensätze werden öffentlich verfügbar sein unter https://github.com/posterllava/PosterLLaVA.
Frühere Arbeiten haben die Null-Schuss Text-in-Sprache durch die Verwendung eines generativen Sprachmodells auf Audio-Token demonstriert, die über einen neuronalen Audiocodec erhalten wurden. Es ist jedoch immer noch eine Herausforderung, sie an Szenarien mit geringer Latenz anzupassen. In diesem Artikel präsentieren wir LiveSpeech - einen vollständig autoregressiven Ansatz auf der Basis eines Sprachmodells für Null-Schuss Text-in-Sprache, der das Streaming der Ausgabe-Audio mit geringer Latenz ermöglicht. Um die Vorhersage mehrerer Token innerhalb eines einzelnen Decodierungsschritts zu ermöglichen, schlagen wir vor, (1) adaptive Codebuch-Verlustgewichte zu verwenden, die den Codebuchbeitrag in jedem Frame berücksichtigen und sich auf schwierige Instanzen konzentrieren, und (2) Codebücher zu gruppieren und Gruppen parallel zu verarbeiten. Experimente zeigen, dass unsere vorgeschlagenen Modelle wettbewerbsfähige Ergebnisse im Hinblick auf Inhaltsgenauigkeit, Sprecherähnlichkeit, Audioqualität und Inferenzgeschwindigkeit im Vergleich zu State-of-the-Art-Baselines erzielen, während sie für Streaming-Anwendungen mit geringer Latenz geeignet sind.
Bedeutende Fortschritte bei Videodiffusionsmodellen haben signifikante Fortschritte im Bereich der Text-zu-Video (T2V)-Synthese gebracht. Allerdings haben bestehende T2V-Synthesemodelle Schwierigkeiten, komplexe Bewegungsdynamiken präzise zu generieren, was zu einer Verringerung der Realität von Videos führt. Eine mögliche Lösung besteht darin, umfangreiche Daten zu sammeln und das Modell darauf zu trainieren, was jedoch extrem teuer wäre. Um dieses Problem zu lindern, reformulieren wir in diesem Papier den typischen T2V-Generierungsprozess als suchbasierte Generierungspipeline. Anstatt das Modelltraining zu skalieren, verwenden wir bestehende Videos als Bewegungsprioritätsdatenbank. Konkret teilen wir den T2V-Generierungsprozess in zwei Schritte auf: (i) Für eine gegebene Eingabeaufforderung suchen wir in bestehenden Text-Video-Datensätzen nach Videos mit Textetiketten, die den Bewegungen der Eingabeaufforderung nahekommen. Wir schlagen einen maßgeschneiderten Suchalgorithmus vor, der die Bewegungsmerkmale von Objekten betont. (ii) Die abgerufenen Videos werden verarbeitet und zu Bewegungsprioritäten destilliert, um ein vorab trainiertes Basis-T2V-Modell feinzutunen, gefolgt von der Generierung gewünschter Videos unter Verwendung der Eingabeaufforderung. Durch die Nutzung der aus den gesuchten Videos gewonnenen Prioritäten verbessern wir die Realität der Bewegungen der generierten Videos. Alle Operationen können auf einer einzelnen NVIDIA RTX 4090 GPU durchgeführt werden. Wir validieren unsere Methode anhand von State-of-the-Art T2V-Modellen für diverse Eingabeaufforderungen. Der Code wird öffentlich zugänglich sein.
Das Lernen durch Verstärkung aus menschlichem Feedback (RLHF) war entscheidend für den jüngsten Erfolg großer Sprachmodelle (LLMs), ist jedoch oft ein komplexer und anfälliger Prozess. Im klassischen RLHF-Framework wird zunächst ein Belohnungsmodell trainiert, um menschliche Präferenzen darzustellen, das wiederum von einem Online-Verstärkungslernalgorithmus verwendet wird, um das LLM zu optimieren. Ein herausragendes Problem bei solchen Methoden ist die Überoptimierung oder das sogenannte "Reward Hacking", bei dem die Leistung gemessen am erlernten Proxy-Belohnungsmodell steigt, die tatsächliche Qualität jedoch stagniert oder sogar abnimmt. Direkte Ausrichtungsalgorithmen (DDAs) wie die direkte Präferenzoptimierung haben sich als Alternativen zum klassischen RLHF-Pipeline herausgebildet, indem sie die Phase der Belohnungsmodellierung umgehen. Obwohl DDAs kein separates Proxy-Belohnungsmodell verwenden, neigen sie dennoch häufig zur Verschlechterung durch Überoptimierung. Obwohl das sogenannte "Reward Hacking"-Phänomen für DDAs nicht klar definiert ist, zeigen wir dennoch ähnliche Trends auf: Bei höheren KL-Budgets weisen DAA-Algorithmen ähnliche Degradierungsmuster wie ihre klassischen RLHF-Gegenstücke auf. Insbesondere stellen wir fest, dass DAA-Methoden nicht nur über ein breites Spektrum von KL-Budgets hinweg, sondern oft schon bevor auch nur eine Epoche des Datensatzes abgeschlossen ist, degenerieren. Durch umfangreiche empirische Experimente formuliert und formalisiert diese Arbeit das Problem der Überoptimierung oder des Hackings von Belohnungen für DDAs und untersucht dessen Auswirkungen auf Ziele, Trainingsregime und Modellgrößen.
Große Sprachmodelle (LLMs) waren aufgrund ihrer emergenten Fähigkeiten äußerst erfolgreich bei Aufgaben wie komplexem Dialogverständnis, Schlussfolgerungen und Codierung. Diese emergenten Fähigkeiten wurden durch Multimodalität erweitert, um Bild-, Audio- und Videofunktionen einzuschließen. Empfehlungssysteme hingegen waren entscheidend für Informationsbeschaffung und Artikelentdeckungsbedürfnisse. In letzter Zeit gab es Versuche, LLMs für Empfehlungen einzusetzen. Eine Schwierigkeit der aktuellen Versuche besteht darin, dass das zugrunde liegende LLM in der Regel nicht mit den Daten des Empfehlungssystems trainiert wird, die hauptsächlich Benutzerinteraktionssignale enthalten und oft nicht öffentlich verfügbar sind. Eine weitere Schwierigkeit besteht darin, dass Benutzerinteraktionssignale oft ein anderes Muster als natürlichsprachiger Text aufweisen, und es ist derzeit unklar, ob das LLM-Trainingssetup im Vergleich zu traditionellen Empfehlungssystemmethoden mehr nicht-triviales Wissen aus Interaktionssignalen lernen kann. Schließlich ist es schwierig, mehrere LLMs für verschiedene Anwendungsfälle zu trainieren und die ursprünglichen Sprach- und Schlussfolgerungsfähigkeiten beim Lernen aus den Daten des Empfehlungssystems beizubehalten. Um diese drei Einschränkungen anzugehen, schlagen wir ein Artikel-Sprachmodell (ILM) vor, das aus einem Artikelencoder besteht, um textausgerichtete Artikelrepräsentationen zu erzeugen, die Benutzerinteraktionssignale codieren, und einem eingefrorenen LLM, der diese Artikelrepräsentationen mit bewahrtem vorab trainiertem Wissen verstehen kann. Wir führen umfangreiche Experimente durch, die sowohl die Bedeutung der Sprachausrichtung als auch des Benutzerinteraktionswissens im Artikelencoder zeigen.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in verschiedenen Aufgaben gezeigt, doch ihre umfangreichen Parametergrößen beschränken ihre Anwendbarkeit in ressourcenbeschränkten Umgebungen. Das Verfahren des Wissensdurchdringens (KD) bietet eine praktikable Lösung, indem Expertenwissen von großen Lehrmodellen auf kompakte Schülermodelle übertragen wird. Allerdings stehen traditionelle KD-Techniken vor spezifischen Herausforderungen, wenn sie auf LLMs angewendet werden, darunter eingeschränkter Zugriff auf LLM-Ausgaben, signifikante Lehr-Schüler-Kapazitätsunterschiede und das vererbte Misskalibrierungsproblem. In dieser Arbeit präsentieren wir PLaD, ein neuartiges präferenzbasiertes LLM-Destillationsframework. PLaD nutzt die Diskrepanz in der Lehr-Schüler-Kapazität, um Pseudo-Präferenzpaare zu generieren, bei denen Lehrerausgaben den Schülerausgaben vorgezogen werden. Anschließend verwendet PLaD einen Rangverlust, um die Schätzung der Sequenzwahrscheinlichkeit des Schülers neu zu kalibrieren, was den Fokus des Schülers darauf lenkt, die relative Qualität der Ausgaben zu verstehen, anstatt einfach den Lehrer zu imitieren. PLaD umgeht die Notwendigkeit des Zugriffs auf die internen Zustände des Lehrer-LLMs, bewältigt die Ausdrucksbeschränkungen des Schülers und mildert das Problem der Schüler-Misskalibrierung. Durch umfangreiche Experimente in zwei Sequenzgenerierungsaufgaben und mit verschiedenen LLMs zeigen wir die Wirksamkeit unseres vorgeschlagenen PLaD-Frameworks.
Wir stellen Xmodel-LM vor, ein kompaktes und effizientes Sprachmodell mit 1,1 Milliarden Parametern, das auf über 2 Billionen Tokens vortrainiert wurde. Trainiert auf unserem selbst erstellten Datensatz (Xdata), der chinesische und englische Korpora basierend auf der Optimierung für nachgelagerte Aufgaben ausgleicht, zeigt Xmodel-LM eine bemerkenswerte Leistung trotz seiner geringeren Größe. Es übertrifft deutlich bestehende Open-Source-Sprachmodelle ähnlicher Größenordnung. Unsere Modell-Checkpoints und der Code sind öffentlich auf GitHub unter https://github.com/XiaoduoAILab/XmodelLM verfügbar.