Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir schlagen Adam-mini vor, einen Optimierer, der eine vergleichbare oder bessere Leistung als AdamW mit 45% bis 50% weniger Speicherplatz erreicht. Adam-mini reduziert den Speicherbedarf, indem er die Ressourcen für die Lernrate in Adam (d.h. 1/v) reduziert. Wir stellen fest, dass über 90% dieser Lernraten in v unbedenklich entfernt werden könnten, wenn wir (1) die Parameter sorgfältig in Blöcke unterteilen, die unserem vorgeschlagenen Prinzip der Hesse'schen Struktur folgen; (2) jeder Parametergruppe eine einzige, aber gute Lernrate zuweisen. Wir stellen weiter fest, dass für jede dieser Parametergruppen eine einzige hochwertige Lernrate existiert, die Adam übertreffen kann, vorausgesetzt ausreichende Ressourcen stehen zur Verfügung, um sie zu ermitteln. Wir bieten dann einen kostengünstigen Weg, um gute Lernraten zu finden, und schlagen Adam-mini vor. Empirisch bestätigen wir, dass Adam-mini bei verschiedenen Sprachmodellen mit Größen von 125M bis 7B für Vor-Training, überwachtes Feintuning und RLHF eine vergleichbare oder bessere Leistung als AdamW erbringt. Der reduzierte Speicherbedarf von Adam-mini verringert auch die Kommunikationsüberlastung zwischen GPUs und CPUs und erhöht somit die Durchsatzleistung. Adam-mini erreicht beispielsweise eine 49,6% höhere Durchsatzleistung als AdamW beim Vor-Training von Llama2-7B auf 2-mal A800-80GB GPUs, was eine 33%ige Zeitersparnis beim Vor-Training bedeutet.
KI-Agenten sind in verschiedenen Bereichen zunehmend bedeutsam geworden, da sie autonomes Entscheidungsfindung und Problemlösung ermöglichen. Um effektiv zu funktionieren, benötigen diese Agenten einen Planungsprozess, der den besten Handlungsverlauf bestimmt und dann die geplanten Aktionen ausführt. In diesem Papier präsentieren wir ein effizientes On-Device Planner-Action-Framework, das die Planung und die Aktionsausführung in zwei separaten Komponenten aufteilt: einen Planungsagenten basierend auf Phi-3 Mini, einem 3,8 Milliarden Parameter LLM, optimiert für Edge-Geräte, und einen Aktionsagenten, der das Octopus-Modell für die Funktionsausführung verwendet. Der Planungsagent reagiert zunächst auf Benutzeranfragen, indem er Aufgaben in eine Sequenz von Teilschritten zerlegt, die dann vom Aktionsagenten ausgeführt werden. Um die Leistung auf ressourcenbeschränkten Geräten zu optimieren, setzen wir auf Modellfeinabstimmung anstelle von In-Context-Lernen, um die Rechenkosten und den Energieverbrauch zu reduzieren und die Reaktionszeiten zu verbessern. Unser Ansatz beinhaltet die Verwendung von GPT-4 zur Generierung vielfältiger Planungsanfragen und -antworten basierend auf verfügbaren Funktionen, mit anschließenden Validierungen zur Sicherstellung der Datenqualität. Wir feinabstimmen das Phi-3 Mini-Modell auf diesem kuratierten Datensatz und erreichen eine Erfolgsquote von 97\% in unserer In-Domain-Testumgebung. Um Herausforderungen bei der Multi-Domain-Planung anzugehen, haben wir eine Multi-LoRA-Trainingsmethode entwickelt, die Gewichte von LoRAs zusammenführt, die auf unterschiedlichen Funktionsteilmengen trainiert wurden. Dieser Ansatz ermöglicht eine flexible Bearbeitung komplexer, multi-domanialer Anfragen und gewährleistet gleichzeitig eine hohe Rechenkapazität auf ressourcenbeschränkten Geräten. Zur Unterstützung weiterer Forschung haben wir unsere Modellgewichte unter https://huggingface.co/NexaAIDev/octopus-planning Open Source gemacht. Für die Demo verweisen wir auf https://www.nexa4ai.com/octo-planner.
Die Verständnis von Diagrammen spielt eine entscheidende Rolle bei der Anwendung von Multimodalen Großen Sprachmodellen (MLLMs) auf reale Aufgaben wie die Analyse wissenschaftlicher Arbeiten oder Finanzberichte. Allerdings konzentrieren sich bestehende Datensätze oft auf zu stark vereinfachte und homogene Diagramme mit Vorlagen-basierten Fragen, was zu einer überoptimistischen Messung des Fortschritts führt. Wir zeigen, dass, obwohl Open-Source-Modelle auf diesen Benchmarks stärker als starke proprietäre Modelle erscheinen können, ein einfacher Belastungstest mit leicht unterschiedlichen Diagrammen oder Fragen die Leistung um bis zu 34,5% verschlechtern kann. In dieser Arbeit schlagen wir CharXiv vor, eine umfassende Bewertungssuite mit 2.323 natürlichen, anspruchsvollen und vielfältigen Diagrammen aus arXiv-Arbeiten. CharXiv umfasst zwei Arten von Fragen: 1) beschreibende Fragen zur Untersuchung grundlegender Diagrammelemente und 2) Schlussfolgerungsfragen, die die Synthese von Informationen über komplexe visuelle Elemente im Diagramm erfordern. Um die Qualität sicherzustellen, werden alle Diagramme und Fragen von menschlichen Experten ausgewählt, kuratiert und überprüft. Unsere Ergebnisse zeigen eine erhebliche, zuvor unterschätzte Kluft zwischen den Schlussfolgerungsfähigkeiten des stärksten proprietären Modells (d. h. GPT-4o), das eine Genauigkeit von 47,1% erreicht, und dem stärksten Open-Source-Modell (d. h. InternVL Chat V1.5), das 29,2% erreicht. Alle Modelle liegen weit hinter der menschlichen Leistung von 80,5% zurück und betonen Schwächen in den Diagrammverständnisfähigkeiten bestehender MLLMs. Wir hoffen, dass CharXiv zukünftige Forschung zum Verständnis von Diagrammen in MLLMs erleichtert, indem es eine realistischere und treuere Messung des Fortschritts bietet. Projektseite und Bestenliste: https://charxiv.github.io/
Wir schlagen einen neuen Benchmark für die Generierung von Text-zu-Video (T2V) vor, ChronoMagic-Bench, um die zeitlichen und metamorphen Fähigkeiten der T2V-Modelle (z. B. Sora und Lumiere) bei der Erzeugung von Zeitraffervideos zu bewerten. Im Gegensatz zu bestehenden Benchmarks, die sich auf die visuelle Qualität und die textuelle Relevanz der generierten Videos konzentrieren, legt ChronoMagic-Bench den Fokus auf die Fähigkeit des Modells, Zeitraffervideos mit signifikanter metamorpher Amplitude und zeitlicher Kohärenz zu generieren. Der Benchmark prüft T2V-Modelle auf ihre physikalischen, biologischen und chemischen Fähigkeiten in einer frei formulierten Textabfrage. Zu diesem Zweck führt ChronoMagic-Bench 1.649 Anregungen und realweltliche Videos als Referenzen ein, die in vier Haupttypen von Zeitraffervideos unterteilt sind: biologische, vom Menschen erstellte, meteorologische und physikalische Phänomene, die wiederum in 75 Unterkategorien unterteilt sind. Diese Kategorisierung bewertet umfassend die Fähigkeit des Modells, vielfältige und komplexe Transformationen zu bewältigen. Um die menschliche Präferenz genau mit dem Benchmark abzustimmen, führen wir zwei neue automatische Metriken ein, MTScore und CHScore, um die metamorphen Eigenschaften und die zeitliche Kohärenz der Videos zu bewerten. MTScore misst die metamorphe Amplitude, die den Grad der Veränderung im Laufe der Zeit widerspiegelt, während CHScore die zeitliche Kohärenz bewertet, um sicherzustellen, dass die generierten Videos eine logische Progression und Kontinuität beibehalten. Basierend auf dem ChronoMagic-Bench führen wir umfassende manuelle Bewertungen von zehn repräsentativen T2V-Modellen durch, die ihre Stärken und Schwächen in verschiedenen Kategorien von Anregungen aufzeigen und einen gründlichen Bewertungsrahmen bereitstellen, der aktuelle Lücken in der Forschung zur Videogenerierung anspricht. Darüber hinaus erstellen wir einen umfangreichen ChronoMagic-Pro Datensatz, der 460.000 hochwertige Paare von 720p Zeitraffervideos und detaillierte Bildunterschriften enthält, um eine hohe physikalische Relevanz und eine große metamorphe Amplitude sicherzustellen.
Die Mischung-von-Experten (MoE) gewinnt aufgrund ihrer einzigartigen Eigenschaften und bemerkenswerten Leistung, insbesondere bei Sprachaufgaben, zunehmend an Aufmerksamkeit. Durch die spärliche Aktivierung einer Teilmenge von Parametern für jedes Token könnte die MoE-Architektur die Modellgröße erhöhen, ohne die Recheneffizienz zu beeinträchtigen, und einen besseren Kompromiss zwischen Leistung und Trainingskosten erreichen. Allerdings fehlt es immer noch an einer weiteren Erforschung des zugrunde liegenden Mechanismus der MoE, und ihr Modularisierungsgrad bleibt fraglich. In diesem Papier unternehmen wir einen ersten Versuch, die Funktionsweise von auf MoE basierenden großen Sprachmodellen zu verstehen. Konkret untersuchen wir umfassend die parametrischen und Verhaltensmerkmale von drei aktuellen auf MoE basierenden Modellen und enthüllen einige faszinierende Beobachtungen, darunter (1) Neuronen fungieren wie feingliedrige Experten. (2) Der Router von MoE wählt in der Regel Experten mit größeren Ausgangsnormen aus. (3) Die Expertenvielfalt nimmt mit jeder Schicht zu, wobei die letzte Schicht eine Ausnahme bildet. Basierend auf den Beobachtungen geben wir auch Empfehlungen für ein breites Spektrum von MoE-Praktikern, wie z.B. das Design des Routers und die Expertenzuweisung. Wir hoffen, dass diese Arbeit Licht auf zukünftige Forschung im Rahmen des MoE und anderer modularer Architekturen werfen kann. Der Code ist verfügbar unter https://github.com/kamanphoebe/Look-into-MoEs.
Wir stellen WildGuard vor - ein offenes, leichtgewichtiges Moderationstool für die Sicherheit von LLM, das drei Ziele erreicht: (1) die Identifizierung bösartiger Absichten in Benutzeranfragen, (2) die Erkennung von Sicherheitsrisiken bei Modellantworten und (3) die Bestimmung der Modellablehnungsrate. Zusammen erfüllt WildGuard die zunehmenden Anforderungen an die automatische Sicherheitsmoderation und Bewertung von LLM-Interaktionen und bietet ein All-in-One-Tool mit verbesserter Genauigkeit und umfassender Abdeckung von 13 Risikokategorien. Während bestehende offene Moderationstools wie Llama-Guard2 bei der Klassifizierung einfacher Modellinteraktionen recht gut abschneiden, hinken sie bei einem aufgeforderten GPT-4 weit hinterher, insbesondere bei der Identifizierung von adversen Jailbreaks und bei der Bewertung von Modellablehnungen, einem wichtigen Maßstab zur Bewertung des Sicherheitsverhaltens bei Modellantworten. Um diese Herausforderungen anzugehen, konstruieren wir WildGuardMix, einen groß angelegten und sorgfältig ausbalancierten Multitask-Sicherheitsmoderationsdatensatz mit 92.000 gelabelten Beispielen, die einfache (direkte) Anfragen und adversen Jailbreaks abdecken, gepaart mit verschiedenen Ablehnungs- und Compliance-Antworten. WildGuardMix ist eine Kombination aus WildGuardTrain, den Trainingsdaten von WildGuard, und WildGuardTest, einem hochwertigen, menschlich annotierten Moderationstestset mit 5.000 gelabelten Elementen, das breite Risikoszenarien abdeckt. Durch umfangreiche Evaluationen auf WildGuardTest und zehn bestehenden öffentlichen Benchmarks zeigen wir, dass WildGuard im Vergleich zu zehn starken bestehenden Open-Source-Moderationsmodellen (z. B. bis zu 26,4% Verbesserung bei der Ablehnungserkennung) eine Spitzenleistung bei der Open-Source-Sicherheitsmoderation über alle drei Aufgaben hinweg etabliert. WildGuard entspricht und übertrifft manchmal die Leistung von GPT-4 (z. B. bis zu 3,9% Verbesserung bei der Identifizierung der Schädlichkeit von Anfragen). WildGuard fungiert als äußerst effektiver Sicherheitsmoderator in einer LLM-Schnittstelle und reduziert die Erfolgsquote von Jailbreak-Angriffen von 79,8% auf 2,4%.
Elektronische Patientenakten (EHRs) sind integral für die Speicherung umfassender Patientenakten, die strukturierte Daten (z. B. Medikamente) mit detaillierten klinischen Notizen (z. B. Arztnotizen) kombinieren. Diese Elemente sind entscheidend für eine einfache Datenabfrage und liefern tiefe, kontextbezogene Einblicke in die Patientenversorgung. Allerdings leiden sie oft unter Diskrepanzen aufgrund von unintuitiven EHR-Systemdesigns und menschlichen Fehlern, die ernsthafte Risiken für die Patientensicherheit darstellen. Um dem entgegenzuwirken, haben wir EHRCon entwickelt, einen neuen Datensatz und eine Aufgabe, die speziell darauf ausgelegt sind, die Datenkonsistenz zwischen strukturierten Tabellen und unstrukturierten Notizen in EHRs sicherzustellen. EHRCon wurde in Zusammenarbeit mit Gesundheitsfachleuten unter Verwendung des MIMIC-III EHR-Datensatzes erstellt und umfasst manuelle Annotationen von 3.943 Entitäten in 105 klinischen Notizen, die auf Datenbankeinträge auf Konsistenz überprüft wurden. EHRCon hat zwei Versionen, eine unter Verwendung des ursprünglichen MIMIC-III-Schemas und eine weitere unter Verwendung des OMOP CDM-Schemas, um die Anwendbarkeit und Verallgemeinerbarkeit zu erhöhen. Darüber hinaus stellen wir unter Nutzung der Fähigkeiten großer Sprachmodelle CheckEHR vor, ein neuartiges Framework zur Überprüfung der Konsistenz zwischen klinischen Notizen und Datenbanktabellen. CheckEHR nutzt einen achtschrittigen Prozess und zeigt vielversprechende Ergebnisse sowohl in Few-Shot- als auch in Zero-Shot-Einstellungen. Der Code ist verfügbar unter https://github.com/dustn1259/EHRCon.
Die KI-Community erforscht einen Weg zur künstlichen allgemeinen Intelligenz (AGI), indem sie "Sprachagenten" entwickelt, die komplexe große Sprachmodelle (LLMs) umfassen, die sowohl Prompting-Techniken als auch Werkzeugnutzungsmethoden einbeziehen. Während Sprachagenten beeindruckende Fähigkeiten für viele reale Aufgaben gezeigt haben, ist eine grundlegende Einschränkung der aktuellen Forschung zu Sprachagenten, dass sie modellzentriert oder ingenieurszentriert sind. Das bedeutet, dass der Fortschritt bei den Prompts, Werkzeugen und Pipelines von Sprachagenten erhebliche manuelle Ingenieursbemühungen von menschlichen Experten erfordert, anstatt automatisch aus Daten zu lernen. Wir glauben, dass der Übergang von modellzentriert oder ingenieurszentriert zu datenzentriert, d.h. die Fähigkeit von Sprachagenten, autonom in Umgebungen zu lernen und sich weiterzuentwickeln, der Schlüssel für sie ist, möglicherweise AGI zu erreichen. In dieser Arbeit stellen wir das agentenbasierte symbolische Lernen vor, ein systematisches Framework, das es Sprachagenten ermöglicht, sich auf datenzentrierte Weise mithilfe symbolischer Optimierer selbst zu optimieren. Konkret betrachten wir Agenten als symbolische Netzwerke, bei denen lernbare Gewichte durch Prompts, Werkzeuge und die Art und Weise definiert sind, wie sie zusammengefügt werden. Das agentenbasierte symbolische Lernen ist darauf ausgelegt, das symbolische Netzwerk innerhalb von Sprachagenten zu optimieren, indem es zwei grundlegende Algorithmen im Verbindungslernen imitiert: Rückpropagierung und Gradientenabstieg. Anstatt mit numerischen Gewichten umzugehen, arbeitet das agentenbasierte symbolische Lernen mit natürlichsprachlichen Simulakren von Gewichten, Verlusten und Gradienten. Wir führen Proof-of-Concept-Experimente sowohl an Standard-Benchmarks als auch an komplexen realen Aufgaben durch und zeigen, dass das agentenbasierte symbolische Lernen es Sprachagenten ermöglicht, sich nach ihrer Erstellung und Bereitstellung in der Wildnis zu aktualisieren, was zu "selbstentwickelnden Agenten" führt.
Fußball ist eine weltweit beliebte Sportart mit einem großen Publikum. In diesem Papier betrachten wir die Entwicklung eines automatischen Fußballkommentarmodells, um das Seherlebnis des Publikums zu verbessern. Im Allgemeinen leisten wir folgende Beiträge: Erstens beobachten wir die weit verbreitete Video-Text-Missabstimmung in vorhandenen Datensätzen und annotieren manuell Zeitstempel für 49 Spiele, um einen robusteren Benchmark für die Generierung von Fußballkommentaren zu schaffen, genannt SN-Caption-test-align. Zweitens schlagen wir eine multimodale zeitliche Abstimmungspipeline vor, um den bestehenden Datensatz automatisch im großen Maßstab zu korrigieren und zu filtern, wodurch ein qualitativ hochwertigerer Datensatz für das Training von Fußballkommentaren entsteht, bezeichnet als MatchTime. Drittens trainieren wir basierend auf unserem kuratierten Datensatz ein automatisches Kommentargenerierungsmodell namens MatchVoice. Umfangreiche Experimente und Ablationsstudien haben die Wirksamkeit unserer Abstimmungspipeline und des Trainingsmodells auf den kuratierten Datensätzen gezeigt, die eine Spitzenleistung für die Kommentargenerierung erzielen. Dies verdeutlicht, dass eine bessere Abstimmung signifikante Leistungsverbesserungen bei nachgelagerten Aufgaben bewirken kann.
Große Sprachmodelle (LLMs) haben beeindruckende Argumentationsfähigkeiten gezeigt, insbesondere bei der textuellen mathematischen Problemlösung. Allerdings nutzen bestehende Open-Source-Bildanweisungsfeinabstimmungsdatensätze, die nur begrenzte Frage-Antwort-Paare pro Bild enthalten, die visuellen Informationen nicht vollständig aus, um die multimodalen mathematischen Argumentationsfähigkeiten von Multimodalen LLMs (MLLMs) zu verbessern. Um diese Lücke zu schließen, beheben wir den Mangel an hochwertigen, vielfältigen multimodalen mathematischen Datensätzen, indem wir 40.000 hochwertige Bilder mit Frage-Antwort-Paaren aus 24 bestehenden Datensätzen sammeln und 320.000 neue Paare synthetisieren, um den MathV360K-Datensatz zu erstellen, der sowohl die Breite als auch die Tiefe multimodaler mathematischer Fragen verbessert. Wir stellen Math-LLaVA vor, ein auf LLaVA-1.5 basierendes Modell, das mit MathV360K feinabgestimmt wurde. Dieser neuartige Ansatz verbessert signifikant die multimodalen mathematischen Argumentationsfähigkeiten von LLaVA-1.5 und erzielt eine 19-Punkte-Steigerung sowie vergleichbare Leistungen wie GPT-4V auf MathVistas Minitest-Split. Darüber hinaus zeigt Math-LLaVA eine verbesserte Generalisierbarkeit und erzielt erhebliche Verbesserungen im MMMU-Benchmark. Unsere Forschung unterstreicht die Bedeutung von Datensatzvielfalt und -synthese bei der Weiterentwicklung der mathematischen Argumentationsfähigkeiten von MLLMs. Der Code und die Daten sind verfügbar unter: https://github.com/HZQ950419/Math-LLaVA.
Wir stellen WildTeaming vor, ein automatisches LLM-Sicherheits-Red-Teaming-Framework, das in-the-wild Benutzer-Chatbot-Interaktionen analysiert, um 5,7K einzigartige Cluster von neuartigen Jailbreak-Taktiken zu entdecken und dann mehrere Taktiken für die systematische Erforschung von neuen Jailbreaks zusammenstellt. Im Vergleich zu früheren Arbeiten, die Red-Teaming über rekrutierte menschliche Arbeiter, gradientenbasierte Optimierung oder iterative Überarbeitung mit LLMs durchgeführt haben, untersucht unsere Arbeit Jailbreaks von Chatbot-Benutzern, die nicht explizit angewiesen wurden, das System zu umgehen. WildTeaming deckt zuvor unentdeckte Schwachstellen von modernen LLMs auf, was zu bis zu 4,6-mal vielfältigeren und erfolgreichen feindlichen Angriffen im Vergleich zu modernsten Jailbreak-Methoden führt. Obwohl viele Datensätze für die Bewertung von Jailbreaks existieren, gibt es nur sehr wenige Open-Source-Datensätze für das Training von Jailbreaks, da Sicherheitstrainingsdaten geschlossen waren, selbst wenn die Modellgewichte offen waren. Mit WildTeaming erstellen wir WildJailbreak, einen groß angelegten Open-Source-synthetischen Sicherheitsdatensatz mit 262K Vanilla (direkte Anfrage) und adversarialen (komplexe Jailbreak) Eingabe-Antwort-Paaren. Um übertriebene Sicherheitsverhaltensweisen zu mildern, bietet WildJailbreak zwei kontrastierende Arten von Abfragen: 1) schädliche Abfragen (Vanilla & adversarial) und 2) harmlose Abfragen, die schädlichen Abfragen in Form ähneln, aber keinen Schaden enthalten. Da WildJailbreak die Qualität und den Umfang der vorhandenen Sicherheitsressourcen erheblich verbessert, ermöglicht es uns einzigartig, die Skalierungseffekte von Daten und das Zusammenspiel von Datenattributen und Modellfähigkeiten während des Sicherheitstrainings zu untersuchen. Durch umfangreiche Experimente identifizieren wir die Trainingsattribute, die ein ideales Gleichgewicht von Sicherheitsverhalten ermöglichen: angemessener Schutz ohne Überverweigerung, effektive Behandlung von Vanilla- und adversarialen Abfragen sowie minimale, wenn überhaupt, Abnahme der allgemeinen Fähigkeiten. Alle Komponenten von WildJailbreak tragen dazu bei, ein ausgewogenes Sicherheitsverhalten der Modelle zu erreichen.
Tiefe neuronale Richtlinien wurden kürzlich in einer Vielzahl von Bereichen implementiert, von der Biotechnologie bis zu automatisierten Finanzsystemen. Die Verwendung von tiefen neuronalen Netzwerken zur Approximation der Wertefunktion führt jedoch zu Bedenken hinsichtlich der Stabilität der Entscheidungsgrenze, insbesondere in Bezug auf die Empfindlichkeit der Entscheidungsfindung gegenüber nicht erkennbaren, nicht robusten Merkmalen aufgrund hochgradig nicht-konvexer und komplexer neuronaler Tiefenmanigfaltigkeiten. Diese Bedenken stellen ein Hindernis für das Verständnis der von tiefen neuronalen Richtlinien getroffenen Entscheidungen und ihrer grundlegenden Einschränkungen dar. Daher ist es entscheidend, Techniken zu entwickeln, die darauf abzielen, die Empfindlichkeiten in den erlernten Darstellungen von neuronalen Netzwerkrichtlinien zu verstehen. Um dies zu erreichen, führen wir eine theoretisch fundierte Methode ein, die eine systematische Analyse der instabilen Richtungen an der Entscheidungsgrenze der tiefen neuronalen Richtlinie über Zeit und Raum hinweg ermöglicht. Durch Experimente in der Arcade Learning Environment (ALE) zeigen wir die Wirksamkeit unserer Technik bei der Identifizierung korrelierter instabiler Richtungen und bei der Messung, wie Stichprobenverschiebungen die Menge der sensiblen Richtungen in der neuronalen Richtlinienlandschaft umformen. Am wichtigsten ist, dass wir zeigen, dass robuste Trainingstechniken auf dem neuesten Stand des Wissens das Lernen von voneinander getrennten instabilen Richtungen ermöglichen, die im Vergleich zum Standardtraining über die Zeit dramatisch größere Oszillationen aufweisen. Wir glauben, dass unsere Ergebnisse die grundlegenden Eigenschaften des Entscheidungsprozesses, der von Richtlinien des verstärkenden Lernens getroffen wird, aufzeigen und dabei helfen können, zuverlässige und robuste tiefe neuronale Richtlinien zu erstellen.
Der jüngste Erfolg von interleaved Large Multimodal Models (LMMs) im Few-Shot-Learning legt nahe, dass das Lernen im Kontext (ICL) mit vielen Beispielen vielversprechend sein kann, um neue Aufgaben zu erlernen. Allerdings hat dieses Many-Shot-Multimodal-ICL-Setting ein entscheidendes Problem: Es ist grundsätzlich durch die Länge des Kontexts begrenzt, die beim Pretraining des Modells festgelegt ist. Das Problem ist insbesondere im Multimodalbereich, der sowohl Texte als auch Bilder verarbeitet und zusätzliche Tokens erfordert, besonders ausgeprägt. Dies macht die Notwendigkeit eines multimodalen Verfahrens zur Kompression vieler Aufnahmen in weniger Tokens ohne Feinabstimmung deutlich. In dieser Arbeit ermöglichen wir es LMMs, multimodales, many-shot In-Context-Learning durch die Nutzung von Multimodal Task Vectors (MTV) zu realisieren - kompakte implizite Repräsentationen von in-Kontext-Beispielen, die in den Aufmerksamkeitsköpfen des Modells komprimiert sind. Konkret zeigen wir zunächst die Existenz solcher MTV in LMMs auf und nutzen dann diese extrahierten MTV, um many-shot In-Context-Learning für verschiedene Vision-and-Language-Aufgaben zu ermöglichen. Unsere Experimente legen nahe, dass MTV in der Leistung mit der Anzahl der komprimierten Aufnahmen skalieren kann und sich auf ähnliche Out-of-Domain-Aufgaben generalisieren lässt, ohne zusätzliche Kontextlänge für die Inferenz.
Der Dienst großer Sprachmodelle (LLM) hat sich von zustandslosen zu zustandsbehafteten Systemen transformiert, die Techniken wie Kontextzwischenspeicherung und disaggregierte Inferenz nutzen. Diese Optimierungen verlängern die Lebensdauer und den Anwendungsbereich des KV-Caches und erfordern einen neuen architektonischen Ansatz. Wir stellen MemServe vor, ein vereinheitlichtes System, das sowohl inter-Request- als auch intra-Request-Optimierungen integriert. MemServe führt MemPool ein, einen elastischen Speicherpool, der verteilten Speicher und KV-Caches über Servicestellen verwaltet. Mithilfe von MemPool-APIs kombiniert MemServe erstmals Kontextzwischenspeicherung mit disaggregierter Inferenz, unterstützt durch einen globalen Scheduler, der die Cache-Wiederverwendung durch eine global prompt-baum-basierte lokalitätsbewusste Richtlinie verbessert. Tests zeigen, dass MemServe die Jobabschlusszeit und die Zeit bis zur ersten Ausführung signifikant verbessert.