Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Informationen kommen in verschiedenen Modalitäten. Multimodale native KI-Modelle sind entscheidend, um Informationen aus der realen Welt zu integrieren und ein umfassendes Verständnis zu vermitteln. Obwohl proprietäre multimodale native Modelle existieren, stellen ihre mangelnde Offenheit Hindernisse für die Übernahme, geschweige denn Anpassung, dar. Um diese Lücke zu schließen, stellen wir Aria vor, ein offenes multimodales natives Modell mit erstklassiger Leistung in einer Vielzahl von multimodalen, sprachlichen und kodierenden Aufgaben. Aria ist ein Mixture-of-Expert-Modell mit 3,9 Mrd. und 3,5 Mrd. aktivierten Parametern pro visuellem Token und Texttoken. Es übertrifft Pixtral-12B und Llama3.2-11B und ist wettbewerbsfähig gegenüber den besten proprietären Modellen in verschiedenen multimodalen Aufgaben. Wir trainieren Aria von Grund auf neu in einem 4-stufigen Prozess, der das Modell schrittweise mit starken Fähigkeiten in der Sprach- und multimodalen Verarbeitung, einem langen Kontextfenster und der Befolgung von Anweisungen ausstattet. Wir stellen die Modellgewichte als Open Source zur Verfügung, zusammen mit einem Code-Framework, das eine einfache Übernahme und Anpassung von Aria in Anwendungen der realen Welt ermöglicht.
Große Sprachmodelle (LLMs) zeigen ein signifikantes Potenzial in wirtschaftlichen und strategischen Interaktionen, bei denen die Kommunikation über natürliche Sprache häufig vorkommt. Dies wirft wichtige Fragen auf: Verhalten sich LLMs rational? Können sie menschliches Verhalten imitieren? Neigen sie dazu, zu einem effizienten und fairen Ergebnis zu gelangen? Was ist die Rolle natürlicher Sprache in der strategischen Interaktion? Wie beeinflussen die Merkmale des wirtschaftlichen Umfelds diese Dynamiken? Diese Fragen werden im Hinblick auf die wirtschaftlichen und gesellschaftlichen Auswirkungen der Integration von LLM-basierten Agenten in datengesteuerte Systeme der realen Welt, wie Online-Handelsplattformen und Empfehlungssysteme, entscheidend. Während die ML-Gemeinschaft das Potenzial von LLMs in solchen Multi-Agenten-Szenarien erkundet hat, machen unterschiedliche Annahmen, Designentscheidungen und Bewertungskriterien in den Studien es schwierig, robuste und aussagekräftige Schlussfolgerungen zu ziehen. Um dies anzugehen, führen wir einen Maßstab ein, um die Forschung zu Zwei-Spieler-, sequenziellen, sprachbasierten Spielen zu standardisieren. Inspiriert von der wirtschaftlichen Literatur definieren wir drei Grundfamilien von Spielen mit konsistenter Parametrisierung, Freiheitsgraden und wirtschaftlichen Maßen zur Bewertung der Leistung der Agenten (Eigeninteresse) sowie des Spielausgangs (Effizienz und Fairness). Wir entwickeln ein Open-Source-Framework für die Interaktionssimulation und -analyse und nutzen es, um einen Datensatz von LLM vs. LLM-Interaktionen über zahlreiche Spielkonfigurationen und einen zusätzlichen Datensatz von Mensch vs. LLM-Interaktionen zu sammeln. Durch umfangreiche Experimente zeigen wir, wie unser Framework und Datensatz genutzt werden können, um: (i) das Verhalten von LLM-basierten Agenten mit dem menschlicher Spieler in verschiedenen wirtschaftlichen Kontexten zu vergleichen; (ii) Agenten anhand von individuellen und kollektiven Leistungskennzahlen zu bewerten; und (iii) den Effekt der wirtschaftlichen Merkmale der Umgebungen auf das Verhalten der Agenten zu quantifizieren.
In jüngster Zeit haben Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) signifikante Fortschritte gezeigt; jedoch weisen diese Modelle eine bemerkenswerte Einschränkung auf, die wir als "Gesichtsblindheit" bezeichnen. Speziell können sie zwar allgemeine Gespräche führen, scheitern jedoch daran, personalisierte Dialoge mit bestimmten Personen zu führen. Diese Defizienz behindert die Anwendung von MLLMs in personalisierten Umgebungen, wie maßgeschneiderten visuellen Assistenten auf mobilen Geräten oder Haushaltsrobotern, die Familienmitglieder erkennen müssen. In diesem Paper stellen wir Personalized Visual Instruction Tuning (PVIT) vor, ein neuartiges Datenkuratierungs- und Schulungsframework, das entwickelt wurde, um MLLMs zu befähigen, Zielpersonen in einem Bild zu identifizieren und personalisierte und kohärente Dialoge zu führen. Unser Ansatz beinhaltet die Entwicklung einer ausgeklügelten Pipeline, die autonom Schulungsdaten mit personalisierten Gesprächen generiert. Diese Pipeline nutzt die Fähigkeiten verschiedener visueller Experten, Bildgenerierungsmodelle und (multimodale) große Sprachmodelle. Zur Bewertung des personalisierten Potenzials von MLLMs präsentieren wir einen Benchmark namens P-Bench, der verschiedene Fragetypen mit unterschiedlichen Schwierigkeitsgraden umfasst. Die Experimente zeigen eine deutliche Verbesserung der personalisierten Leistung nach Feinabstimmung mit unserem kuratierten Datensatz.
Wir stellen Pixtral-12B vor, ein multimodales Sprachmodell mit 12 Milliarden Parametern. Pixtral-12B ist darauf trainiert, sowohl natürliche Bilder als auch Dokumente zu verstehen und erzielt führende Leistungen in verschiedenen multimodalen Benchmarks, wobei es eine Reihe größerer Modelle übertrifft. Im Gegensatz zu vielen Open-Source-Modellen ist Pixtral auch ein hochmoderner Text-Encoder seiner Größe und geht keine Kompromisse bei der Leistung in natürlicher Sprache ein, um in multimodalen Aufgaben herauszuragen. Pixtral verwendet einen neuen Vision-Encoder, der von Grund auf trainiert wurde, was es ihm ermöglicht, Bilder in ihrer natürlichen Auflösung und Seitenverhältnis zu verarbeiten. Dies gibt den Benutzern Flexibilität hinsichtlich der Anzahl der Tokens, die zur Verarbeitung eines Bildes verwendet werden. Pixtral ist auch in der Lage, eine beliebige Anzahl von Bildern in seinem langen Kontextfenster von 128K Tokens zu verarbeiten. Pixtral 12B übertrifft deutlich andere Open-Modelle ähnlicher Größe (Llama-3.2 11B \& Qwen-2-VL 7B). Es übertrifft auch wesentlich größere Open-Modelle wie Llama-3.2 90B, während es siebenmal kleiner ist. Wir tragen außerdem einen Open-Source-Benchmark, MM-MT-Bench, zur Bewertung von Vision-Sprach-Modellen in praktischen Szenarien bei und bieten eine detaillierte Analyse und Code für standardisierte Bewertungsprotokolle für multimodale LLMs. Pixtral-12B wird unter der Apache 2.0 Lizenz veröffentlicht.
Dieses Paper stellt F5-TTS vor, ein vollständig nicht-autoregressives Text-zu-Sprache-System, das auf Flussabgleich mit Diffusionstransformator (DiT) basiert. Ohne komplexe Designs wie Dauermodell, Textkodierer und Phonemausrichtung zu benötigen, wird der Texteingang einfach mit Fülltokens auf die gleiche Länge wie der Spracheingang gepolstert, und dann wird das Rauschen für die Spracherzeugung durchgeführt, was ursprünglich von E2 TTS als machbar erwiesen wurde. Allerdings macht das ursprüngliche Design von E2 TTS das Folgen aufgrund seiner langsamen Konvergenz und geringen Robustheit schwierig. Um diese Probleme anzugehen, modellieren wir zunächst den Eingang mit ConvNeXt, um die Textrepräsentation zu verfeinern und sie leicht mit der Sprache abzugleichen. Wir schlagen außerdem eine Inferenzzeit-Sway-Sampling-Strategie vor, die die Leistung und Effizienz unseres Modells signifikant verbessert. Diese Sampling-Strategie für den Flussschritt kann leicht auf bestehende auf Flussabgleich basierende Modelle angewendet werden, ohne dass eine Neuschulung erforderlich ist. Unser Design ermöglicht ein schnelleres Training und erreicht eine Inferenz-RTF von 0,15, was im Vergleich zu state-of-the-art diffusionsbasierten TTS-Modellen erheblich verbessert ist. Trainiert auf einem öffentlichen 100.000 Stunden multilingualen Datensatz, zeigt unser Fairytaler Fakes Fluent and Faithful Speech with Flow Matching (F5-TTS) eine sehr natürliche und ausdrucksstarke Zero-Shot-Fähigkeit, nahtlose Code-Switching-Fähigkeit und Effizienz bei der Geschwindigkeitssteuerung. Demomuster finden Sie unter https://SWivid.github.io/F5-TTS. Wir veröffentlichen alle Codes und Kontrollpunkte, um die Entwicklung in der Community zu fördern.
Text-zu-Video (T2V) Modelle wie Sora haben bedeutende Fortschritte bei der Visualisierung komplexer Eingaben erzielt, was zunehmend als vielversprechender Weg zur Konstruktion des universellen Weltsimulators angesehen wird. Kognitive Psychologen glauben, dass die Grundlage für die Erreichung dieses Ziels die Fähigkeit ist, intuitive Physik zu verstehen. Die Fähigkeit dieser Modelle, intuitive Physik genau darzustellen, bleibt jedoch weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir PhyGenBench vor, einen umfassenden Physik-Generierungs-Benchmark, der entworfen wurde, um die physikalische Alltagslogik in der T2V-Generierung zu bewerten. PhyGenBench umfasst 160 sorgfältig erstellte Eingaben über 27 verschiedene physikalische Gesetze, die vier grundlegende Bereiche abdecken und die das Verständnis der Modelle für physikalische Alltagslogik umfassend bewerten können. Neben PhyGenBench schlagen wir ein neuartiges Bewertungsframework namens PhyGenEval vor. Dieses Framework verwendet eine hierarchische Bewertungsstruktur, die geeignete fortschrittliche Bild-Sprach-Modelle und große Sprachmodelle einsetzt, um die physikalische Alltagslogik zu bewerten. Durch PhyGenBench und PhyGenEval können wir groß angelegte automatisierte Bewertungen des Verständnisses von T2V-Modellen für physikalische Alltagslogik durchführen, die eng mit menschlichem Feedback übereinstimmen. Unsere Bewertungsergebnisse und eingehende Analyse zeigen, dass aktuelle Modelle Schwierigkeiten haben, Videos zu generieren, die mit physikalischer Alltagslogik übereinstimmen. Darüber hinaus reicht es nicht aus, Modelle einfach zu skalieren oder Eingabetechniken zu verwenden, um die von PhyGenBench aufgeworfenen Herausforderungen (z. B. dynamische Szenarien) vollständig anzugehen. Wir hoffen, dass diese Studie die Gemeinschaft dazu inspirieren wird, das Lernen von physikalischer Alltagslogik in diesen Modellen über Unterhaltungsanwendungen hinaus zu priorisieren. Wir werden die Daten und Codes unter https://github.com/OpenGVLab/PhyGenBench veröffentlichen.
Fortgeschrittene Diffusionsmodelle wie RPG, Stable Diffusion 3 und FLUX haben bedeutende Fortschritte bei der kompositorischen Text-zu-Bild-Generierung gemacht. Diese Methoden zeigen jedoch typischerweise unterschiedliche Stärken bei der kompositorischen Generierung, wobei einige sich in der Behandlung von Attributbindung hervortun und andere in räumlichen Beziehungen. Diese Diskrepanz unterstreicht die Notwendigkeit eines Ansatzes, der die ergänzenden Stärken verschiedener Modelle nutzen kann, um die Kompositionsleistung umfassend zu verbessern. Zu diesem Zweck stellen wir IterComp vor, ein neuartiges Framework, das kompositionsbezogene Modellpräferenzen aus mehreren Modellen aggregiert und einen iterativen Feedback-Lernansatz zur Verbesserung der kompositorischen Generierung verwendet. Konkret kuratieren wir eine Galerie von sechs leistungsstarken Open-Source-Diffusionsmodellen und bewerten ihre drei wichtigsten kompositorischen Metriken: Attributbindung, räumliche Beziehungen und nicht-räumliche Beziehungen. Basierend auf diesen Metriken entwickeln wir einen kompositionsbezogenen Modellpräferenzdatensatz, der zahlreiche Bild-Rang-Paare umfasst, um kompositionsbezogene Belohnungsmodelle zu trainieren. Anschließend schlagen wir eine iterative Feedback-Lernmethode vor, um die Kompositionalität in einer geschlossenen Schleife zu verbessern, die die progressive Selbstverfeinerung sowohl des Basismodells als auch der Belohnungsmodelle über mehrere Iterationen ermöglicht. Theoretischer Nachweis zeigt die Wirksamkeit, und umfangreiche Experimente zeigen unsere signifikante Überlegenheit gegenüber früheren SOTA-Methoden (z. B. Omost und FLUX), insbesondere bei der Mehrkategorie-Objektkomposition und der komplexen semantischen Ausrichtung. IterComp eröffnet neue Forschungswege im Bereich des Belohnungs-Feedback-Lernens für Diffusionsmodelle und kompositorische Generierung. Code: https://github.com/YangLing0818/IterComp
Die Videogenerierung erfordert die Modellierung eines umfangreichen raumzeitlichen Raums, was erhebliche Rechenressourcen und Datenverwendung erfordert. Um die Komplexität zu reduzieren, verwenden die vorherrschenden Ansätze eine gestufte Architektur, um ein direktes Training mit voller Auflösung zu vermeiden. Obwohl die Reduzierung der Rechenanforderungen, die separate Optimierung jedes Unterabschnitts das Teilen von Wissen behindert und die Flexibilität einschränkt. Diese Arbeit stellt einen vereinheitlichten pyramidenförmigen Flussabgleichsalgorithmus vor. Er interpretiert die ursprüngliche Rauschunterdrückungsbahn als eine Reihe von Pyramidenstufen neu, wobei nur die letzte Stufe mit voller Auflösung arbeitet, was eine effizientere Videogenerierungsmodellierung ermöglicht. Durch unser ausgeklügeltes Design können die Flüsse verschiedener Pyramidenstufen miteinander verknüpft werden, um die Kontinuität aufrechtzuerhalten. Darüber hinaus gestalten wir die autoregressive Videogenerierung mit einer zeitlichen Pyramide, um die vollständige Auflösungsgeschichte zu komprimieren. Das gesamte Framework kann auf eine durchgängige Weise und mit einem einzigen vereinheitlichten Diffusions-Transformer (DiT) optimiert werden. Umfangreiche Experimente zeigen, dass unsere Methode die Generierung hochwertiger 5-Sekunden- (bis zu 10-Sekunden-) Videos mit einer Auflösung von 768p und 24 FPS innerhalb von 20,7k A100 GPU-Trainingsstunden unterstützt. Der gesamte Code und die Modelle werden unter https://pyramid-flow.github.io open-source veröffentlicht.
Wir präsentieren die Modality Integration Rate (MIR), eine effektive, robuste und generalisierte Metrik zur Anzeige der multimodalen Vor-Training-Qualität von Large Vision Language Models (LVLMs). Das groß angelegte Vor-Training spielt eine entscheidende Rolle beim Aufbau leistungsfähiger LVLMs, während die Bewertung seiner Trainingsqualität ohne die kostspielige überwachte Feinabstimmungsphase untererforscht ist. Verlust, Perplexität und In-Kontext-Evaluierungsergebnisse sind übliche Vor-Training-Metriken für Large Language Models (LLMs), während wir beobachtet haben, dass diese Metriken weniger aussagekräftig sind, wenn es darum geht, einen gut trainierten LLM mit einer neuen Modalität in Einklang zu bringen. Aufgrund des Mangels an geeigneten Metriken wird die Forschung an LVLMs in der kritischen Vor-Training-Phase erheblich behindert, einschließlich der Wahl der Trainingsdaten, effizienten Modulentwurfs usw. In diesem Paper schlagen wir vor, die Vor-Training-Qualität aus der Perspektive des intermodalen Verteilungsabstands zu bewerten und präsentieren MIR, die Modality Integration Rate, die 1) Effektiv ist, um die Vor-Training-Qualität darzustellen und eine positive Beziehung zur Benchmark-Leistung nach überwachter Feinabstimmung aufzeigt. 2) Robust gegenüber unterschiedlichen Trainings-/Evaluierungsdaten ist. 3) Sich über verschiedene Trainingskonfigurationen und Architekturwahl generalisieren lässt. Wir führen eine Reihe von Vor-Training-Experimenten durch, um die Wirksamkeit von MIR zu erkunden und beobachten zufriedenstellende Ergebnisse, die darauf hindeuten, dass MIR aussagekräftig ist hinsichtlich der Auswahl der Trainingsdaten, des Trainingsstrategie-Zeitplans und des Modellarchitekturdesigns, um bessere Vor-Training-Ergebnisse zu erzielen. Wir hoffen, dass MIR eine hilfreiche Metrik für den Aufbau leistungsfähiger LVLMs sein könnte und die folgende Forschung zur Modalitätsausrichtung in verschiedenen Bereichen inspiriert. Unser Code befindet sich unter: https://github.com/shikiw/Modality-Integration-Rate.
In diesem technischen Bericht präsentieren wir Falcon Mamba 7B, ein neues großes Basissprachmodell, das auf der neuartigen Mamba-Architektur basiert. Falcon Mamba 7B wurde auf 5,8 Billionen Tokens mit sorgfältig ausgewählten Datengemischen trainiert. Als reines Mamba-basiertes Modell übertrifft Falcon Mamba 7B führende Open-Weight-Modelle auf Transformer-Basis wie Mistral 7B, Llama3.1 8B und Falcon2 11B. Es steht auf Augenhöhe mit Gemma 7B und übertrifft Modelle mit unterschiedlichen Architekturentwürfen wie RecurrentGemma 9B und RWKV-v6 Finch 7B/14B. Derzeit ist Falcon Mamba 7B das leistungsstärkste Mamba-Modell in der Literatur in diesem Maßstab und übertrifft sowohl bestehende Mamba- als auch Hybrid-Mamba-Transformer-Modelle gemäß der Open LLM Leaderboard. Aufgrund seiner Architektur ist Falcon Mamba 7B beim Inferenzprozess signifikant schneller und erfordert wesentlich weniger Speicherplatz für die Generierung langer Sequenzen. Obwohl jüngste Studien nahelegen, dass Hybrid-Mamba-Transformer-Modelle reine Architekturentwürfe übertreffen, zeigen wir, dass selbst das reine Mamba-Design ähnliche oder sogar überlegene Ergebnisse im Vergleich zu den Transformer- und Hybrid-Designs erzielen kann. Die Gewichte unserer Implementierung von Falcon Mamba 7B sind unter einer großzügigen Lizenz öffentlich verfügbar unter https://huggingface.co/tiiuae/falcon-mamba-7b.
Dieses Papier untersucht das Zusammenspiel zwischen Vision-Backbones und Optimierern und enthüllt ein wechselseitiges Phänomen namens \textbf{Backbone-Optimizer-Kopplungsbias} (BOCB). Wir beobachten, dass klassische CNNs wie VGG und ResNet eine deutliche Wechselbeziehung mit SGD-Familien aufweisen, während neuere Architekturen wie ViTs und ConvNeXt eine enge Kopplung mit adaptiven Lernraten aufweisen. Wir zeigen weiterhin, dass BOCB sowohl von Optimierern als auch von bestimmten Backbone-Designs eingeführt werden kann und sich signifikant auf das Pre-Training und das nachgelagerte Feintuning von Vision-Modellen auswirken kann. Durch eingehende empirische Analysen fassen wir Erkenntnisse zu empfohlenen Optimierern und Einblicke in robuste Vision-Backbone-Architekturen zusammen. Wir hoffen, dass diese Arbeit die Gemeinschaft dazu inspirieren kann, langjährige Annahmen über Backbones und Optimierer zu hinterfragen, weitere Erkundungen anzuregen und so zu robusteren Visionssystemen beizutragen. Der Quellcode und die Modelle sind öffentlich unter https://bocb-ai.github.io/ verfügbar.
Diese Forschung zielt darauf ab, umfassend den Aufbau eines multimodalen Grundlagenmodells für das Verständnis von egozentrischen Videos zu erkunden. Um dieses Ziel zu erreichen, arbeiten wir auf drei Fronten. Erstens, da es an QA-Daten für das Verständnis von egozentrischen Videos mangelt, entwickeln wir eine Daten-Engine, die effizient 7M hochwertige QA-Beispiele für egozentrische Videos von 30 Sekunden bis zu einer Stunde generiert, basierend auf menschenannotierten Daten. Dies ist derzeit der größte egozentrische QA-Datensatz. Zweitens tragen wir einen anspruchsvollen egozentrischen QA-Benchmark mit 629 Videos und 7.026 Fragen bei, um die Fähigkeit der Modelle zu bewerten, visuelle Details über Videos unterschiedlicher Längen hinweg zu erkennen und zu behalten. Wir führen eine neue Entschärfungsbewertungsmethode ein, um den unvermeidlichen Sprachbias zu mildern, der in den evaluierten Modellen vorhanden ist. Drittens schlagen wir eine spezialisierte multimodale Architektur vor, die einen neuartigen Mechanismus namens "Memory Pointer Prompting" umfasst. Dieses Design beinhaltet einen globalen Blickschritt, um ein übergreifendes Verständnis des gesamten Videos zu erlangen und wichtige visuelle Informationen zu identifizieren, gefolgt von einem Ausweichschritt, der die wichtigen visuellen Informationen nutzt, um Antworten zu generieren. Dies ermöglicht es dem Modell, den erweiterten Videoinhalt effektiver zu verstehen. Mit den Daten, dem Benchmark und dem Modell bauen wir erfolgreich MM-Ego, ein egozentrisches multimodales LLM, das eine starke Leistung beim Verständnis von egozentrischen Videos zeigt.
Die Visualisierung von Geschichten, die Aufgabe, kohärente Bilder basierend auf einer Erzählung zu generieren, hat mit dem Aufkommen von Text-zu-Bild-Modellen, insbesondere Diffusionsmodellen, bedeutende Fortschritte gemacht. Die Aufrechterhaltung semantischer Konsistenz, die Generierung hochwertiger feingranularer Interaktionen und die Gewährleistung der Rechenfähigkeit bleiben jedoch herausfordernd, insbesondere bei der Visualisierung langer Geschichten (d.h. bis zu 100 Frames). In dieser Arbeit schlagen wir ein trainingsfreies und rechnerisch effizientes Framework namens Story-Adapter vor, um die generativen Fähigkeiten langer Geschichten zu verbessern. Speziell schlagen wir ein iteratives Paradigma vor, um jedes generierte Bild zu verfeinern, wobei sowohl der Textprompt als auch alle generierten Bilder aus der vorherigen Iteration genutzt werden. Zentral für unser Framework ist ein trainingsfreies globales Referenz-Cross-Attention-Modul, das alle generierten Bilder aus der vorherigen Iteration aggregiert, um semantische Konsistenz über die gesamte Geschichte hinweg zu bewahren, und gleichzeitig die Rechenkosten mit globalen Einbettungen minimiert. Dieser iterative Prozess optimiert die Bildgenerierung schrittweise, indem er wiederholt Textbeschränkungen einbezieht, was zu präziseren und feingranularen Interaktionen führt. Umfangreiche Experimente bestätigen die Überlegenheit des Story-Adapters bei der Verbesserung sowohl der semantischen Konsistenz als auch der generativen Fähigkeiten für feingranulare Interaktionen, insbesondere in langen Geschichtsszenarien. Die Projektseite und der zugehörige Code sind unter https://jwmao1.github.io/storyadapter abrufbar.
Durch die Ausrichtung an menschlichen Präferenzen haben sich Large Language Models (LLMs) erheblich verbessert, um ehrliche, harmlose und hilfreiche Antworten zu generieren. Die Sammlung hochwertiger Präferenzdaten ist jedoch ein ressourcenintensiver und kreativitätsfordernder Prozess, insbesondere für die kontinuierliche Verbesserung von LLMs. Wir stellen SynPO vor, ein selbstverstärkendes Paradigma, das synthetische Präferenzdaten zur Modellausrichtung nutzt. SynPO verwendet einen iterativen Mechanismus, bei dem ein Selbst-Prompt-Generator vielfältige Prompts erstellt und ein Antwortverbesserer die Modellantworten schrittweise verfeinert. Dieser Ansatz trainiert LLMs, um autonom die generativen Belohnungen für ihre eigenen Ausgaben zu erlernen und beseitigt die Notwendigkeit für die groß angelegte Annotation von Prompts und menschlichen Präferenzen. Nach vier SynPO-Iterationen zeigen Llama3-8B und Mistral-7B signifikante Verbesserungen in den Fähigkeiten zur Befolgung von Anweisungen und erzielen über 22,1% Verbesserungen der Gewinnrate bei AlpacaEval 2.0 und ArenaHard. Gleichzeitig verbessert SynPO die allgemeine Leistung von LLMs in verschiedenen Aufgaben, validiert durch eine durchschnittliche Punktesteigerung von 3,2 bis 5,0 auf dem renommierten Open LLM-Leaderboard.
Foundation-Modelle (FMs) werden auf umfangreichen Datensätzen vorab trainiert und anschließend für eine spezifische Anwendungsaufgabe durch Feinabstimmung optimiert. Die erfolgreichste und am häufigsten verwendete Feinabstimmungsmethode besteht darin, die vorab trainierten Gewichte mittels einer Anpassung mit niedrigem Rang (LoRA) zu aktualisieren. LoRA führt neue Gewichtsmatrizen ein, die in der Regel zufällig mit einer gleichmäßigen Rangverteilung über die Modellgewichte initialisiert werden. Aktuelle Arbeiten konzentrieren sich auf eine gewichtsgesteuerte Initialisierung oder das Lernen von adaptiven Rängen während des Trainings. Beide Ansätze wurden bisher nur isoliert untersucht, was zu langsamer Konvergenz oder einer gleichmäßigen Rangverteilung führt und somit zu suboptimaler Leistung. Wir schlagen vor, LoRA zu verbessern, indem wir die neuen Gewichte auf datengesteuerte Weise initialisieren, indem wir die Singulärwertzerlegung auf Minibatches von Aktivierungsvektoren berechnen. Anschließend initialisieren wir die LoRA-Matrizen mit den erhaltenen rechten Singulärvektoren und verteilen die Ränge unter allen Gewichtsmatrizen neu, um den maximalen Anteil der Varianz zu erklären, und setzen das Standard-LoRA-Feinabstimmungsverfahren fort. Dies führt zu unserer neuen Methode "Erklärte Varianzadaptation" (EVA). Wir wenden EVA auf eine Vielzahl von Feinabstimmungsaufgaben an, die von der Sprachgenerierung und -verarbeitung bis zur Bildklassifizierung und dem verstärkenden Lernen reichen. EVA zeigt eine schnellere Konvergenz als Konkurrenten und erzielt den höchsten durchschnittlichen Wert über eine Vielzahl von Aufgaben pro Bereich.
In diesem Paper konzentrieren wir uns darauf, ein auf Diffusion basierendes Text-zu-Video (T2V)-Modell während der Post-Training-Phase zu verbessern, indem wir ein äußerst leistungsfähiges Konsistenzmodell aus einem vorab trainierten T2V-Modell destillieren. Unsere vorgeschlagene Methode, T2V-Turbo-v2, bringt einen signifikanten Fortschritt durch die Integration verschiedener Überwachungssignale, einschließlich hochwertiger Trainingsdaten, Rückmeldungen des Belohnungsmodells und bedingter Anleitung, in den Konsistenz-Destillationsprozess. Durch umfassende Ablationsstudien heben wir die entscheidende Bedeutung der Anpassung von Datensätzen an spezifische Lernziele und die Wirksamkeit des Lernens aus verschiedenen Belohnungsmodellen hervor, um sowohl die visuelle Qualität als auch die Text-Video-Abstimmung zu verbessern. Darüber hinaus betonen wir den umfangreichen Gestaltungsspielraum von Strategien für bedingte Anleitung, der darauf abzielt, eine effektive Energiefunktion zur Verstärkung des Lehrer-ODE-Lösers zu entwerfen. Wir zeigen das Potenzial dieses Ansatzes, indem wir Bewegungsanleitungen aus den Trainingsdatensätzen extrahieren und sie in den ODE-Löser integrieren, was sich in der Verbesserung der Bewegungsqualität der generierten Videos mit den verbesserten bewegungsbezogenen Metriken von VBench und T2V-CompBench als wirksam erweist. Empirisch gesehen erreicht unser T2V-Turbo-v2 ein neues State-of-the-Art-Ergebnis auf VBench mit einem Gesamtscore von 85,13 und übertrifft proprietäre Systeme wie Gen-3 und Kling.
Große Sprachmodelle wurden erfolgreich auf Programmieraufgaben wie Code-Vervollständigung, Code-Einfügung und instruktive Code-Bearbeitung angewendet. Diese Anwendungen sind jedoch noch unzureichend automatisiert und kämpfen damit, verschiedene Arten von Informationen während des Programmierprozesses effektiv zu integrieren, einschließlich des Code-Verlaufs, des aktuellen Codes und der Benutzeranweisungen. In dieser Arbeit schlagen wir einen neuen konversationellen Rahmen vor, der diese Informationsquellen umfassend integriert, sammeln Daten zur Schulung unserer Modelle und bewerten deren Leistung. Zunächst führen wir zur gründlichen Bewertung, wie gut die Modelle mit verschiedenen Arten von Informationen übereinstimmen und die Qualität ihrer Ausgaben, einen neuen Benchmark ein, APEval (Assist Programming Eval), um die Leistung der Modelle bei Programmierunterstützungsaufgaben umfassend zu bewerten. Dann entwickeln wir zur Datensammlung eine Daten-Generierungspipeline, Programming-Instruct, die Trainingsdaten aus verschiedenen Quellen wie GitHub und Online-Judge-Plattformen synthetisiert. Diese Pipeline kann automatisch verschiedene Arten von Nachrichten während des Programmierprozesses generieren. Schließlich generieren wir mithilfe dieser Pipeline 219K Beispiele, feinabstimmen mehrere Modelle und entwickeln die CursorCore-Serie. Wir zeigen, dass CursorCore andere Modelle vergleichbarer Größe übertrifft. Dieser Rahmen vereint Anwendungen wie Inline-Chat und automatisierte Bearbeitung und trägt zur Weiterentwicklung von Code-Assistenten bei. Code, Modelle und Daten sind frei verfügbar unter https://github.com/TechxGenus/CursorCore.
Video Large Language Models (Video LLMs) haben vielversprechende Fähigkeiten in der Videoverarbeitung gezeigt, kämpfen jedoch mit der Verfolgung zeitlicher Veränderungen und dem Schlussfolgern über zeitliche Beziehungen. Während frühere Forschungen diese Begrenzung der ineffektiven zeitlichen Kodierung von visuellen Eingaben zuschrieben, zeigt unsere diagnostische Studie, dass Video-Repräsentationen ausreichende Informationen enthalten, damit selbst kleine Sondierungs-Klassifikatoren eine perfekte Genauigkeit erreichen können. Überraschenderweise stellen wir fest, dass der entscheidende Engpass in der zeitlichen Schlussfolgerungsfähigkeit von Video LLMs von der inhärenten Schwierigkeit des zugrunde liegenden LLMs mit zeitlichen Konzepten herrührt, wie durch die schlechte Leistung bei textuellen zeitlichen Frage-Antwort-Aufgaben belegt wird. Aufbauend auf dieser Entdeckung führen wir das Textuelle Temporale Schlussfolgerungs-Transfer (T3) ein. T3 synthetisiert vielfältige zeitliche Schlussfolgerungsaufgaben im reinen Textformat aus vorhandenen Bild-Text-Datensätzen und behebt so die Knappheit von Videosamples mit komplexen zeitlichen Szenarien. Bemerkenswerterweise verbessert T3 ohne Verwendung von Videodaten das Verständnis für Zeit von LongVA-7B und erzielt eine absolute Genauigkeitssteigerung von 5,3 auf dem anspruchsvollen TempCompass-Benchmark, was unserem Modell ermöglicht, ShareGPT4Video-8B zu übertreffen, der auf 28.000 Videosamples trainiert wurde. Darüber hinaus erzielt das verbesserte LongVA-7B-Modell eine wettbewerbsfähige Leistung auf umfassenden Video-Benchmarks. Zum Beispiel erreicht es eine Genauigkeit von 49,7 bei der zeitlichen Schlussfolgerungsaufgabe von Video-MME und übertrifft leistungsstarke großangelegte Modelle wie InternVL-Chat-V1.5-20B und VILA1.5-40B. Eine weitere Analyse zeigt eine starke Korrelation zwischen der Leistung bei textuellen und Video-Zeitaufgaben und bestätigt die Wirksamkeit der Übertragung zeitlicher Schlussfolgerungsfähigkeiten von Text- auf Videobereiche.
In jüngster Zeit hat der Fortschritt bei groß angelegten Text-zu-Video (T2V) und Bild-zu-Video (I2V) Diffusionsmodellen die Videogenerierung erheblich verbessert, insbesondere im Hinblick auf die Zwischenbildinterpolation. Allerdings benötigen aktuelle Bild-zu-Video Diffusionsmodelle, obwohl sie leistungsstark sind bei der Generierung von Videos aus einem einzelnen Konditionsbild, Anpassungen für die Generierung unter Konditionen von zwei Bildern (Start & Ende), was für eine effektive begrenzte Interpolation unerlässlich ist. Leider leiden bestehende Ansätze, die zeitlich vorwärts und rückwärts verlaufende Pfade parallel verschmelzen, oft unter Off-Manifold-Problemen, die zu Artefakten führen oder mehrere iterative Re-Rauschschritte erfordern. In dieser Arbeit stellen wir eine neuartige, bidirektionale Abtaststrategie vor, um diese Off-Manifold-Probleme zu lösen, ohne umfangreiche Re-Rausch- oder Feinabstimmungsschritte zu benötigen. Unsere Methode verwendet sequentielles Abtasten entlang sowohl vorwärts als auch rückwärts verlaufender Pfade, konditioniert auf die Start- und Endbilder, um eine kohärentere und on-Manifold-Generierung der Zwischenbilder sicherzustellen. Darüber hinaus integrieren wir fortgeschrittene Anleitungstechniken, CFG++ und DDS, um den Interpolationsprozess weiter zu verbessern. Durch die Integration dieser Techniken erreicht unsere Methode eine Spitzenleistung, indem sie effizient hochwertige, flüssige Videos zwischen Schlüsselbildern generiert. Auf einer einzelnen 3090 GPU kann unsere Methode in nur 195 Sekunden 25 Bilder bei einer Auflösung von 1024 x 576 interpolieren, was sie zu einer führenden Lösung für die Zwischenbildinterpolation macht.
Trotz bedeutender Fortschritte bei der Anpassung von Modellen zur Text-zu-Bild- und Videoerzeugung bleibt die Generierung von Bildern und Videos, die mehrere personalisierte Konzepte effektiv integrieren, eine anspruchsvolle Aufgabe. Um dies zu bewältigen, präsentieren wir TweedieMix, eine neuartige Methode zur Komposition von angepassten Diffusionsmodellen während der Inferenzphase. Durch die Analyse der Eigenschaften der Rückdiffusionssamplung unterteilt unser Ansatz den Sampling-Prozess in zwei Phasen. Während der ersten Schritte wenden wir eine Technik des mehrfachen objektbewussten Samplings an, um die gewünschten Zielobjekte einzuschließen. In den späteren Schritten mischen wir die Erscheinungsbilder der benutzerdefinierten Konzepte im denoisierten Bildraum mithilfe der Tweedie-Formel. Unsere Ergebnisse zeigen, dass TweedieMix mehrere personalisierte Konzepte mit höherer Treue als bestehende Methoden generieren kann. Darüber hinaus kann unser Rahmen mühelos auf Bild-zu-Video-Diffusionsmodelle erweitert werden, was die Generierung von Videos ermöglicht, die mehrere personalisierte Konzepte enthalten. Ergebnisse und Quellcode sind auf unserer anonymen Projektseite verfügbar.
Die Anpassung von Anweisungen - überwachtes Feintuning unter Verwendung von Anweisungs-Antwort-Paaren - ist ein grundlegender Schritt bei der Überführung vorab trainierter großer Sprachmodelle (LLMs) in hilfreiche und sichere Chat-Assistenten. Unsere Hypothese besagt, dass die Schaffung eines angemessenen Ausgaberaums einen solchen Übergang ermöglichen kann, angesichts der Fähigkeiten, die in vorab trainierten LLMs angelegt sind. Zur Überprüfung schlagen wir die Response-Anpassung (RT) vor, die den Anweisungs-Konditionierungsschritt beim Anpassen von Anweisungen eliminiert und sich ausschließlich auf die Überwachung des Antwortraums konzentriert. Unsere Experimente zeigen, dass RT-Modelle, die nur mit Antworten trainiert wurden, effektiv auf eine Vielzahl von Anweisungen reagieren können und eine Hilfsbereitschaft aufweisen, die mit der ihrer anweisungsangepassten Gegenstücke vergleichbar ist. Darüber hinaus beobachten wir, dass die Kontrolle der Trainingsantwortverteilung ihre Benutzerpräferenz signifikant verbessern oder Zielverhaltensweisen wie die Ablehnung von Hilfe bei unsicheren Anfragen hervorrufen kann. Unsere Ergebnisse verdeutlichen die Rolle der Schaffung eines angemessenen Ausgaberaums in der Ausrichtung und heben das Potenzial der umfangreichen inhärenten Fähigkeiten vorab trainierter LLMs hervor.
In diesem Paper schlagen wir AutoDAN-Turbo vor, eine Black-Box-Jailbreak-Methode, die automatisch so viele Jailbreak-Strategien wie möglich von Grund auf entdecken kann, ohne jegliches menschliches Eingreifen oder vordefinierte Bereiche (z. B. spezifizierte Kandidatenstrategien), und sie für Red-Teaming verwenden kann. Als Ergebnis kann AutoDAN-Turbo signifikant bessere Leistungen als Basisverfahren erzielen und eine durchschnittliche Angriffserfolgsrate von 74,3 % auf öffentlichen Benchmarks erreichen. Bemerkenswert ist, dass AutoDAN-Turbo eine Angriffserfolgsrate von 88,5 % bei GPT-4-1106-turbo erreicht. Darüber hinaus ist AutoDAN-Turbo ein einheitlicher Rahmen, der vorhandene menschlich konzipierte Jailbreak-Strategien auf Plug-and-Play-Art integrieren kann. Durch die Integration von menschlich konzipierten Strategien kann AutoDAN-Turbo sogar eine höhere Angriffserfolgsrate von 93,4 % bei GPT-4-1106-turbo erreichen.
In jüngster Zeit haben Fortschritte in Diffusionsmodellen außergewöhnliche Fähigkeiten bei der Bild- und Videogenerierung gezeigt und die Effektivität der 4D-Synthese weiter verbessert. Bestehende 4D-Generierungsmethoden können hochwertige 4D-Objekte oder Szenen unter benutzerfreundlichen Bedingungen generieren, was der Gaming- und Videobranche zugutekommt. Allerdings haben diese Methoden Schwierigkeiten, signifikante Objektverformungen komplexer 4D-Übergänge und Interaktionen innerhalb von Szenen zu synthetisieren. Um diese Herausforderung anzugehen, schlagen wir Trans4D vor, ein neuartiges Text-zu-4D-Synthese-Framework, das realistische komplexe Szenenübergänge ermöglicht. Konkret verwenden wir zunächst multimodale große Sprachmodelle (MLLMs), um eine physikbewusste Szenenbeschreibung für die 4D-Szeneninitialisierung und die effektive Planung der Übergangszeit zu erstellen. Anschließend schlagen wir ein geometriebewusstes 4D-Übergangsnetzwerk vor, um einen komplexen Szenen-4D-Übergang basierend auf dem Plan zu realisieren, der eine ausdrucksstarke geometrische Objektverformung beinhaltet. Umfangreiche Experimente zeigen, dass Trans4D kontinuierlich die bestehenden State-of-the-Art-Methoden in der Generierung von 4D-Szenen mit genauen und hochwertigen Übergängen übertrifft und damit seine Wirksamkeit bestätigt. Code: https://github.com/YangLing0818/Trans4D
Multimodale Large Language Models (MLLMs) entwickeln sich rasant weiter und zeigen beeindruckende Fähigkeiten als multimodale Assistenten, die mit Menschen und ihrer Umgebung interagieren. Diese gesteigerte Raffinesse bringt jedoch erhebliche Sicherheitsbedenken mit sich. In diesem Artikel präsentieren wir die erste Bewertung und Analyse einer neuartigen Sicherheitsherausforderung namens Multimodale Situationssicherheit, die untersucht, wie Sicherheitsüberlegungen je nach der spezifischen Situation, in der der Benutzer oder Agent involviert ist, variieren. Wir argumentieren, dass ein MLLM, um sicher zu reagieren, sei es durch Sprache oder Handlung, oft die Sicherheitsimplikationen einer Sprachabfrage innerhalb ihres entsprechenden visuellen Kontexts bewerten muss. Zur Bewertung dieser Fähigkeit entwickeln wir das Benchmark für Multimodale Situationssicherheit (MSSBench), um die Leistung der aktuellen MLLMs in Bezug auf die situationsspezifische Sicherheit zu bewerten. Der Datensatz umfasst 1.820 Sprachabfrage-Bild-Paare, von denen die Hälfte des Bildkontexts sicher ist und die andere Hälfte unsicher ist. Wir entwickeln auch einen Bewertungsrahmen, der wichtige Sicherheitsaspekte analysiert, einschließlich expliziter Sicherheitsbegründung, visuellem Verständnis und vor allem situationsspezifischer Sicherheitsbegründung. Unsere Ergebnisse zeigen, dass aktuelle MLLMs mit diesem nuancierten Sicherheitsproblem im Anweisungsfolge-Setting kämpfen und Schwierigkeiten haben, diese situationsspezifischen Sicherheitsherausforderungen gleichzeitig zu bewältigen, was einen wichtigen Bereich für zukünftige Forschung hervorhebt. Darüber hinaus entwickeln wir Multi-Agenten-Pipelines zur koordinierten Lösung von Sicherheitsherausforderungen, was eine konsistente Verbesserung der Sicherheit gegenüber der ursprünglichen MLLM-Antwort zeigt. Code und Daten: mssbench.github.io.
Die Text-zu-Video (T2V)-Generierungsmodelle, die eine bequeme visuelle Erstellung bieten, haben in letzter Zeit zunehmend Aufmerksamkeit erregt. Trotz ihres erheblichen Potenzials können die generierten Videos Artefakte aufweisen, darunter strukturelle Unplausibilität, zeitliche Inkonsistenz und ein Mangel an Bewegung, was häufig zu nahezu statischen Videos führt. In dieser Arbeit haben wir eine Korrelation zwischen der Diskrepanz der zeitlichen Aufmerksamkeitskarten in verschiedenen Blöcken und dem Auftreten von zeitlichen Inkonsistenzen identifiziert. Darüber hinaus haben wir beobachtet, dass die Energie innerhalb der zeitlichen Aufmerksamkeitskarten direkt mit der Größenordnung der Bewegungsamplitude in den generierten Videos zusammenhängt. Basierend auf diesen Beobachtungen präsentieren wir BroadWay, eine trainingsfreie Methode zur Verbesserung der Qualität der Text-zu-Video-Generierung, ohne zusätzliche Parameter einzuführen, den Speicher zu erweitern oder die Abtastzeit zu erhöhen. Konkret besteht BroadWay aus zwei Hauptkomponenten: 1) Die temporale Selbstführung verbessert die strukturelle Plausibilität und zeitliche Konsistenz der generierten Videos, indem die Diskrepanz zwischen den zeitlichen Aufmerksamkeitskarten in verschiedenen Decoder-Blöcken verringert wird. 2) Die Fourier-basierte Bewegungsverstärkung verbessert die Größenordnung und Fülle der Bewegung, indem die Energie der Karte verstärkt wird. Umfangreiche Experimente zeigen, dass BroadWay die Qualität der Text-zu-Video-Generierung signifikant verbessert, ohne nennenswerte zusätzliche Kosten zu verursachen.
Generative Modelle transformieren kreative Bereiche wie die Musikgenerierung, wobei Inferenzzeitstrategien wie der klassifiziererfreie Leitfaden (CFG) eine entscheidende Rolle spielen. Allerdings verdoppelt CFG die Inferenzkosten, während es die Originalität und Vielfalt der generierten Inhalte einschränkt. In diesem Paper stellen wir die diversitätsbelohnte CFG-Destillation vor, ein neuartiges Feinabstimmungsverfahren, das die Stärken von CFG destilliert und gleichzeitig seine Grenzen angeht. Unser Ansatz optimiert zwei Trainingsziele: (1) ein Destillationsziel, das das Modell allein (ohne CFG) dazu ermutigt, die durch CFG erweiterten Vorhersagen zu imitieren, und (2) ein RL-Ziel mit einer Diversitätsbelohnung, das die Generierung verschiedener Ausgaben für eine gegebene Eingabe fördert. Durch die Feinabstimmung lernen wir Modellgewichte mit der Fähigkeit, hochwertige und vielfältige Ausgaben zu generieren, ohne zusätzlichen Inferenzaufwand. Dies erschließt auch das Potenzial von gewichtsbasierten Modellzusammenführungsstrategien: indem wir zwischen den Gewichten zweier Modelle interpolieren (das erste konzentriert sich auf Qualität, das zweite auf Vielfalt), können wir den Qualität-Vielfalt-Ausgleich zur Bereitstellungszeit steuern und die Leistung sogar weiter steigern. Wir führen umfangreiche Experimente mit dem MusicLM (Agostinelli et al., 2023) Text-zu-Musik-generierenden Modell durch, bei denen unser Ansatz die CFG in Bezug auf die Pareto-Optimalität von Qualität und Vielfalt übertrifft. Laut menschlichen Evaluatoren generiert unser feinabgestimmtes und dann fusioniertes Modell Proben mit einer höheren Qualität und Vielfalt als das Basismodell, das mit CFG erweitert wurde. Erkunden Sie unsere Generationen unter https://google-research.github.io/seanet/musiclm/diverse_music/.
Diese Arbeit untersucht die Auswahl hochwertiger Vor-Trainingsdaten aus umfangreichen Korpora, um die Fähigkeiten von Sprachmodellen (LMs) für den nachgelagerten Gebrauch zu verbessern. Wir formulieren die Datenauswahl als ein verallgemeinertes Optimalsteuerungsproblem, das theoretisch mit dem Maximumsprinzip von Pontryagin (PMP) gelöst werden kann. Dies liefert eine Reihe von notwendigen Bedingungen, die die Beziehung zwischen optimaler Datenauswahl und den Trainingsdynamiken von LMs charakterisieren. Basierend auf diesen theoretischen Ergebnissen stellen wir die PMP-basierte Datenauswahl (PDS) vor, ein Framework, das die optimale Datenauswahl approximiert, indem es die PMP-Bedingungen löst. In unseren Experimenten verwenden wir PDS, um Daten aus CommonCrawl auszuwählen und zeigen, dass das von PDS ausgewählte Korpus das Lernen von LMs beschleunigt und kontinuierlich deren Leistung bei einer Vielzahl von nachgelagerten Aufgaben über verschiedene Modellgrößen hinweg steigert. Darüber hinaus erstrecken sich die Vorteile von PDS auf ~400B-Modelle, die auf ~10T Tokens trainiert wurden, wie durch die Extrapolation der Testverlustkurven gemäß den Skalierungsgesetzen belegt wird. PDS verbessert auch die Datennutzung, wenn die Vor-Trainingsdaten begrenzt sind, indem der Datenbedarf um das 1,8-fache reduziert wird, was der schnellen Erschöpfung verfügbarer web-gecrawlt Korpora entgegenwirkt. Unser Code, Daten und Modell-Checkpoints finden sich unter https://github.com/microsoft/LMOps/tree/main/data_selection.
Video-Temporales Begründen (VTG) ist eine entscheidende Fähigkeit für Videoverständnismodelle und spielt eine wichtige Rolle bei nachgelagerten Aufgaben wie Video-Durchsuchen und -Bearbeiten. Um verschiedene Aufgaben gleichzeitig effektiv zu bewältigen und Null-Schuss-Vorhersagen zu ermöglichen, gibt es einen wachsenden Trend, Video-LLMs für VTG-Aufgaben einzusetzen. Allerdings stützen sich aktuelle Video-LLM-basierte Methoden ausschließlich auf die natürliche Sprachgenerierung, was ihnen die Fähigkeit nimmt, die klare Struktur, die in Videos angelegt ist, zu modellieren, was ihre Effektivität bei der Bewältigung von VTG-Aufgaben einschränkt. Um dieses Problem anzugehen, führt diese Arbeit zunächst formell das kausale Ereignismodellierungs-Framework ein, das Videos als Sequenzen von Ereignissen darstellt und das aktuelle Ereignis mithilfe vorheriger Ereignisse, Videoeingaben und textueller Anweisungen vorhersagt. Jedes Ereignis besteht aus drei Komponenten: Zeitstempel, herausragende Punktzahlen und textuelle Bildunterschriften. Anschließend schlagen wir einen neuartigen aufgabeninterleavierten Video-LLM namens TRACE vor, um das kausale Ereignismodellierungs-Framework in der Praxis effektiv umzusetzen. TRACE verarbeitet visuelle Frames, Zeitstempel, herausragende Punktzahlen und Text als separate Aufgaben und verwendet verschiedene Encoder und Decodierköpfe für jede Aufgabe. Aufgabentoken werden gemäß der Formulierung des kausalen Ereignismodellierungs-Frameworks in einer interleavierten Sequenz angeordnet. Umfangreiche Experimente zu verschiedenen VTG-Aufgaben und Datensätzen zeigen die überlegene Leistung von TRACE im Vergleich zu führenden Video-LLMs. Unser Modell und Code sind unter https://github.com/gyxxyg/TRACE verfügbar.
Da multimodale große Sprachmodelle (MLLMs) weiterhin eine zunehmend wettbewerbsfähige Leistung über ein breites Spektrum von Aufgaben zeigen, wurden komplexere und umfassendere Benchmarks entwickelt, um diese modernen Modelle zu bewerten. Diese Benchmarks stellen neue Herausforderungen an Kernfähigkeiten wie Wahrnehmung, Schlussfolgerung und Planung dar. Allerdings fehlt es bestehenden multimodalen Benchmarks an einer gezielten Bewertung von mehrstufiger Planung basierend auf räumlichen Beziehungen in Bildern. Um diese Lücke zu schließen, präsentieren wir ING-VP, den ersten interaktiven spielbasierten Vision-Planungs-Benchmark, der speziell entwickelt wurde, um die räumliche Vorstellungskraft und mehrstufige Schlussfolgerungsfähigkeiten von MLLMs zu bewerten. ING-VP umfasst 6 verschiedene Spiele mit insgesamt 300 Leveln, wobei jedes Level über 6 einzigartige Konfigurationen verfügt. Ein einziges Modell führt über 60.000 Interaktionen durch. Das Benchmark-Framework ermöglicht verschiedene Vergleichseinstellungen, darunter Bild-Text vs. nur-Text Eingaben, Ein-Schritt vs. Mehr-Schritt Schlussfolgerung und mit-Verlauf vs. ohne-Verlauf Bedingungen, um wertvolle Einblicke in die Fähigkeiten des Modells zu bieten. Wir haben zahlreiche erstklassige MLLMs evaluiert, wobei das leistungsstärkste Modell, Claude-3.5 Sonnet, eine durchschnittliche Genauigkeit von nur 3,37% erreichte, weit unter dem erwarteten Standard. Diese Arbeit zielt darauf ab, ein spezialisiertes Bewertungsframework bereitzustellen, um Fortschritte in der Fähigkeit von MLLMs für komplexe räumliche Schlussfolgerung und Planung voranzutreiben. Der Code ist öffentlich verfügbar unter https://github.com/Thisisus7/ING-VP.git.
Die Befolgung von Anweisungen ist eine entscheidende Fähigkeit für LLMs. Allerdings haben jüngste Studien gezeigt, dass LLMs oft Schwierigkeiten mit Anweisungen haben, die mehrere Einschränkungen enthalten (z. B. die Aufforderung, einen Social-Media-Beitrag "in lustigem Ton" und "ohne Hashtag" zu erstellen). Trotzdem konzentrieren sich die meisten Bewertungen ausschließlich auf synthetische Daten. Um dies zu adressieren, führen wir RealInstruct ein, den ersten Benchmark, der entwickelt wurde, um die Fähigkeit von LLMs zu bewerten, realen multi-eingeschränkten Anweisungen zu folgen, indem Anfragen genutzt werden, die echte Benutzer an KI-Assistenten gestellt haben. Wir untersuchen auch die modellbasierte Bewertung als kostengünstige Alternative zur menschlichen Annotation für diese Aufgabe. Unsere Ergebnisse zeigen, dass selbst das proprietäre GPT-4-Modell bei über 21% der Anweisungen mindestens eine Einschränkung nicht erfüllt, was die Grenzen der modernsten Modelle verdeutlicht. Um die Leistungslücke zwischen Open-Source- und proprietären Modellen zu überbrücken, schlagen wir die Decompose, Critique and Refine (DeCRIM) Selbstkorrektur-Pipeline vor, die die Fähigkeit von LLMs verbessert, Einschränkungen zu befolgen. DeCRIM funktioniert, indem die ursprüngliche Anweisung in eine Liste von Einschränkungen zerlegt wird und ein Kritikmodell entscheidet, wann und wo die Antwort des LLMs verbessert werden muss. Unsere Ergebnisse zeigen, dass DeCRIM die Leistung von Mistral um 7,3% bei RealInstruct und 8,0% bei IFEval verbessert, selbst bei schwachem Feedback. Darüber hinaus zeigen wir, dass Open-Source-LLMs mit DeCRIM bei starkem Feedback GPT-4 auf beiden Benchmarks übertreffen können.
Da Text-zu-Bild-Diffusionsmodelle für kommerzielle Anwendungen immer fortschrittlicher werden, wächst auch die Besorgnis über ihr Potenzial für bösartige und schädliche Nutzung. Das Modellverlernen wurde vorgeschlagen, um die Bedenken zu mildern, indem unerwünschte und potenziell schädliche Informationen aus dem vorab trainierten Modell entfernt werden. Bisher wird der Erfolg des Verlernens hauptsächlich daran gemessen, ob das verlernte Modell ein Zielkonzept generieren kann, während die Bildqualität beibehalten wird. Das Verlernen wird jedoch in der Regel unter begrenzten Szenarien getestet, und die Nebenwirkungen des Verlernens wurden in der aktuellen Literatur kaum untersucht. In dieser Arbeit analysieren wir gründlich das Verlernen unter verschiedenen Szenarien mit fünf Schlüsselaspekten. Unsere Untersuchung zeigt, dass jede Methode Nebenwirkungen oder Einschränkungen aufweist, insbesondere in komplexeren und realistischeren Situationen. Durch die Veröffentlichung unseres umfassenden Bewertungsrahmens mit den Quellcodes und Artefakten hoffen wir, weitere Forschungen in diesem Bereich anzuregen, die zu zuverlässigeren und effektiveren Verlernmethoden führen.
Obwohl große Sprachmodelle (LLMs) Bilder integriert haben, bleibt die Anpassung an Graphen eine Herausforderung, die ihre Anwendungen im Bereich Material- und Arzneimitteldesign einschränkt. Diese Schwierigkeit ergibt sich aus der Notwendigkeit einer kohärenten autoregressiven Generierung über Texte und Graphen hinweg. Um dies anzugehen, stellen wir Llamole vor, das erste multimodale LLM, das in der Lage ist, Text- und Graphgenerierung abwechselnd durchzuführen und somit die molekulare inversen Gestaltung mit retrosynthetischer Planung zu ermöglichen. Llamole integriert ein Basis-LLM mit dem Graph Diffusion Transformer und Graph-Neuronalen Netzwerken für die mehrkonditionale molekulare Generierung und Reaktionsinferenz innerhalb von Texten, während das LLM mit verbessertem molekularem Verständnis die Aktivierung unter den verschiedenen Graphmodulen flexibel steuert. Darüber hinaus integriert Llamole A*-Suche mit LLM-basierten Kostenfunktionen für eine effiziente retrosynthetische Planung. Wir erstellen Benchmark-Datensätze und führen umfangreiche Experimente durch, um Llamole mit In-Context-Lernen und überwachtem Feintuning zu bewerten. Llamole übertrifft signifikant 14 angepasste LLMs in 12 Metriken für kontrolliertes molekulares Design und retrosynthetische Planung.
Kürzlich eingeführte Dialogsysteme haben eine hohe Benutzerfreundlichkeit gezeigt. Dennoch fehlt es ihnen noch an der Abbildung von Gesprächsszenarien der realen Welt. Aktuelle Dialogsysteme zeigen eine Unfähigkeit, die dynamischen, kontinuierlichen, langfristigen Interaktionen mit mehreren Partnern nachzubilden. Dieser Mangel entsteht, weil bisher nur begrenzte Anstrengungen unternommen wurden, um beide Aspekte von realen Dialogen zu berücksichtigen: tief geschichtete Interaktionen über den langfristigen Dialog hinweg und weitreichende Gesprächsnetzwerke mit mehreren Teilnehmern. Mit dem Ziel, diese Aspekte zu integrieren, stellen wir das Mixed-Session Conversation vor, ein Dialogsystem, das Gespräche mit verschiedenen Partnern in einem Multi-Session-Dialogsetup konstruiert. Wir schlagen einen neuen Datensatz namens MiSC vor, um dieses System umzusetzen. Die Dialogepisoden von MiSC bestehen aus 6 aufeinanderfolgenden Sitzungen, wobei in jeder Episode vier Sprecher (ein Hauptredner und drei Partner) auftreten. Außerdem schlagen wir ein neues Dialogmodell mit einem neuartigen Speicherverwaltungsmechanismus vor, genannt Egocentric Memory Enhanced Mixed-Session Conversation Agent (EMMA). EMMA sammelt und behält Erinnerungen aus der Perspektive des Hauptredners während Gesprächen mit Partnern, was eine nahtlose Kontinuität in nachfolgenden Interaktionen ermöglicht. Umfangreiche menschliche Bewertungen bestätigen, dass die Dialoge in MiSC einen nahtlosen Gesprächsfluss zeigen, selbst wenn sich die Gesprächspartner in jeder Sitzung ändern. EMMA, trainiert mit MiSC, wird auch daraufhin bewertet, eine hohe Merkfähigkeit ohne Widersprüche während des gesamten Gesprächs aufrechtzuerhalten.
Die Generierung einer langen Geschichte von mehreren tausend Wörtern mit narrativer Kohärenz unter Verwendung von Large Language Models (LLMs) war eine anspruchsvolle Aufgabe. Frühere Forschungen haben sich mit dieser Herausforderung befasst, indem sie verschiedene Rahmenbedingungen vorgeschlagen haben, die einen Geschäftsplan erstellen und basierend auf diesem Plan eine lange Geschichte generieren. Allerdings konzentrierten sich diese Rahmenbedingungen hauptsächlich darauf, die narrative Kohärenz in Geschichten aufrechtzuerhalten, wobei oft die Kreativität bei der Geschäftsplanung und die Ausdruckskraft der aus diesen Plänen generierten Geschichten übersehen wurden, die wünschenswerte Eigenschaften sind, um das Interesse der Leser zu fesseln. In diesem Paper schlagen wir das Collective Critics for Creative Story Generation Framework (CritiCS) vor, das aus einer Planungsverfeinerungsphase (CrPlan) und einer Geschichtsgenerierungsphase (CrText) besteht, um einen kollektiven Überarbeitungsmechanismus zu integrieren, der diese Eigenschaften in den Prozess der Generierung von Langformgeschichten fördert. Speziell arbeitet in jeder Phase eine Gruppe von LLM-Kritikern und einem Anführer zusammen, um Entwürfe des Plans und der Geschichte in mehreren Runden inkrementell zu verfeinern. Eine umfangreiche menschliche Bewertung zeigt, dass das CritiCS die Kreativität der Geschichten und das Leserengagement signifikant steigern kann, während gleichzeitig die narrative Kohärenz erhalten bleibt. Darüber hinaus ermöglicht das Design des Frameworks eine aktive Beteiligung von menschlichen Autoren in jeder Rolle innerhalb des Kritikprozesses, was eine interaktive menschlich-maschinelle Zusammenarbeit beim Geschichtenschreiben ermöglicht.
Wir schlagen TextToon vor, eine Methode zur Generierung eines steuerbaren toonifizierten Avatars. Basierend auf einer kurzen monokularen Videosequenz und einer schriftlichen Anleitung zum Avatar-Stil kann unser Modell einen hochwertigen toonifizierten Avatar generieren, der in Echtzeit durch ein anderes Video mit beliebigen Identitäten gesteuert werden kann. Bestehende verwandte Arbeiten stützen sich stark auf die Mehr-Ansichts-Modellierung zur Wiederherstellung der Geometrie über Textur-Einbettungen, die statisch präsentiert werden und zu Steuerungsbeschränkungen führen. Die Mehr-Ansichts-Videoeingabe erschwert auch die Bereitstellung dieser Modelle in realen Anwendungen. Um diese Probleme anzugehen, übernehmen wir ein bedingtes Einbettungs-Tri-Plane, um realistische und stilisierte Gesichtsrepräsentationen in einem Gaußschen Deformationsfeld zu erlernen. Darüber hinaus erweitern wir die Stilisierungsfähigkeiten des 3D Gaußschen Splatting, indem wir ein adaptives Pixel-Translations-Neuronales Netzwerk einführen und patch-bewusstes kontrastives Lernen nutzen, um hochwertige Bilder zu erzielen. Um unsere Arbeit in Verbraucheranwendungen voranzutreiben, entwickeln wir ein Echtzeitsystem, das auf einer GPU-Maschine mit 48 FPS und auf einer mobilen Maschine mit 15-18 FPS betrieben werden kann. Umfangreiche Experimente zeigen die Wirksamkeit unseres Ansatzes bei der Generierung von textuellen Avataren im Vergleich zu bestehenden Methoden hinsichtlich Qualität und Echtzeit-Animation. Bitte besuchen Sie unsere Projektseite für weitere Details: https://songluchuan.github.io/TextToon/.
Das Lernen im Kontext (ICL) bezeichnet die Fähigkeit eines Modells, eine neue Aufgabe zu erlernen, indem es einige Beispiele in seinem Kontext beobachtet. Während dies in der natürlichen Sprachverarbeitung (NLP) weit verbreitet ist, wurde diese Fähigkeit kürzlich auch in Einstellungen des Reinforcement Learning (RL) beobachtet. Bisherige in-Kontext-RL-Methoden erfordern jedoch gesamte Episoden im Kontext des Agenten. Da komplexe Umgebungen in der Regel zu langen Episoden mit spärlichen Belohnungen führen, sind diese Methoden auf einfache Umgebungen mit kurzen Episoden beschränkt. Um diese Herausforderungen anzugehen, stellen wir den Retrieval-augmentierten Entscheidungstransformer (RA-DT) vor. RA-DT verwendet einen externen Speichermechanismus, um vergangene Erfahrungen zu speichern, aus denen es nur Teilpfade abruft, die für die aktuelle Situation relevant sind. Die Abrufkomponente in RA-DT erfordert kein Training und kann vollständig domänenagnostisch sein. Wir bewerten die Fähigkeiten von RA-DT in Gitterwelten, Robotersimulationen und prozedural generierten Videospielen. In Gitterwelten übertrifft RA-DT die Baselines, während es nur einen Bruchteil ihrer Kontextlänge verwendet. Darüber hinaus beleuchten wir die Grenzen der aktuellen in-Kontext-RL-Methoden in komplexen Umgebungen und diskutieren zukünftige Richtungen. Um zukünftige Forschung zu erleichtern, veröffentlichen wir Datensätze für vier der betrachteten Umgebungen.
Die Forschung entwickelt und bewertet das adversäre Potenzial, um kopierten Code oder halluzinierte KI-Empfehlungen für bösartigen Code in populären Code-Repositories einzuführen. Während grundlegende große Sprachmodelle (LLMs) von OpenAI, Google und Anthropic sowohl gegen schädliches Verhalten als auch gegen toxische Zeichen schützen, zeigen frühere Arbeiten zu mathematischen Lösungen, die schädliche Aufforderungen einbetten, dass die Sicherheitsvorkehrungen je nach Expertenkontext variieren können. Diese Schlupflöcher würden in einer Mischung von Modellen von Experten auftreten, wenn sich der Kontext der Frage ändert und möglicherweise weniger bösartige Trainingsbeispiele bieten, um toxische Kommentare zu filtern oder empfohlene offensive Aktionen zu entfernen. Die vorliegende Arbeit zeigt, dass grundlegende Modelle möglicherweise zerstörerische Aktionen korrekt ablehnen, wenn sie offen dazu aufgefordert werden, aber leider ihre Wachsamkeit fallen lassen, wenn sie mit einem plötzlichen Kontextwechsel konfrontiert werden, wie bei der Lösung einer Computerprogrammierherausforderung. Wir zeigen empirische Beispiele mit Trojaner-Hosting-Repositories wie GitHub, NPM, NuGet und beliebten Content-Delivery-Netzwerken (CDN) wie jsDelivr, die die Angriffsfläche vergrößern. In den Anweisungen der LLMs, um hilfreich zu sein, schlagen Beispiel-Empfehlungen Anwendungsprogrammierschnittstellen (API) Endpunkte vor, die ein entschlossener Domain-Squatter erwerben und eine Angriffsmobilinfrastruktur einrichten könnte, die durch den naiv kopierten Code ausgelöst wird. Wir vergleichen diesen Angriff mit früheren Arbeiten zum Kontextwechsel und stellen die Angriffsfläche als eine neuartige Version von "Living off the Land"-Angriffen in der Malware-Literatur dar. In letzterem Fall können grundlegende Sprachmodelle ansonsten unschuldige Benutzer-Aufforderungen hijacken, um Aktionen zu empfehlen, die gegen die Sicherheitsrichtlinien ihrer Besitzer verstoßen, wenn sie direkt ohne die entsprechende Codierungsunterstützungsanfrage gestellt werden.
Das Klavierspielen erfordert eine agile, präzise und koordinierte Handsteuerung, die die Grenzen der Geschicklichkeit ausreizt. Handbewegungsmodelle mit der Raffinesse, um das Klavierspielen genau nachzubilden, haben eine Vielzahl von Anwendungen in der Charakteranimation, der verkörperten KI, der Biomechanik und VR/AR. In diesem Artikel erstellen wir einen bisher einzigartigen Datensatz im großen Maßstab, der etwa 10 Stunden 3D-Handbewegungen und Audio von 15 Elite-Pianisten enthält, die 153 Stücke klassischer Musik spielen. Um natürliche Aufführungen einzufangen, haben wir ein markerloses Setup entworfen, bei dem Bewegungen aus Mehrkameravideos mithilfe modernster Pose-Schätzungmodelle rekonstruiert werden. Die Bewegungsdaten werden durch inverse Kinematik unter Verwendung der hochauflösenden MIDI-Tasten-Druckdaten, die von Sensoren in einem spezialisierten Yamaha Disklavier-Klavier erhalten wurden, weiter verfeinert. Unter Nutzung des gesammelten Datensatzes haben wir eine Pipeline entwickelt, die physikalisch plausible Handbewegungen für Noten außerhalb des Datensatzes synthetisieren kann. Unser Ansatz verwendet eine Kombination aus Imitationslernen und Verstärkungslernen, um Richtlinien für physikbasierte bimanuelle Steuerung zu erhalten, die die Interaktion zwischen Händen und Klaviertasten umfasst. Um das Problem der Abtasteffizienz mit dem großen Bewegungsdatensatz zu lösen, verwenden wir ein Diffusionsmodell, um natürliche Referenzbewegungen zu generieren, die hochrangige Trajektorien- und Fingersatzinformationen bereitstellen. Die generierte Referenzbewegung allein bietet jedoch keine ausreichende Genauigkeit für die Modellierung der Klavierleistung. Wir haben die Daten dann weiter durch Verwendung musikalischer Ähnlichkeit ergänzt, um ähnliche Bewegungen aus dem erfassten Datensatz abzurufen und die Präzision der Verstärkungslernrichtlinie zu steigern. Mit der vorgeschlagenen Methode generiert unser Modell natürliche, geschickte Bewegungen, die auf Musik außerhalb des Trainingsdatensatzes verallgemeinern.
Wir stellen MLE-bench vor, ein Benchmark zur Messung der Leistungsfähigkeit von KI-Agenten im Bereich des maschinellen Lernens. Zu diesem Zweck kuratieren wir 75 ML-Engineering-bezogene Wettbewerbe von Kaggle und schaffen eine vielfältige Sammlung herausfordernder Aufgaben, die reale ML-Engineering-Fähigkeiten wie das Trainieren von Modellen, die Vorbereitung von Datensätzen und das Durchführen von Experimenten testen. Wir legen menschliche Baselines für jeden Wettbewerb fest, indem wir Kaggle's öffentlich verfügbare Bestenlisten verwenden. Wir verwenden Open-Source-Agentengerüste, um mehrere führende Sprachmodelle auf unserem Benchmark zu bewerten und stellen fest, dass die am besten abschneidende Konfiguration - OpenAI's o1-preview mit AIDE-Gerüst - in 16,9% der Wettbewerbe mindestens das Niveau einer Kaggle-Bronzemedaille erreicht. Neben unseren Hauptergebnissen untersuchen wir verschiedene Formen der Ressourcenskalierung für KI-Agenten und den Einfluss von Verunreinigungen durch Vor-Training. Wir stellen unseren Benchmark-Code (github.com/openai/mle-bench/) als Open Source zur Verfügung, um zukünftige Forschungen zur Verständnis der ML-Engineering-Fähigkeiten von KI-Agenten zu erleichtern.
In der Softwareentwicklung der realen Welt kann eine unzureichende oder fehlende Ausnahmebehandlung die Robustheit und Zuverlässigkeit des Codes erheblich beeinträchtigen. Mechanismen zur Ausnahmebehandlung erfordern von Entwicklern, Ausnahmen nach hohen Standards zu erkennen, zu erfassen und zu verwalten, doch viele Entwickler haben Schwierigkeiten mit diesen Aufgaben, was zu fragilen Codes führt. Dieses Problem ist besonders in Open-Source-Projekten offensichtlich und beeinflusst die Gesamtqualität des Software-Ökosystems. Um dieser Herausforderung zu begegnen, untersuchen wir den Einsatz großer Sprachmodelle (LLMs) zur Verbesserung der Ausnahmebehandlung im Code. Durch umfangreiche Analysen identifizieren wir drei Hauptprobleme: Empfindliche Erkennung von fragilen Codes, ungenaue Erfassung von Ausnahmetypen und verzerrte Lösungen zur Behandlung. Diese Probleme sind in der realen Welt weit verbreitet, was darauf hindeutet, dass robuste Praktiken zur Ausnahmebehandlung häufig übersehen oder falsch gehandhabt werden. Als Antwort schlagen wir Seeker vor, ein Multi-Agenten-Framework, das von Strategien erfahrener Entwickler für die Ausnahmebehandlung inspiriert ist. Seeker verwendet Agenten: Scanner, Detector, Predator, Ranker und Handler, um LLMs bei der effektiveren Erkennung, Erfassung und Lösung von Ausnahmen zu unterstützen. Unsere Arbeit ist die erste systematische Studie zur Nutzung von LLMs zur Verbesserung von Praktiken zur Ausnahmebehandlung und liefert wertvolle Erkenntnisse für zukünftige Verbesserungen in der Code-Zuverlässigkeit.
Die Konsistenz zwischen verschiedenen Ansichten bleibt eine Herausforderung für Bildverbreitungsmodelle. Selbst im Text-zu-Textur-Problem, bei dem perfekte geometrische Entsprechungen a priori bekannt sind, scheitern viele Methoden daran, ausgerichtete Vorhersagen über verschiedene Ansichten zu liefern, was nicht-triviale Fusionstechniken erfordert, um die Ergebnisse auf das ursprüngliche Netz zu übertragen. Wir untersuchen dieses Problem für einen kollaborativen Steuerungsworkflow speziell im PBR Text-zu-Textur-Bereich. Die kollaborative Steuerung modelliert direkt PBR-Bildwahrscheinlichkeitsverteilungen, einschließlich normaler Bump-Maps; nach unserem Kenntnisstand ist dies das einzige Verbreitungsmodell, das direkt vollständige PBR-Stapel ausgibt. Wir diskutieren die Designentscheidungen, die bei der Herstellung dieses Modells konsistent zwischen verschiedenen Ansichten getroffen wurden, und zeigen die Wirksamkeit unseres Ansatzes in Ablationsstudien sowie in praktischen Anwendungen.
Psychische Störungen gehören zu den schwerwiegendsten Krankheiten weltweit. Die meisten Menschen mit einer solchen Krankheit haben keinen ausreichenden Zugang zur angemessenen Versorgung, was die Bedeutung der Schulung von Modellen für die Diagnose und Behandlung von psychischen Störungen unterstreicht. Allerdings beschränken Datenschutzbedenken im Bereich der psychischen Gesundheit die Zugänglichkeit von personalisierten Behandlungsdaten, was es herausfordernd macht, leistungsstarke Modelle zu entwickeln. In diesem Artikel stellen wir MentalArena vor, ein Selbstspiel-Framework zur Schulung von Sprachmodellen durch die Generierung von domänenspezifischen personalisierten Daten, mit dem wir ein besseres Modell erhalten, das in der Lage ist, eine personalisierte Diagnose und Behandlung (als Therapeut) zu erstellen und Informationen bereitzustellen (als Patient). Um menschenähnliche mentale Gesundheitspatienten genau zu modellieren, haben wir den Symptom-Encoder entwickelt, der einen echten Patienten aus kognitiver und Verhaltensperspektive simuliert. Um Voreingenommenheit bei Patienten-Therapeuten-Interaktionen zu behandeln, schlagen wir den Symptom-Decoder vor, um diagnostizierte Symptome mit codierten Symptomen zu vergleichen und den Dialog zwischen Patient und Therapeut dynamisch entsprechend den identifizierten Abweichungen zu steuern. Wir haben MentalArena gegen 6 Benchmarks evaluiert, darunter biomedizinische Fragen und Aufgaben im Bereich der psychischen Gesundheit, im Vergleich zu 6 fortgeschrittenen Modellen. Unsere Modelle, die sowohl auf GPT-3.5 als auch auf Llama-3-8b feinabgestimmt sind, übertreffen signifikant ihre Gegenstücke, einschließlich GPT-4o. Wir hoffen, dass unsere Arbeit zukünftige Forschung im Bereich der personalisierten Versorgung inspirieren kann. Der Code ist verfügbar unter https://github.com/Scarelette/MentalArena/tree/main
Dieses Papier stellt TinyEmo vor, eine Familie von kleinen multimodalen Sprachmodellen für emotionales Denken und Klassifizierung. Unser Ansatz umfasst: (1) einen synthetischen emotionalen Instruktionsdatensatz für sowohl das Vor- als auch das Feinabstimmungsstadium, (2) einen Metrikprojektor, der die Klassifizierung vom Sprachmodell delegiert und somit ein effizienteres Training und Inferenz ermöglicht, (3) ein multimodales großes Sprachmodell (MM-LLM) für emotionales Denken und (4) ein halbautomatisiertes Framework zur Bias-Erkennung. TinyEmo ist in der Lage, Emotionsklassifizierung und emotionales Denken durchzuführen, und das alles unter Verwendung wesentlich weniger Parameter als vergleichbare Modelle. Diese Effizienz ermöglicht es uns, vielfältigere emotionale Datensätze frei zu integrieren, was zu einer starken Leistung bei Klassifizierungsaufgaben führt, wobei unser kleinstes Modell (700M Parameter) größere, auf allgemeinen multimodalen Sprachmodellen basierende Modelle mit über 7B Parametern übertrifft. Darüber hinaus ermöglicht der Metrikprojektor Interpretierbarkeit und indirekte Bias-Erkennung in großen Modellen ohne zusätzliches Training und bietet somit einen Ansatz, um KI-Systeme zu verstehen und zu verbessern. Wir veröffentlichen den Code, die Modelle und den Datensatz unter https://github.com/ggcr/TinyEmo
Die jüngsten Fortschritte großer Sprachmodelle (LLMs) haben zu Behauptungen geführt, dass KI den Menschen in natürlicher Sprachverarbeitung (NLP) bei Aufgaben wie Textverständnis und Schlussfolgerungen übertrifft. Diese Arbeit untersucht diese Aussagen, indem sie CAIMIRA vorstellt, ein neuartiges Framework, das auf der Item-Response-Theorie (IRT) basiert und eine quantitative Bewertung und Vergleich der Problemlösungsfähigkeiten von Frage-Antwort-Agenten ermöglicht: Menschen und KI-Systeme. Durch die Analyse von über 300.000 Antworten von etwa 70 KI-Systemen und 155 Menschen auf Tausende von Quizfragen deckt CAIMIRA unterschiedliche Kompetenzmuster in Wissensbereichen und Schlussfolgerungsfähigkeiten auf. Menschen übertreffen KI-Systeme in wissensbasierten abduktiven und konzeptuellen Schlussfolgerungen, während modernste LLMs wie GPT-4 und LLaMA eine überlegene Leistung bei gezielter Informationsabfrage und faktenbasierten Schlussfolgerungen zeigen, insbesondere wenn Informationslücken gut definiert und durch Musterabgleich oder Datenabruf lösbar sind. Diese Ergebnisse unterstreichen die Notwendigkeit, dass zukünftige QA-Aufgaben sich auf Fragen konzentrieren, die nicht nur höhere Schlussfolgerungen und wissenschaftliches Denken herausfordern, sondern auch eine nuancierte sprachliche Interpretation und den Einsatz von Wissen in verschiedenen Kontexten erfordern, um die KI-Entwicklungen voranzutreiben, die menschliche kognitive Fähigkeiten in der realen Problemlösung besser nachahmen oder ergänzen.
Einbettungsmodelle waren entscheidend für die Ermöglichung verschiedener nachgelagerter Aufgaben wie semantische Ähnlichkeit, Informationssuche und Clustering. In letzter Zeit gab es ein starkes Interesse an der Entwicklung universeller Texteinbettungsmodelle, die über Aufgaben hinweg generalisieren können (z. B. MTEB). Der Fortschritt bei der Entwicklung universeller multimodaler Einbettungsmodelle war trotz ihrer Bedeutung relativ langsam. In dieser Arbeit zielen wir darauf ab, das Potenzial für den Aufbau universeller Einbettungen zu erforschen, die in der Lage sind, eine Vielzahl von nachgelagerten Aufgaben zu bewältigen. Unsere Beiträge sind zweifach: (1) MMEB (Massives Multimodales Einbettungsbenchmark), das 4 Metaaufgaben abdeckt (d. h. Klassifizierung, visuelle Fragebeantwortung, multimodale Suche und visuelle Verankerung) und 36 Datensätze umfasst, darunter 20 Trainings- und 16 Evaluierungsdatensätze, und (2) VLM2Vec (Vision-Sprachmodell -> Vektor), ein kontrastives Schulungsrahmenwerk, das jedes modernste Vision-Sprachmodell in ein Einbettungsmodell umwandelt, indem es auf MMEB trainiert wird. Im Gegensatz zu früheren Modellen wie CLIP und BLIP kann VLM2Vec beliebige Kombinationen von Bildern und Text verarbeiten, um basierend auf den Aufgabenanweisungen einen festen Vektor zu generieren. Wir erstellen eine Reihe von VLM2Vec-Modellen auf Phi-3.5-V und bewerten sie anhand der Evaluierungsaufteilung von MMEB. Unsere Ergebnisse zeigen, dass das Modell eine absolute durchschnittliche Verbesserung von 10 % bis 20 % gegenüber bestehenden multimodalen Einbettungsmodellen sowohl in In- als auch in Out-of-Distribution-Datensätzen in MMEB erzielt.
Aktuelle Maßstäbe zur Bewertung von Vision-Language-Modellen (VLMs) konzentrieren sich oft auf deren Wahrnehmungs- oder Problemlösungsfähigkeiten und vernachlässigen andere wichtige Aspekte wie Fairness, Mehrsprachigkeit oder Toxizität. Darüber hinaus unterscheiden sie sich in ihren Bewertungsverfahren und dem Umfang der Evaluation, was den Vergleich von Modellen erschwert. Um diese Probleme anzugehen, erweitern wir das HELM-Framework auf VLMs, um das Holistic Evaluation of Vision Language Models (VHELM) vorzustellen. VHELM aggregiert verschiedene Datensätze, um eine oder mehrere der 9 Aspekte abzudecken: visuelle Wahrnehmung, Wissen, Schlussfolgerung, Voreingenommenheit, Fairness, Mehrsprachigkeit, Robustheit, Toxizität und Sicherheit. Auf diese Weise bieten wir einen umfassenden, multidimensionalen Blick auf die Fähigkeiten der VLMs in Bezug auf diese wichtigen Faktoren. Darüber hinaus standardisieren wir die standardmäßigen Inferenzparameter, Methoden der Aufforderung und Bewertungsmetriken, um faire Vergleiche zwischen Modellen zu ermöglichen. Unser Framework ist darauf ausgelegt, leichtgewichtig und automatisch zu sein, sodass Evaluierungsläufe kostengünstig und schnell sind. Unser erster Durchlauf bewertet 22 VLMs anhand von 21 bestehenden Datensätzen, um einen ganzheitlichen Überblick über die Modelle zu bieten. Wir entdecken neue wichtige Erkenntnisse, wie zum Beispiel, dass effizienzorientierte Modelle (z. B. Claude 3 Haiku oder Gemini 1.5 Flash) auf dem Bias-Test signifikant schlechter abschneiden als ihre vollständigen Modelle (z. B. Claude 3 Opus oder Gemini 1.5 Pro), jedoch nicht bei der Bewertung der anderen Aspekte. Zur Transparenz veröffentlichen wir die Rohmodell-Generationen und vollständige Ergebnisse auf unserer Website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM ist als ein fortlaufender Maßstab konzipiert, und wir hoffen, im Laufe der Zeit neue Datensätze und Modelle hinzuzufügen.
Englisch-zentrierte große Sprachmodelle (LLMs) zeigen oft starke multilinguale Fähigkeiten. Die multilinguale Leistung dieser Modelle ist jedoch noch unklar und wird für viele Sprachen nicht gründlich bewertet. Die meisten Benchmarks für Multilingualität konzentrieren sich auf klassische NLP-Aufgaben oder decken nur eine minimale Anzahl von Sprachen ab. Wir stellen MEXA vor, eine Methode zur Bewertung der multilingualen Fähigkeiten von vorab trainierten Englisch-zentrierten LLMs unter Verwendung von parallelen Sätzen, die für mehr Sprachen verfügbar sind als bestehende Endaufgaben. MEXA nutzt die Tatsache, dass Englisch-zentrierte LLMs Englisch als eine Art Pivot-Sprache in ihren Zwischenschichten verwenden. Es berechnet die Ausrichtung zwischen Englisch und nicht-englischen Sprachen unter Verwendung paralleler Sätze, um den Transfer des Sprachverständnisses von Englisch auf andere Sprachen zu bewerten. Diese Ausrichtung kann verwendet werden, um die Modellleistung in anderen Sprachen abzuschätzen. Wir führen Studien unter Verwendung verschiedener paralleler Datensätze (FLORES-200 und Bible), Modelle (Llama-Familie, Gemma-Familie, Mistral und OLMo) und etablierter Endaufgaben (Belebele, m-MMLU und m-ARC) durch. Wir untersuchen verschiedene Methoden zur Berechnung von Einbettungen in Decoder-Only-Modellen. Unsere Ergebnisse zeigen, dass MEXA in den Standardeinstellungen eine statistisch signifikante durchschnittliche Pearson-Korrelation von 0,90 mit drei etablierten Endaufgaben über neun Modelle und zwei parallele Datensätze erzielt. Dies legt nahe, dass MEXA eine zuverlässige Methode zur Schätzung der multilingualen Fähigkeiten von Englisch-zentrierten LLMs ist und ein klareres Verständnis ihres multilingualen Potenzials und der Funktionsweise von LLMs bietet. Bestenliste: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.
Ein wesentlicher Vorteil von rekurrenten neuronalen Netzwerken (RNNs) gegenüber transformerbasierten Sprachmodellen ist ihre lineare Rechenkomplexität in Bezug auf die Sequenzlänge, was sie bei der Verarbeitung langer Sequenzen während der Inferenz wesentlich schneller macht. Die meisten öffentlich verfügbaren RNNs (z. B. Mamba und RWKV) sind jedoch auf Sequenzen mit weniger als 10.000 Tokens trainiert, und ihre Effektivität in längeren Kontexten bleibt bisher weitgehend unbefriedigend. In diesem Paper untersuchen wir die Ursache der Unfähigkeit von RNNs, lange Kontexte zu verarbeiten, und schlagen kritische Maßnahmen vor. Wir untersuchen zwei praktische Anliegen bei der Anwendung von modernen RNNs auf lange Kontexte: (1) die Unfähigkeit, auf Eingaben länger als die Trainingslänge zu extrapolieren, und (2) die obere Grenze der Speicherkapazität. Um das erste Anliegen anzugehen, untersuchen wir zunächst *state collapse* (SC), ein Phänomen, das zu schwerwiegenden Leistungseinbußen bei Sequenzlängen führt, die während des Trainings nicht aufgetreten sind. Mit kontrollierten Experimenten führen wir dies auf Overfitting zurück, das durch den überparametrisierten rekurrenten Zustand für die Trainingslänge verursacht wird. Für das zweite Anliegen trainieren wir eine Reihe von Mamba-2-Modellen auf langen Dokumenten, um die rekurrente Zustandskapazität in der Sprachmodellierung und Passwortabruf empirisch abzuschätzen. Anschließend werden drei SC-Minderungsmethoden vorgeschlagen, um die Längengeneralisierbarkeit von Mamba-2 zu verbessern und dem Modell zu ermöglichen, mehr als 1 Million Tokens ohne SC zu verarbeiten. Wir stellen auch fest, dass die rekurrente Zustandskapazität beim Passwortabruf exponentiell mit der Zustandsgröße skaliert, und wir trainieren empirisch ein Mamba-2 370M mit nahezu perfekter Passwortabrufgenauigkeit bei einer Kontextlänge von 256.000. Dies deutet auf eine vielversprechende Zukunft für RNN-basierte Modellierung langer Kontexte hin.
Noch nicht. Wir präsentieren SPACE, einen Benchmark, der die räumliche Wahrnehmung in modernen Modellen systematisch bewertet. Unser Benchmark baut auf jahrzehntelanger Forschung in der Kognitionswissenschaft auf. Er bewertet die Fähigkeiten zur großflächigen Kartierung, die zum Einsatz kommen, wenn ein Organismus physische Umgebungen durchquert, das kleinskalige Denken über Objektformen und -layouts sowie kognitive Infrastrukturen wie räumliche Aufmerksamkeit und Gedächtnis. Für viele Aufgaben stellen wir parallele Darstellungen über Text und Bilder bereit, um sowohl große Sprachmodelle als auch große multimodale Modelle zu bewerten. Die Ergebnisse legen nahe, dass moderne Spitzenmodelle in Bezug auf die räumliche Intelligenz von Tieren hinterherhinken und bei einer Reihe von klassischen Tests zur tierischen Kognition nahe dem Zufallsniveau abschneiden.