Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Neueste Fortschritte in multimodalen Modellen betonen den Wert von umgeschriebenen Bildunterschriften zur Verbesserung der Leistung, doch es bestehen weiterhin wesentliche Herausforderungen. Zum Beispiel bieten synthetische Bildunterschriften oft eine überlegene Qualität und Bild-Text-Abstimmung, jedoch ist unklar, ob sie AltTexts vollständig ersetzen können: Die Rolle synthetischer Bildunterschriften und ihre Interaktion mit originalen AltTexts, die beim Web-Crawling gesammelt wurden, sind noch nicht ausreichend verstanden. Zudem können verschiedene multimodale Grundlagenmodelle spezifische Präferenzen für bestimmte Bildunterschriftenformate haben, aber Bemühungen, die optimalen Bildunterschriften für jedes Modell zu identifizieren, sind begrenzt. In dieser Arbeit schlagen wir eine neuartige, steuerbare und skalierbare Bildunterschriften-Pipeline vor, die darauf ausgelegt ist, vielfältige Bildunterschriftenformate zu generieren, die auf verschiedene multimodale Modelle zugeschnitten sind. Indem wir Kurze Synthetische Bildunterschriften (SSC) bis hin zu Dichten Synthetischen Bildunterschriften (DSC+) als Fallstudien betrachten, erforschen wir systematisch ihre Auswirkungen und Interaktionen mit AltTexts über Modelle wie CLIP, multimodale LLMs und Diffusionsmodelle. Unsere Ergebnisse zeigen, dass ein hybrider Ansatz, der sowohl synthetische Bildunterschriften als auch AltTexts beibehält, die Verwendung von rein synthetischen Bildunterschriften übertreffen kann, wodurch sowohl die Abstimmung als auch die Leistung verbessert werden, wobei jedes Modell Präferenzen für bestimmte Bildunterschriftenformate zeigt. Diese umfassende Analyse liefert wertvolle Einblicke zur Optimierung von Bildunterschriftenstrategien und fördert somit das Pre-Training multimodaler Grundlagenmodelle.
Die Transformer-Architektur dominiert über verschiedene Modelle hinweg. Als Herzstück des Transformers hat die Aufmerksamkeit eine Rechenkomplexität von O(N^2), im Vergleich zu O(N) für lineare Transformationen. Bei der Verarbeitung großer Sequenzlängen wird die Aufmerksamkeit zum hauptsächlichen zeitintensiven Bestandteil. Obwohl sich Quantisierung als effektive Methode zur Beschleunigung der Modellinferenz erwiesen hat, konzentrieren sich bestehende Quantisierungsmethoden hauptsächlich auf die Optimierung der linearen Schicht. Als Reaktion darauf analysieren wir zunächst ausführlich die Machbarkeit der Quantisierung in der Aufmerksamkeit. Anschließend schlagen wir SageAttention vor, eine äußerst effiziente und genaue Quantisierungsmethode für die Aufmerksamkeit. Die OPS (Operationen pro Sekunde) unseres Ansatzes übertrifft FlashAttention2 und xformers um etwa 2,1 bzw. 2,7 Mal. SageAttention erzielt auch eine überlegene Genauigkeitsleistung gegenüber FlashAttention3. Umfassende Experimente bestätigen, dass unser Ansatz fast keinen Verlust von End-to-End-Metriken bei verschiedenen Modellen verursacht, einschließlich solcher für die Verarbeitung großer Sprachen, Bildgenerierung und Videogenerierung.
Wir präsentieren ein Grundlagenmodell für die Null-Shot-Metrik der monokularen Tiefenschätzung. Unser Modell, Depth Pro, synthetisiert Tiefenkarten mit beispielloser Schärfe und hochfrequenten Details. Die Vorhersagen sind metrisch, mit absolutem Maßstab, ohne auf die Verfügbarkeit von Metadaten wie Kameraintrinsik zu angewiesen. Das Modell ist zudem schnell und erstellt eine 2,25-Megapixel-Tiefenkarte in 0,3 Sekunden auf einer Standard-GPU. Diese Merkmale werden durch mehrere technische Beiträge ermöglicht, darunter ein effizienter Multi-Scale-Vision-Transformer für dichte Vorhersagen, ein Schulungsprotokoll, das reale und synthetische Datensätze kombiniert, um eine hohe metrische Genauigkeit neben einer feinen Randverfolgung zu erreichen, dedizierte Auswertungsmetriken für Randgenauigkeit in geschätzten Tiefenkarten und eine state-of-the-art Brennweitenabschätzung aus einem einzigen Bild. Umfangreiche Experimente analysieren spezifische Designentscheidungen und zeigen, dass Depth Pro frühere Arbeiten in mehreren Dimensionen übertrifft. Wir veröffentlichen den Code und die Gewichte unter https://github.com/apple/ml-depth-pro.
Die Entwicklung großer multimodaler Videomodelle (LMMs) wurde durch die Schwierigkeit, große Mengen hochwertiger Rohdaten aus dem Web zu kuratieren, behindert. Um diesem Problem zu begegnen, schlagen wir einen alternativen Ansatz vor, indem wir einen hochwertigen synthetischen Datensatz speziell für die Anleitungsbefolgung in Videos erstellen, nämlich LLaVA-Video-178K. Dieser Datensatz umfasst Schlüsselaufgaben wie detaillierte Beschriftungen, offene Frage-Antwort (QA) und Multiple-Choice-QA. Durch das Training auf diesem Datensatz in Kombination mit vorhandenen visuellen Anleitungseinstellungsdaten führen wir LLaVA-Video ein, ein neues Video-LMM. Unsere Experimente zeigen, dass LLaVA-Video eine starke Leistung bei verschiedenen Videobenchmarks erzielt und die Wirksamkeit unseres Datensatzes unterstreicht. Wir planen, den Datensatz, seine Generierungspipeline und die Modell-Checkpoints zu veröffentlichen.
Es ist wünschenswert, aber herausfordernd, inhaltsreiche lange Videos im Minutenbereich zu generieren. Autoregressive große Sprachmodelle (LLMs) haben große Erfolge bei der Generierung kohärenter und langer Sequenzen von Token im Bereich der natürlichen Sprachverarbeitung erzielt, während die Erforschung von autoregressiven LLMs für die Videogenerierung auf die Erzeugung kurzer Videos von wenigen Sekunden beschränkt ist. In dieser Arbeit führen wir eine eingehende Analyse der Herausforderungen durch, die autoregressive LLM-basierte Videogeneratoren daran hindern, lange Videos zu generieren. Basierend auf den Beobachtungen und Analysen schlagen wir Loong vor, einen neuen autoregressiven LLM-basierten Videogenerator, der Videos von einer Minute Länge generieren kann. Speziell modellieren wir die Text-Token und Video-Token als eine vereinheitlichte Sequenz für autoregressive LLMs und trainieren das Modell von Grund auf. Wir schlagen ein progressives Kurz-zu-Lang-Training mit einem Verlust-Neugewichtungsmechanismus vor, um das Problem des Verlustungleichgewichts beim Training langer Videos zu mildern. Wir untersuchen außerdem Inferenzstrategien, einschließlich der Neu-Codierung von Video-Token und Abtaststrategien, um Fehlerakkumulation während der Inferenz zu verringern. Unser vorgeschlagener Loong kann auf 10-Sekunden-Videos trainiert werden und kann erweitert werden, um minutenlange Videos auf Textvorgaben basierend zu generieren, wie die Ergebnisse zeigen. Weitere Beispiele sind verfügbar unter: https://epiphqny.github.io/Loong-video.
Die kontrastive Sprachbild-Vorbereitung (CLIP) ist eine gefeierte Methode zur Schulung von Vision-Encodern zur Erzeugung von Bild-/Text-Repräsentationen, die verschiedene Anwendungen erleichtern. In letzter Zeit wurde CLIP weitgehend als Vision-Grundlage multimodaler großer Sprachmodelle (MLLMs) übernommen, um Bildinputs für Sprachinteraktionen zu verbinden. Der Erfolg von CLIP als Modell für Vision-Sprache-Grundlagen beruht darauf, web-gecrawlte, rauschige Textannotationen auf Bildniveau auszurichten. Dennoch können solche Kriterien für nachgelagerte Aufgaben, die feinkörnige Vision-Repräsentationen erfordern, insbesondere wenn eine regionale Verständnisstufe für MLLMs anspruchsvoll ist, unzureichend sein. In diesem Papier verbessern wir die Lokalisierungsfähigkeit von CLIP mit mehreren Fortschritten. Wir schlagen eine Vorbereitungsmethode namens Kontrastive Lokalisierte Sprachbild-Vorbereitung (CLOC) vor, indem wir CLIP mit regions-textkontrastivem Verlust und Modulen ergänzen. Wir formulieren ein neues Konzept, promptbare Einbettungen, bei dem der Encoder Bild-Einbettungen erzeugt, die leicht in regionsrepräsentationen umgewandelt werden können, wenn räumliche Hinweise gegeben sind. Um die Vorbereitung im großen Maßstab zu unterstützen, entwerfen wir ein visuell angereichertes und räumlich lokalisiertes Bildunterschriftungs-Framework, um effektiv regions-text Pseudolabels im großen Maßstab zu generieren. Durch die Skalierung auf Milliarden annotierte Bilder ermöglicht CLOC hochwertige regionale Einbettungen für Bildregionerkennungs- und Abrufaufgaben und kann ein Plug-and-Play-Ersatz für CLIP sein, um MLLMs zu verbessern, insbesondere bei Verweis- und Verankerungsaufgaben.
Wir stellen LLaVA-Critic vor, das erste Open-Source Large Multimodal Model (LMM), das als Generalist-Evaluator konzipiert ist, um die Leistung in einer Vielzahl von multimodalen Aufgaben zu bewerten. LLaVA-Critic wird mit einem hochwertigen Kritiker-Anweisungs-Folgedatensatz trainiert, der vielfältige Bewertungskriterien und Szenarien integriert. Unsere Experimente zeigen die Wirksamkeit des Modells in zwei Schlüsselbereichen: (1) LMM-als-Richter, bei dem LLaVA-Critic zuverlässige Bewertungspunkte liefert und bei mehreren Evaluierungsbenchmarks auf Augenhöhe mit oder über den GPT-Modellen liegt; und (2) Präferenzlernen, bei dem es Belohnungssignale für das Präferenzlernen generiert und die Fähigkeiten zur Modellausrichtung verbessert. Diese Arbeit unterstreicht das Potenzial von Open-Source LMMs in der Selbstkritik und Bewertung und bereitet den Weg für zukünftige Forschung in skalierbare, übermenschliche Ausrichtungs-Feedbackmechanismen für LMMs.
Große Sprachmodelle (LLMs) haben sich als bemerkenswert effizient erwiesen, sowohl bei einer Vielzahl von natürlichsprachlichen Verarbeitungsaufgaben als auch weit darüber hinaus. Dennoch bleibt eine umfassende theoretische Analyse der Ursprünge ihrer beeindruckenden Leistungsfähigkeit bisher schwer fassbar. In diesem Artikel nähern wir uns dieser anspruchsvollen Aufgabe, indem wir eine Äquivalenz zwischen generischen autoregressiven Sprachmodellen mit einem Vokabular der Größe T und einem Kontextfenster der Größe K sowie Markow-Ketten herstellen, die auf einem endlichen Zustandsraum der Größe O(T^K) definiert sind. Wir leiten mehrere überraschende Erkenntnisse ab, die mit der Existenz einer stationären Verteilung von Markow-Ketten zusammenhängen, die die Inferenzleistung von LLMs erfassen, deren Konvergenzgeschwindigkeit zu dieser Verteilung und den Einfluss der Temperatur darauf. Anschließend beweisen wir Vorabtrainings- und In-Context-Verallgemeinerungsgrenzen und zeigen, wie die gezogene Äquivalenz es uns ermöglicht, ihre Interpretation zu bereichern. Schließlich veranschaulichen wir unsere theoretischen Garantien mit Experimenten an mehreren aktuellen LLMs, um zu verdeutlichen, wie sie das beobachtete Verhalten in der Praxis erfassen.
Die leitlinienfreie Führung (LFF) ist entscheidend für die Verbesserung sowohl der Generierungsqualität als auch der Ausrichtung zwischen der Eingangsbedingung und dem endgültigen Output in Diffusionsmodellen. Während ein hoher Führungsskala im Allgemeinen erforderlich ist, um diese Aspekte zu verbessern, führt dies auch zu Übersättigung und unrealistischen Artefakten. In diesem Artikel überarbeiten wir die Aktualisierungsregel der LFF und führen Modifikationen ein, um dieses Problem anzugehen. Wir zerlegen zunächst den Aktualisierungsterm in der LFF in parallele und orthogonale Komponenten im Hinblick auf die bedingte Modellvorhersage und stellen fest, dass die parallele Komponente hauptsächlich zu Übersättigung führt, während die orthogonale Komponente die Bildqualität verbessert. Dementsprechend schlagen wir vor, die parallele Komponente abzuschwächen, um hochwertige Generierungen ohne Übersättigung zu erreichen. Darüber hinaus stellen wir eine Verbindung zwischen LFF und Gradientenaufstieg her und führen eine neue Neuskalierung und Momentum-Methode für die Aktualisierungsregel der LFF basierend auf dieser Erkenntnis ein. Unser Ansatz, genannt adaptive projizierte Führung (APF), behält die qualitätssteigernden Vorteile der LFF bei und ermöglicht die Verwendung höherer Führungsskalen ohne Übersättigung. APF ist einfach umzusetzen und führt praktisch zu keiner zusätzlichen Rechenlast im Probenahmeprozess. Durch umfangreiche Experimente zeigen wir, dass APF mit verschiedenen bedingten Diffusionsmodellen und Samplern kompatibel ist, was zu verbesserten FID-, Recall- und Sättigungswerten führt, während die Präzision vergleichbar mit der LFF beibehalten wird. Dies macht unsere Methode zu einer überlegenen Plug-and-Play-Alternative zur Standard leitlinienfreien Führung.
Große Sprachmodelle (LLMs) werden zunehmend auf komplexe Schlussfolgerungsaufgaben angewendet, die die Ausführung mehrerer komplexer Schritte erfordern, bevor eine Belohnung erfolgt. Die ordnungsgemäße Zuweisung von Krediten an diese Schritte ist entscheidend für die Verbesserung der Modellleistung. Proximal Policy Optimization (PPO), ein hochmodernes Verstärkungslernalgorithmus (RL), der für das Feintuning von LLMs verwendet wird, nutzt Wertnetzwerke zur Bewältigung der Kreditzuweisung. Wertnetzwerke stehen jedoch vor Herausforderungen bei der präzisen Vorhersage der erwarteten kumulativen Belohnungen bei komplexen Schlussfolgerungsaufgaben, was häufig zu Updates mit hoher Varianz und suboptimaler Leistung führt. In dieser Arbeit evaluieren wir systematisch die Wirksamkeit von Wertnetzwerken und offenbaren ihre erheblichen Mängel bei auf Schlussfolgerungen basierenden LLM-Aufgaben, indem wir zeigen, dass sie bei Vergleichen alternativer Schritte kaum besser abschneiden als ein zufälliger Basiswert. Um dies zu beheben, schlagen wir VinePPO vor, einen einfachen Ansatz, der die Flexibilität von Sprachumgebungen nutzt, um unvoreingenommene Monte Carlo-basierte Schätzungen zu berechnen und so auf große Wertnetzwerke zu verzichten. Unsere Methode übertrifft konsistent PPO und andere RL-freie Basislinien auf den MATH- und GSM8K-Datensätzen mit weniger Gradientenaktualisierungen (bis zu 9-fach) und weniger Wanduhrzeit (bis zu 3,0-fach). Diese Ergebnisse betonen die Bedeutung einer genauen Kreditzuweisung beim RL-Feintuning von LLMs und zeigen das Potenzial von VinePPO als überlegene Alternative auf.
Sprachassistenten wie Siri und Google Assistant modellieren in der Regel Audio und Text getrennt, was zu verlorenen Sprachinformationen und erhöhter Komplexität führt. Aktuelle Bemühungen, dies mit End-to-End-Sprachmodellen großer Sprache (LLMs) zu lösen, die mit überwachtem Feintuning (SFT) trainiert sind, haben dazu geführt, dass die Modelle Fähigkeiten von reinen Text-LLMs "vergessen". Unsere Arbeit schlägt ein alternatives Paradigma für das Training von Sprach-LLMs ohne Anweisungsdaten vor, indem wir die Reaktion eines reinen Text-LLMs auf Transkripte als Selbstüberwachung nutzen. Dieser Prozess kann wichtig ist, ohne annotierte Antworten durchgeführt werden. Wir zeigen, dass unser Distilled Voice Assistant (DiVA) auf gesprochene Frage-Antworten, Klassifizierung und Übersetzung verallgemeinert. Darüber hinaus zeigen wir, dass DiVA den Benutzerpräferenzen besser entspricht und eine Gewinnrate von 72\% im Vergleich zu modernsten Modellen wie Qwen 2 Audio erreicht, obwohl es mehr als 100-mal weniger Trainingsberechnungen verwendet.
Dichte Dokumenteinbettungen sind zentral für neuronales Informationssuchen. Das vorherrschende Paradigma besteht darin, Einbettungen zu trainieren und zu konstruieren, indem Encoder direkt auf einzelnen Dokumenten ausgeführt werden. In dieser Arbeit argumentieren wir, dass diese Einbettungen, obwohl effektiv, implizit nicht kontextbezogen für gezielte Anwendungsfälle des Informationssuchens sind, und dass eine kontextualisierte Dokumenteinbettung sowohl das Dokument als auch benachbarte Dokumente im Kontext berücksichtigen sollte - analog zu kontextualisierten Worteinbettungen. Wir schlagen zwei ergänzende Methoden für kontextualisierte Dokumenteinbettungen vor: erstens ein alternatives kontrastives Lernziel, das die Dokumentnachbarn explizit in den intra-batch Kontextverlust einbezieht; zweitens eine neue kontextualisierte Architektur, die die Informationen benachbarter Dokumente explizit in die codierte Darstellung einbezieht. Die Ergebnisse zeigen, dass beide Methoden in mehreren Einstellungen bessere Leistungen als Biencoder erzielen, wobei die Unterschiede insbesondere außerhalb des Domänenbereichs deutlich ausgeprägt sind. Wir erzielen Spitzenleistungen im MTEB-Benchmark ohne harte negative Auswahl, Punkteverdichtung, datenspezifische Anweisungen, Intra-GPU-Beispielteilung oder extrem große Batch-Größen. Unsere Methode kann angewendet werden, um die Leistung auf jedem kontrastiven Lerndatensatz und jedem Biencoder zu verbessern.
In den letzten Jahren hat sich das Kontrastive Sprach-Bild-Vortraining (CLIP) zu einem Eckpfeiler in der multimodalen Intelligenz entwickelt. Allerdings haben jüngste Studien festgestellt, dass der Informationsverlust im CLIP-Codierungsprozess erheblich ist und CLIP dazu neigt, nur grobkörnige Merkmale aus der Eingabe zu erfassen. Dieser Mangel begrenzt signifikant die Fähigkeit eines einzelnen CLIP-Modells, Bilder mit reichhaltigen visuellen Details zu verarbeiten. In dieser Arbeit schlagen wir eine einfache, aber effektive modellagnostische Strategie, das Diversified Multiplet Upcycling (DMU) für CLIP, vor. DMU feinabstimmt effizient eine Reihe von CLIP-Modellen, die verschiedene Merkmalsräume erfassen, ausgehend von einem dicht vorab trainierten CLIP-Checkpoint, wobei die Parameter außer dem Feed-Forward-Netzwerk (FFN) gemeinsam genutzt werden. Diese Modelle können dann in ein CLIP-MoE mit größerer Modellkapazität umgewandelt werden, was zu einer signifikant verbesserten Leistung bei minimalem Rechenaufwand führt. Nach unserem Kenntnisstand ist das Diversified Multiplet Upcycling der erste Ansatz, der spärlich aktiviertes MoE in CLIP-Grundmodelle einführt. Umfangreiche Experimente zeigen die signifikante Leistung von CLIP-MoE bei verschiedenen Zero-Shot-Retrieval-, Zero-Shot-Bildklassifizierungsaufgaben und Downstream-Benchmarks für multimodale große Sprachmodelle (MLLM), indem es als Vision-Encoder dient. Darüber hinaus ermöglicht das Diversified Multiplet Upcycling die Umwandlung eines beliebigen dichten CLIP-Modells in CLIP-MoEs, die CLIP nahtlos in einem Plug-and-Play-Verfahren ohne weitere Anpassung in nachgelagerten Frameworks ersetzen können. Durch das Diversified Multiplet Upcycling zielen wir darauf ab, wertvolle Einblicke für zukünftige Forschungen zur Entwicklung effizienterer und effektiverer multimodaler Lernsysteme zu bieten.
Software-Ingenieure schreiben hauptsächlich Code, indem sie bestehende Programme bearbeiten. Im Gegensatz dazu synthetisieren große Sprachmodelle (LLMs) programmatisch Programme in einem Durchgang. Eine Erklärung dafür ist die Knappheit von offenen Editierdaten. Während hochwertige Anweisungsdaten für die Codesynthese bereits knapp sind, sind hochwertige Editierdaten noch knapper. Um diese Lücke zu schließen, haben wir einen synthetischen Datengenerierungsalgorithmus namens LintSeq entwickelt. Dieser Algorithmus überarbeitet bestehenden Code in eine Sequenz von Code-Editierungen, indem er einen Linter verwendet, um prozedural über die fehlerfreien Einfügungen zu sampeln, die zum sequenziellen Schreiben von Programmen verwendet werden können. Er gibt Editiersequenzen als Textzeichenfolgen aus, die aus aufeinanderfolgenden Programmdifferenzen bestehen. Um LintSeq zu testen, verwenden wir es, um einen Datensatz von Anweisungs- + Programm-Paaren in Anweisungs- + Programm-Differenz-Sequenz-Tupel umzuwandeln. Anschließend feinabstimmen wir eine Reihe von kleineren LLMs mit Parametern von 2,6B bis 14B sowohl auf den überarbeiteten als auch auf den originalen Versionen dieses Datensatzes und vergleichen die Null-Schuss-Leistung auf Codesynthese-Benchmarks. Wir zeigen, dass bei wiederholter Probenahme feinabgestimmte Modelle für Editiersequenzen vielfältigere Programme als Baselines produzieren. Dies führt zu einer besseren Skalierung der Inferenzzeit für die Benchmark-Abdeckung als Funktion der Proben, d.h. dem Anteil der Probleme "pass@k", die bei jedem Versuch mit "k" Versuchen gelöst werden. Beispielsweise sind kleine LLMs, die auf synthetischen Editiersequenzen feinabgestimmt sind, bei HumanEval pass@50 wettbewerbsfähig mit GPT-4 und übertreffen Modelle, die auf dem Baseline-Datensatz feinabgestimmt sind, um +20% (+/-3%) im absoluten Wert. Schließlich haben wir auch unsere eigenen winzigen LMs für das Codeverständnis vortrainiert. Wir zeigen, dass das Feintuning von winzigen Modellen auf synthetische Code-Editierungen zu einem State-of-the-Art der Codesynthese für die On-Device-Modellklasse führt. Unser 150M-Parameter-Editiersequenz-LM entspricht oder übertrifft Code-Modelle mit doppelt so vielen Parametern, sowohl mit als auch ohne wiederholte Probenahme, einschließlich Codex und AlphaCode.
Langzeitkontextmodelle (LCMs) haben in den letzten Jahren bemerkenswerte Fortschritte gemacht und bieten den Benutzern eine große Bequemlichkeit bei der Bewältigung von Aufgaben, die einen langen Kontext erfordern, wie z.B. die Zusammenfassung von Dokumenten. Da die Gemeinschaft zunehmend die Treue der generierten Ergebnisse priorisiert, reicht es nicht aus, lediglich die Genauigkeit der LCM-Ausgaben zu gewährleisten, da es für Menschen sehr herausfordernd ist, die Ergebnisse aus dem äußerst langen Kontext zu überprüfen. Obwohl bereits einige Anstrengungen unternommen wurden, um zu bewerten, ob LCMs tatsächlich auf der Grundlage des Kontexts reagieren, beschränken sich diese Arbeiten entweder auf spezifische Aufgaben oder verlassen sich stark auf externe Evaluationsressourcen wie GPT-4. In dieser Arbeit stellen wir L-CiteEval vor, einen umfassenden Multi-Task-Benchmark für das Verständnis von Langzeitkontext mit Zitaten, der darauf abzielt, sowohl die Verständnisfähigkeit als auch die Treue von LCMs zu bewerten. L-CiteEval umfasst 11 Aufgaben aus verschiedenen Bereichen, die Kontextlängen von 8K bis 48K abdecken, und bietet ein vollautomatisiertes Evaluierungspaket. Durch Tests mit 11 topaktuellen Closed-Source- und Open-Source-LCMs stellen wir fest, dass obwohl diese Modelle geringfügige Unterschiede in ihren generierten Ergebnissen aufweisen, Open-Source-Modelle in Bezug auf Zitationsgenauigkeit und Recall deutlich hinter ihren Closed-Source-Gegenstücken zurückbleiben. Dies legt nahe, dass aktuelle Open-Source-LCMs dazu neigen, auf der Grundlage ihres inhärenten Wissens anstatt des gegebenen Kontexts zu reagieren, was ein erhebliches Risiko für die Benutzererfahrung in praktischen Anwendungen darstellt. Wir bewerten auch den RAG-Ansatz und stellen fest, dass RAG die Treue von LCMs signifikant verbessern kann, wenn auch mit einem leichten Rückgang in der Generierungsqualität. Darüber hinaus entdecken wir eine Korrelation zwischen den Aufmerksamkeitsmechanismen von LCMs und dem Zitationsgenerierungsprozess.
Die Retrieval-gestützte Generierung (RAG) hat sich als förderlich für die faktische Genauigkeit von Large Language Models (LLMs) erwiesen, aber bestehende Methoden leiden oft unter begrenzten Schlussfolgerungsfähigkeiten bei der effektiven Nutzung der abgerufenen Beweise, insbesondere bei der Verwendung von Open-Source LLMs. Um diese Lücke zu überbrücken, stellen wir ein neuartiges Framework namens Open-RAG vor, das darauf abzielt, die Schlussfolgerungsfähigkeiten in RAG mit Open-Source LLMs zu verbessern. Unser Framework wandelt ein beliebiges dichtes LLM in ein parameter-effizientes, spärliches Mixture-of-Experts (MoE)-Modell um, das komplexe Schlussfolgerungsaufgaben bewältigen kann, einschließlich Ein- und Mehrfachsprungabfragen. Open-RAG trainiert das Modell auf einzigartige Weise, um mit herausfordernden Ablenkungen umzugehen, die relevant erscheinen, aber irreführend sind. Als Ergebnis nutzt Open-RAG latentes Lernen, indem es relevante Experten dynamisch auswählt und externes Wissen effektiv für genauere und kontextuell relevante Antworten integriert. Darüber hinaus schlagen wir eine hybride adaptive Abrufmethode vor, um die Abrufnotwendigkeit zu bestimmen und den Kompromiss zwischen Leistungssteigerung und Inferenzgeschwindigkeit auszubalancieren. Experimentelle Ergebnisse zeigen, dass das auf Llama2-7B basierende Open-RAG die modernsten LLMs und RAG-Modelle wie ChatGPT, Self-RAG und Command R+ in verschiedenen wissensintensiven Aufgaben übertrifft. Wir stellen unseren Code und unsere Modelle unter https://openragmoe.github.io/ als Open Source zur Verfügung.
Wir untersuchen die internen Repräsentationen von Bildsprachmodellen (VLMs), um Halluzinationen zu behandeln, eine anhaltende Herausforderung trotz Fortschritten in Modellgröße und Training. Wir projizieren die internen Bildrepräsentationen von VLMs auf ihren Sprachwortschatz und beobachten, dass die Ausgabewahrscheinlichkeiten für echte Objekte selbstbewusster sind als für halluzinierte Objekte. Darüber hinaus verwenden wir diese Ausgabewahrscheinlichkeiten, um echte Objekte räumlich zu lokalisieren. Aufbauend auf diesem Ansatz stellen wir einen Wissenslöschalgorithmus vor, der Halluzinationen entfernt, indem er Bildmerkmale linear orthogonalisiert im Hinblick auf halluzinierte Objektmerkmale. Wir zeigen, dass gezielte Änderungen an den latenten Repräsentationen eines Modells Halluzinationen um bis zu 25,7% auf dem COCO2014-Datensatz reduzieren können, während die Leistung erhalten bleibt. Unsere Ergebnisse zeigen, wie ein tieferes Verständnis der latenten Repräsentationen von VLMs die Zuverlässigkeit verbessern und neue Fähigkeiten ermöglichen kann, wie z. B. Null-Schuss-Segmentierung.
Große Sprachmodelle (LLMs), bekannt für ihre Vielseitigkeit in Textdaten, werden zunehmend auf ihr Potenzial zur Verbesserung der medizinischen Bildsegmentierung untersucht, einer entscheidenden Aufgabe für präzise diagnostische Bildgebung. Diese Studie untersucht die Verbesserung von Vision-Transformern (ViTs) für die medizinische Bildsegmentierung durch die Integration von vorab trainierten LLM-Transformerblöcken. Unser Ansatz, der einen eingefrorenen LLM-Transformerblock in den Encoder eines auf ViT basierenden Modells integriert, führt zu erheblichen Verbesserungen der Segmentierungsleistung bei verschiedenen medizinischen Bildgebungsmodalitäten. Wir schlagen einen Hybrid-Aufmerksamkeitsmechanismus vor, der globales und lokales Merkmalslernen mit einem Multi-Scale Fusion Block zur Aggregation von Merkmalen über verschiedene Skalen kombiniert. Das verbesserte Modell zeigt signifikante Leistungssteigerungen, darunter eine durchschnittliche Dice-Score-Erhöhung von 0,74 auf 0,79 sowie Verbesserungen bei Genauigkeit, Präzision und dem Jaccard-Index. Diese Ergebnisse zeigen die Wirksamkeit von LLM-basierten Transformern bei der Verfeinerung der medizinischen Bildsegmentierung auf und heben ihr Potenzial hervor, die Modellgenauigkeit und Robustheit signifikant zu steigern. Der Quellcode und unsere Implementierung sind verfügbar unter: https://bit.ly/3zf2CVs
Autonome Agenten haben ein erhebliches Potenzial bei der Automatisierung komplexer mehrstufiger Entscheidungsaufgaben gezeigt. Dennoch erreichen selbst modernste Vision-Sprach-Modelle (VLMs) wie GPT-4o immer noch nicht die Leistung auf menschlichem Niveau, insbesondere in komplexen Webumgebungen und langfristigen Planungsaufgaben. Um diese Einschränkungen zu bewältigen, stellen wir Reflective Monte Carlo Tree Search (R-MCTS) vor, einen neuartigen Testzeit-Algorithmus, der darauf abzielt, die Fähigkeit von KI-Agenten, z. B. basierend auf GPT-4o, zur Erkundung des Entscheidungsraums in Echtzeit zu verbessern. R-MCTS erweitert das traditionelle MCTS, indem es 1) kontrastive Reflexion integriert, was Agenten ermöglicht, aus vergangenen Interaktionen zu lernen und ihre Sucheffizienz dynamisch zu verbessern; und 2) Multi-Agenten-Debatten zur zuverlässigen Zustandsbewertung verwendet. Darüber hinaus verbessern wir die Leistung des Agenten durch Feinabstimmung von GPT-4o durch Selbstlernen, unter Verwendung von von R-MCTS generierten Baumtraversierungen ohne menschliche Labels. Auf dem anspruchsvollen VisualWebArena-Benchmark erzielt unser auf GPT-4o basierender R-MCTS-Agent eine relative Verbesserung von 6% bis 30% bei verschiedenen Aufgaben im Vergleich zum bisherigen Stand der Technik. Darüber hinaus zeigen wir, dass das während der Testzeit gewonnene Wissen effektiv durch Feinabstimmung zurück auf GPT-4o übertragen werden kann. Das feinabgestimmte GPT-4o erreicht 97% der Leistung von R-MCTS und reduziert den Rechenaufwand zur Testzeit um den Faktor vier. Darüber hinaus zeigen qualitative Ergebnisse, dass das feinabgestimmte GPT-4o-Modell die Fähigkeit besitzt, die Umgebung zu erkunden, einen Zustand zu bewerten und zu lebensfähigen Zuständen zurückzukehren, wenn er erkennt, dass der aktuelle Zustand nicht zum Erfolg führen kann. Unsere Arbeit zeigt außerdem die Skalierungseigenschaften im Rechenbetrieb sowohl während des Trainings - der Datensammlung mit R-MCTS - als auch zur Testzeit. Diese Ergebnisse deuten auf eine vielversprechende Forschungsrichtung hin, um die Denk- und Planungsfähigkeiten von VLMs für agentische Anwendungen durch Testzeit-Suche und Selbstlernen zu verbessern.
Neueste Arbeiten im Volumen-Rendering, z.B. NeRF und 3D-Gauß-Splatting (3DGS), verbessern signifikant die Rendering-Qualität und -Effizienz mit Hilfe des erlernten impliziten neuronalen Strahlungsfelds oder 3D-Gaußschen. Durch das Rendern über einer expliziten Darstellung liefern das herkömmliche 3DGS und seine Varianten Echtzeit-Effizienz, indem das parametrische Modell mit Single-View-Überwachung pro Iteration während des Trainings optimiert wird, was von NeRF übernommen wurde. Folglich werden bestimmte Ansichten überangepasst, was zu unbefriedigendem Erscheinungsbild bei der Synthese von neuartigen Ansichten und ungenauen 3D-Geometrien führt. Um die genannten Probleme zu lösen, schlagen wir eine neue 3DGS-Optimierungsmethode vor, die vier Schlüsselneuheiten verkörpert: 1) Wir wandeln das herkömmliche Single-View-Trainingsparadigma in eine Multi-View-Trainingsstrategie um. Mit unserer vorgeschlagenen Multi-View-Regulierung werden 3D-Gauß-Merkmale weiter optimiert, ohne bestimmte Trainingsansichten zu überanpassen. Als allgemeine Lösung verbessern wir die Gesamtgenauigkeit in verschiedenen Szenarien und verschiedenen Gauß-Varianten. 2) Inspiriert von den Vorteilen zusätzlicher Ansichten schlagen wir weiterhin ein Cross-Intrinsic-Guidance-Schema vor, das zu einem Grob-zu-Fein-Trainingsverfahren bezüglich unterschiedlicher Auflösungen führt. 3) Aufbauend auf unserem Multi-View-regulierten Training schlagen wir weiterhin eine Cross-Ray-Dichtestrategie vor, die mehr Gaußsche Kerne in den Strahl-Schnittregionen aus einer Auswahl von Ansichten verdichtet. 4) Durch weitere Untersuchung der Verdichtungsstrategie stellten wir fest, dass die Wirkung der Verdichtung verstärkt werden sollte, wenn bestimmte Ansichten deutlich unterschiedlich sind. Als Lösung schlagen wir eine neuartige Multi-View-augmentierte Verdichtungsstrategie vor, bei der 3D-Gaußsche dazu ermutigt werden, entsprechend einer ausreichenden Anzahl verdichtet zu werden, was zu einer verbesserten Rekonstruktionsgenauigkeit führt.
In letzter Zeit hat sich die Ansicht verbreitet, dass moderne große multimodale Modelle (LMMs) die meisten der wichtigsten Herausforderungen im Zusammenhang mit der Verständnis von kurzen Videos bewältigt haben. Als Ergebnis verlagern sowohl die akademische Welt als auch die Industrie allmählich ihre Aufmerksamkeit auf die komplexeren Herausforderungen, die sich aus dem Verständnis von Langformvideos ergeben. Aber ist das wirklich so? Unsere Studien zeigen, dass LMMs immer noch viele grundlegende Fähigkeiten zur Schlussfolgerung fehlen, selbst bei der Bearbeitung von kurzen Videos. Wir stellen Vinoground vor, einen zeitlichen kontrafaktischen LMM-Evaluierungsbenchmark, der 1000 kurze und natürliche Video-Untertitelpaare umfasst. Wir zeigen, dass bestehende LMMs erhebliche Schwierigkeiten haben, zeitliche Unterschiede zwischen verschiedenen Handlungen und Objekttransformationen zu unterscheiden. Zum Beispiel erzielt das beste Modell GPT-4o nur etwa ~50% bei unseren Text- und Video-Bewertungen, was eine große Lücke im Vergleich zur menschlichen Basislinie von ~90% zeigt. Alle Open-Source multimodalen Modelle und CLIP-basierten Modelle schneiden viel schlechter ab und erzielen größtenteils zufällige Leistungen. Durch diese Arbeit werfen wir Licht darauf, dass das zeitliche Schlussfolgern in kurzen Videos ein Problem ist, das noch nicht vollständig gelöst ist. Der Datensatz und der Evaluierungscode sind unter https://vinoground.github.io verfügbar.
Wir erforschen das Aufkommen intelligenten Verhaltens in künstlichen Systemen, indem wir untersuchen, wie die Komplexität von regelbasierten Systemen die Fähigkeiten von Modellen beeinflusst, die darauf trainiert sind, diese Regeln vorherzusagen. Unsere Studie konzentriert sich auf elementare zelluläre Automaten (ECA), einfache, aber leistungsstarke eindimensionale Systeme, die Verhaltensweisen von trivial bis hochkomplex erzeugen. Durch das Training unterschiedlicher großer Sprachmodelle (LLMs) auf verschiedenen ECAs haben wir die Beziehung zwischen der Komplexität des Verhaltens der Regeln und der Intelligenz bewertet, die von den LLMs gezeigt wird, wie sie sich in ihrer Leistung bei nachgelagerten Aufgaben widerspiegelt. Unsere Ergebnisse zeigen, dass Regeln mit höherer Komplexität zu Modellen führen, die eine größere Intelligenz aufweisen, wie durch ihre Leistung bei Denk- und Schachzugvorhersageaufgaben gezeigt wird. Sowohl gleichmäßige als auch periodische Systeme und oft auch stark chaotische Systeme führten zu einer schlechteren Leistung bei nachgelagerten Aufgaben, was einen optimalen Bereich der Komplexität hervorhebt, der förderlich für Intelligenz ist. Wir vermuten, dass Intelligenz aus der Fähigkeit entsteht, Komplexität vorherzusagen, und dass die Schaffung von Intelligenz möglicherweise nur die Exposition gegenüber Komplexität erfordert.
Wir präsentieren Synthio, einen neuartigen Ansatz zur Erweiterung von kleinen Audio-Klassifikationsdatensätzen mit synthetischen Daten. Unser Ziel ist es, die Genauigkeit der Audio-Klassifikation mit begrenzten gelabelten Daten zu verbessern. Traditionelle Datenerweiterungstechniken, die künstliche Transformationen anwenden (z. B. Hinzufügen von zufälligem Rauschen oder Maskieren von Segmenten), haben Schwierigkeiten, Daten zu erzeugen, die die wahre Vielfalt in realen Audios erfassen. Um diese Schwäche anzugehen, schlagen wir vor, den Datensatz mit synthetisch erzeugten Audios aus Text-zu-Audio (T2A) Diffusionsmodellen zu erweitern. Die Synthese effektiver Erweiterungen ist jedoch herausfordernd, da die erzeugten Daten nicht nur akustisch konsistent mit dem zugrunde liegenden kleinen Datensatz sein sollten, sondern auch über ausreichende kompositorische Vielfalt verfügen sollten. Um die erste Herausforderung zu überwinden, gleichen wir die Generationen des T2A-Modells mit dem kleinen Datensatz mithilfe der Präferenzoptimierung ab. Dies stellt sicher, dass die akustischen Merkmale der erzeugten Daten konsistent mit dem kleinen Datensatz bleiben. Um die zweite Herausforderung anzugehen, schlagen wir eine neuartige Technik zur Bildunterschriftsgenerierung vor, die die Argumentationsfähigkeiten großer Sprachmodelle nutzt, um (1) vielfältige und sinnvolle Audio-Unterschriften zu generieren und (2) iterativ deren Qualität zu verfeinern. Die generierten Bildunterschriften werden dann verwendet, um das abgestimmte T2A-Modell zu aktivieren. Wir evaluieren Synthio umfassend an zehn Datensätzen und vier simulierten begrenzten Dateneinstellungen. Die Ergebnisse zeigen, dass unsere Methode unter Verwendung eines nur schwach beschrifteten AudioSets trainierten T2A-Modells konsistent alle Baselines um 0,1 % bis 39 % übertrifft.
Wir zeigen, dass kleine vortrainierte grundlegende generative Sprachmodelle mit Millionen von Parametern die latenten Regeln eines Prozesses aus den mit dem Prozess verbundenen Daten erlernen können. Inspiriert von Stefan Zweigs Novelle "Schachnovelle", auch bekannt als "The Royal Game" auf Englisch, zeigen wir, dass 28M und 125M Parameter vortrainierte grundlegende kleine Sprachmodelle (SLMs) mit 1.000 bis 1.000.000 Beispielen zur Anweisungsfeinanpassung lernen können, die Regeln des Schachs vorzuschlagen, legale Züge vorzuschlagen und Schachprobleme genau zu lösen. Wir untersuchen auch die Auswirkungen auf verbesserte Ergebnisse durch aufeinanderfolgende Feinanpassungsepochen des Sprachmodells und zeigen Reduzierungen bei Modellhalluzinationen durch Erhöhung der Anzahl von Beispielen zur Anweisungsfeinanpassung.
Die Zusammenführung von Modellen, wie beispielsweise das Modell-Souping, ist die Praxis, verschiedene Modelle mit derselben Architektur zusammenzuführen, ohne sie weiter zu trainieren. In dieser Arbeit präsentieren wir eine Methodik zur Modellzusammenführung, die die Schwierigkeit des Feinabstimmens von großen Sprachmodellen (Large Language Models, LLMs) für Zielaufgaben in nicht-englischen Sprachen angeht, wo aufgabenspezifische Daten oft nicht verfügbar sind. Wir konzentrieren uns auf mathematisches Denken und erleichtern ohne sprachspezifische mathematische Daten den sprachübergreifenden Transfer, indem wir Sprach- und Mathematikfähigkeiten kombinieren. Ausgehend vom selben vorab trainierten Modell feinabstimmen wir separate "Experten" anhand von Mathematikunterrichtsdaten in Englisch und generischen Unterrichtsdaten in der Zielsprache. Anschließend ersetzen wir die oberen und unteren Transformer-Schichten des Mathematikexperten direkt durch Schichten des Sprachexperten, was die mathematische Leistung in der Zielsprache verbessert. Die resultierenden zusammengeführten Modelle übertreffen die einzelnen Experten und andere Zusammenführungsmethoden im Mathematik-Benchmark, MGSM, um 10 % in vier wichtigen Sprachen, in denen Mathematikunterrichtsdaten knapp sind. Darüber hinaus ist dieser Schichtaustausch einfach, kostengünstig und intuitiv, da er auf einer interpretativen Analyse der wichtigsten Parameteränderungen während der Feinabstimmung jedes Experten basiert. Die Fähigkeit, LLMs erfolgreich für sprachübergreifenden Transfer auf diese Weise neu zu komponieren, eröffnet zukünftige Möglichkeiten, Fachwissen zu kombinieren, modulare Lösungen zu schaffen und Denkfähigkeiten sprachübergreifend nachträglich zu übertragen.
Die jüngsten Fortschritte bei 3D Large Language Models (3DLLMs) haben ihr Potenzial beim Aufbau von allgemeinen Agenten in der dreidimensionalen realen Welt hervorgehoben, dennoch bestehen Herausforderungen aufgrund des Mangels an hochwertigen robusten Anweisungsfolge-Daten, was zu einer begrenzten diskriminativen Leistung und Verallgemeinerung der 3DLLMs führt. In diesem Artikel stellen wir Robin3D vor, ein leistungsstarkes 3DLLM, das auf groß angelegten Anweisungsfolge-Daten trainiert wurde, die von unserem neuartigen Datenmotor, dem Robust Instruction Generation (RIG) Motor, generiert wurden. RIG generiert zwei Schlüssel-Anweisungsdaten: 1) die Adversarial Anweisungsfolge-Daten, die gemischte negative und positive Beispiele enthalten, um das diskriminative Verständnis des Modells zu verbessern. 2) die Diverse Anweisungsfolge-Daten, die verschiedene Anweisungsstile enthalten, um die Verallgemeinerung des Modells zu verbessern. Als Ergebnis erstellen wir 1 Million Anweisungsfolge-Daten, bestehend aus 344.000 Adversarial-Beispielen, 508.000 Diversen Beispielen und 165.000 Beispielen des Benchmark-Trainingsdatensatzes. Um diese komplexen Anweisungen besser zu verarbeiten, integriert Robin3D zunächst einen Relation-Augmented Projector, um das räumliche Verständnis zu verbessern, und stärkt dann die Fähigkeit zur Objektverweisung und -verankerung durch ID-Feature Bonding. Robin3D übertrifft konsistent frühere Methoden in fünf weit verbreiteten 3D-multimodalen Lern-Benchmarks, ohne dass eine aufgabenspezifische Feinabstimmung erforderlich ist. Bemerkenswert ist, dass wir eine Verbesserung von 7,8\% bei der Verankerungsaufgabe (Multi3DRefer) und eine Verbesserung von 6,9\% bei der Bildunterschriftenaufgabe (Scan2Cap) erzielen.
Die feinabgestimmte Anpassung basierend auf Vorgaben ist zu einer wesentlichen Methode geworden, um Informationen abzurufen, die in vorab trainierten Sprachmodellen für eine Vielzahl von Aufgaben codiert sind, einschließlich Textklassifizierung. Für Multi-Class-Klassifizierungsaufgaben hat die feinabgestimmte Anpassung basierend auf Vorgaben unter Bedingungen mit geringen Ressourcen zu Leistungsstufen geführt, die mit denen vollständig feinabgestimmter Methoden vergleichbar sind. Frühere Studien haben speziell erstellte Vorgabevorlagen und Verbalisierer verwendet, die vom Begriffsbereich der Labels zum Klassenbereich abbilden, um das Klassifizierungsproblem als eine Aufgabe des maskierten Sprachmodellierens zu lösen. Jedoch bleibt die feinabgestimmte Anpassung basierend auf Vorgaben über Domänen hinweg und fein abgestuft mit einem automatisch angereicherten Verbalisierer weitgehend unerforscht, hauptsächlich aufgrund der Schwierigkeiten und Kosten bei der manuellen Auswahl von Domänenlabelbegriffen für den Verbalisierer, die menschliche Expertise in der Domäne erfordern. Um diese Herausforderung anzugehen, stellen wir SciPrompt vor, ein Framework, das entwickelt wurde, um automatisch wissenschaftliche themenbezogene Begriffe für Textklassifizierungsaufgaben mit geringen Ressourcen abzurufen. Zu diesem Zweck wählen wir semantisch korrelierte und domänenspezifische Labelbegriffe im Kontext wissenschaftlicher Literatur für die Verbalisierer-Erweiterung aus. Darüber hinaus schlagen wir eine neue Verbalisierungsstrategie vor, die Korrelationsscores als zusätzliche Gewichte verwendet, um die Vorhersageleistung des Sprachmodells während der Modellanpassung zu verbessern. Unsere Methode übertrifft state-of-the-art, auf Vorgaben basierende feinabgestimmte Methoden bei wissenschaftlichen Textklassifizierungsaufgaben unter wenigen und Zero-Shot-Einstellungen, insbesondere bei der Klassifizierung fein abgestufter und aufkommender wissenschaftlicher Themen.