Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Cambrian-1 vor, eine Familie von multimodalen Sprachmodellen (MLLMs), die mit einem visionären Ansatz entwickelt wurden. Während leistungsstärkere Sprachmodelle die multimodalen Fähigkeiten verbessern können, sind die Designentscheidungen für die Vision-Komponenten oft unzureichend erforscht und von der visuellen Repräsentationslernen-Forschung getrennt. Diese Lücke behindert eine genaue sensorische Verankerung in realen Szenarien. Unsere Studie verwendet LLMs und visuelle Anleitungseinstellung als Schnittstelle, um verschiedene visuelle Darstellungen zu bewerten und neue Einblicke in verschiedene Modelle und Architekturen - selbstüberwacht, stark überwacht oder Kombinationen davon - basierend auf Experimenten mit über 20 Vision-Encodern zu bieten. Wir untersuchen kritisch bestehende MLLM-Benchmarks, adressieren die Schwierigkeiten bei der Konsolidierung und Interpretation von Ergebnissen aus verschiedenen Aufgaben und stellen einen neuen visionären Benchmark, CV-Bench, vor. Um die visuelle Verankerung weiter zu verbessern, schlagen wir den Spatial Vision Aggregator (SVA) vor, einen dynamischen und räumlich bewussten Connector, der hochauflösende visuelle Merkmale mit LLMs integriert und gleichzeitig die Anzahl der Tokens reduziert. Darüber hinaus diskutieren wir die Kuratierung von hochwertigen visuellen Anleitungseinstellungsdaten aus öffentlich verfügbaren Quellen und betonen die Bedeutung des Ausgleichs und der Verteilungsverhältnisse der Datenquellen. Insgesamt erreicht Cambrian-1 nicht nur eine Spitzenleistung, sondern dient auch als umfassendes, offenes Handbuch für anleitungsgesteuerte MLLMs. Wir stellen Modellgewichte, Code, unterstützende Tools, Datensätze und detaillierte Anleitungseinstellungs- und Evaluationsrezepte zur Verfügung. Wir hoffen, dass unser Release Fortschritte in multimodalen Systemen und visuellem Repräsentationslernen inspiriert und beschleunigt.
Die personalisierte Bildgenerierung birgt großes Potenzial, um Menschen in ihrem täglichen Arbeits- und Lebensumfeld zu unterstützen, aufgrund ihrer beeindruckenden Fähigkeit, personalisierte Inhalte kreativ zu generieren. Allerdings sind aktuelle Bewertungsmethoden entweder automatisiert, aber nicht mit menschlichen Bewertungen übereinstimmend, oder erfordern menschliche Bewertungen, die zeitaufwändig und kostspielig sind. In dieser Arbeit präsentieren wir DreamBench++, einen an menschlichen Maßstäben ausgerichteten Benchmark, der durch fortschrittliche multimodale GPT-Modelle automatisiert wird. Konkret gestalten wir systematisch die Aufforderungen, um GPT sowohl an menschlichen als auch an selbst ausgerichteten Maßstäben auszurichten, gestärkt durch Aufgabenerfüllung. Darüber hinaus erstellen wir einen umfassenden Datensatz, der verschiedene Bilder und Aufforderungen umfasst. Durch den Vergleich von 7 modernen generativen Modellen zeigen wir, dass DreamBench++ zu signifikant mehr an menschlichen Maßstäben ausgerichteten Bewertungen führt und der Gemeinschaft mit innovativen Erkenntnissen zugutekommt.
Die automatisierte Softwareentwicklung wurde durch die jüngsten Fortschritte bei Large Language Models (LLMs) für die Programmierung erheblich verbessert. Während aktuelle Benchmarks gezeigt haben, dass LLMs verschiedene Softwareentwicklungsaufgaben wie menschliche Entwickler ausführen können, sind die meisten ihrer Bewertungen auf kurze und in sich geschlossene algorithmische Aufgaben beschränkt. Das Lösen anspruchsvoller und praktischer Programmieraufgaben erfordert die Fähigkeit, verschiedene Funktionsaufrufe als Werkzeuge zu nutzen, um Funktionalitäten wie Datenanalyse und Webentwicklung effizient zu implementieren. Darüber hinaus erfordert die Verwendung mehrerer Werkzeuge zur Lösung einer Aufgabe zusammengesetztes Denken durch das genaue Verständnis komplexer Anweisungen. Das Erfüllen dieser beiden Merkmale kann eine große Herausforderung für LLMs darstellen. Um zu bewerten, wie gut LLMs anspruchsvolle und praktische Programmieraufgaben lösen können, stellen wir Bench vor, einen Benchmark, der LLMs herausfordert, mehrere Funktionsaufrufe als Werkzeuge aus 139 Bibliotheken und 7 Domänen für 1.140 feingranulare Programmieraufgaben zu nutzen. Um LLMs rigoros zu bewerten, umfasst jede Programmieraufgabe 5,6 Testfälle mit einer durchschnittlichen Branchenabdeckung von 99%. Darüber hinaus schlagen wir eine natürlichsprachliche Variante von Bench vor, Benchi, die die ursprünglichen Docstrings automatisch in kurze Anweisungen mit nur den wesentlichen Informationen umwandelt. Unsere umfangreiche Evaluation von 60 LLMs zeigt, dass LLMs noch nicht in der Lage sind, komplexe Anweisungen zur Verwendung von Funktionsaufrufen präzise zu befolgen, mit Punktzahlen von bis zu 60%, die deutlich niedriger sind als die menschliche Leistung von 97%. Die Ergebnisse unterstreichen die Notwendigkeit weiterer Fortschritte in diesem Bereich.
Rückgewinnungsmodelle werden oft an teilweise annotierten Datensätzen evaluiert. Jede Abfrage wird einigen relevanten Texten zugeordnet, während angenommen wird, dass der restliche Korpus irrelevant ist. Als Ergebnis werden Modelle, die erfolgreich falsche Negative abrufen, bei der Evaluation bestraft. Leider ist es nicht ressourceneffizient, alle Texte für jede Abfrage vollständig zu annotieren. In dieser Arbeit zeigen wir, dass die Verwendung von teilweise annotierten Datensätzen bei der Evaluation ein verzerrtes Bild liefern kann. Wir kuratieren D-MERIT, einen Passage-Rückgewinnungsevaluierungssatz aus Wikipedia, der darauf abzielt, alle relevanten Passagen für jede Abfrage zu enthalten. Abfragen beschreiben eine Gruppe (z. B. "Zeitschriften über Linguistik") und relevante Passagen sind Hinweise darauf, dass Entitäten zu dieser Gruppe gehören (z. B. eine Passage, die besagt, dass Language eine Zeitschrift über Linguistik ist). Wir zeigen, dass die Evaluation anhand eines Datensatzes, der nur für eine Teilmenge der relevanten Passagen Annotationen enthält, zu einer irreführenden Rangfolge der Rückgewinnungssysteme führen kann und dass die Rangfolgen konvergieren, wenn mehr relevante Texte in den Evaluierungssatz einbezogen werden. Wir schlagen unseren Datensatz als Ressource für die Evaluation und unsere Studie als Empfehlung für das Gleichgewicht zwischen Ressourceneffizienz und zuverlässiger Evaluation bei der Annotation von Evaluierungssätzen für Text-Rückgewinnung vor.
Videosequenzen bieten wertvolle zeitliche Informationen, aber bestehende große multimodale Modelle (LMMs) haben Schwierigkeiten, extrem lange Videos zu verstehen. Viele Arbeiten lösen dieses Problem, indem sie die Anzahl der visuellen Tokens mithilfe von visuellen Resamplern reduzieren. Alternativ gehen wir in diesem Papier das Problem aus der Perspektive des Sprachmodells an. Durch einfache Extrapolation der Kontextlänge des Sprachrückgrats ermöglichen wir es LMMs, Größenordnungen mehr visuelle Tokens ohne spezielles Videotraining zu erfassen. Wir nennen dieses Phänomen "Langkontexttransfer" und untersuchen seine Eigenschaften sorgfältig. Um die Fähigkeit von LMMs, sich auf lange Kontexte in der visuellen Modalität zu verallgemeinern, effektiv zu messen, entwickeln wir V-NIAH (Visual Needle-In-A-Haystack), einen rein synthetischen langen Vision-Benchmark, inspiriert vom NIAH-Test des Sprachmodells. Unser vorgeschlagener Langvideo-Assistent (LongVA) kann 2000 Frames oder über 200.000 visuelle Tokens ohne zusätzliche Komplexitäten verarbeiten. Mit seiner erweiterten Kontextlänge erzielt LongVA Spitzenleistungen bei Video-MME unter 7B-Maßstabsmodellen, indem mehr Eingabeframes dicht abgetastet werden. Unsere Arbeit ist unter https://github.com/EvolvingLMMs-Lab/LongVA Open Source verfügbar.
Diffusionsmodelle haben kürzlich bemerkenswerte Ergebnisse bei der Videogenerierung erzielt. Trotz der vielversprechenden Leistungen sind die generierten Videos in der Regel auf eine geringe Anzahl von Frames beschränkt, was zu Clips führt, die nur wenige Sekunden dauern. Die Hauptprobleme bei der Erstellung längerer Videos sind der erhebliche Speicherbedarf und die verlängerte Verarbeitungszeit, die auf einer einzelnen GPU erforderlich ist. Eine einfache Lösung wäre die Aufteilung der Arbeitslast auf mehrere GPUs, was jedoch zu zwei Problemen führt: (1) die Gewährleistung einer effektiven Kommunikation aller GPUs zur gemeinsamen Nutzung von Zeit- und Kontextinformationen und (2) die Anpassung bestehender Videodiffusionsmodelle, die normalerweise auf kurzen Sequenzen trainiert sind, um längere Videos ohne zusätzliches Training zu erstellen. Um diese Herausforderungen anzugehen, stellen wir in diesem Papier Video-Infinity vor, eine verteilte Inferenzpipeline, die parallele Verarbeitung über mehrere GPUs für die Generierung von Langformvideos ermöglicht. Konkret schlagen wir zwei zusammenhängende Mechanismen vor: Clip-Parallelismus und Dual-Scope-Aufmerksamkeit. Der Clip-Parallelismus optimiert das Sammeln und Teilen von Kontextinformationen über GPUs hinweg, was den Kommunikationsaufwand minimiert, während die Dual-Scope-Aufmerksamkeit die zeitliche Selbst-Aufmerksamkeit moduliert, um lokale und globale Kontexte effizient über die Geräte hinweg auszubalancieren. Zusammen arbeiten die beiden Mechanismen zusammen, um die Arbeitslast zu verteilen und die schnelle Generierung langer Videos zu ermöglichen. Unter einer Einrichtung mit 8 x Nvidia 6000 Ada GPUs (48G) generiert unsere Methode Videos mit bis zu 2.300 Frames in etwa 5 Minuten und ermöglicht so die Generierung langer Videos mit einer Geschwindigkeit, die 100-mal schneller ist als bei früheren Methoden.
In jüngster Zeit haben Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) ihre Fähigkeiten auf das Verständnis von Videos ausgeweitet. Dennoch werden diese Modelle oft von "Halluzinationen" geplagt, bei denen irrelevante oder unsinnige Inhalte erzeugt werden, die vom tatsächlichen Videokontext abweichen. Diese Arbeit stellt VideoHallucer vor, den ersten umfassenden Benchmark für die Erkennung von Halluzinationen in großen Video-Sprachmodellen (LVLMs). VideoHallucer kategorisiert Halluzinationen in zwei Haupttypen: intrinsisch und extrinsisch und bietet weitere Unterkategorien für eine detaillierte Analyse, einschließlich Objekt-Beziehung, zeitlicher, semantischer Details, extrinsischer faktischer und extrinsischer nicht-faktischer Halluzinationen. Wir übernehmen eine adversarielle binäre VideoQA-Methode für eine umfassende Bewertung, bei der Paare von grundlegenden und halluzinierten Fragen strategisch erstellt werden. Durch die Bewertung von elf LVLMs auf VideoHallucer zeigen wir auf, dass i) die Mehrheit der aktuellen Modelle erhebliche Probleme mit Halluzinationen aufweist; ii) während das Skalieren von Datensätzen und Parametern die Fähigkeit der Modelle verbessert, grundlegende visuelle Hinweise und Gegenfaktische zu erkennen, bietet es nur begrenzten Nutzen für die Erkennung extrinsischer faktischer Halluzinationen; iii) bestehende Modelle sind besser darin, Fakten zu erkennen als Halluzinationen zu identifizieren. Als Nebenprodukt leiten diese Analysen die Entwicklung unseres Self-PEP-Frameworks weiter, das eine durchschnittliche Verbesserung der Halluzinationsresistenz von 5,38% bei allen Modellarchitekturen erzielt.
Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) richtet große Sprachmodelle (LLMs) aus, indem sie deren Generierungen dazu ermutigt, hohe Belohnungen zu erhalten, unter Verwendung eines Belohnungsmodells, das auf menschlichen Präferenzen trainiert ist. Um das Vergessen des vorab trainierten Wissens zu verhindern, integriert RLHF in der Regel eine KL-Regularisierung; diese zwingt die Richtlinie, nahe an ihrer überwachten feinabgestimmten Initialisierung zu bleiben, obwohl sie die Belohnungsoptimierung behindert. Um den Kompromiss zwischen KL und Belohnung zu bewältigen, stellen wir in diesem Papier eine neue Ausrichtungsstrategie namens Weight Averaged Rewarded Policies (WARP) vor. WARP fusioniert Richtlinien im Gewichtsraum in drei verschiedenen Stufen. Zunächst verwendet es den exponentiell gleitenden Durchschnitt der Richtlinie als dynamischen Anker in der KL-Regularisierung. Zweitens wendet es sphärische Interpolation an, um unabhängig feinabgestimmte Richtlinien in eine neue verbesserte Richtlinie zu fusionieren. Drittens interpoliert es linear zwischen diesem fusionierten Modell und der Initialisierung, um Merkmale aus dem Vorabtraining wiederherzustellen. Dieses Verfahren wird dann iterativ angewendet, wobei das endgültige Modell jeder Iteration als fortgeschrittene Initialisierung für die nächste verwendet wird, um den KL-Belohnungs-Pareto-Frontverlauf schrittweise zu verfeinern und überlegene Belohnungen bei festem KL zu erzielen. Experimente mit GEMMA-Richtlinien bestätigen, dass WARP deren Qualität und Ausrichtung verbessert und andere Open-Source-LLMs übertrifft.
Das Interesse an linearen Komplexitätsmodellen für große Sprachmodelle nimmt zu, obwohl ihre Skalierbarkeit unsicher bleibt. In dieser Studie präsentieren wir die Skalierungsgesetze für lineare Komplexitäts-Sprachmodelle, um eine Grundlage für ihre Skalierbarkeit zu schaffen. Speziell untersuchen wir das Skalierungsverhalten von drei effizienten linearen Architekturen. Diese umfassen TNL, ein lineares Aufmerksamkeitsmodell mit datenunabhängigem Abbau; HGRN2, ein lineares RNN mit datenabhängigem Abbau; und cosFormer2, ein lineares Aufmerksamkeitsmodell ohne Abbau. Wir beziehen auch LLaMA als Basismodell für Softmax-Aufmerksamkeit für Vergleiche mit ein. Diese Modelle wurden mit sechs Varianten trainiert, die von 70M bis 7B Parametern auf einem 300B-Token-Korpus reichen, und mit insgesamt 1.376 Zwischenprüfpunkten auf verschiedenen nachgelagerten Aufgaben evaluiert. Diese Aufgaben umfassen Validierungsverlust, gesunden Menschenverstand, sowie Informationsabruf und -generierung. Die Studie zeigt, dass bestehende lineare Komplexitäts-Sprachmodelle ähnliche Skalierbarkeitsfähigkeiten wie konventionelle Transformer-basierte Modelle aufweisen, während sie auch überlegene sprachliche Kompetenz und Wissensbewahrung demonstrieren.
Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert und ihre Anwendbarkeit auf vielfältige kommerzielle Anwendungen erweitert. Allerdings wird der Einsatz dieser Modelle durch lange Inferenzzeiten in mehrsprachigen Umgebungen eingeschränkt. Um diese Herausforderung zu mildern, erforscht diese Arbeit ein Trainingsrezept für ein Assistentenmodell im spekulativen Decodieren, das genutzt wird, um Entwürfe zu erstellen, deren zukünftige Token dann vom Ziel-LLM überprüft werden. Wir zeigen, dass sprachspezifische Entwurfsmodelle, die durch eine gezielte Vorabtrainings- und Feinabstimmungsstrategie optimiert sind, die Inferenzzeit im Vergleich zu früheren Methoden erheblich beschleunigen. Wir validieren diese Modelle in Bezug auf verschiedene Sprachen hinsichtlich Inferenzzeit, Beschleunigung außerhalb des Domänenkontexts und GPT-4o-Bewertung.
Die kontinuierliche Vor-Trainierung hat sich zunehmend als vorherrschender Ansatz für die Anpassung von Großen Sprachmodellen (LLMs) an neue Bereiche etabliert. Dieser Prozess beinhaltet das Aktualisieren des vor-trainierten LLMs mit einem Korpus aus einem neuen Bereich, was zu einer Verschiebung in der Trainingsverteilung führt. Um das Verhalten von LLMs während dieser Verschiebung zu untersuchen, haben wir die Leistung des Modells während des kontinuierlichen Vor-Trainierungsprozesses gemessen. Wir beobachteten einen vorübergehenden Leistungsabfall zu Beginn, gefolgt von einer Erholungsphase, ein Phänomen, das als "Stabilitätslücke" bekannt ist, das zuvor bei Vision-Modellen, die neue Klassen klassifizieren, festgestellt wurde. Um dieses Problem anzugehen und die Leistung von LLMs innerhalb eines festen Rechenbudgets zu verbessern, schlagen wir drei effektive Strategien vor: (1) Kontinuierliches Vor-Trainieren des LLMs auf einem Subset mit einer angemessenen Größe für mehrere Epochen, was zu einer schnelleren Leistungswiederherstellung führt als das Vor-Trainieren des LLMs auf einem großen Korpus in einer einzigen Epoche; (2) Vor-Trainieren des LLMs nur auf hochwertigem Sub-Korpus, was die Leistung im Bereich schnell steigert; und (3) Verwendung einer Datenmischung, die der Vor-Trainierungsdaten ähnelt, um die Verteilungslücke zu verringern. Wir führen verschiedene Experimente an Llama-Familienmodellen durch, um die Wirksamkeit unserer Strategien sowohl beim medizinischen kontinuierlichen Vor-Trainieren als auch beim Anpassen von Anweisungen zu validieren. Beispielsweise verbessern unsere Strategien die durchschnittliche medizinische Leistungsaufgabe des OpenLlama-3B-Modells von 36,2 % auf 40,7 % mit nur 40 % des ursprünglichen Trainingsbudgets und verbessern die durchschnittliche allgemeine Leistungsaufgabe, ohne ein Vergessen zu verursachen. Darüber hinaus wenden wir unsere Strategien auf das Llama-3-8B-Modell an. Das resultierende Modell, Llama-3-Physician, erzielt die beste medizinische Leistung unter aktuellen Open-Source-Modellen und schneidet in mehreren medizinischen Benchmarks vergleichbar oder sogar besser ab als GPT-4. Wir veröffentlichen unsere Modelle unter https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
Die effiziente Berücksichtigung langer Sequenzen in autoregressiven Transformatoren, insbesondere innerhalb eines erweiterten Kontextfensters, stellt aufgrund der quadratischen Rechenkomplexität und des erheblichen KV-Speicherbedarfs, die in Self-Attention-Mechanismen inhärent sind, bedeutende Herausforderungen dar. In dieser Arbeit stellen wir SPARSEK Attention vor, einen neuartigen sparsamen Aufmerksamkeitsmechanismus, der entwickelt wurde, um diese Rechen- und Speicherhindernisse zu überwinden, während die Leistung beibehalten wird. Unser Ansatz integriert ein Bewertungsnetzwerk und einen differenzierbaren Top-k-Maskenoperator, SPARSEK, um eine konstante Anzahl von KV-Paaren für jede Abfrage auszuwählen, wodurch eine optimierungsbasierte Gradientenberechnung ermöglicht wird. Somit bietet SPARSEK Attention eine lineare Zeitkomplexität und einen konstanten Speicherplatzbedarf während der Generierung. Experimentelle Ergebnisse zeigen, dass SPARSEK Attention frühere sparsame Aufmerksamkeitsmethoden übertrifft und signifikante Geschwindigkeitsverbesserungen sowohl während des Trainings als auch der Inferenz bietet, insbesondere bei der Sprachmodellierung und nachgelagerten Aufgaben. Darüber hinaus kann unsere Methode nahtlos in vorab trainierte große Sprachmodelle (LLMs) mit minimalem Feintuning integriert werden und bietet somit eine praktische Lösung zur effektiven Verwaltung von Langstreckenabhängigkeiten in verschiedenen Anwendungen.
Wir schlagen semantische Entropie-Sonden (SEPs) vor, eine kostengünstige und zuverlässige Methode zur Unsicherheitsquantifizierung in Large Language Models (LLMs). Halluzinationen, die plausibel klingen, aber faktisch inkorrekt und willkürlich sind, stellen eine große Herausforderung für die praktische Anwendung von LLMs dar. Kürzlich vorgestellte Arbeit von Farquhar et al. (2024) schlägt semantische Entropie (SE) vor, die Halluzinationen erkennen kann, indem sie die Unsicherheit im semantischen Bedeutungsraum für eine Reihe von Modellgenerationen schätzt. Allerdings behindert der 5- bis 10-fache Anstieg der Rechenkosten, die mit der SE-Berechnung verbunden sind, die praktische Anwendung. Um dies zu lösen, schlagen wir SEPs vor, die SE direkt aus den verborgenen Zuständen einer einzelnen Generation approximieren. SEPs sind einfach zu trainieren und erfordern keine Probenahme mehrerer Modellgenerationen zur Testzeit, was den Overhead der semantischen Unsicherheitsquantifizierung auf nahezu null reduziert. Wir zeigen, dass SEPs eine hohe Leistung bei der Halluzinationserkennung beibehalten und besser auf Out-of-Distribution-Daten generalisieren als bisherige Sondenmethoden, die die Modellgenauigkeit direkt vorhersagen. Unsere Ergebnisse über Modelle und Aufgaben hinweg legen nahe, dass Modellverborgene Zustände SE erfassen, und unsere Ablationsstudien geben weitere Einblicke in die Token-Positionen und Modellschichten, für die dies zutrifft.
Mit dem zunehmenden Einfluss großer Sprachmodelle (LLMs) auf den Alltag steigt der Bedarf an Echtzeit-Interaktionen, die menschliche Gespräche widerspiegeln. Traditionelle, auf Abwechselung basierende Chat-Systeme, die von LLMs gesteuert werden, verhindern, dass Benutzer verbal mit dem System interagieren, während es Antworten generiert. Um diese Einschränkungen zu überwinden, passen wir bestehende LLMs für Duplex-Modelle an, sodass diese LLMs Benutzer zuhören können, während sie Ausgaben generieren und sich dynamisch anpassen, um Benutzern sofortiges Feedback zu geben, z. B. als Reaktion auf Unterbrechungen. Konkret unterteilen wir die Anfragen und Antworten von Gesprächen in mehrere Zeitscheiben und übernehmen dann eine Zeitmultiplex-Kodierungs-Decodierungsstrategie, um diese Scheiben pseudo-simultan zu verarbeiten. Darüber hinaus erstellen wir, um LLMs ausreichend leistungsfähig zu machen, um Echtzeit-Gespräche zu bewältigen, ein Feinabstimmungsdatenset, das aus abwechselnden Zeitscheiben von Anfragen und Antworten besteht und typische Feedback-Typen in sofortigen Interaktionen abdeckt. Unsere Experimente zeigen, dass LLMs trotz der Segmentierung von Anfragen und Antworten von Gesprächen in unvollständige Scheiben für die Verarbeitung ihre ursprüngliche Leistung auf Standard-Benchmarks mit einigen Feinabstimmungsschritten auf unserem Datenset beibehalten können. Automatische und menschliche Bewertungen zeigen, dass Duplex-Modelle Benutzer-KI-Interaktionen natürlicher und menschenähnlicher gestalten und im Vergleich zu herkömmlichen LLMs die Benutzerzufriedenheit erheblich steigern. Unser Duplex-Modell und Datenset werden veröffentlicht.
Die Entgiftung von mehrsprachigen Large Language Models (LLMs) ist aufgrund ihrer zunehmenden globalen Verwendung entscheidend geworden. In dieser Arbeit untersuchen wir die Null-Schuss-querlinguale Verallgemeinerung der Präferenzabstimmung zur Entgiftung von LLMs. Im Gegensatz zu früheren Studien, die eine begrenzte querlinguale Verallgemeinerung für andere Sicherheitsaufgaben zeigen, zeigen wir, dass das Training mit Direkter Präferenzoptimierung (DPO) nur mit englischen Daten die Toxizität bei mehrsprachigen offenen Generierungen signifikant reduzieren kann. Zum Beispiel sinkt die Wahrscheinlichkeit, dass mGPT-1.3B toxische Fortsetzungen generiert, nach dem Training von 46,8% auf 3,9% in 17 verschiedenen Sprachen. Unsere Ergebnisse erstrecken sich auch auf andere mehrsprachige LLMs wie BLOOM, Llama3 und Aya-23. Unter Verwendung mechanistischer Interpretierbarkeitswerkzeuge wie kausaler Intervention und Aktivierungsanalyse identifizierten wir die duale Mehrsprachigkeits-Eigenschaft der MLP-Schichten in LLMs, die die querlinguale Verallgemeinerung von DPO erklärt. Schließlich zeigen wir, dass die zweisprachige Satzrückgewinnung die querlinguale Übertragbarkeit der DPO-Präferenzabstimmung vorhersagen kann.
Obwohl Große Sprachmodelle (LLMs) immer leistungsstärker werden, zeigen sie immer noch signifikante, aber subtile Schwächen, wie Fehler bei Anweisungsverfolgung oder Kodierungsaufgaben. Da diese unerwarteten Fehler in praktischen Anwendungen zu schwerwiegenden Konsequenzen führen könnten, ist es entscheidend, die Grenzen von LLMs systematisch zu untersuchen. Traditionelle Benchmarking-Ansätze können spezifische Modelldefizite nicht gründlich identifizieren, während manuelle Inspektionen kostspielig und nicht skalierbar sind. In diesem Papier stellen wir ein einheitliches Framework, AutoDetect, vor, um Schwächen in LLMs automatisch über verschiedene Aufgaben hinweg aufzudecken. Inspiriert vom Bildungsbeurteilungsprozess, der die Lernerfolge von Schülern misst, besteht AutoDetect aus drei LLM-gesteuerten Agenten: Prüfer, Fragesteller und Bewerter. Die Zusammenarbeit dieser drei Agenten ist darauf ausgelegt, eine umfassende und tiefgreifende Schwächenidentifikation zu realisieren. Unser Framework zeigt signifikanten Erfolg bei der Aufdeckung von Mängeln, mit einer Identifikationsrate von über 30% in prominenten Modellen wie ChatGPT und Claude. Noch wichtiger ist, dass diese identifizierten Schwächen konkrete Modellverbesserungen anleiten können, die effektiver sind als ungerichtete Datenaugmentationsmethoden wie Self-Instruct. Unser Ansatz hat zu erheblichen Verbesserungen bei beliebten LLMs geführt, einschließlich der Llama-Serie und Mistral-7b, wodurch ihre Leistung in mehreren Benchmarks um über 10% gesteigert wurde. Code und Daten sind öffentlich unter https://github.com/thu-coai/AutoDetect verfügbar.
Trotz ihrer weit verbreiteten Verwendung bleiben die Mechanismen, mit denen große Sprachmodelle (LLMs) Unsicherheiten bei Vorhersagen des nächsten Tokens darstellen und regulieren, weitgehend unerforscht. Diese Studie untersucht zwei entscheidende Komponenten, von denen angenommen wird, dass sie diese Unsicherheit beeinflussen: die kürzlich entdeckten Entropieneuronen und eine neue Reihe von Komponenten, die wir als Token-Frequenz-Neuronen bezeichnen. Entropieneuronen zeichnen sich durch eine ungewöhnlich hohe Gewichtsnorm aus und beeinflussen die Skalierung der Endschichtnormalisierung (LayerNorm), um die Logits effektiv zu reduzieren. Unsere Arbeit zeigt, dass Entropieneuronen durch Schreiben in einen Unembedding-Nullraum arbeiten, was es ihnen ermöglicht, den Reststromnorm mit minimalem direktem Einfluss auf die Logits selbst zu beeinflussen. Wir beobachten das Vorhandensein von Entropieneuronen in einer Reihe von Modellen mit bis zu 7 Milliarden Parametern. Andererseits verstärken oder unterdrücken Token-Frequenz-Neuronen, die wir hier erstmals entdecken und beschreiben, den Logit jedes Tokens proportional zu seiner logarithmischen Häufigkeit und verschieben so die Ausgabeverteilung in Richtung oder weg von der Unigrammverteilung. Schließlich präsentieren wir eine detaillierte Fallstudie, in der Entropieneuronen aktiv das Vertrauen in der Induktionsumgebung steuern, d.h. das Erkennen und Fortsetzen wiederholter Teilfolgen.
Was macht ein gutes Large Language Model (LLM) aus? Dass es gut auf den relevanten Benchmarks abschneidet - die hoffentlich die Vorhandensein von Fähigkeiten messen, die auch in realen Anwendungen herausgefordert werden. Aber was lässt das Modell gut abschneiden? Was verleiht einem Modell seine Fähigkeiten? Wir nehmen einen kürzlich eingeführten Benchmark-Typ, der darauf abzielt, Fähigkeiten in einem zielgerichteten, agentiven Kontext durch Selbstspiel von Konversationspielen herauszufordern, und analysieren, wie sich die Leistung in Abhängigkeit von Modellmerkmalen wie der Anzahl der Parameter oder dem Trainingstyp entwickelt. Wir stellen fest, dass zwar eine klare Beziehung zwischen der Anzahl der Parameter und der Leistung besteht, es jedoch immer noch eine breite Streuung von Leistungspunkten innerhalb einer bestimmten Größenklasse gibt, die durch Trainingsparameter wie die Qualität der Feinabstimmungsdaten und -methode berücksichtigt werden muss. Aus einer praktischeren Perspektive heraus stellen wir auch ein gewisses Maß an Unvorhersehbarkeit hinsichtlich der Leistung über verschiedene Zugriffsmethoden fest, möglicherweise aufgrund nicht offengelegter Abtastparameter, sowie eine sehr willkommene Leistungsstabilität gegen zumindest moderate Gewichtsquantisierung während der Inferenz.
Die hochwertige 3D-Kleidungssynthese aus Text ist wünschenswert, aber herausfordernd für die Erstellung digitaler Avatare. Kürzlich entwickelte diffusionsbasierte Ansätze über Score Distillation Sampling (SDS) haben neue Möglichkeiten eröffnet, aber entweder eng mit dem menschlichen Körper verbunden oder haben Schwierigkeiten bei der Wiederverwendung. Wir stellen ClotheDreamer vor, eine 3D-Gauß-basierte Methode zur Generierung von tragbaren, produktionsfertigen 3D-Kleidungsstücken aus Texteingaben. Wir schlagen eine neuartige Darstellung namens Disentangled Clothe Gaussian Splatting (DCGS) vor, um separate Optimierungen zu ermöglichen. DCGS stellt den bekleideten Avatar als ein Gauß-Modell dar, friert jedoch die Körpersplats ein. Zur Verbesserung von Qualität und Vollständigkeit integrieren wir bidirektionales SDS zur Überwachung des bekleideten Avatars und der Kleidungs-RGBD-Renderings jeweils mit Posebedingungen und schlagen eine neue Strategie zur Entfernung von lockerer Kleidung vor. Unser Ansatz kann auch benutzerdefinierte Kleidungsvorlagen als Eingabe unterstützen. Dank unseres Designs kann die synthetische 3D-Kleidung problemlos für virtuelles Anprobieren verwendet werden und unterstützt physikalisch genaue Animationen. Umfangreiche Experimente zeigen die überlegene und wettbewerbsfähige Leistung unserer Methode. Unsere Projektseite befindet sich unter https://ggxxii.github.io/clothedreamer.
Große Sprachmodelle (LLMs), selbst wenn sie speziell darauf trainiert sind, lange Eingangskontexte zu verarbeiten, haben Schwierigkeiten, relevante Informationen zu erfassen, die sich in der Mitte ihres Eingangs befinden. Dieses Phänomen ist als das "Lost-in-the-Middle"-Problem bekannt. In dieser Arbeit leisten wir drei Beiträge. Erstens versuchen wir, die Faktoren zu verstehen, die dieses Phänomen verursachen. Dabei stellen wir eine Verbindung zwischen "Lost-in-the-Middle" und der intrinsischen Aufmerksamkeitsverzerrung von LLMs her: LLMs zeigen eine U-förmige Aufmerksamkeitsverzerrung, bei der die Tokens am Anfang und am Ende ihres Eingangs unabhängig von ihrer Relevanz mehr Aufmerksamkeit erhalten. Zweitens mildern wir diese positionale Verzerrung durch einen Kalibrierungsmechanismus, "Found-in-the-Middle", der es dem Modell ermöglicht, Kontexte gemäß ihrer Relevanz treu zu beachten, auch wenn sie sich in der Mitte befinden. Drittens zeigen wir, dass "Found-in-the-Middle" nicht nur eine bessere Leistung bei der Lokalisierung relevanter Informationen innerhalb eines langen Kontexts erzielt, sondern letztendlich auch zu einer verbesserten Leistung bei der abrufgestützten Generierung (RAG) über verschiedene Aufgaben hinweg führt und bestehende Methoden um bis zu 15 Prozentpunkte übertrifft. Diese Erkenntnisse eröffnen zukünftige Richtungen im Verständnis der Aufmerksamkeitsverzerrung von LLMs und ihrer potenziellen Konsequenzen.
Das skalierbare Lernen von Robotern in der realen Welt wird durch die Kosten- und Sicherheitsprobleme realer Roboter begrenzt. Darüber hinaus kann das Ausrollen von Robotertrajektorien in der realen Welt zeitaufwändig und arbeitsintensiv sein. In diesem Paper schlagen wir vor, einen interaktiven Echtroboter-Aktionssimulator als Alternative zu erlernen. Wir stellen eine neue Methode, IRASim, vor, die die Leistung generativer Modelle nutzt, um äußerst realistische Videos eines Roboterarms zu generieren, der eine gegebene Aktionsbahn ausführt, ausgehend von einem initialen gegebenen Frame. Zur Validierung der Effektivität unserer Methode erstellen wir einen neuen Benchmark, den IRASim Benchmark, basierend auf drei realen Roboterdatensätzen, und führen umfangreiche Experimente auf dem Benchmark durch. Die Ergebnisse zeigen, dass IRASim alle Basismethoden übertrifft und in menschlichen Bewertungen bevorzugt wird. Wir hoffen, dass IRASim als effektiver und skalierbarer Ansatz dienen kann, um das Roboterlernen in der realen Welt zu verbessern. Um die Forschung für generative Echtroboter-Aktionssimulatoren zu fördern, stellen wir den Code, den Benchmark und die Checkpoints unter https://gen-irasim.github.io als Open Source zur Verfügung.
Die Sprachverständnis als ein Element des allgemeineren Videoverständnisses unter Verwendung von audiovisuellen großen Sprachmodellen (av-LLMs) ist ein entscheidender, jedoch unteruntersuchter Aspekt. Dieser Artikel schlägt Video-SALMONN vor, ein einziges end-to-end av-LLM für die Videobearbeitung, das nicht nur visuelle Bildsequenzen, Audioereignisse und Musik, sondern auch Sprache verstehen kann. Um die für das Sprachverständnis erforderlichen feinkörnigen zeitlichen Informationen zu erhalten, während es effizient für andere Videoelemente bleibt, schlägt dieser Artikel eine neuartige Multi-Resolution Causal Q-Former (MRC Q-Former)-Struktur vor, um vortrainierte audiovisuelle Encoder und das Backbone große Sprachmodell zu verbinden. Darüber hinaus werden spezielle Schulungsansätze wie der Diversitätsverlust und das unpaarte audiovisuelle gemischte Schulungsschema vorgeschlagen, um Dominanz von Frames oder Modalitäten zu vermeiden. Auf dem vorgestellten Sprach-Audio-Video-Evaluierungsbenchmark erzielt Video-SALMONN mehr als 25\% absolute Genauigkeitsverbesserungen bei der Video-F&A-Aufgabe und über 30\% absolute Genauigkeitsverbesserungen bei Audio-Video-F&A-Aufgaben mit menschlicher Sprache. Darüber hinaus zeigt Video-SALMONN bemerkenswerte Videoverständnis- und Schlussfolgerungsfähigkeiten bei Aufgaben, die von anderen av-LLMs bisher unerreicht sind. Unser Schulungscode und Modellprüfpunkte sind verfügbar unter \url{https://github.com/bytedance/SALMONN/}.
Trotz der jüngsten Fortschritte bei Large Language Models (LLMs) bleibt ihre Leistung bei Aufgaben mit langen Kontexten suboptimal. Das In-Context Learning (ICL) mit Few-Shot-Beispielen könnte eine attraktive Lösung sein, um die Leistung von LLMs in diesem Szenario zu verbessern. Allerdings führt das einfache Hinzufügen von ICL-Beispielen mit langem Kontext zu Herausforderungen, darunter erheblicher Token-Overhead für jedes Few-Shot-Beispiel und Kontextinkongruenz zwischen den Demonstrationen und der Zielabfrage. In dieser Arbeit schlagen wir vor, Few-Shot-Beispiele für Long-Context-QA-Aufgaben durch das Wiederverwenden von Kontexten automatisch zu generieren. Konkret generieren wir zusätzliche Query-Output-Paare aus dem gegebenen Kontext als Few-Shot-Beispiele, wobei der Kontext nur einmal eingeführt wird. Dadurch wird sichergestellt, dass die Demonstrationen denselben Kontext wie die Zielabfrage nutzen, während nur eine geringe Anzahl von Tokens zur Eingabe hinzugefügt wird. Jede Demonstration wird weiter verbessert, indem das Modell angewiesen wird, die relevanten Absätze vor der Antwort explizit zu identifizieren, was die Leistung verbessert und eine fein abgestufte Zuordnung zur Antwortquelle ermöglicht. Wir wenden unsere Methode auf mehrere LLMs an und erzielen signifikante Verbesserungen (+23\% im Durchschnitt über Modelle hinweg) auf verschiedenen QA-Datensätzen mit langem Kontext, insbesondere wenn die Antwort mitten im Kontext liegt. Überraschenderweise generalisieren LLMs trotz der Einführung von nur Single-Hop-ICL-Beispielen auch erfolgreich zu Multi-Hop-Long-Context-QA unter Verwendung unseres Ansatzes.
Die Score-Distillation durch Abtastung war entscheidend für die Integration von Diffusionsmodellen in die Generierung komplexer visueller Inhalte. Trotz beeindruckender Ergebnisse leidet sie unter Modus-Kollaps und Mangel an Diversität. Um diese Herausforderung zu bewältigen, nutzen wir die Gradientenfluss-Interpretation der Score-Distillation, um die Abstoßende Score-Distillation (RSD) vorzuschlagen. Insbesondere schlagen wir ein variationsbasiertes Framework vor, das auf der Abstoßung eines Ensembles von Partikeln basiert, um Diversität zu fördern. Unter Verwendung einer variationsbasierten Approximation, die eine Kopplung zwischen Partikeln beinhaltet, erscheint die Abstoßung als einfache Regularisierung, die eine Interaktion der Partikel basierend auf ihrer relativen paarweisen Ähnlichkeit ermöglicht, gemessen z.B. über radiale Basis-Kernel. Wir entwerfen RSD für sowohl unbeschränkte als auch beschränkte Abtastszenarien. Für beschränkte Abtastung konzentrieren wir uns auf inverse Probleme im latenten Raum, die zu einer erweiterten variationsbasierten Formulierung führen, die ein gutes Gleichgewicht zwischen Rechenleistung, Qualität und Diversität schafft. Unsere umfangreichen Experimente zur Text-zu-Bild-Generierung und inversen Problemen zeigen, dass RSD einen überlegenen Kompromiss zwischen Diversität und Qualität im Vergleich zu modernsten Alternativen erreicht.
In diesem Bericht stellen wir die Frage: Wer ist das intelligenteste KI-Modell, das bisher existiert, gemessen an der OlympicArena (einem olympischen, multidisziplinären, multimodalen Benchmark für superintelligente KI)? Wir konzentrieren uns speziell auf die neuesten Modelle: Claude-3.5-Sonnet, Gemini-1.5-Pro und GPT-4o. Erstmals schlagen wir vor, einen Ansatz mit einer olympischen Medaillentabelle zu verwenden, um KI-Modelle basierend auf ihrer umfassenden Leistung in verschiedenen Disziplinen zu bewerten. Empirische Ergebnisse zeigen: (1) Claude-3.5-Sonnet zeigt eine äußerst wettbewerbsfähige Gesamtleistung gegenüber GPT-4o, und übertrifft sogar GPT-4o in einigen Fächern (d.h. Physik, Chemie und Biologie). (2) Gemini-1.5-Pro und GPT-4V werden direkt hinter GPT-4o und Claude-3.5-Sonnet eingestuft, aber mit einem klaren Leistungsunterschied zwischen ihnen. (3) Die Leistung von KI-Modellen aus der Open-Source-Community hinkt diesen proprietären Modellen deutlich hinterher. (4) Die Leistung dieser Modelle in diesem Benchmark war weniger zufriedenstellend, was darauf hindeutet, dass wir noch einen langen Weg vor uns haben, um Superintelligenz zu erreichen. Wir bleiben weiterhin engagiert darin, die Leistung der neuesten leistungsstarken Modelle auf diesem Benchmark kontinuierlich zu verfolgen und zu bewerten (verfügbar unter https://github.com/GAIR-NLP/OlympicArena).