Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Prozessbelohnungsmodelle (PRMs) erweisen sich als vielversprechender Ansatz für die Prozessaufsicht bei mathematischem Denken von Großen Sprachmodellen (LLMs), die darauf abzielen, Zwischenfehler in den Denkprozessen zu identifizieren und zu mildern. Die Entwicklung effektiver PRMs steht jedoch vor erheblichen Herausforderungen, insbesondere bei der Datenannotation und Evaluierungsmethoden. In diesem Paper zeigen wir durch umfangreiche Experimente, dass die häufig verwendete datenbasierte Synthese für PRMs auf Monte-Carlo-Schätzungen (MC) in der Regel eine schlechtere Leistung und Generalisierung im Vergleich zu LLM-als-Richter und menschlichen Annotationsmethoden liefert. MC-Schätzungen stützen sich auf Abschlussmodelle zur Bewertung der Korrektheit des aktuellen Schritts, was zu einer ungenauen Schrittverifizierung führt. Darüber hinaus identifizieren wir potenzielle Verzerrungen in herkömmlichen Best-of-N (BoN) Evaluierungsstrategien für PRMs: (1) Die unzuverlässigen Richtlinienmodelle generieren Antworten mit korrekten Antworten, aber fehlerhaften Prozessen, was zu einer Diskrepanz zwischen den Evaluierungskriterien von BoN und den PRM-Zielen der Prozessverifizierung führt. (2) Die Toleranz von PRMs gegenüber solchen Antworten führt zu aufgeblähten BoN-Werten. (3) Bestehende PRMs weisen einen signifikanten Anteil an Mindestwerten auf, die sich auf die abschließenden Antwortschritte konzentrieren, was den Übergang von prozess- zu ergebnisorientierter Bewertung in BoN-optimierten PRMs zeigt. Um diesen Herausforderungen zu begegnen, entwickeln wir einen Konsensfiltermechanismus, der MC-Schätzungen effektiv mit LLM-als-Richter integriert und ein umfassenderes Evaluierungsrahmenwerk befürwortet, das Antwort- und Schrittmessungen kombiniert. Basierend auf diesen Mechanismen verbessern wir signifikant sowohl die Modellleistung als auch die Dateneffizienz bei der BoN-Evaluierung und der schrittweisen Fehleridentifikationsaufgabe. Abschließend veröffentlichen wir ein neues erstklassiges PRM, das bestehende Open-Source-Alternativen übertrifft und praktische Leitlinien für zukünftige Forschung im Aufbau von Prozessaufsichtsmodellen bietet.
Die Skalierung von Sprachmodellen, um längere Eingabesequenzen zu verarbeiten, erfordert in der Regel große Schlüssel-Wert (KV)-Caches, was zu erheblichem Speicheroverhead während der Inferenz führt. In diesem Paper schlagen wir Tensor-Produkt-Aufmerksamkeit (TPA) vor, einen neuartigen Aufmerksamkeitsmechanismus, der Tensorzerlegungen verwendet, um Anfragen, Schlüssel und Werte kompakt darzustellen und somit die Größe des KV-Caches zur Inferenzzeit signifikant zu reduzieren. Durch die Faktorisierung dieser Darstellungen in kontextuelle niederdimensionale Komponenten (kontextuelle Faktorisierung) und die nahtlose Integration mit RoPE erzielt TPA eine verbesserte Modellqualität neben Speichereffizienz. Basierend auf TPA stellen wir den Tensor-Produkt-Aufmerksamkeits-Transformer (T6) vor, eine neue Modellarchitektur für Sequenzmodellierung. Durch umfangreiche empirische Evaluationen von Sprachmodellierungsaufgaben zeigen wir, dass T6 die Leistung von Standard-Transformer-Baselines wie MHA, MQA, GQA und MLA in verschiedenen Metriken, einschließlich Perplexität und einer Reihe renommierter Evaluierungsbenchmarks, übertrifft. Bemerkenswert ist, dass die Speichereffizienz von TPA die Verarbeitung von deutlich längeren Sequenzen unter festen Ressourcenbeschränkungen ermöglicht und somit eine wichtige Skalierbarkeitsherausforderung bei modernen Sprachmodellen angeht. Der Code ist verfügbar unter https://github.com/tensorgi/T6.
Die Entwicklung von Vision-Language-Modellen (VLMs) wird von umfangreichen und vielfältigen multimodalen Datensätzen vorangetrieben. Der Fortschritt hin zu generalistischen biomedizinischen VLMs wird jedoch durch den Mangel an annotierten, öffentlich zugänglichen Datensätzen in den Bereichen Biologie und Medizin eingeschränkt. Bestehende Bemühungen sind auf enge Domänen beschränkt und erfassen nicht die gesamte Vielfalt des biomedizinischen Wissens, das in wissenschaftlichen Publikationen codiert ist. Um diese Lücke zu schließen, stellen wir BIOMEDICA vor, ein skalierbares, Open-Source-Framework zur Extraktion, Annotation und Serialisierung des gesamten PubMed Central Open Access-Teils in einen benutzerfreundlichen, öffentlich zugänglichen Datensatz. Unser Framework erstellt ein umfassendes Archiv mit über 24 Millionen einzigartigen Bild-Text-Paaren aus über 6 Millionen Artikeln. Metadaten und expertengeführte Annotationen werden ebenfalls bereitgestellt. Wir zeigen die Nützlichkeit und Zugänglichkeit unserer Ressource, indem wir BMCA-CLIP veröffentlichen, eine Suite von CLIP-ähnlichen Modellen, die kontinuierlich auf dem BIOMEDICA-Datensatz über Streaming vorab trainiert werden, was den Bedarf an lokalem Herunterladen von 27 TB Daten eliminiert. Im Durchschnitt erzielen unsere Modelle eine Spitzenleistung in 40 Aufgaben - von Pathologie, Radiologie, Ophthalmologie, Dermatologie, Chirurgie, Molekularbiologie, Parasitologie bis Zellbiologie - mit einer durchschnittlichen Verbesserung von 6,56% im Zero-Shot-Klassifizierungsbereich (bis zu 29,8% bzw. 17,5% in Dermatologie bzw. Ophthalmologie) und einer stärkeren Bild-Text-Retrieval-Leistung, während sie nur 10-mal weniger Rechenleistung benötigen. Um die Reproduzierbarkeit und Zusammenarbeit zu fördern, veröffentlichen wir unseren Code und unseren Datensatz für die breitere Forschungsgemeinschaft.
Selbstadaptierende große Sprachmodelle (LLMs) zielen darauf ab, die Herausforderungen herkömmlicher Feinabstimmungsmethoden zu lösen, die oft rechenintensiv sind und statisch in ihrer Fähigkeit sind, verschiedene Aufgaben zu bewältigen. Wir stellen \implname vor, ein neuartiges Selbstadaptations-Framework, das LLMs in Echtzeit für unbekannte Aufgaben anpasst, indem es selektiv nur die einzelnen Komponenten ihrer Gewichtsmatrizen anpasst. Während der Inferenz verwendet \implname einen Zwei-Durchgangs-Mechanismus: Zuerst identifiziert ein Dispositionssystem die Aufgabeneigenschaften, und dann werden auf Verstärkungslernen trainierte, aufgaben-spezifische "Experten"-Vektoren dynamisch gemischt, um das gezielte Verhalten für die eingehende Aufforderung zu erhalten. Unsere Methode übertrifft weit verbreitete Ansätze wie LoRA, mit weniger Parametern und größerer Effizienz. \implname zeigt Vielseitigkeit über verschiedene LLM-Architekturen und Modalitäten hinweg, einschließlich Vision-Sprach-Aufgaben. \implname stellt einen bedeutenden Fortschritt dar und bietet eine skalierbare, effiziente Lösung zur Verbesserung der Anpassungsfähigkeit und aufgaben-spezifischen Leistung von LLMs und ebnet den Weg für wirklich dynamische, selbstorganisierende KI-Systeme.
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) und multimodalen Sprach-Text-Modellen haben die Grundlage für nahtlose Sprachinteraktionen geschaffen, die Echtzeit-, natürliche und menschenähnliche Gespräche ermöglichen. Frühere Modelle für Sprachinteraktionen werden als native und ausgerichtete Modelle kategorisiert. Native Modelle integrieren Sprach- und Textverarbeitung in einem Framework, haben jedoch Schwierigkeiten mit Problemen wie unterschiedlichen Sequenzlängen und unzureichendem Vor-Training. Ausgerichtete Modelle bewahren die Text-LLM-Fähigkeiten, sind jedoch oft durch kleine Datensätze und einen engen Fokus auf Sprachaufgaben begrenzt. In dieser Arbeit stellen wir MinMo vor, ein multimodales großes Sprachmodell mit etwa 8 Milliarden Parametern für nahtlose Sprachinteraktion. Wir adressieren die Hauptbeschränkungen früherer ausgerichteter multimodaler Modelle. Wir trainieren MinMo durch mehrere Phasen der Sprache-zu-Text-Ausrichtung, Text-zu-Sprache-Ausrichtung, Sprache-zu-Sprache-Ausrichtung und Duplex-Interaktionsausrichtung, auf 1,4 Millionen Stunden vielfältiger Sprachdaten und einer breiten Palette von Sprachaufgaben. Nach dem mehrstufigen Training erreicht MinMo Spitzenleistungen in verschiedenen Benchmarks für Sprachverständnis und -erzeugung, während es die Fähigkeiten von Text-LLMs beibehält und auch eine vollduplexfähige Konversation ermöglicht, d.h. simultane Zwei-Wege-Kommunikation zwischen Benutzer und System. Darüber hinaus schlagen wir einen neuartigen und einfachen Sprachdecoder vor, der frühere Modelle in der Spracherzeugung übertrifft. Die verbesserten Anweisungsfolgefähigkeiten von MinMo unterstützen die Steuerung der Spracherzeugung basierend auf Benutzeranweisungen, mit verschiedenen Nuancen einschließlich Emotionen, Dialekten und Sprechgeschwindigkeiten sowie dem Nachahmen spezifischer Stimmen. Für MinMo beträgt die Sprache-zu-Text-Latenz etwa 100ms, die vollduplexe Latenz beträgt theoretisch etwa 600ms und praktisch etwa 800ms. Die MinMo-Projektwebseite ist https://funaudiollm.github.io/minmo, und der Code sowie die Modelle werden bald veröffentlicht.
Aktuelle Videogenerierungsmodelle haben vielversprechende Ergebnisse bei der Erstellung hochwertiger Videoclips von mehreren Sekunden Dauer gezeigt. Diese Modelle stehen jedoch vor Herausforderungen bei der Generierung langer Sequenzen, die klare und informative Ereignisse vermitteln und somit ihre Fähigkeit zur Unterstützung kohärenter Erzählungen einschränken. In diesem Artikel präsentieren wir einen umfangreichen Kochvideo-Datensatz, der darauf abzielt, die Generierung von Langform-Erzählungen im Kochbereich voranzutreiben. Wir validieren die Qualität unseres vorgeschlagenen Datensatzes in Bezug auf visuelle Treue und textuelle Bildunterschriften-Genauigkeit unter Verwendung modernster Vision-Language-Modelle (VLMs) bzw. Videogenerierungsmodelle. Darüber hinaus stellen wir einen Langen Narrativen Video-Regisseur vor, um sowohl die visuelle als auch semantische Kohärenz in generierten Videos zu verbessern und betonen die Bedeutung der Ausrichtung visueller Einbettungen zur Erzielung einer verbesserten Gesamtvidequalität. Unsere Methode zeigt signifikante Verbesserungen bei der Generierung visuell detaillierter und semantisch ausgerichteter Keyframes auf, unterstützt durch Feinabstimmungstechniken, die Text- und Bildeinbettungen innerhalb des Videogenerierungsprozesses integrieren. Projektseite: https://videoauteur.github.io/
Aufbauend auf unseren früheren Untersuchungen zur O1-Replikation (Teil 1: Journey Learning [Qin et al., 2024] und Teil 2: Destillation [Huang et al., 2024]) erforscht diese Arbeit das Potenzial der Skalierung zur Inferenzzeit in großen Sprachmodellen (LLMs) für medizinische Schlussfolgerungsaufgaben, die von diagnostischen Entscheidungen bis zur Behandlungsplanung reichen. Durch umfangreiche Experimente an medizinischen Benchmarks unterschiedlicher Komplexität (MedQA, Medbullets und JAMA Clinical Challenges) zeigt unsere Untersuchung mehrere Schlüsselerkenntnisse auf: (1) Eine Erhöhung der Inferenzzeit führt zu einer verbesserten Leistung. Mit einem bescheidenen Trainingssatz von 500 Proben erzielt unser Modell signifikante Leistungssteigerungen von 6%-11%. (2) Die Aufgabenkomplexität korreliert direkt mit der erforderlichen Länge der Schlussfolgerungsketten und bestätigt somit die Notwendigkeit erweiterter Denkprozesse für anspruchsvolle Probleme. (3) Die differentiellen Diagnosen, die von unserem Modell generiert werden, entsprechen den Prinzipien der hypothetisch-deduktiven Methode, indem sie eine Liste potenzieller Zustände erstellen, die die Symptome eines Patienten erklären könnten, und diese Möglichkeiten systematisch einschränken, indem sie die Beweise bewerten. Diese Ergebnisse zeigen die vielversprechende Synergie zwischen der Skalierung zur Inferenzzeit und dem Journey Learning bei der Weiterentwicklung der klinischen Schlussfolgerungsfähigkeiten von LLMs in der realen Welt.
Die abrufgestützte Generierung (RAG) zeigt bemerkenswerte Leistungen bei Aufgaben im Bereich der offenen Fragebeantwortung. Traditionelle Suchmaschinen können jedoch oberflächliche Inhalte abrufen, was die Fähigkeit von LLMs zur Bewältigung komplexer, mehrschichtiger Informationen einschränkt. Um diesem Problem zu begegnen, stellen wir WebWalkerQA vor, einen Benchmark, der entworfen wurde, um die Fähigkeit von LLMs zur Durchführung von Webtraversierung zu bewerten. Er bewertet die Kapazität von LLMs, die Unterseiten einer Website zu durchlaufen, um systematisch hochwertige Daten zu extrahieren. Wir schlagen WebWalker vor, ein Multi-Agenten-Framework, das die menschenähnliche Webnavigation durch ein Erkunde-Kritiker-Paradigma nachahmt. Umfangreiche experimentelle Ergebnisse zeigen, dass WebWalkerQA anspruchsvoll ist und die Wirksamkeit von RAG in Kombination mit WebWalker demonstriert, durch horizontale und vertikale Integration in realen Szenarien.
Große Sprachmodelle (LLMs) haben eine außergewöhnliche Leistungsfähigkeit über verschiedene Aufgaben hinweg gezeigt, doch ihr Training bleibt äußerst ressourcenintensiv und anfällig für kritische Herausforderungen wie Trainingsinstabilität. Eine vorherrschende Quelle dieser Instabilität liegt in Gradienten- und Verlustspitzen, die den Lernprozess stören und oft zu kostspieligen Eingriffen wie Checkpoint-Wiederherstellung und Experiment-Neustarts führen, was die Ineffizienz weiter verstärkt. Diese Arbeit präsentiert eine umfassende Untersuchung von Gradientenspitzen, die während des Trainings von LLMs beobachtet wurden, und zeigt deren Häufigkeit über verschiedene Architekturen und Datensätze hinweg auf. Unsere Analyse zeigt, dass diese Spitzen um das bis zu 1000-fache größer sein können als typische Gradienten und die Leistung des Modells erheblich beeinträchtigen. Um dieses Problem anzugehen, schlagen wir Spike-Aware Adam mit Momentum Reset SPAM vor, einen neuartigen Optimierer, der Gradientenspitzen durch Momentum-Reset und spike-aware Gradientenbeschränkung entgegenwirkt. Umfangreiche Experimente, einschließlich sowohl Pre-Training als auch Feinabstimmung, zeigen, dass SPAM Adam und seine Varianten über verschiedene Aufgaben hinweg kontinuierlich übertrifft, darunter (1) LLM Pre-Training von 60M bis 1B, (2) 4-Bit LLM Pre-Training, (3) Reinforcement Learning und (4) Zeitreihenvorhersage. Darüber hinaus ermöglicht SPAM ein speichereffizientes Training, indem es spärliches Momentum ermöglicht, bei dem nur eine Teilmenge von Momentum-Termen beibehalten und aktualisiert wird. Bei Betrieb unter Speicherbeschränkungen übertrifft SPAM optimierer mit speichereffizienten Optimierern wie GaLore und Adam-Mini. Unsere Arbeit betont die Bedeutung der Reduzierung von Gradientenspitzen im LLM-Training und führt eine effektive Optimierungsstrategie ein, die sowohl die Trainingsstabilität als auch die Ressourceneffizienz im großen Maßstab verbessert. Der Code ist verfügbar unter https://github.com/TianjinYellow/SPAM-Optimizer.git
Wir stellen Uncommon Objects in 3D (uCO3D) vor, ein neuer objektorientierter Datensatz für 3D-Tiefenlernen und 3D-generative KI. uCO3D ist die größte öffentlich verfügbare Sammlung von hochauflösenden Videos von Objekten mit 3D-Annotationen, die eine vollständige 360-Grad-Abdeckung gewährleisten. uCO3D ist signifikant vielfältiger als MVImgNet und CO3Dv2 und umfasst mehr als 1.000 Objektkategorien. Zudem zeichnet er sich durch eine höhere Qualität aus, aufgrund umfangreicher Qualitätskontrollen sowohl der gesammelten Videos als auch der 3D-Annotationen. Ähnlich wie analoge Datensätze enthält uCO3D Annotationen für 3D-Kamerapositionen, Tiefenkarten und spärliche Punktewolken. Darüber hinaus ist jedes Objekt mit einer Bildunterschrift und einer 3D-Gauß'schen Splat-Rekonstruktion ausgestattet. Wir trainieren mehrere große 3D-Modelle auf MVImgNet, CO3Dv2 und uCO3D und erzielen überlegene Ergebnisse mit letzterem, was zeigt, dass uCO3D besser für Lernanwendungen geeignet ist.
Chemisches Denken beinhaltet in der Regel komplexe, mehrstufige Prozesse, die präzise Berechnungen erfordern, bei denen schon geringfügige Fehler zu sich kaskadierenden Fehlern führen können. Darüber hinaus stoßen große Sprachmodelle (LLMs) auf Schwierigkeiten beim Umgang mit domänenspezifischen Formeln, der präzisen Ausführung von Denkschritten und der effektiven Integration von Code bei der Bewältigung chemischer Denkaufgaben. Um diesen Herausforderungen zu begegnen, präsentieren wir ChemAgent, ein neuartiges Framework, das entwickelt wurde, um die Leistung von LLMs durch eine dynamische, selbstaktualisierende Bibliothek zu verbessern. Diese Bibliothek wird erstellt, indem chemische Aufgaben in Teilaufgaben zerlegt und diese Teilaufgaben zu einer strukturierten Sammlung zusammengestellt werden, auf die für zukünftige Abfragen verwiesen werden kann. Wenn also ein neues Problem auftritt, ruft ChemAgent relevante Informationen aus der Bibliothek ab und verfeinert diese, was wir als Gedächtnis bezeichnen, um eine effektive Aufgabenzerlegung und Lösungsgenerierung zu ermöglichen. Unsere Methode entwirft drei Arten von Gedächtnissen und einen durch die Bibliothek verbesserten Denkmechanismus, der es LLMs ermöglicht, im Laufe der Zeit durch Erfahrung zu lernen. Experimentelle Ergebnisse anhand von vier chemischen Denkaufgaben-Datensätzen aus SciBench zeigen, dass ChemAgent Leistungssteigerungen von bis zu 46% (GPT-4) erzielt und bestehende Methoden signifikant übertrifft. Unsere Ergebnisse deuten auf erhebliches Potenzial für zukünftige Anwendungen hin, einschließlich Aufgaben wie Arzneimittelforschung und Materialwissenschaft. Unser Code ist unter https://github.com/gersteinlab/chemagent verfügbar.
Grundlagenmodelle stützen sich auf groß angelegte Web-crawl-Datensätze, die häufig rauschende Daten, Voreingenommenheiten und irrelevante Inhalte enthalten. Bestehende Datenauswahltechniken verwenden in der Regel menschliche Heuristiken, nachgelagerte Evaluierungsdatensätze oder spezialisierte Bewertungsmodelle und können die Nützlichkeit von Proben im Schulungsprozess übersehen. Stattdessen schlagen wir einen neuen Ansatz vor, den Mimic Score, ein Datenqualitätsmaß, das ein vorab trainiertes Referenzmodell als Leitfaden verwendet, um die Nützlichkeit von Datenproben für das Training eines neuen Modells zu bewerten. Es stützt sich auf die Ausrichtung zwischen dem Gradienten der neuen Modellparameter und dem Vektor, der im Gewichtsraum auf das Referenzmodell zeigt. Proben, die sich nicht in dieser Richtung ausrichten, gelten als minderwertig und können herausgefiltert werden. Inspiriert vom Mimic Score entwickeln wir Grad-Mimic, ein Datenauswahlsystem, das nützliche Proben identifiziert und priorisiert, den Auswahlprozess automatisiert, um effektive Filter zu erstellen. Empirisch gesehen führt die Verwendung von Mimic Scores zur Steuerung des Modelltrainings zu konsistenten Leistungssteigerungen über sechs Bilddatensätze hinweg und verbessert die Leistung von CLIP-Modellen. Darüber hinaus verbessern Mimic Scores und ihre zugehörigen Filter bestehende Filtermethoden und bieten eine genaue Schätzung der Datensatzqualität.