papers.description
Wir schlagen einen neuen Finanzreferenzwert mit langem Kontext vor, FailSafeQA, der entwickelt wurde, um die Robustheit und kontextbezogene Sensibilität von LLMs gegenüber sechs Variationen in der menschlichen Schnittstelleninteraktion in LLM-basierten Frage-Antwort-Systemen im Finanzbereich zu testen. Wir konzentrieren uns auf zwei Fallstudien: Abfragefehler und Kontextfehler. Im Szenario des Abfragefehlers verändern wir die ursprüngliche Abfrage, um die Domänenexpertise, Vollständigkeit und sprachliche Genauigkeit zu variieren. Im Fall des Kontextfehlers simulieren wir das Hochladen von degradierten, irrelevanten und leeren Dokumenten. Wir verwenden die LLM-als-Richter-Methodik mit Qwen2.5-72B-Instruct und verwenden fein abgestufte Bewertungskriterien, um Robustheit, Kontextverankerung und Konformitätswerte für 24 Modelle von der Stange zu definieren und zu berechnen. Die Ergebnisse legen nahe, dass, obwohl einige Modelle bei der Minderung von Eingangsstörungen herausragend sind, sie ein Gleichgewicht zwischen robuster Beantwortung und der Fähigkeit finden müssen, sich vor Halluzinationen zu hüten. Insbesondere Palmyra-Fin-128k-Instruct, das als das konformste Modell anerkannt wird, eine starke Basisleistung beibehielt, aber in 17% der Testfälle Herausforderungen bei der Aufrechterhaltung robuster Vorhersagen hatte. Andererseits hat das robusteste Modell, OpenAI o3-mini, in 41% der getesteten Fälle Informationen fabriziert. Die Ergebnisse zeigen, dass selbst leistungsstarke Modelle erhebliches Verbesserungspotenzial haben und betonen die Rolle von FailSafeQA als Werkzeug zur Entwicklung von LLMs, die für den Einsatz in Finanzanwendungen optimiert sind. Der Datensatz ist verfügbar unter: https://huggingface.co/datasets/Writer/FailSafeQA
Wir zeigen, dass die Anwendung von Verstärkendem Lernen auf große Sprachmodelle (LLMs) die Leistung bei komplexen Kodierungs- und Schlussfolgerungsaufgaben signifikant steigert. Darüber hinaus vergleichen wir zwei allgemeine Schlussfolgerungsmodelle - OpenAI o1 und einen frühen Zwischenstand von o3 - mit einem domänenspezifischen System, o1-ioi, das handgefertigte Inferenzstrategien verwendet, die für die Teilnahme am Internationalen Informatik-Olympiade (IOI) 2024 entwickelt wurden. Wir haben live an der IOI 2024 mit o1-ioi teilgenommen und, unter Verwendung von handgefertigten Testzeitstrategien, den 49. Perzentil erreicht. Unter entspannten Wettbewerbsbedingungen erreichte o1-ioi eine Goldmedaille. Bei der Bewertung späterer Modelle wie o3 stellen wir jedoch fest, dass o3 Gold ohne handgefertigte domänenspezifische Strategien oder entspannte Einschränkungen erreicht. Unsere Ergebnisse zeigen, dass spezialisierte Pipelines wie o1-ioi solide Verbesserungen bringen, das hochskalierte, allgemeine o3-Modell jedoch diese Ergebnisse übertrifft, ohne auf handgefertigte Inferenzheuristiken angewiesen zu sein. Bemerkenswerterweise erreicht o3 eine Goldmedaille bei der IOI 2024 und erhält ein Codeforces-Rating auf Augenhöhe mit Elite-Mensch-Mitbewerbern. Insgesamt deuten diese Ergebnisse darauf hin, dass die Skalierung des allgemeinen Verstärkenden Lernens, anstatt auf domänenspezifische Techniken zu setzen, einen robusten Weg zu modernster KI in Schlussfolgerungsbereichen wie dem Wettkampfprogrammieren bietet.
Das Argumentieren ist eine grundlegende Fähigkeit großer Sprachmodelle. Während bisherige Forschung hauptsächlich darauf abzielt, spezifische Fähigkeiten wie Mathematik oder Codegenerierung zu verbessern, bleibt die Verbesserung der Leistung bei vielen anderen Argumentationsaufgaben aufgrund spärlicher und fragmentierter Trainingsdaten herausfordernd. Um dieses Problem anzugehen, schlagen wir CodeI/O vor, einen neuartigen Ansatz, der systematisch verschiedene Argumentationsmuster, die in kontextbezogenen Codes eingebettet sind, kondensiert, indem der ursprüngliche Code in ein Format zur Vorhersage von Code-Ein- und -Ausgaben umgewandelt wird. Durch das Training von Modellen zur Vorhersage von Eingaben/Ausgaben basierend auf Code und Testfällen ausschließlich in natürlicher Sprache als Ketten von Gedanken (CoT) werden sie universellen Argumentationsprimitiven ausgesetzt - wie logische Flussplanung, Zustandsraum-Suche, Entscheidungsbaum-Traversierung und modulare Zerlegung - während strukturierte Argumentation von codespezifischer Syntax entkoppelt und prozedurale Strenge bewahrt wird. Experimentelle Ergebnisse zeigen, dass CodeI/O zu konsistenten Verbesserungen bei symbolischer, wissenschaftlicher, logischer, mathematischer und numerischer sowie allgemeiner Argumentation führt. Durch Abgleich mit den vorhandenen Ground-Truth-Ausgaben oder erneutes Ausführen des Codes mit vorhergesagten Eingaben können wir jede Vorhersage überprüfen und die CoTs durch mehrstufige Überarbeitung weiter verbessern, was zu CodeI/O++ und einer höheren Leistung führt. Unsere Daten und Modelle sind unter https://github.com/hkust-nlp/CodeIO verfügbar.
Die Vorhersage von Aktienbewegungen, eine grundlegende Aufgabe bei der Prognose von Finanzzeitreihen, erfordert die Identifizierung und den Abruf entscheidender Einflussfaktoren aus großen Mengen von Zeitreihendaten. Allerdings sind bestehende auf Text trainierte oder auf numerischer Ähnlichkeit basierende Abrufmethoden nicht ausreichend für die komplexe Finanzanalyse. Um diesem Problem zu begegnen, schlagen wir das erste Abruf-erweiterte Generierungs (RAG) Framework für die Vorhersage von Finanzzeitreihen vor, das drei Schlüsselinnovationen aufweist: ein feinabgestimmtes 1B-Parameter großes Sprachmodell (StockLLM) als Grundlage, eine neuartige Kandidatenauswahlmethode, die auf LLM-Feedback basiert, und ein Schulungsziel, das die Ähnlichkeit zwischen Abfragen und historisch bedeutsamen Sequenzen maximiert. Dies ermöglicht unserem Abrufsystem, FinSeer, sinnvolle Muster aufzudecken und gleichzeitig Störungen in komplexen Finanzdaten zu minimieren. Wir erstellen auch neue Datensätze, die Finanzindikatoren und historische Aktienkurse integrieren, um FinSeer zu schulen und eine robuste Bewertung sicherzustellen. Experimentelle Ergebnisse zeigen, dass unser RAG-Framework besser abschneidet als das bloße StockLLM und zufällige Abrufmethoden, was seine Wirksamkeit unterstreicht, während FinSeer bestehende Abrufmethoden übertrifft, eine 8\% höhere Genauigkeit bei BIGDATA22 erzielt und bedeutsamere Sequenzen abruft. Diese Arbeit betont die Bedeutung maßgeschneiderter Abrufmodelle bei der Finanzprognose und bietet ein neuartiges Framework für zukünftige Forschung.
Große Begründungsmodelle (LRMs) bewältigen komplexe Begründungsprobleme, indem sie langen Gedankenketten (Long CoT) folgen, die Reflexion, Rückverfolgung und Selbstvalidierung beinhalten. Die Trainingsmethoden und Datenanforderungen zur Erzeugung von Long CoT sind jedoch noch unzureichend verstanden. In dieser Arbeit stellen wir fest, dass ein Großes Sprachmodell (LLM) effektiv langes CoT-Argumentieren durch dateneffizientes überwachtes Feintuning (SFT) und parameter-effiziente Niederrang-Anpassung (LoRA) erlernen kann. Mit nur 17.000 langen CoT-Trainingsdaten erzielt das Qwen2.5-32B-Instruct-Modell signifikante Verbesserungen in einer Vielzahl von Mathematik- und Programmier-Benchmarks, einschließlich 56,7% (+40,0%) bei AIME 2024 und 57,0% (+8,1%) bei LiveCodeBench, wettbewerbsfähig mit dem proprietären o1-preview-Modell, das 44,6% und 59,1% erreicht. Vor allem stellen wir fest, dass die Struktur von Long CoT für den Lernprozess entscheidend ist, während der Inhalt einzelner Argumentationsschritte nur minimalen Einfluss hat. Störungen, die den Inhalt betreffen, wie das Training mit falschen Daten oder das Entfernen von Argumentations-Schlüsselwörtern, haben nur geringe Auswirkungen auf die Leistung. Strukturelle Änderungen, die die logische Konsistenz im Long CoT stören, wie das Umstellen oder Löschen von Argumentationsschritten, beeinträchtigen die Genauigkeit erheblich. Zum Beispiel erreicht ein Modell, das auf Long CoT-Daten mit falschen Antworten trainiert wurde, nur eine um 3,2% niedrigere Genauigkeit im Vergleich zum Training mit vollständig korrekten Daten. Diese Erkenntnisse vertiefen unser Verständnis dafür, wie man Begründungsfähigkeiten in LLMs hervorrufen kann, und heben wichtige Überlegungen für das effiziente Training der nächsten Generation von Begründungsmodellen hervor. Dies ist das wissenschaftliche Papier unseres zuvor veröffentlichten Sky-T1-32B-Preview-Modells. Der Code ist verfügbar unter https://github.com/NovaSky-AI/SkyThought.
In diesem technischen Bericht präsentieren wir Magic 1-For-1 (Magic141), ein effizientes Videogenerierungsmodell mit optimierter Speichernutzung und Inferenzlatenz. Die Schlüsselidee ist einfach: die Text-zu-Video-Generierungsaufgabe in zwei separate einfachere Aufgaben für die Diffusionsschrittkondensation zu faktorisieren, nämlich Text-zu-Bild-Generierung und Bild-zu-Video-Generierung. Wir bestätigen, dass mit demselben Optimierungsalgorithmus die Bild-zu-Video-Aufgabe tatsächlich einfacher zu konvergieren ist als die Text-zu-Video-Aufgabe. Wir erkunden auch eine Vielzahl von Optimierungstricks, um die Rechenkosten für das Training der Bild-zu-Video (I2V)-Modelle aus drei Aspekten zu reduzieren: 1) Beschleunigung der Modellkonvergenz durch Verwendung einer multimodalen Priorbedingungsinjektion; 2) Beschleunigung der Inferenzlatenz durch Anwendung einer adversariellen Schrittkondensation und 3) Optimierung der Inferenzspeicherkosten durch Parameter-Sparsamkeit. Mit diesen Techniken sind wir in der Lage, 5-Sekunden-Videoausschnitte innerhalb von 3 Sekunden zu generieren. Durch Anwendung eines Testzeit-Schiebefensters können wir ein Video von einer Minute Länge innerhalb einer Minute mit deutlich verbesserter visueller Qualität und Bewegungsdynamik generieren und im Durchschnitt weniger als 1 Sekunde für die Generierung von 1-Sekunden-Videoausschnitten aufwenden. Wir führen eine Reihe von vorläufigen Erkundungen durch, um den optimalen Kompromiss zwischen Rechenkosten und Videoqualität während der Diffusionsschrittkondensation herauszufinden, und hoffen, dass dies ein gutes Grundlagenmodell für Open-Source-Erkundungen sein könnte. Der Code und die Modellgewichte sind unter https://github.com/DA-Group-PKU/Magic-1-For-1 verfügbar.
Wir führen eine empirische Untersuchung des Potenzials von Vor-Training Vision-Language-Modellen in einem beispiellosen Maßstab durch: 100 Milliarden Beispiele. Wir stellen fest, dass die Leistung des Modells bei diesem Maßstab auf vielen gängigen, westlich-zentrierten Klassifikations- und Abruf-Benchmarks, wie z.B. COCO Captions, tendenziell saturiert. Dennoch erzielen Aufgaben kultureller Vielfalt dank der Abdeckung von Nischenkonzepten aus den 100-Milliarden-Webdaten signifikantere Fortschritte. Darüber hinaus analysieren wir die Mehrsprachigkeit des Modells und zeigen Verbesserungen in Sprachen mit geringen Ressourcen. Zudem beobachten wir, dass die Reduzierung der Größe des Vor-Training-Datensatzes durch Qualitätsfilter wie die Verwendung von CLIP, die typischerweise zur Leistungssteigerung eingesetzt werden, unbeabsichtigt die kulturelle Vielfalt verringern kann, die selbst in groß angelegten Datensätzen vertreten ist. Unsere Ergebnisse verdeutlichen, dass während traditionelle Benchmarks möglicherweise nicht signifikant von der Skalierung von rauschhaften, rohen Webdaten auf 100 Milliarden Beispiele profitieren, dieser Datenumfang entscheidend ist für den Aufbau wirklich inklusiver multimodaler Systeme.
Skalierungsgesetze werden in der Regel unter Verwendung einer Modellfamilie mit einer engen Auswahl an festgelegten Hyperparameterwerten angepasst. In dieser Arbeit untersuchen wir Skalierungsgesetze unter Verwendung einer breiten Palette von Architektur- und Hyperparameterwerten und heben deren Auswirkungen auf die resultierenden Vorschriften hervor. Als Hauptergebnis unserer Forschung veröffentlichen wir die Gemstones: den bisher umfassendsten Open-Source-Datensatz für Skalierungsgesetze, bestehend aus über 4000 Checkpoints von Transformatoren mit bis zu 2 Milliarden Parametern. Diese Modelle wurden mit unterschiedlichen Lernraten, Abkühlplänen und architektonischen Formen trainiert. Unsere Checkpoints ermöglichen komplexere Studien zur Skalierung, wie ein Gesetz, das die Leistung des Sprachmodellierens als Funktion von Modellbreite und -tiefe vorhersagt. Durch die Untersuchung der verschiedenen Facetten unserer Modellsammlung stellen wir fest, dass die Vorschriften der Skalierungsgesetze sehr empfindlich gegenüber dem experimentellen Designprozess und den spezifischen Modell-Checkpoints sein können, die während der Anpassung verwendet werden. Code: https://github.com/mcleish7/gemstone-scaling-laws
Das Unterrichten großer Sprachmodelle (LLMs), um ihre Ausgaben zu kritisieren und zu verfeinern, ist entscheidend für den Aufbau von Systemen, die sich iterativ verbessern können, wird jedoch grundlegend durch die Fähigkeit begrenzt, genaue Beurteilungen und umsetzbare Vorschläge zu liefern. In dieser Arbeit untersuchen wir LLM-Kritiker für die Codegenerierung und schlagen CTRL vor, ein Rahmenwerk für die Kritiker-Schulung mittels Verstärkungslernen, das ein Kritikermodell trainiert, um Feedback zu generieren, das die Korrekturleistung für ein festes Generatormodell ohne menschliche Aufsicht maximiert. Unsere Ergebnisse zeigen, dass Kritiker, die mit CTRL trainiert wurden, die Bestehensquoten signifikant verbessern und Fehlerkumulationen sowohl bei Basismodellen als auch bei stärkeren Generatormodellen verringern. Darüber hinaus zeigen wir, dass diese Kritikermodelle als genaue generative Belohnungsmodelle fungieren und eine Skalierung zur Testzeit durch iterative Kritik-Revision ermöglichen, wodurch bis zu 106,1% relative Verbesserungen bei anspruchsvollen Codegenerierungstests erzielt werden.
Die auf DiT basierende Videogenerierung hat bemerkenswerte Ergebnisse erzielt, aber die Forschung zur Verbesserung bestehender Modelle ist noch relativ unerforscht. In dieser Arbeit stellen wir einen trainingsfreien Ansatz zur Verbesserung der Kohärenz und Qualität von auf DiT basierenden generierten Videos vor, der Enhance-A-Video genannt wird. Die Kernidee besteht darin, die Querframe-Korrelationen auf der Grundlage nicht-diagonaler zeitlicher Aufmerksamkeitsverteilungen zu verbessern. Dank seines einfachen Designs kann unser Ansatz leicht auf die meisten auf DiT basierenden Videogenerierungs-Frameworks angewendet werden, ohne dass eine erneute Schulung oder Feinabstimmung erforderlich ist. Über verschiedene auf DiT basierende Videogenerierungsmodelle hinweg zeigt unser Ansatz vielversprechende Verbesserungen sowohl in der zeitlichen Konsistenz als auch in der visuellen Qualität. Wir hoffen, dass diese Forschung zukünftige Erkundungen zur Verbesserung der Videogenerierung inspirieren kann.
Grundlagenmodelle haben die Verarbeitung natürlicher Sprache und künstliche Intelligenz revolutioniert, indem sie maßgeblich dazu beigetragen haben, wie Maschinen menschliche Sprachen verstehen und erzeugen. Inspiriert vom Erfolg dieser Grundlagenmodelle haben Forscher Grundlagenmodelle für einzelne wissenschaftliche Bereiche entwickelt, darunter kleine Moleküle, Materialien, Proteine, DNA und RNA. Diese Modelle werden jedoch in der Regel isoliert trainiert und verfügen nicht über die Fähigkeit, verschiedene wissenschaftliche Bereiche zu integrieren. Da erkannt wurde, dass Entitäten in diesen Bereichen alle als Sequenzen dargestellt werden können, die zusammen die "Sprache der Natur" bilden, stellen wir das Nature Language Model (kurz NatureLM) vor, ein auf Sequenzen basierendes wissenschaftliches Grundlagenmodell, das für wissenschaftliche Entdeckungen entwickelt wurde. Vortrainiert mit Daten aus mehreren wissenschaftlichen Bereichen bietet NatureLM ein vereinheitlichtes, vielseitiges Modell, das verschiedene Anwendungen ermöglicht, darunter: (i) Generierung und Optimierung von kleinen Molekülen, Proteinen, RNA und Materialien mithilfe von Textanweisungen; (ii) Generierung/Design über verschiedene Bereiche hinweg, wie Protein-zu-Molekül und Protein-zu-RNA Generierung; und (iii) Erzielung erstklassiger Leistungen bei Aufgaben wie SMILES-zu-IUPAC-Übersetzung und Retrosynthese auf USPTO-50k. NatureLM bietet einen vielversprechenden generalistischen Ansatz für verschiedene wissenschaftliche Aufgaben, einschließlich Arzneimittelforschung (Hit-Generierung/Optimierung, ADMET-Optimierung, Synthese), neuartiges Materialdesign und die Entwicklung therapeutischer Proteine oder Nukleotide. Wir haben NatureLM-Modelle in verschiedenen Größen (1 Milliarde, 8 Milliarden und 46,7 Milliarden Parameter) entwickelt und eine klare Leistungssteigerung mit zunehmender Modellgröße festgestellt.
Aufgrund der Knappheit von agentenorientierten Vortrainingsdaten verlassen sich LLM-basierte autonome Agenten in der Regel auf komplexe Aufforderungen oder umfangreiches Feintuning, was oft scheitert, neue Fähigkeiten einzuführen, während eine starke Generalisierbarkeit erhalten bleibt. Wir stellen Hephaestus-Forge vor, das erste groß angelegte Vortrainingskorpus, das darauf abzielt, die grundlegenden Fähigkeiten von LLM-Agenten in der API-Funktionsaufruf, intrinsischen Schlussfolgerung und Planung sowie der Anpassung an Umgebungsfeedback zu verbessern. Hephaestus-Forge umfasst 103B agentenspezifische Daten, die 76.537 APIs abdecken, einschließlich sowohl Tool-Dokumentation zur Einführung von Wissen über API-Funktionen als auch Funktionsaufruftrajektorien zur Stärkung der intrinsischen Schlussfolgerung. Um effektive Trainingsprotokolle zu erforschen, untersuchen wir Skalengesetze, um das optimale Rezept in den Datenmischungsverhältnissen zu identifizieren. Durch kontinuierliches Vortraining auf Hephaestus-Forge übertrifft Hephaestus kleine bis mittelgroße Open-Source LLMs und konkurriert mit kommerziellen LLMs in drei Agenten-Benchmarks, was die Wirksamkeit unseres Vortrainingskorpus bei der Verbesserung grundlegender agentischer Fähigkeiten und der Generalisierung von LLMs auf neue Aufgaben oder Umgebungen zeigt.
Aktuelle Methoden zur Generierung von Bildern zu Videos haben Erfolg gezeigt, indem sie die Steuerung über ein oder zwei visuelle Elemente ermöglichen, wie beispielsweise die Kamerabewegung oder die Objektbewegung. Diese Methoden können jedoch aufgrund von Datenbeschränkungen und Netzwerkeffizienz keine Steuerung über mehrere visuelle Elemente bieten. In diesem Paper stellen wir VidCRAFT3 vor, ein neuartiges Framework für präzise Bild-zu-Video-Generierung, das gleichzeitig die Steuerung über Kamerabewegung, Objektbewegung und Beleuchtungsrichtung ermöglicht. Um die Steuerung über jedes visuelle Element besser zu entkoppeln, schlagen wir den Spatial Triple-Attention Transformer vor, der die Beleuchtungsrichtung, Text und Bild auf symmetrische Weise integriert. Da die meisten realen Videodatensätze keine Beleuchtungsannotationen aufweisen, haben wir einen qualitativ hochwertigen synthetischen Videodatensatz erstellt, den VideoLightingDirection (VLD) Datensatz. Dieser Datensatz enthält Beleuchtungsrichtungsannotationen und Objekte mit vielfältigem Erscheinungsbild, was es VidCRAFT3 ermöglicht, starke Lichttransmissions- und Reflexionseffekte effektiv zu verarbeiten. Darüber hinaus schlagen wir eine dreistufige Schulungsstrategie vor, die es ermöglicht, auf das Training von Daten zu verzichten, die mit mehreren visuellen Elementen (Kamerabewegung, Objektbewegung und Beleuchtungsrichtung) gleichzeitig annotiert sind. Umfangreiche Experimente an Benchmark-Datensätzen zeigen die Wirksamkeit von VidCRAFT3 bei der Erzeugung hochwertiger Videoinhalte, wobei bestehende State-of-the-Art-Methoden in Bezug auf Steuerungsfeinheit und visuelle Kohärenz übertroffen werden. Der gesamte Code und die Daten werden öffentlich verfügbar sein. Projektseite: https://sixiaozheng.github.io/VidCRAFT3/.
Wir präsentieren Pippo, ein generatives Modell, das in der Lage ist, dichte 1K-Auflösungs-Videosequenzen einer Person aus einem einzigen zufällig aufgenommenen Foto zu erzeugen. Pippo ist ein Multi-View-Diffusions-Transformer und erfordert keine zusätzlichen Eingaben - z. B. ein angepasstes parametrisches Modell oder Kameraparameter des Eingabebildes. Wir trainieren Pippo vorab an 3 Milliarden menschlichen Bildern ohne Untertitel und führen während des Trainings in der Mitte und am Ende Multi-View-Operationen an Studioaufnahmen von Menschen durch. Während des mittleren Trainings absorbieren wir schnell den Studio-Datensatz, indem wir mehrere (bis zu 48) Ansichten in geringer Auflösung denoisieren und die Zielkameras grob mithilfe eines flachen MLP kodieren. Während des Endtrainings denoisieren wir weniger Ansichten in hoher Auflösung und verwenden pixelgenaue Steuerelemente (z. B. räumlicher Anker und Plücker-Rays), um konsistente 3D-Generierungen zu ermöglichen. Bei der Inferenz schlagen wir eine Aufmerksamkeitsverzerrungstechnik vor, die es Pippo ermöglicht, gleichzeitig mehr als 5-mal so viele Ansichten zu generieren wie während des Trainings gesehen. Schließlich führen wir auch eine verbesserte Metrik zur Bewertung der 3D-Konsistenz von Multi-View-Generierungen ein und zeigen, dass Pippo bestehende Arbeiten zur Multi-View-Menschengenerierung aus einem einzigen Bild übertrifft.
Große Sprachmodelle (LLMs) scheinen oft auf öffentlichen Benchmarks herausragende Leistungen zu erbringen, aber diese hohen Punktzahlen können eine übermäßige Abhängigkeit von datensatzspezifischen Oberflächenhinweisen anstelle von echtem Sprachverständnis verbergen. Wir stellen den Chameleon Benchmark Overfit Detector (C-BOD) vor, ein Meta-Bewertungsrahmen, der Benchmark-Prompts systematisch durch eine parametrische Transformation verfälscht und das Overfitting von LLMs erkennt. Indem C-BOD Eingaben umformuliert, während er ihren semantischen Inhalt und ihre Labels bewahrt, zeigt er auf, ob die Leistung eines Modells durch memorierte Muster angetrieben wird. Anhand der Auswertung des MMLU-Benchmarks mit 26 führenden LLMs zeigt unsere Methode eine durchschnittliche Leistungsverschlechterung von 2,15 % unter moderaten Störungen auf, wobei 20 von 26 Modellen statistisch signifikante Unterschiede aufweisen. Bemerkenswerterweise zeigen Modelle mit höherer Grundgenauigkeit größere Leistungsunterschiede unter Störungen, und größere LLMs neigen dazu, empfindlicher auf Umformulierungen zu reagieren, was darauf hindeutet, dass beide Fälle möglicherweise zu stark auf feste Prompt-Muster angewiesen sind. Im Gegensatz dazu zeigen die Llama-Familie und Modelle mit geringerer Grundgenauigkeit eine unbedeutende Verschlechterung, was auf eine verringerte Abhängigkeit von oberflächlichen Hinweisen hindeutet. Darüber hinaus ermöglicht das daten- und modellagnostische Design von C-BOD eine einfache Integration in Trainingspipelines, um ein robusteres Sprachverständnis zu fördern. Unsere Ergebnisse fordern die Gemeinschaft heraus, über Leistungstabellen hinauszublicken und Widerstandsfähigkeit und Verallgemeinerung bei der Bewertung von LLMs zu priorisieren.
Die überwiegende Mehrheit der Abrufmodelle basiert auf Vektor-Innenprodukten, um einen Relevanzwert zwischen einer Abfrage und einem Dokument zu erzeugen. Dies begrenzt natürlich die Ausdruckskraft des Relevanzwerts, der verwendet werden kann. Wir schlagen ein neues Paradigma vor: Anstatt einen Vektor zur Darstellung der Abfrage zu erzeugen, erstellen wir ein kleines neuronales Netzwerk, das als gelernte Relevanzfunktion fungiert. Dieses kleine neuronale Netzwerk nimmt eine Darstellung des Dokuments entgegen, in diesem Papier verwenden wir einen einzelnen Vektor, und erzeugt einen skalaren Relevanzwert. Um das kleine neuronale Netzwerk zu erzeugen, verwenden wir einen Hypernetzwerk, ein Netzwerk, das die Gewichte anderer Netzwerke erzeugt, als unseren Abfrageencoder oder wie wir ihn nennen einen Hypencoder. Experimente mit Suchaufgaben im selben Bereich zeigen, dass der Hypencoder signifikant bessere Leistungen erbringt als starke dichte Abrufmodelle und höhere Metriken aufweist als Neurangierungsmodelle und Modelle, die um eine Größenordnung größer sind. Der Hypencoder zeigt auch eine gute Verallgemeinerungsfähigkeit für Suchaufgaben außerhalb des Bereichs. Um den Umfang der Fähigkeiten des Hypencoders zu bewerten, evaluieren wir eine Reihe schwieriger Abrufaufgaben, darunter Abrufaufgaben am Rande des Bewusstseins und Anweisungsfolge-Abrufaufgaben, und stellen fest, dass die Leistungsdifferenz im Vergleich zu Standard-Abrufaufgaben erheblich zunimmt. Darüber hinaus implementieren wir einen approximativen Suchalgorithmus, um die Praktikabilität unserer Methode zu demonstrieren, und zeigen, dass unser Modell in der Lage ist, 8,8 Millionen Dokumente in weniger als 60 ms zu durchsuchen.
Multi-modal Large Language Models (MLLMs) haben Schwierigkeiten mit langen Videos aufgrund des Bedarfs an übermäßigen visuellen Token. Diese Token überschreiten massiv die Kontextlänge von MLLMs, was dazu führt, dass redundante, für die Aufgabe irrelevante Aufnahmen gefüllt werden. Die Auswahl von Aufnahmen ist ein ungelöstes kritisches Problem: Eine spärliche Stichprobenahme birgt das Risiko, wichtige Details zu übersehen, während eine erschöpfende Stichprobenahme das Modell mit irrelevantem Inhalt überfordert, was zu einem Missverständnis des Videos führt. Zur Lösung dieses Problems schlagen wir das Chain-of-Shot-Prompting (CoS) vor. Die Schlüsselidee besteht darin, die Auswahl von Aufnahmen als Optimierung von visuellen Hinweisen zur Testzeit zu rahmen, indem Aufnahmen adaptiv zur semantischen Aufgabenverständnis des Videos ausgewählt werden, indem die Ausrichtung von Aufnahmen und Aufgaben optimiert wird. CoS besteht aus zwei Schlüsselteilen: (1) ein binärer Mechanismus für die Videozusammenfassung, der eine pseudotemporale Verankerung durchführt, um eine binäre Codierung zur Identifizierung von aufgabenrelevanten Aufnahmen zu entdecken, und (2) ein Videokohärenzmodul, das die binäre Codierung einsetzt, um aufgabenrelevante positive Aufnahmen mit irrelevanten negativen Aufnahmen zu paaren (Lernen, um auszurichten). Es bettet die optimierten Aufnahmeselektionen in das ursprüngliche Video ein, um sich auf den relevanten Kontext zu konzentrieren und das Verständnis von langen Videos zu optimieren. Experimente über drei Basislinien und fünf Datensätze zeigen die Wirksamkeit und Anpassungsfähigkeit von CoS. Der Code ist unter https://lwpyh.github.io/CoS verfügbar.
Die optische Zeichenerkennung (Optical Character Recognition, OCR) wird weit verbreitet eingesetzt, um Text aus Bildern von Dokumenten zu extrahieren, was eine effiziente Digitalisierung und Datenabruf ermöglicht. Jedoch ist es nicht ausreichend, nur den Text zu extrahieren, wenn es um komplexe Dokumente geht. Ein umfassendes Verständnis solcher Dokumente erfordert die Kenntnis ihrer Struktur - einschließlich Formatierung, Formeln, Tabellen und der Lesereihenfolge von mehreren Blöcken und Spalten über mehrere Seiten hinweg - sowie semantische Informationen zur Erkennung von Elementen wie Fußnoten und Bildunterschriften. Dieses umfassende Verständnis ist entscheidend für nachgelagerte Aufgaben wie den Abruf, die Beantwortung von Dokumentenfragen und die Datenkuratierung zur Schulung großer Sprachmodelle (Large Language Models, LLMs) und Bildsprachmodelle (Vision Language Models, VLMs). Um dies zu bewältigen, stellen wir \'Eclair vor, ein universelles Textextraktionstool, das speziell zur Verarbeitung einer Vielzahl von Dokumententypen entwickelt wurde. Anhand eines Bildes kann \'Eclair formatierten Text in Lesereihenfolge extrahieren, zusammen mit Begrenzungsrahmen und den entsprechenden semantischen Klassen. Zur gründlichen Bewertung dieser neuartigen Fähigkeiten stellen wir unseren vielfältigen, von Menschen annotierten Benchmark für die OCR auf Dokumentenebene und semantische Klassifizierung vor. \'Eclair erzielt eine Spitzenpräzision auf diesem Benchmark und übertrifft andere Methoden in wichtigen Metriken. Darüber hinaus bewerten wir \'Eclair anhand etablierter Benchmarks und zeigen seine Vielseitigkeit und Stärke gemäß mehrerer Bewertungsstandards.
Wir stellen Goedel-Prover vor, ein Open-Source Large Language Model (LLM), das eine Spitzenleistung bei der automatisierten formalen Beweisgenerierung für mathematische Probleme erreicht. Die Hauptherausforderung in diesem Bereich ist die Knappheit formalisierter mathematischer Aussagen und Beweise, der wir auf folgende Weise begegnen. Wir trainieren Aussageformalisierer, um die natürlichsprachlichen mathematischen Probleme von Numina in formale Sprache (Lean 4) zu übersetzen und erstellen so einen Datensatz von 1,64 Millionen formalen Aussagen. LLMs werden verwendet, um zu überprüfen, ob die formalen Aussagen den Inhalt der ursprünglichen natürlichsprachlichen Probleme korrekt wiedergeben. Anschließend bauen wir iterativ einen großen Datensatz formaler Beweise auf, indem wir eine Reihe von Beweisern trainieren. Jeder Beweiser gelingt es, viele Aussagen zu beweisen, die den vorherigen nicht gelungen sind, und diese neuen Beweise werden dem Schulungssatz für den nächsten Beweiser hinzugefügt. Der endgültige Beweiser übertrifft alle bestehenden Open-Source-Modelle in der Generierung vollständiger Beweise. Auf dem miniF2F-Benchmark erreicht er eine Erfolgsquote von 57,6% (Pass@32), was die vorherigen besten Open-Source-Modelle um 7,6% übertrifft. Auf PutnamBench löst Goedel-Prover erfolgreich 7 Probleme (Pass@512) und belegt den ersten Platz in der Rangliste. Darüber hinaus generiert er 29,7K formale Beweise für Lean Workbook-Probleme, fast doppelt so viele wie die 15,7K, die von früheren Arbeiten erstellt wurden.
Große Sprachmodelle (LLMs) leiden unter Schwierigkeiten bei der präzisen Wiederherstellung von Schlüsselinformationen. Um dies zu beheben, schlagen wir Mask-Enhanced Autoregressive Prediction (MEAP) vor, ein einfaches und dennoch effektives Schulungsparadigma, das Masked Language Modeling (MLM) nahtlos in die Next-Token Prediction (NTP) integriert, um die In-Context-Wiederherstellungsfähigkeiten letzterer zu verbessern. Konkret maskiert MEAP zunächst zufällig einen kleinen Anteil der Eingabetoken und führt dann direkt die Standardvorhersage des nächsten Tokens autoregressiv mit einem nur Decoder enthaltenden Transformer durch. MEAP beseitigt die Notwendigkeit bidirektionaler Aufmerksamkeit oder Encoder-Decoder-Architekturen für MLM und verursacht keine zusätzliche Rechenlast während des Pre-Trainings oder der Inferenz. Intensive Experimente zeigen, dass MEAP NTP bei der Wiederherstellung von Schlüsselinformationen und langen Kontext-Reasoning-Aufgaben erheblich übertrifft, während es bei Aufgaben zum gesunden Menschenverstand gleich gut oder besser abschneidet. Die Vorteile von MEAP erstrecken sich auch auf das überwachte Feintuning, wo es bemerkenswerte Vorteile in Szenarien mit verlorenen mittleren Teilen aufweist und NTP um 11,77 Prozentpunkte übertrifft. Unsere Analyse deutet darauf hin, dass die Wirksamkeit von MEAP aus seiner Fähigkeit resultiert, durch Konzentration auf eine reduzierte Menge von nicht maskierten Token deutlich unterscheidbare Aufmerksamkeitswerte zu fördern. Dieser Mechanismus verbessert den Fokus des Modells auf aufgabenrelevante Signale und mildert den Einfluss des peripheren Kontexts. Diese Erkenntnisse positionieren MEAP als vielversprechendes Schulungsparadigma für große Sprachmodelle.
Computer Aided Design (CAD) ist in verschiedenen Branchen unverzichtbar. Die textbasierte CAD-Bearbeitung, die die Modifikation von CAD-Modellen basierend auf textuellen Anweisungen automatisiert, birgt großes Potenzial, bleibt jedoch weitgehend unerforscht. Bestehende Methoden konzentrieren sich hauptsächlich auf die Generierung von Designvariationen oder die textbasierte CAD-Generierung, entweder ohne Unterstützung für die textbasierte Steuerung oder unter Vernachlässigung bestehender CAD-Modelle als Einschränkungen. Wir stellen CAD-Editor vor, das erste Framework für die textbasierte CAD-Bearbeitung. Um die Herausforderung der anspruchsvollen Triplettdaten mit genauer Korrespondenz für das Training anzugehen, schlagen wir eine automatisierte Datensynthesepipeline vor. Diese Pipeline verwendet Designvariationmodelle, um Paare von Original- und bearbeiteten CAD-Modellen zu generieren und setzt Large Vision-Language Models (LVLMs) ein, um ihre Unterschiede in Bearbeitungsanweisungen zusammenzufassen. Um der komplexen Natur der textbasierten CAD-Bearbeitung gerecht zu werden, schlagen wir ein Lokalisieren-und-Ausfüllen-Framework vor, das die Aufgabe in zwei fokussierte Teilaufgaben zerlegt: das Lokalisieren von Regionen, die modifiziert werden müssen, und das Ausfüllen dieser Regionen mit geeigneten Bearbeitungen. Große Sprachmodelle (LLMs) dienen als Grundlage für beide Teilaufgaben und nutzen ihre Fähigkeiten im Bereich des natürlichen Sprachverständnisses und des CAD-Wissens. Experimente zeigen, dass CAD-Editor sowohl quantitativ als auch qualitativ eine überlegene Leistung erbringt.
Um Vision-Modelle wirklich zu verstehen, müssen wir nicht nur ihre erlernten Merkmale interpretieren, sondern diese Interpretationen auch durch kontrollierte Experimente validieren. Aktuelle Ansätze liefern entweder interpretierbare Merkmale ohne die Möglichkeit, ihren kausalen Einfluss zu testen, oder ermöglichen die Modellbearbeitung ohne interpretierbare Kontrollen. Wir präsentieren einen einheitlichen Rahmen unter Verwendung von dünnbesetzten Autoencodern (SAEs), der diese Lücke schließt und es uns ermöglicht, menscheninterpretierbare visuelle Merkmale zu entdecken und sie präzise zu manipulieren, um Hypothesen zum Modellverhalten zu testen. Indem wir unsere Methode auf modernste Vision-Modelle anwenden, enthüllen wir wesentliche Unterschiede in den semantischen Abstraktionen, die von Modellen mit unterschiedlichen Vortrainingszielen erlernt wurden. Anschließend demonstrieren wir die praktische Anwendung unseres Rahmens durch kontrollierte Interventionen über mehrere Vision-Aufgaben hinweg. Wir zeigen, dass SAEs interpretierbare visuelle Merkmale zuverlässig identifizieren und manipulieren können, ohne dass eine Neuschulung des Modells erforderlich ist, was ein leistungsstarkes Werkzeug zur Verständnis und Steuerung des Verhaltens von Vision-Modellen darstellt. Den Code, Demos und Modelle finden Sie auf unserer Projektwebsite: https://osu-nlp-group.github.io/SAE-V.
Die Zwischenspeicherung von Anfragen in großen Sprachmodellen (LLMs) führt zu datenabhängigen zeitlichen Variationen: Zwischengespeicherte Anfragen werden schneller verarbeitet als nicht zwischengespeicherte Anfragen. Diese zeitlichen Unterschiede bergen das Risiko von Side-Channel-Timing-Angriffen. Wenn der Cache beispielsweise von mehreren Benutzern gemeinsam genutzt wird, könnte ein Angreifer zwischengespeicherte Anfragen anhand schneller API-Antwortzeiten identifizieren, um Informationen über die Anfragen anderer Benutzer zu erhalten. Da die Zwischenspeicherung von Anfragen zu Datenschutzverletzungen führen kann, ist Transparenz bezüglich der Zwischenspeicherungsrichtlinien von API-Anbietern wichtig. Zu diesem Zweck entwickeln und führen wir statistische Überprüfungen durch, um die Zwischenspeicherung von Anfragen bei LLM-API-Anbietern in der realen Welt zu erkennen. Wir stellen fest, dass sieben API-Anbieter, darunter OpenAI, einen globalen Cache teilen, was zu potenziellen Datenschutzverletzungen bezüglich der Anfragen der Benutzer führt. Zeitliche Variationen aufgrund der Zwischenspeicherung von Anfragen können auch zu Informationen über die Modellarchitektur führen. Insbesondere finden wir Hinweise darauf, dass das Einbettungsmodell von OpenAI ein reiner Decoder-Transformer ist, was zuvor nicht öffentlich bekannt war.
Menschen sind besonders gut darin, früheres Wissen wiederzuverwenden, um neue Herausforderungen anzugehen und Fähigkeiten zu entwickeln, während sie Probleme lösen. Dieses Paradigma wird zunehmend beliebt bei der Entwicklung autonomer Agenten, da es Systeme entwickelt, die sich selbstständig weiterentwickeln können, um auf neue Herausforderungen wie Menschen zu reagieren. Bisherige Methoden leiden jedoch unter begrenzter Trainingseffizienz bei der Erweiterung neuer Fähigkeiten und nutzen das frühere Wissen nicht vollständig aus, um das Erlernen neuer Aufgaben zu erleichtern. In diesem Papier schlagen wir Parametric Skill Expansion and Composition (PSEC) vor, ein neues Framework, das darauf abzielt, die Fähigkeiten der Agenten iterativ weiterzuentwickeln und neue Herausforderungen effizient anzugehen, indem eine überschaubare Fähigkeitenbibliothek aufrechterhalten wird. Diese Bibliothek kann schrittweise Fähigkeitsprimitive als Plug-and-Play Low-Rank Adaptation (LoRA)-Module in parameter-effizientes Feintuning integrieren, um eine effiziente und flexible Fähigkeitserweiterung zu ermöglichen. Diese Struktur ermöglicht auch direkte Fähigkeitskompositionen im Parameterbereich durch das Zusammenführen von LoRA-Modulen, die verschiedene Fähigkeiten codieren, und nutzt gemeinsame Informationen über Fähigkeiten hinweg, um neue Fähigkeiten effektiv zu programmieren. Basierend darauf schlagen wir ein kontextbewusstes Modul vor, um unterschiedliche Fähigkeiten dynamisch zu aktivieren, um gemeinsam neue Aufgaben zu bewältigen. Durch die Stärkung verschiedener Anwendungen, einschließlich mehrerer Zielsetzungskompositionen, Dynamikverschiebung und kontinuierlicher Richtlinienverschiebung, zeigen die Ergebnisse auf D4RL, DSRL-Benchmarks und der DeepMind Control Suite, dass PSEC eine überlegene Fähigkeit aufweist, früheres Wissen effizient zu nutzen, um neue Herausforderungen zu bewältigen und die Fähigkeitenbibliotheken zu erweitern, um die Fähigkeiten weiterzuentwickeln. Projekthomepage: https://ltlhuuu.github.io/PSEC/.
Große Sprachmodelle haben die natürliche Sprachverarbeitung durch selbstüberwachtes Vortraining auf umfangreichen Datensätzen revolutioniert. Inspiriert von diesem Erfolg haben Forscher untersucht, wie sich diese Methoden auf Sprache anwenden lassen, indem sie kontinuierliche Audioinhalte in Token umwandeln, die mithilfe neuronaler Audiocodecs erstellt werden. Allerdings stoßen bestehende Ansätze auf Einschränkungen wie hohe Bitraten, den Verlust von semantischen oder akustischen Informationen sowie die Abhängigkeit von Multi-Codebuch-Designs, um beides einzufangen, was die architektonische Komplexität für nachgelagerte Aufgaben erhöht. Um diesen Herausforderungen zu begegnen, stellen wir FocalCodec vor, einen effizienten Niedrig-Bitrate-Codec auf Basis von Fokalmodulation, der ein einziges binäres Codebuch nutzt, um Sprache zwischen 0,16 und 0,65 kbps zu komprimieren. FocalCodec erzielt eine wettbewerbsfähige Leistung bei der Sprachresynthese und der Sprachumwandlung bei niedrigeren Bitraten als der aktuelle Stand der Technik und bewältigt effektiv mehrsprachige Sprache und laute Umgebungen. Die Evaluation bei nachgelagerten Aufgaben zeigt, dass FocalCodec ausreichend semantische und akustische Informationen bewahrt und sich auch gut für generatives Modellieren eignet. Demo-Beispiele, Code und Kontrollpunkte sind verfügbar unter https://lucadellalib.github.io/focalcodec-web/.
Große Sprach- und Bild-Sprach-Modelle (LLMs/VLMs) werden zunehmend in sicherheitskritischen Anwendungen eingesetzt, jedoch erschwert ihre undurchsichtige Entscheidungsfindung die Risikobewertung und Zuverlässigkeit. Die Unsicherheitsquantifizierung (UQ) hilft dabei, die Vorhersagegenauigkeit zu bewerten und ermöglicht Enthaltung, wenn die Unsicherheit hoch ist. Konformale Vorhersage (CP), eine führende UQ-Methode, bietet statistische Garantien, basiert jedoch auf statischen Schwellenwerten, die sich nicht an die Aufgabekomplexität und sich verändernde Datenverteilungen anpassen und zu suboptimalen Kompromissen bei Genauigkeit, Abdeckung und Informativität führen. Um dies zu lösen, schlagen wir erlernbare konforme Enthaltung vor, indem wir Verstärkendes Lernen (RL) mit CP integrieren, um Enthaltungsschwellenwerte dynamisch zu optimieren. Indem wir CP-Schwellenwerte als anpassungsfähige Aktionen behandeln, gleicht unser Ansatz mehrere Ziele aus, minimiert die Größe des Vorhersage-Sets und gewährleistet dabei eine zuverlässige Abdeckung. Umfangreiche Bewertungen über verschiedene LLM/VLM-Benchmarks zeigen, dass unsere Methode Least Ambiguous Classifiers (LAC) und Adaptive Prediction Sets (APS) übertrifft, die Genauigkeit um bis zu 3,2% verbessert, die AUROC für die Halluzinationserkennung um 22,19% steigert, die Unsicherheitsgeführte selektive Generierung (AUARC) um 21,17% verbessert und den Kalibrierungsfehler um 70%-85% reduziert. Diese Verbesserungen gelten für verschiedene Modelle und Datensätze, während kontinuierlich das Ziel einer 90%igen Abdeckung erreicht wird, was unseren Ansatz als eine effektivere und flexiblere Lösung für zuverlässige Entscheidungsfindung in sicherheitskritischen Anwendungen etabliert. Der Code ist verfügbar unter: {https://github.com/sinatayebati/vlm-uncertainty}.