Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Transformer neigt dazu, Aufmerksamkeit auf irrelevante Kontexte zu überallozieren. In dieser Arbeit stellen wir den Diff Transformer vor, der die Aufmerksamkeit auf den relevanten Kontext verstärkt und dabei Störgeräusche eliminiert. Speziell berechnet der differentielle Aufmerksamkeitsmechanismus die Aufmerksamkeitswerte als Differenz zwischen zwei separaten Softmax-Aufmerksamkeitskarten. Die Subtraktion eliminiert Störgeräusche und fördert das Auftreten von spärlichen Aufmerksamkeitsmustern. Experimentelle Ergebnisse im Bereich des Sprachmodellierens zeigen, dass der Diff Transformer den Transformer in verschiedenen Einstellungen zur Skalierung der Modellgröße und des Trainingsumfangs übertrifft. Interessanterweise bietet er bemerkenswerte Vorteile in praktischen Anwendungen wie Modellierung von langen Kontexten, Abruf von Schlüsselinformationen, Halluzinationsminderung, kontextbezogenem Lernen und Reduzierung von Aktivierungsausreißern. Indem er weniger von irrelevanten Kontexten abgelenkt wird, kann der Diff Transformer Halluzinationen bei Fragestellungen und Textzusammenfassungen mildern. Für das kontextbezogene Lernen verbessert der Diff Transformer nicht nur die Genauigkeit, sondern ist auch robuster gegenüber der Permutation von Reihenfolgen, was als chronisches Robustheitsproblem galt. Die Ergebnisse positionieren den Diff Transformer als eine äußerst effektive und vielversprechende Architektur zur Weiterentwicklung großer Sprachmodelle.
Dieses Paper präsentiert einen fortgeschrittenen mathematischen Problemlösungsrahmen, LLaMA-Berry, zur Verbesserung der mathematischen Denkfähigkeit von Large Language Models (LLMs). Der Rahmen kombiniert Monte Carlo Tree Search (MCTS) mit iterativem Self-Refine, um den Denkpfad zu optimieren, und nutzt ein paarweises Belohnungsmodell zur globalen Bewertung unterschiedlicher Pfade. Durch die Nutzung der Selbstkritik- und Umschreibfähigkeiten von LLMs überwindet Self-Refine angewandt auf MCTS (SR-MCTS) die Ineffizienzen und Einschränkungen herkömmlicher schrittweiser und gieriger Suchalgorithmen, indem eine effizientere Exploration von Lösungsräumen gefördert wird. Das paarweise Präferenz-Belohnungsmodell (PPRM), inspiriert von Reinforcement Learning from Human Feedback (RLHF), wird dann verwendet, um paarweise Präferenzen zwischen Lösungen zu modellieren, wobei eine Enhanced Borda Count (EBC) Methode genutzt wird, um diese Präferenzen in einen globalen Rangpunktwert zu synthetisieren, um bessere Antworten zu finden. Dieser Ansatz begegnet den Herausforderungen der Punktevariabilität und nicht unabhängigen Verteilungen bei mathematischen Denkaufgaben. Der Rahmen wurde an allgemeinen und fortgeschrittenen Benchmarks getestet und zeigte eine überlegene Leistung hinsichtlich Sucheffizienz und Problemlösungsfähigkeit im Vergleich zu bestehenden Methoden wie ToT und rStar, insbesondere bei komplexen Olympiade-Level-Benchmarks, einschließlich GPQA, AIME24 und AMC23.
Große Sprachmodelle (LLMs) produzieren oft Fehler, einschließlich sachlicher Ungenauigkeiten, Voreingenommenheiten und Fehler im Denken, die gemeinsam als "Halluzinationen" bezeichnet werden. Aktuelle Studien haben gezeigt, dass die internen Zustände von LLMs Informationen über die Wahrhaftigkeit ihrer Ausgaben codieren und dass diese Informationen genutzt werden können, um Fehler zu erkennen. In dieser Arbeit zeigen wir, dass die internen Repräsentationen von LLMs viel mehr Informationen über die Wahrhaftigkeit codieren als bisher angenommen. Zunächst entdecken wir, dass die Informationen über die Wahrhaftigkeit in bestimmten Tokens konzentriert sind und dass die Nutzung dieser Eigenschaft die Leistung der Fehlererkennung signifikant verbessert. Dennoch zeigen wir, dass solche Fehlerdetektoren nicht über Datensätze hinweg generalisieren, was darauf hindeutet, dass - im Gegensatz zu früheren Behauptungen - die Codierung der Wahrhaftigkeit nicht universell, sondern vielschichtig ist. Als Nächstes zeigen wir, dass interne Repräsentationen auch zur Vorhersage der Arten von Fehlern verwendet werden können, die das Modell wahrscheinlich machen wird, was die Entwicklung maßgeschneiderter Minderungsstrategien erleichtert. Schließlich enthüllen wir eine Diskrepanz zwischen der internen Codierung von LLMs und ihrem externen Verhalten: Sie können die richtige Antwort codieren, aber dennoch konsequent eine falsche generieren. Zusammenfassend vertiefen diese Erkenntnisse unser Verständnis von LLM-Fehlern aus der internen Perspektive des Modells, was zukünftige Forschung zur Verbesserung der Fehleranalyse und -minderung lenken kann.
Text-zu-Bild (T2I) Diffusionsmodelle haben die Erstellung visueller Inhalte revolutioniert, aber die Erweiterung dieser Fähigkeiten auf die Text-zu-Video (T2V) Generierung bleibt eine Herausforderung, insbesondere hinsichtlich der Erhaltung der zeitlichen Konsistenz. Bestehende Methoden, die darauf abzielen, die Konsistenz zu verbessern, führen oft zu Kompromissen wie verringerter Bildqualität und unpraktischen Rechenzeiten. Um diese Probleme anzugehen, stellen wir VideoGuide vor, ein neuartiges Framework, das die zeitliche Konsistenz von vorab trainierten T2V-Modellen ohne zusätzliches Training oder Feinabstimmung verbessert. VideoGuide nutzt stattdessen ein beliebiges vorab trainiertes Video-Diffusionsmodell (VDM) oder sich selbst als Leitfaden in den frühen Phasen der Inferenz und verbessert die zeitliche Qualität, indem es die denoisierten Proben des Leitmodells in den Denoising-Prozess des Abtastmodells interpoliert. Die vorgeschlagene Methode führt zu signifikanten Verbesserungen in der zeitlichen Konsistenz und Bildtreue, bietet eine kostengünstige und praktische Lösung, die die Stärken verschiedener Video-Diffusionsmodelle synergistisch nutzt. Darüber hinaus zeigen wir die vorherige Destillation auf, indem wir aufzeigen, dass Basismodelle eine verbesserte Textkohärenz erreichen können, indem sie die überlegene Datenpriorität des Leitmodells durch die vorgeschlagene Methode nutzen. Projekseite: http://videoguide2025.github.io/
Trotz des bemerkenswerten Erfolgs, den neuronale Netzwerke, insbesondere solche, die durch MLP und Transformer repräsentiert werden, erzielt haben, zeigen wir auf, dass sie potenzielle Schwächen beim Modellieren und Schlussfolgern von Periodizität aufweisen, d. h. sie neigen dazu, die periodischen Daten auswendig zu lernen, anstatt die zugrunde liegenden Prinzipien der Periodizität wirklich zu verstehen. Periodizität ist jedoch ein entscheidendes Merkmal bei verschiedenen Formen des Schlussfolgerns und der Verallgemeinerung, das die Vorhersagbarkeit in natürlichen und konstruierten Systemen durch wiederkehrende Muster in Beobachtungen unterstützt. In diesem Papier schlagen wir FAN vor, eine neuartige Netzwerkarchitektur basierend auf Fourier-Analyse, die die Fähigkeit stärkt, periodische Phänomene effizient zu modellieren und darüber zu schlussfolgern. Durch die Einführung von Fourier-Reihen wird die Periodizität natürlicherweise in die Struktur und die Rechenprozesse des neuronalen Netzwerks integriert, wodurch eine genauere Darstellung und Vorhersage periodischer Muster erreicht wird. Als vielversprechende Alternative zum mehrschichtigen Perzeptron (MLP) kann FAN nahtlos MLP in verschiedenen Modellen mit weniger Parametern und FLOPs ersetzen. Durch umfangreiche Experimente zeigen wir die Wirksamkeit von FAN beim Modellieren und Schlussfolgern über periodische Funktionen sowie die Überlegenheit und Verallgemeinerbarkeit von FAN über eine Reihe von realen Aufgaben, einschließlich der Darstellung symbolischer Formeln, der Vorhersage von Zeitreihen und dem Sprachmodellieren.
Die jüngsten Fortschritte bei Large Language Models (LLMs) haben das Interesse an ihren formalen Schlussfolgerungsfähigkeiten, insbesondere in der Mathematik, geweckt. Der GSM8K-Benchmark wird weitläufig verwendet, um die mathematischen Schlussfolgerungsfähigkeiten von Modellen anhand von Fragen auf Grundschulniveau zu bewerten. Obwohl die Leistung von LLMs bei GSM8K in den letzten Jahren signifikant verbessert hat, bleibt unklar, ob ihre mathematischen Schlussfolgerungsfähigkeiten tatsächlich vorangeschritten sind, was Fragen zur Zuverlässigkeit der gemeldeten Metriken aufwirft. Um diesen Bedenken entgegenzuwirken, führen wir eine groß angelegte Studie an mehreren SOTA-Open- und Closed-Modellen durch. Um die Einschränkungen bestehender Bewertungen zu überwinden, führen wir GSM-Symbolic ein, einen verbesserten Benchmark, der aus symbolischen Vorlagen erstellt wurde, die die Generierung eines vielfältigen Fragenkatalogs ermöglichen. GSM-Symbolic ermöglicht kontrolliertere Bewertungen, liefert wichtige Erkenntnisse und zuverlässigere Metriken zur Messung der Schlussfolgerungsfähigkeiten von Modellen. Unsere Ergebnisse zeigen, dass LLMs eine deutliche Varianz aufweisen, wenn sie auf verschiedene Instantiierungen derselben Frage reagieren. Insbesondere sinkt die Leistung aller Modelle, wenn nur die numerischen Werte in der Frage im GSM-Symbolic-Benchmark geändert werden. Darüber hinaus untersuchen wir die Fragilität der mathematischen Schlussfolgerung in diesen Modellen und zeigen, dass ihre Leistung signifikant abnimmt, wenn die Anzahl der Klauseln in einer Frage zunimmt. Wir vermuten, dass dieser Rückgang darauf zurückzuführen ist, dass aktuelle LLMs keine echte logische Schlussfolgerung durchführen können; sie replizieren Schlussfolgerungsschritte aus ihren Trainingsdaten. Das Hinzufügen einer einzigen Klausel, die für die Frage relevant zu sein scheint, führt zu signifikanten Leistungsabfällen (bis zu 65%) bei allen State-of-the-Art-Modellen, obwohl die Klausel nicht zur Schlussfolgerungskette beiträgt, die für die endgültige Antwort erforderlich ist. Insgesamt bietet unsere Arbeit ein nuancierteres Verständnis der Fähigkeiten und Grenzen von LLMs in der mathematischen Schlussfolgerung.
Die Fortschritte von Sprachmodellen (LLMs) haben ein wachsendes Interesse an der Entwicklung von auf LLM basierenden Sprachagenten zur Automatisierung wissenschaftlicher Entdeckungen geweckt, was sowohl Begeisterung als auch Skepsis über die tatsächlichen Fähigkeiten solcher Agenten hervorgerufen hat. In dieser Arbeit argumentieren wir, dass ein Agent, um wissenschaftliche Entdeckungen vollständig zu automatisieren, alle wesentlichen Aufgaben im Arbeitsablauf abschließen können muss. Daher fordern wir eine gründliche Bewertung von Agenten in einzelnen Aufgaben im wissenschaftlichen Workflow, bevor kühne Behauptungen über die End-to-End-Automatisierung aufgestellt werden. Zu diesem Zweck präsentieren wir ScienceAgentBench, einen neuen Benchmark zur Bewertung von Sprachagenten für datengesteuerte wissenschaftliche Entdeckungen. Um die wissenschaftliche Authentizität und die realweltliche Relevanz unseres Benchmarks sicherzustellen, extrahieren wir 102 Aufgaben aus 44 peer-reviewed Veröffentlichungen in vier Disziplinen und beauftragen neun Fachexperten, diese zu validieren. Wir vereinheitlichen die Zielausgabe für jede Aufgabe in eine eigenständige Python-Programmdatei und verwenden eine Reihe von Bewertungsmetriken, um die generierten Programme, Ausführungsergebnisse und Kosten zu untersuchen. Jede Aufgabe durchläuft mehrere Runden manueller Validierung durch Annotatoren und Fachexperten, um die Qualität der Annotation und wissenschaftliche Plausibilität sicherzustellen. Wir schlagen auch zwei effektive Strategien zur Minderung von Bedenken hinsichtlich Datenkontamination vor. Unter Verwendung unseres Benchmarks bewerten wir fünf offene und proprietäre LLMs, jeweils mit drei Frameworks: direkte Aufforderung, OpenHands und Selbst-Debugging. Bei drei Versuchen für jede Aufgabe kann der am besten abschneidende Agent nur 32,4% der Aufgaben eigenständig lösen und 34,3% mit Expertenwissen. Diese Ergebnisse unterstreichen die begrenzten Kapazitäten der aktuellen Sprachagenten bei der Generierung von Code für datengesteuerte Entdeckungen, geschweige denn bei der End-to-End-Automatisierung für wissenschaftliche Forschung.
Multimodale große Sprachmodelle (MLLMs) transformieren die Fähigkeiten von grafischen Benutzeroberflächen (GUI)-Agenten und erleichtern ihren Übergang von kontrollierten Simulationen zu komplexen Anwendungen in verschiedenen Plattformen der realen Welt. Die Effektivität dieser Agenten hängt jedoch entscheidend von der Robustheit ihrer Verankerungsfähigkeit ab. Aktuelle GUI-Agenten nutzen hauptsächlich textbasierte Darstellungen wie HTML oder Zugänglichkeitsbäume, die trotz ihrer Nützlichkeit oft Rauschen, Unvollständigkeit und erhöhten Rechenaufwand mit sich bringen. In diesem Paper plädieren wir für eine menschenähnliche Verkörperung von GUI-Agenten, die ihre Umgebung vollständig visuell wahrnehmen und direkt pixelbasierte Operationen auf der GUI durchführen. Der Schlüssel sind visuelle Verankerungsmodelle, die diverse Bezugsausdrücke von GUI-Elementen genau auf ihren Koordinaten auf der GUI über verschiedene Plattformen hinweg abbilden können. Wir zeigen, dass ein einfaches Rezept, das webbasierte synthetische Daten und eine leichte Anpassung der LLaVA-Architektur umfasst, überraschend effektiv für das Training solcher visueller Verankerungsmodelle ist. Wir sammeln den bisher größten Datensatz für die visuelle Verankerung von GUI, der 10 Millionen GUI-Elemente und ihre Bezugsausdrücke über 1,3 Millionen Bildschirmfotos enthält, und verwenden ihn, um UGround zu trainieren, ein starkes universelles visuelles Verankerungsmodell für GUI-Agenten. Empirische Ergebnisse auf sechs Benchmarks in drei Kategorien (Verankerung, Offline-Agent und Online-Agent) zeigen, dass 1) UGround bestehende visuelle Verankerungsmodelle für GUI-Agenten deutlich übertrifft, um bis zu 20% absolut, und 2) Agenten mit UGround übertreffen State-of-the-Art-Agenten, obwohl bestehende Agenten zusätzliche textbasierte Eingaben verwenden, während unsere nur visuelle Wahrnehmung nutzen. Diese Ergebnisse unterstützen nachdrücklich die Machbarkeit und Versprechen von GUI-Agenten, die die digitale Welt so navigieren wie Menschen es tun.
Wir stellen UniMuMo vor, ein vereinheitlichtes multimodales Modell, das in der Lage ist, beliebige Text-, Musik- und Bewegungsdaten als Eingabebedingungen zu akzeptieren, um Ausgaben in allen drei Modalitäten zu generieren. Um dem Mangel an zeitlich synchronisierten Daten entgegenzuwirken, gleichen wir unpaarte Musik- und Bewegungsdaten basierend auf rhythmischen Mustern ab, um vorhandene umfangreiche Datensätze nur für Musik und nur für Bewegung zu nutzen. Indem wir Musik, Bewegung und Text in eine tokenbasierte Darstellung umwandeln, verbindet unser Modell diese Modalitäten durch eine vereinheitlichte Encoder-Decoder-Transformer-Architektur. Um mehrere Generierungsaufgaben innerhalb eines einzigen Rahmens zu unterstützen, führen wir mehrere architektonische Verbesserungen ein. Wir schlagen vor, Bewegung mit einem Musik-Codebuch zu kodieren, Bewegung in denselben Merkmalsraum wie Musik abzubilden. Wir führen ein Musik-Bewegungs-Parallelgenerierungsschema ein, das alle Musik- und Bewegungsgenerierungsaufgaben in eine einzige Transformer-Decoder-Architektur mit einer einzigen Trainingsaufgabe der gemeinsamen Musik-Bewegungs-Generierung vereint. Darüber hinaus ist das Modell durch Feinabstimmung vorhandener vortrainierter Einzelmodalitätsmodelle konzipiert, was den Rechenaufwand erheblich reduziert. Umfangreiche Experimente zeigen, dass UniMuMo wettbewerbsfähige Ergebnisse auf allen unidirektionalen Generierungsbenchmarks in den Modalitäten Musik, Bewegung und Text erzielt. Quantitative Ergebnisse sind auf der Projektseite unter https://hanyangclarence.github.io/unimumo_demo/ verfügbar.
Die Schätzung der Geometrie von dynamischen Szenen, in denen Objekte sich im Laufe der Zeit bewegen und verformen, bleibt eine zentrale Herausforderung in der Computer Vision. Aktuelle Ansätze stützen sich oft auf mehrstufige Pipelines oder globale Optimierungen, die das Problem in Teilaufgaben wie Tiefe und Fluss zerlegen, was zu komplexen Systemen führt, die anfällig für Fehler sind. In diesem Paper präsentieren wir Motion DUSt3R (MonST3R), einen neuartigen geometriebasierten Ansatz, der die Geometrie pro Zeitschritt direkt aus dynamischen Szenen schätzt. Unser Schlüsselerkenntnis ist, dass wir durch die einfache Schätzung einer Punktlandkarte für jeden Zeitschritt die Darstellung von DUST3R, die bisher nur für statische Szenen verwendet wurde, effektiv an dynamische Szenen anpassen können. Dieser Ansatz stellt jedoch eine bedeutende Herausforderung dar: die Knappheit geeigneter Trainingsdaten, nämlich dynamische, inszenierte Videos mit Tiefenlabels. Trotzdem zeigen wir, dass wir, indem wir das Problem als Feinabstimmungsaufgabe formulieren, mehrere geeignete Datensätze identifizieren und das Modell strategisch auf diesen begrenzten Daten trainieren, überraschenderweise das Modell in die Lage versetzen können, mit Dynamiken umzugehen, selbst ohne eine explizite Bewegungsrepräsentation. Basierend darauf führen wir neue Optimierungen für mehrere nachgelagerte, videospezifische Aufgaben ein und zeigen starke Leistungen bei der Schätzung von Videotiefe und Kameraposition, wobei wir frühere Arbeiten in Bezug auf Robustheit und Effizienz übertreffen. Darüber hinaus zeigt MonST3R vielversprechende Ergebnisse für hauptsächlich vorausgerichtete 4D-Rekonstruktion.
Trotz Fortschritten bei diffusionsbasierten Text-zu-Musik (TTM) Methoden bleibt die effiziente, hochwertige Generierung eine Herausforderung. Wir stellen Presto! vor, einen Ansatz zur Beschleunigung der Inferenz für scorebasierte Diffusionstransformatoren durch Reduzierung sowohl der Abtastschritte als auch der Kosten pro Schritt. Um die Schritte zu reduzieren, entwickeln wir eine neue scorebasierte Verteilungsanpassungsdestillationsmethode (DMD) für die EDM-Familie von Diffusionsmodellen, die erste GAN-basierte Destillationsmethode für TTM. Zur Reduzierung der Kosten pro Schritt entwickeln wir eine einfache, aber leistungsstarke Verbesserung einer kürzlich vorgestellten Schichtdestillationsmethode, die das Lernen durch eine bessere Erhaltung der verborgenen Zustandsvarianz verbessert. Schließlich kombinieren wir unsere Schritt- und Schichtdestillationsmethoden für einen zweigleisigen Ansatz. Wir bewerten unsere Schritt- und Schichtdestillationsmethoden unabhängig voneinander und zeigen, dass jede eine erstklassige Leistung erbringt. Unsere kombinierte Destillationsmethode kann hochwertige Ausgaben mit verbesserter Vielfalt generieren und beschleunigt unser Basismodell um das 10- bis 18-fache (230/435ms Latenz für 32 Sekunden Mono/Stereo 44,1kHz, 15-mal schneller als vergleichbare SOTA) - die schnellste hochwertige TTM, die uns bekannt ist. Klangbeispiele finden Sie unter https://presto-music.github.io/web/.
Dieser technische Bericht stellt einen Benchmark für die Erkennung benannter klinischer Entitäten vor, um Sprachmodelle im Gesundheitswesen zu bewerten. Dabei wird die entscheidende Aufgabe der natürlichen Sprachverarbeitung (NLP) behandelt, strukturierte Informationen aus klinischen Erzählungen zu extrahieren, um Anwendungen wie automatisierte Kodierung, Identifizierung von klinischen Studiengruppen und klinische Entscheidungsunterstützung zu unterstützen. Die Rangliste bietet eine standardisierte Plattform zur Bewertung verschiedener Sprachmodelle, einschließlich Encoder- und Decoder-Architekturen, hinsichtlich ihrer Fähigkeit, klinische Entitäten in verschiedenen medizinischen Bereichen zu identifizieren und zu klassifizieren. Es wird eine sorgfältig zusammengestellte Sammlung von frei verfügbaren klinischen Datensätzen verwendet, die Entitäten wie Krankheiten, Symptome, Medikamente, Verfahren und Laboruntersuchungen umfassen. Diese Entitäten sind gemäß dem Common Data Model der Observational Medical Outcomes Partnership (OMOP) standardisiert, um Konsistenz und Interoperabilität zwischen verschiedenen Gesundheitssystemen und Datensätzen sowie eine umfassende Bewertung der Modellleistung sicherzustellen. Die Leistung der Modelle wird hauptsächlich anhand des F1-Scores bewertet und durch verschiedene Bewertungsmodi ergänzt, um umfassende Einblicke in die Modellleistung zu bieten. Der Bericht enthält auch eine kurze Analyse der bisher bewerteten Modelle, die beobachtete Trends und Einschränkungen hervorhebt. Durch die Einführung dieses Benchmarking-Rahmens zielt die Rangliste darauf ab, Transparenz zu fördern, vergleichende Analysen zu erleichtern und Innovationen in den Aufgaben der klinischen Entitätenerkennung voranzutreiben, um den Bedarf an robusten Bewertungsmethoden in der NLP im Gesundheitswesen zu decken.
Obwohl Belohnungsmodelle erfolgreich waren, um multimodale große Sprachmodelle zu verbessern, bleiben die Belohnungsmodelle selbst grob und enthalten minimale Informationen. Insbesondere imitieren bestehende Belohnungsmodelle lediglich menschliche Annotationen, indem sie nur ein binäres Feedback für jeden Text zuweisen, unabhängig von der Textlänge. Im Bereich der multimodalen Sprachmodelle, in dem Modelle sowohl Bilder als auch Texte verarbeiten müssen, könnte ein naives Belohnungsmodell implizite Voreingenommenheiten gegenüber Texten erlernen und weniger in Bildern verankert sein. In diesem Papier schlagen wir ein Token-Level Detective Belohnungsmodell (TLDR) vor, um feingliedrige Annotationen für jedes Text-Token bereitzustellen. Zunächst führen wir eine störungsbasierte Methode ein, um synthetische harte Negativbeispiele und deren Token-Level-Labels zu generieren, um TLDR-Modelle zu trainieren. Anschließend zeigen wir die vielfältige Nützlichkeit von TLDR-Modellen sowohl bei der Unterstützung von Out-of-the-Box-Modellen bei der Selbstkorrektur ihrer Generierungen als auch als Werkzeug zur Bewertung von Halluzinationen. Schließlich zeigen wir, dass TLDR-Modelle die menschliche Annotation signifikant um das 3-fache beschleunigen können, um einen breiteren Bereich hochwertiger visueller Sprachdaten zu erhalten.
Aktuelle große Sprachmodelle (LLMs) haben vielseitige Fähigkeiten in Szenarien mit langem Kontext gezeigt. Obwohl in letzter Zeit einige Benchmarks entwickelt wurden, um die Fähigkeiten von LLMs im langen Kontext zu bewerten, fehlt es an Benchmarks, die die mathematischen Schlussfolgerungsfähigkeiten von LLMs über lange Kontexte hinweg bewerten, was für die Anwendung von LLMs in realen Szenarien entscheidend ist. In diesem Paper stellen wir MathHay vor, einen automatisierten Benchmark, der entwickelt wurde, um die mathematischen Schlussfolgerungsfähigkeiten von LLMs im langen Kontext zu bewerten. Im Gegensatz zu früheren Benchmarks wie "Nadel im Heuhaufen", die sich hauptsächlich auf die Informationssuche innerhalb langer Texte konzentrieren, erfordert MathHay Modelle mit sowohl Informations suchenden als auch komplexen mathematischen Schlussfolgerungsfähigkeiten. Wir führen umfangreiche Experimente mit MathHay durch, um die mathematischen Schlussfolgerungsfähigkeiten im langen Kontext von acht leistungsstarken LLMs zu bewerten. Selbst das am besten abschneidende Modell, Gemini-1.5-Pro-002, hat immer noch Schwierigkeiten mit mathematischen Schlussfolgerungen über lange Kontexte hinweg und erreicht nur eine Genauigkeit von 51,26% bei 128K Tokens. Dies verdeutlicht den erheblichen Verbesserungsbedarf beim MathHay-Benchmark.
Mit der zunehmenden Anwendung von Large Language Models (LLMs) steigt der Bedarf an zuverlässigen Bewertungen. Bestehende Bewertungsmaßstäbe für LLMs stützen sich hauptsächlich auf statische Datensätze, was es herausfordernd macht, die Leistung des Modells in dynamischen Interaktionen mit Benutzern zu bewerten. Darüber hinaus hängen diese Bewertungsmaßstäbe oft von spezifischem Hintergrundwissen ab, was die Messung der logischen Schlussfolgerungsfähigkeiten eines Modells erschwert. Andere dynamische Bewertungsmethoden, die auf starken Modellen oder manuellen Bemühungen basieren, können Voreingenommenheiten einführen und hohe Kosten und Zeit in Anspruch nehmen, was die großflächige Anwendung behindert. Um diese Probleme anzugehen, schlagen wir TurtleBench vor. TurtleBench sammelt echte Benutzervermutungen von unserer entwickelten Online-Plattform Turtle Soup Puzzle. Dieser Ansatz ermöglicht die relativ dynamische Generierung von Bewertungsdatensätzen, wodurch das Risiko von Modellbetrug gemindert wird und die Bewertungen enger an den echten Benutzerbedarf für Schlussfolgerungsfähigkeiten ausgerichtet sind, was die Zuverlässigkeit der Bewertungen erhöht. TurtleBench umfasst 1.532 Benutzervermutungen zusammen mit der Richtigkeit der Vermutungen nach der Annotation. Unter Verwendung dieses Datensatzes haben wir neun der heute verfügbaren fortschrittlichsten LLMs umfassend bewertet. Bemerkenswert ist, dass die Modelle der OpenAI o1-Serie in diesen Bewertungen keine führenden Ergebnisse erzielten. Wir schlagen mehrere Hypothesen für weitere Forschung vor, wie z.B. "die latente Schlussfolgerung von o1 nutzt triviale Chain-of-Thought (CoT)-Techniken" und "eine Erhöhung der CoT-Länge bringt nicht nur Schlussfolgerungsvorteile, sondern verursacht auch Störungskosten".
Wir präsentieren OmniBooth, ein Bildgenerierungs-Framework, das räumliche Steuerung mit instanzspezifischer multimodaler Anpassung ermöglicht. Für alle Instanzen kann die multimodale Anweisung durch Texteingaben oder Bildreferenzen beschrieben werden. Unter Verwendung einer Reihe von benutzerdefinierten Masken und zugehörigen Text- oder Bildanleitungen ist unser Ziel, ein Bild zu generieren, bei dem mehrere Objekte an bestimmten Koordinaten positioniert sind und deren Attribute präzise mit den entsprechenden Anleitungen ausgerichtet sind. Dieser Ansatz erweitert signifikant den Bereich der Text-zu-Bild-Generierung und hebt ihn auf eine vielseitigere und praktischere Dimension in Bezug auf Steuerbarkeit. In diesem Paper liegt unser Hauptbeitrag in den vorgeschlagenen latenten Steuersignalen, einem hochdimensionalen räumlichen Merkmal, das eine vereinheitlichte Darstellung bietet, um die räumlichen, textuellen und Bildbedingungen nahtlos zu integrieren. Die Textbedingung erweitert ControlNet, um eine instanzspezifische Open-Vocabulary-Generierung bereitzustellen. Die Bildbedingung ermöglicht zudem eine feinkörnige Steuerung mit personalisierter Identität. In der Praxis verleiht unsere Methode den Benutzern mehr Flexibilität bei der steuerbaren Generierung, da Benutzer je nach Bedarf multimodale Bedingungen aus Texten oder Bildern wählen können. Darüber hinaus zeigen gründliche Experimente unsere verbesserte Leistung in der Bildsynthesequalität und Ausrichtung über verschiedene Aufgaben und Datensätze hinweg. Projektseite: https://len-li.github.io/omnibooth-web/
Die Modellzusammenführung zielt darauf ab, mehrere Expertenmodelle in ein leistungsfähigeres einzelnes Modell zu kombinieren, was Vorteile wie reduzierte Speicher- und Betriebskosten, verbesserte Verallgemeinerung und Unterstützung für dezentrale Modellentwicklung bietet. Trotz ihres Potenzials haben sich frühere Studien hauptsächlich auf die Zusammenführung weniger kleiner Modelle konzentriert. Dies wirft viele unbeantwortete Fragen über die Auswirkungen der Skalierung der Modellgröße und deren Zusammenspiel mit anderen wichtigen Faktoren auf - wie die Qualität des Basismodells und die Anzahl der Expertenmodelle -, um die Leistung des zusammengeführten Modells zu beeinflussen. Diese Arbeit bewertet systematisch den Nutzen der Modellzusammenführung im großen Maßstab und untersucht die Auswirkungen dieser verschiedenen Faktoren. Wir experimentieren mit der Zusammenführung vollständig feinabgestimmter Modelle unter Verwendung von 4 beliebten Zusammenführungsmethoden - Durchschnitt, Aufgabenarithmetik, Dare und TIES - über Modellgrößen von 1B-64B Parametern und der Zusammenführung von bis zu 8 verschiedenen Expertenmodellen. Wir bewerten die zusammengeführten Modelle sowohl anhand gehaltener Aufgaben, d.h. den Schulungsaufgaben der Experten, als auch anhand der Generalisierung ohne Vorwissen auf nicht gezeigte gehaltene Aufgaben. Unsere Experimente liefern mehrere neue Erkenntnisse über die Modellzusammenführung im großen Maßstab und das Zusammenspiel verschiedener Faktoren. Erstens stellen wir fest, dass die Zusammenführung effektiver ist, wenn Experten aus starken Basismodellen erstellt werden, d.h. Modellen mit guter Generalisierungsleistung ohne Vorwissen. Zweitens erleichtern größere Modelle eine einfachere Zusammenführung. Drittens verbessert die Zusammenführung konsistent die Verallgemeinerungsfähigkeiten. Bemerkenswert ist, dass die zusammengeführten Modelle oft besser verallgemeinern, verglichen mit den multitask trainierten Modellen, wenn 8 große Expertenmodelle zusammengeführt werden. Viertens können wir mehr Expertenmodelle besser zusammenführen, wenn wir mit größeren Modellen arbeiten. Fünftens verhalten sich verschiedene Zusammenführungsmethoden in größeren Maßstäben sehr ähnlich. Insgesamt beleuchten unsere Ergebnisse einige interessante Eigenschaften der Modellzusammenführung und heben gleichzeitig einige Einschränkungen hervor. Wir hoffen, dass diese Studie als Referenzpunkt für die groß angelegte Zusammenführung für zukünftige Forschung dienen wird.
Die Datenkuratierung ist das Problem, wie man Proben sammelt und organisiert, um ein Dataset zu erstellen, das effizientes Lernen unterstützt. Trotz der zentralen Bedeutung dieser Aufgabe wurde bisher wenig Arbeit darauf verwendet, verschiedene Kuratierungsmethoden groß angelegt und systematisch zu vergleichen. In dieser Arbeit gehen wir Schritte in Richtung einer formalen Bewertung von Datenkurierungsstrategien und stellen SELECT vor, den ersten groß angelegten Benchmark für Kuratierungsstrategien für die Bildklassifizierung. Um Basismethoden für den SELECT-Benchmark zu generieren, erstellen wir ein neues Dataset, ImageNet++, das bisher das größte Superset von ImageNet-1K darstellt. Unser Dataset erweitert ImageNet um 5 neue Trainingsdatenverschiebungen, von denen jede ungefähr die Größe von ImageNet-1K selbst hat und jeweils unter Verwendung einer unterschiedlichen Kuratierungsstrategie zusammengestellt wurde. Wir bewerten unsere Datenkurierungsbaselines auf zwei Arten: (i) Verwendung jeder Trainingsdatenverschiebung, um identische Bildklassifizierungsmodelle von Grund auf zu trainieren, und (ii) Verwendung der Daten selbst, um eine vortrainierte selbstüberwachte Repräsentation anzupassen. Unsere Ergebnisse zeigen interessante Trends, insbesondere im Hinblick auf aktuelle Methoden zur Datenkuratierung wie die Generierung synthetischer Daten und das Suchen anhand von CLIP-Einbettungen. Wir zeigen, dass obwohl diese Strategien für bestimmte Aufgaben sehr wettbewerbsfähig sind, die Kuratierungsstrategie, die zur Zusammenstellung des originalen ImageNet-1K-Datasets verwendet wurde, weiterhin als Goldstandard gilt. Wir erwarten, dass unser Benchmark den Weg für neue Methoden aufzeigen kann, um die Kluft weiter zu verringern. Wir veröffentlichen unsere Checkpoints, den Code, die Dokumentation und einen Link zu unserem Dataset unter https://github.com/jimmyxu123/SELECT.
Die Synthese menschlicher Bewegungen in 3D-Umgebungen, insbesondere solche mit komplexen Aktivitäten wie Fortbewegung, Handgreifen und menschlich-objektinteraktion, stellt erhebliche Anforderungen an benutzerdefinierte Wegpunkte und Bühnenübergänge. Diese Anforderungen stellen Herausforderungen für aktuelle Modelle dar, was zu einer deutlichen Lücke bei der Automatisierung der Animation von Charakteren aus einfachen menschlichen Eingaben führt. Dieser Artikel befasst sich mit dieser Herausforderung, indem er ein umfassendes Rahmenwerk zur Synthese von mehrstufigen szenenbewussten Interaktionsbewegungen direkt aus einer einzigen Textanweisung und Zielort einführt. Unser Ansatz verwendet ein autoregressives Diffusionsmodell zur Synthese des nächsten Bewegungssegments sowie einen autonomen Zeitplaner, der den Übergang für jede Aktionsstufe vorhersagt. Um sicherzustellen, dass die synthetisierten Bewegungen nahtlos in die Umgebung integriert sind, schlagen wir eine Szenendarstellung vor, die die lokale Wahrnehmung sowohl am Start- als auch am Zielort berücksichtigt. Wir verbessern die Kohärenz der generierten Bewegung weiter, indem wir Frame-Embeddings mit Spracheingaben integrieren. Darüber hinaus präsentieren wir zur Unterstützung des Modelltrainings einen umfassenden Motion-Capture-Datensatz, der 16 Stunden Bewegungssequenzen in 120 Innenräumen umfasst und 40 Arten von Bewegungen abdeckt, die jeweils mit präzisen Sprachbeschreibungen versehen sind. Experimentelle Ergebnisse zeigen die Wirksamkeit unserer Methode bei der Erzeugung hochwertiger, mehrstufiger Bewegungen, die eng mit Umgebungs- und Textbedingungen übereinstimmen.
Methoden des Verstärkungslernens aus menschlichem Feedback (RLHF) werden als Möglichkeit zur Feinabstimmung von Diffusionsmodellen (DMs) für die visuelle Generierung immer wichtiger. Allerdings sind üblicherweise verwendete On-Policy-Strategien durch die Generalisierungsfähigkeit des Belohnungsmodells begrenzt, während Off-Policy-Ansätze große Mengen an schwer zu beschaffenden, paarweise menschlich annotierten Daten erfordern, insbesondere bei visuellen Generierungsaufgaben. Um die Einschränkungen sowohl von On- als auch Off-Policy RLHF zu bewältigen, schlagen wir eine Präferenzoptimierungsmethode vor, die DMs mit Präferenzen abgleicht, ohne auf Belohnungsmodelle oder paarweise menschlich annotierte Daten angewiesen zu sein. Konkret führen wir eine Semi-Policy-Präferenzoptimierungsmethode (SePPO) ein. SePPO nutzt frühere Checkpoints als Referenzmodelle, während sie verwendet werden, um On-Policy-Referenzproben zu generieren, die "verlierende Bilder" in Präferenzpaaren ersetzen. Dieser Ansatz ermöglicht es uns, nur mit Off-Policy-"gewinnenden Bildern" zu optimieren. Darüber hinaus entwerfen wir eine Strategie zur Auswahl des Referenzmodells, die die Exploration im Richtlinienraum erweitert. Bemerkenswert ist, dass wir Referenzproben nicht einfach als negative Beispiele für das Lernen behandeln. Stattdessen entwerfen wir ein ankerbasiertes Kriterium, um zu bewerten, ob die Referenzproben wahrscheinlich gewinnende oder verlierende Bilder sind, was dem Modell ermöglicht, selektiv aus den generierten Referenzproben zu lernen. Dieser Ansatz mildert Leistungseinbußen, die durch die Unsicherheit in der Qualität der Referenzproben verursacht werden. Wir validieren SePPO anhand von Text-zu-Bild- und Text-zu-Video-Benchmarks. SePPO übertrifft alle bisherigen Ansätze bei den Text-zu-Bild-Benchmarks und zeigt auch eine herausragende Leistung bei den Text-zu-Video-Benchmarks. Der Code wird unter https://github.com/DwanZhang-AI/SePPO veröffentlicht.
Diffusionsmodelle haben die Bildgenerierung revolutioniert, und ihre Erweiterung auf die Videogenerierung hat vielversprechende Ergebnisse gezeigt. Allerdings basieren aktuelle Videodiffusionsmodelle (VDMs) auf einer skalaren Zeitschrittvariablen, die auf Clip-Ebene angewendet wird, was ihre Fähigkeit zur Modellierung komplexer zeitlicher Abhängigkeiten, die für verschiedene Aufgaben wie die Bild-zu-Video-Generierung erforderlich sind, einschränkt. Um diese Einschränkung zu überwinden, schlagen wir ein rahmenbewusstes Videodiffusionsmodell (FVDM) vor, das eine neuartige vektorisierte Zeitschrittvariable (VTV) einführt. Im Gegensatz zu herkömmlichen VDMs ermöglicht unser Ansatz, dass jedes Frame einem unabhängigen Rauschplan folgt, was die Fähigkeit des Modells zur Erfassung feingranularer zeitlicher Abhängigkeiten verbessert. Die Flexibilität des FVDM wird über mehrere Aufgaben hinweg demonstriert, darunter die Standard-Videogenerierung, die Bild-zu-Video-Generierung, die Video-Interpolation und die Synthese langer Videos. Durch eine vielfältige Reihe von VTV-Konfigurationen erzielen wir eine überlegene Qualität bei generierten Videos, wobei Herausforderungen wie katastrophales Vergessen während des Feinabstimmens und begrenzte Verallgemeinerbarkeit bei Zero-Shot-Methoden überwunden werden. Unsere empirischen Bewertungen zeigen, dass FVDM die Methoden der Spitzenklasse in Bezug auf die Qualität der Videogenerierung übertrifft und auch bei erweiterten Aufgaben herausragende Leistungen erbringt. Indem grundlegende Mängel in bestehenden VDMs angegangen werden, setzt FVDM ein neues Paradigma in der Videosynthese, das ein robustes Framework mit bedeutenden Auswirkungen auf die generative Modellierung und Multimediaanwendungen bietet.
Wir stellen eine Aufgabe und ein Datenset für die Generierung und das Verständnis von Bezugsausdrücken in multi-agenten verkörperten Umgebungen vor. In dieser Aufgabe müssen zwei Agenten in einer gemeinsamen Szene die visuelle Perspektive des anderen berücksichtigen, die von ihrer eigenen abweichen kann, um sowohl Verweise auf Objekte in einer Szene als auch die räumlichen Beziehungen zwischen ihnen zu erzeugen und zu verstehen. Wir sammeln ein Datenset von 2.970 menschlich verfassten Bezugsausdrücken, die jeweils mit menschlichen Verständnisbeurteilungen gepaart sind, und bewerten die Leistung automatisierter Modelle als Sprecher und Zuhörer, gepaart mit menschlichen Partnern. Wir stellen fest, dass die Leistung der Modelle sowohl bei der Referenzerzeugung als auch beim Verständnis hinter der von Paaren menschlicher Agenten zurückbleibt. Schließlich experimentieren wir mit dem Training eines offengewichtigen Sprechermodells, das bei erfolgreicher Kommunikation mit einem Zuhörer verbessert wird, was zu einer Steigerung des kommunikativen Erfolgs von 58,9 auf 69,3 % führt und sogar das stärkste proprietäre Modell übertrifft.
LLM-Inferenz für beliebte Unternehmensanwendungsfälle wie Zusammenfassung, RAG und Code-Generierung beobachtet in der Regel Größenordnungen längere Eingabesequenzen als Generierungslängen. Diese Eigenschaft führt zu hohen Kosten für das Vorausfüllen und erhöhter Antwortlatenz. In diesem Papier präsentieren wir SwiftKV, ein neuartiges Modell-Transformations- und Destillationsverfahren, das speziell entwickelt wurde, um die Zeit- und Kostenbelastung bei der Verarbeitung von Eingabesequenzen zu reduzieren, während gleichzeitig die hohe Qualität der generierten Sequenzen erhalten bleibt. SwiftKV kombiniert drei Schlüsselmechanismen: i) SingleInputKV, das die KV-Cache späterer Schichten mit der Ausgabe einer viel früheren Schicht vorbefüllt, wodurch die Eingabesequenzen einen Großteil der Modellberechnung überspringen können, ii) AcrossKV, das die KV-Caches benachbarter Schichten fusioniert, um den Speicherbedarf zu reduzieren und eine größere Batch-Größe für eine höhere Durchsatzrate zu unterstützen, und iii) ein wissensbewahrendes Destillationsverfahren, das vorhandene LLMs für SwiftKV mit minimalem Genauigkeitsverlust und geringem Rechen- und Datenbedarf anpassen kann. Für Llama-3.1-8B und 70B reduziert SwiftKV den Rechenbedarf des Vorausfüllens um 50 % und den Speicherbedarf des KV-Caches um 62,5 %, wobei nur minimale Qualitätsverschlechterungen über eine breite Palette von Aufgaben hinweg auftreten. Bei der End-to-End-Inferenzbereitstellung mit einer optimierten vLLM-Implementierung erzielt SwiftKV eine um bis zu 2-fach höhere Gesamtdurchsatzrate und eine um 60 % niedrigere Zeit pro Ausgabesequenz. Es kann eine beeindruckende normierte Inferenzdurchsatzrate von 560 TFlops/GPU erreichen, was sich in 16K Token/s für Llama-3.1-70B in 16-Bit-Präzision auf 4x H100-GPUs übersetzt.