Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Modellierung von langen Kontexten ist entscheidend für Sprachmodelle der nächsten Generation, jedoch stellt der hohe Rechenaufwand herkömmlicher Aufmerksamkeitsmechanismen bedeutende Rechenherausforderungen dar. Sparse Attention bietet eine vielversprechende Möglichkeit, die Effizienz zu verbessern, während die Modellfähigkeiten erhalten bleiben. Wir präsentieren NSA, einen nativ trainierbaren Sparse Attention Mechanismus, der algorithmische Innovationen mit hardwareorientierten Optimierungen integriert, um eine effiziente Modellierung langer Kontexte zu erreichen. NSA verwendet eine dynamische hierarchische Sparse-Strategie, die eine grobkörnige Token-Kompression mit einer feinkörnigen Token-Auswahl kombiniert, um sowohl das Bewusstsein für den globalen Kontext als auch die lokale Präzision zu erhalten. Unser Ansatz verbessert das Design von Sparse Attention durch zwei Schlüsselinnovationen: (1) Wir erzielen erhebliche Beschleunigungen durch eine algorithmische Gestaltung mit ausgewogener arithmetischer Intensität und Implementierungsoptimierungen für moderne Hardware. (2) Wir ermöglichen ein End-to-End-Training, das die Vorab-Berechnung reduziert, ohne die Modellleistung zu beeinträchtigen. Wie in Abbildung 1 gezeigt, zeigen Experimente, dass das mit NSA vorab trainierte Modell bei allgemeinen Benchmarks, langen Kontextaufgaben und instruktionsbasiertem Denken die Full Attention-Modelle beibehält oder übertrifft. Gleichzeitig erzielt NSA erhebliche Beschleunigungen gegenüber Full Attention bei Sequenzen mit einer Länge von 64k über Dekodierung, Vorwärts- und Rückwärtspropagation und bestätigt so seine Effizienz im gesamten Modelllebenszyklus.
Wir stellen SWE-Lancer vor, einen Benchmark von über 1.400 freiberuflichen Softwareentwicklungsaufgaben von Upwork im Wert von insgesamt über 1 Million US-Dollar an tatsächlichen Auszahlungen. SWE-Lancer umfasst sowohl unabhängige Engineering-Aufgaben - von 50 Fehlerbehebungen bis zu 32.000 US-Dollar teuren Funktionsimplementierungen - als auch Manageraufgaben, bei denen Modelle zwischen technischen Implementierungsvorschlägen wählen. Unabhängige Aufgaben werden anhand von End-to-End-Tests bewertet, die von erfahrenen Softwareingenieuren dreifach überprüft wurden, während Managerentscheidungen anhand der Entscheidungen der ursprünglich eingestellten Engineering-Manager bewertet werden. Wir bewerten die Leistung der Modelle und stellen fest, dass führende Modelle immer noch nicht in der Lage sind, die Mehrheit der Aufgaben zu lösen. Um zukünftige Forschung zu erleichtern, veröffentlichen wir ein vereinheitlichtes Docker-Image und einen öffentlichen Bewertungssplit, SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). Indem wir die Leistung der Modelle auf den monetären Wert abbilden, hoffen wir, dass SWE-Lancer eine umfassendere Erforschung der wirtschaftlichen Auswirkungen der KI-Modellentwicklung ermöglicht.
Die automatische Wiederherstellung nach einem Sturz ist eine entscheidende Voraussetzung, bevor humanoide Roboter zuverlässig eingesetzt werden können. Die manuelle Gestaltung von Steuerungen zum Aufstehen ist schwierig, da die verschiedenen Konfigurationen, in denen sich ein Humanoid nach einem Sturz befinden kann, und die anspruchsvollen Gelände, auf denen humanoide Roboter betrieben werden sollen, berücksichtigt werden müssen. In diesem Artikel wird ein Lernrahmen entwickelt, um Steuerungen zu erstellen, die es humanoiden Robotern ermöglichen, aus verschiedenen Konfigurationen auf verschiedenen Geländen aufzustehen. Im Gegensatz zu früheren erfolgreichen Anwendungen des Lernens von humanoider Fortbewegung beinhaltet die Aufsteh-Aufgabe komplexe Kontaktmuster, was eine genaue Modellierung der Kollisionsgeometrie und spärlichere Belohnungen erfordert. Wir gehen diese Herausforderungen mit einem zweiphasigen Ansatz an, der einem Lehrplan folgt. Die erste Phase konzentriert sich darauf, eine gute Aufsteh-Trajektorie unter minimalen Einschränkungen hinsichtlich der Geschmeidigkeit oder Geschwindigkeit/Drehmomentgrenzen zu entdecken. Die zweite Phase verfeinert dann die entdeckten Bewegungen zu einsetzbaren (d. h. geschmeidigen und langsamen) Bewegungen, die gegenüber Variationen in der Anfangskonfiguration und dem Gelände robust sind. Wir stellen fest, dass diese Innovationen einem humanoiden Roboter der G1-Klasse in der realen Welt ermöglichen, aus zwei Hauptsituationen aufzustehen, die wir betrachtet haben: a) auf dem Rücken liegend und b) mit dem Gesicht nach unten liegend, jeweils getestet auf flachen, verformbaren, rutschigen Oberflächen und Hängen (z. B. rutschiges Gras und Schneefeld). Nach unserem Kenntnisstand handelt es sich hierbei um die erste erfolgreiche Demonstration von erlernten Aufsteh-Richtlinien für humanoiden Roboter in menschlicher Größe in der realen Welt. Projektseite: https://humanoid-getup.github.io/
Dieses Paper präsentiert ThinkDiff, ein neuartiges Ausrichtungsparadigma, das Text-zu-Bild-Diffusionsmodelle mit multimodalem Kontextverständnis und Argumentationsfähigkeiten durch die Integration der Stärken von Bildsprachmodellen (VLMs) ausstattet. Bestehende multimodale Diffusionsfeinabstimmungsmethoden konzentrieren sich weitgehend auf die Pixel-Ebene der Rekonstruktion anstelle von kontextbezogener Argumentation und sind durch die Komplexität und begrenzte Verfügbarkeit von auf Argumentation basierenden Datensätzen eingeschränkt. ThinkDiff begegnet diesen Herausforderungen, indem es das Bildsprachtraining als Platzhalteraufgabe nutzt, um VLMs mit dem Decoder eines Encoder-Decoder-Modells mit großer Sprachmodellkapazität (LLM) anstelle eines Diffusionsdecoders auszurichten. Diese Platzhalteraufgabe baut auf der Beobachtung auf, dass der Decoder des LLM denselben Eingabefeature-Raum mit Diffusionsdecodern teilt, die den entsprechenden LLM-Encoder für die Prompt-Einbettung verwenden. Dadurch kann die Ausrichtung von VLMs mit Diffusionsdecodern durch die Ausrichtung mit dem LLM-Decoder vereinfacht werden. Ohne komplexe Schulungen und Datensätze entfesselt ThinkDiff effektiv Verständnis-, Argumentations- und Kompositions-fähigkeiten in Diffusionsmodellen. Experimente zeigen, dass ThinkDiff die Genauigkeit auf der anspruchsvollen CoBSAT-Benchmark für multimodale kontextbezogene Argumentationsgenerierung signifikant von 19,2 % auf 46,3 % verbessert, mit nur 5 Stunden Training auf 4 A100-GPUs. Darüber hinaus zeigt ThinkDiff eine außergewöhnliche Leistung bei der Komposition mehrerer Bilder und Texte zu logisch kohärenten Bildern. Projektpage: https://mizhenxing.github.io/ThinkDiff.
Aktuelle Methoden zum Vergessenlernen für große Sprachmodelle verlassen sich in der Regel auf die Umkehrung der Optimierung, um die Wahrscheinlichkeiten der Ziel-Token zu reduzieren. Dieses Paradigma stört jedoch die Vorhersage der nachfolgenden Token, was die Leistung des Modells und die sprachliche Kohärenz beeinträchtigt. Darüber hinaus betonen bestehende Bewertungsmetriken das kontextuelle Vergessen übermäßig, während sie die Flüssigkeit und Relevanz der Antworten unzureichend bewerten. Um diesen Herausforderungen zu begegnen, schlagen wir ReLearn vor, eine Datenanreicherungs- und Feinabstimmungspipeline für effektives Vergessenlernen, zusammen mit einem umfassenden Bewertungsrahmen. Dieser Rahmen führt den Wissensvergessensgrad (Knowledge Forgetting Rate, KFR) und den Wissensretentionsgrad (Knowledge Retention Rate, KRR) ein, um die Erhaltung des Wissensniveaus zu messen, sowie den sprachlichen Score (Linguistic Score, LS) zur Bewertung der Generierungsqualität. Unsere Experimente zeigen, dass ReLearn erfolgreich gezieltes Vergessen erreicht, während hochwertige Ausgaben erhalten bleiben. Durch mechanistische Analysen zeigen wir weiterhin, wie die Umkehrung der Optimierung die kohärente Textgenerierung stört, während ReLearn diese wesentliche Fähigkeit bewahrt. Der Code ist verfügbar unter https://github.com/zjunlp/unlearn.
Trotz außergewöhnlicher Fähigkeiten bei wissensintensiven Aufgaben stehen Large Language Models (LLMs) vor einer entscheidenden Lücke im Verständnis, wie sie neues Wissen internalisieren, insbesondere wie sie erworbenes Wissen strukturell in ihre neuronalen Berechnungen einbetten. Wir behandeln dieses Problem aus der Perspektive der Wissensschaltkreis-Evolution, indem wir Rechenschaltkreise identifizieren, die die Speicherung und Verarbeitung von Wissen erleichtern. Unsere systematische Analyse der Schaltkreis-Evolution während des kontinuierlichen Vor-Trainings enthüllt mehrere wichtige Erkenntnisse: (1) Die Aneignung neuen Wissens wird von seiner Relevanz zum bereits vorhandenen Wissen beeinflusst; (2) Die Evolution von Wissensschaltkreisen zeigt eine deutliche Phasenverschiebung von der Bildung zur Optimierung; (3) Die Evolution von Wissensschaltkreisen folgt einem Muster von tief zu flach. Diese Erkenntnisse fördern nicht nur unser theoretisches Verständnis der Mechanismen des Erwerbs neuen Wissens in LLMs, sondern bieten auch potenzielle Implikationen zur Verbesserung von Strategien des kontinuierlichen Vor-Trainings zur Steigerung der Modellleistung. Code und Daten sind verfügbar unter https://github.com/zjunlp/DynamicKnowledgeCircuits.
Die Codegenerierung, das symbolische mathematische Schließen und andere Aufgaben erfordern von LLMs, Ausgaben zu erzeugen, die sowohl syntaktisch als auch semantisch korrekt sind. Die Generierung von eingeschränkten LLMs ist eine vielversprechende Richtung, um die Einhaltung formaler Grammatik durchzusetzen, aber frühere Arbeiten haben empirisch festgestellt, dass eine strikte Durchsetzung formaler Einschränkungen oft die Schlussfolgerungsfähigkeiten von LLMs beeinträchtigt. In dieser Arbeit bieten wir zunächst eine theoretische Erklärung dafür, warum die Beschränkung von LLM-Ausgaben auf sehr restriktive Grammatiken, die nur syntaktisch gültige Endantworten zulassen, die Schlussfolgerungsfähigkeiten des Modells reduziert. Zweitens zeigen wir, dass es durch die Erweiterung der Ausgabe-Grammatik mit sorgfältig entworfenen zusätzlichen Regeln immer möglich ist, die Schlussfolgerungsfähigkeiten des LLM zu bewahren, während syntaktische und semantische Korrektheit in den Ausgaben gewährleistet sind. Aufbauend auf diesen theoretischen Erkenntnissen schlagen wir einen schlussfolgerungsgestützten eingeschränkten Dekodierungsalgorithmus, CRANE, vor, der die Richtigkeit der eingeschränkten Generierung effektiv mit der Flexibilität der unbeschränkten Generierung ausbalanciert. Experimente mit mehreren Open-Source LLMs und Benchmarks zeigen, dass CRANE signifikant besser abschneidet als sowohl modernste eingeschränkte Dekodierungsstrategien als auch Standard unbeschränkte Dekodierung, mit einer Genauigkeitsverbesserung von bis zu 10 Prozentpunkten gegenüber Baselines bei anspruchsvollen symbolischen Schließungsbenchmarks GSM-symbolic und FOLIO.
Wir untersuchen das Aufkommen eines intuitiven physikalischen Verständnisses in allgemeinen Deep-Neural-Network-Modellen, die darauf trainiert sind, maskierte Regionen in natürlichen Videos vorherzusagen. Unter Verwendung des Verletzung-der-Erwartung-Rahmens stellen wir fest, dass Video-Vorhersagemodelle, die darauf trainiert sind, Ergebnisse in einem erlernten Repräsentationsraum vorherzusagen, ein Verständnis verschiedener intuitiver physikalischer Eigenschaften wie Objektpermanenz und Formkonsistenz aufweisen. Im Gegensatz dazu erzielen Video-Vorhersagen im Pixelraum und multimodale große Sprachmodelle, die durch Text argumentieren, eine Leistung, die näher an Zufall heranreicht. Unsere Vergleiche dieser Architekturen zeigen, dass das gemeinsame Erlernen eines abstrakten Repräsentationsraums während der Vorhersage fehlender Teile sensorischer Eingaben, ähnlich dem prädiktiven Kodieren, ausreicht, um ein Verständnis für intuitive Physik zu erlangen, und dass selbst Modelle, die auf einer Woche einzigartiger Videos trainiert sind, eine Leistung über dem Zufallswert erzielen. Dies stellt die Idee in Frage, dass Kernwissen - eine Reihe angeborener Systeme, die helfen, die Welt zu verstehen - fest verdrahtet sein muss, um ein Verständnis für intuitive Physik zu entwickeln.
Die Instruktionshierarchie, die eine Prioritätenreihenfolge von Systemnachrichten über Benutzernachrichten, Konversationsverlauf bis hin zu Werkzeugausgaben festlegt, ist entscheidend für die Gewährleistung eines konsistenten und sicheren Verhaltens von Sprachmodellen (LMs). Trotz ihrer Bedeutung wird dieses Thema nur begrenzt behandelt, und es mangelt an umfassenden Benchmarks zur Bewertung der Fähigkeit von Modellen, die Instruktionshierarchie zu befolgen. Wir schließen diese Lücke durch die Einführung von IHEval, einem neuartigen Benchmark, der 3.538 Beispiele über neun Aufgaben umfasst und Fälle abdeckt, in denen Instruktionen unterschiedlicher Prioritäten entweder übereinstimmen oder in Konflikt stehen. Unsere Bewertung populärer LMs zeigt, dass diese Schwierigkeiten haben, Instruktionsprioritäten zu erkennen. Alle bewerteten Modelle verzeichnen einen deutlichen Leistungsabfall, wenn sie mit widersprüchlichen Instruktionen konfrontiert werden, verglichen mit ihrer ursprünglichen Leistung bei der Befolgung von Instruktionen. Darüber hinaus erreicht das wettbewerbsfähigste Open-Source-Modell nur eine Genauigkeit von 48 % bei der Lösung solcher Konflikte. Unsere Ergebnisse unterstreichen die Notwendigkeit einer gezielten Optimierung in der zukünftigen Entwicklung von LMs.
Sailor2 ist eine Familie von hochmodernen mehrsprachigen Sprachmodellen für südostasiatische (SEA) Sprachen, die in den Größen 1B, 8B und 20B verfügbar sind, um unterschiedliche Anwendungsfälle abzudecken. Basierend auf Qwen2.5 durchläuft Sailor2 ein kontinuierliches Pre-Training mit 500B Tokens (400B SEA-spezifische und 100B Replay-Tokens), um 13 SEA-Sprachen zu unterstützen, während die Kompetenz in Chinesisch und Englisch erhalten bleibt. Das Sailor2-20B-Modell erreicht eine 50-50-Gewinnrate gegen GPT-4o über alle SEA-Sprachen hinweg. Wir stellen außerdem ein umfassendes Handbuch zur Verfügung, das zeigt, wie man das mehrsprachige Modell effizient entwickeln kann, einschließlich fünf zentraler Aspekte: Datenkuratierung, Pre-Training, Post-Training, Modellanpassung und Evaluation. Wir hoffen, dass das Sailor2-Modell (Apache 2.0-Lizenz) die Sprachentwicklung in der SEA-Region vorantreiben wird und dass das Sailor2-Handbuch Forscher dazu inspirieren wird, inklusivere LLMs für andere unterversorgte Sprachen zu entwickeln.
Große Sprachmodelle (LLMs) kämpfen mit Halluzinationen und veraltetem Wissen aufgrund ihrer Abhängigkeit von statischen Trainingsdaten. Retrieval-Augmented Generation (RAG) mildert diese Probleme durch die Integration externer dynamischer Informationen, was die faktische und aktuelle Fundierung verbessert. Jüngste Fortschritte im multimodalen Lernen haben zur Entwicklung von Multimodal RAG geführt, das mehrere Modalitäten wie Text, Bilder, Audio und Video einbezieht, um die generierten Ausgaben zu verbessern. Allerdings stellen cross-modale Ausrichtung und Schlussfolgerung einzigartige Herausforderungen für Multimodal RAG dar, die es von traditionellem unimodalem RAG unterscheiden. Diese Übersicht bietet eine strukturierte und umfassende Analyse von Multimodal RAG-Systemen, die Datensätze, Metriken, Benchmarks, Evaluierung, Methodologien und Innovationen in Retrieval, Fusion, Augmentierung und Generierung abdeckt. Wir untersuchen präzise Trainingsstrategien, Robustheitsverbesserungen und Verlustfunktionen, während wir auch die vielfältigen Multimodal RAG-Szenarien erkunden. Darüber hinaus diskutieren wir offene Herausforderungen und zukünftige Forschungsrichtungen, um Fortschritte in diesem sich entwickelnden Bereich zu unterstützen. Diese Übersicht legt den Grundstein für die Entwicklung leistungsfähigerer und zuverlässigerer KI-Systeme, die multimodale dynamische externe Wissensdatenbanken effektiv nutzen. Ressourcen sind verfügbar unter https://github.com/llm-lab-org/Multimodal-RAG-Survey.
Der bemerkenswerte Erfolg des autoregressiven Paradigmas hat bedeutende Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) ermöglicht, wobei leistungsstarke Modelle wie Show-o, Transfusion und Emu3 beachtliche Fortschritte bei der einheitlichen Bildverarbeitung und -erzeugung erzielt haben. Zum ersten Mal enthüllen wir ein gemeinsames Phänomen: Die Verständnisfähigkeiten von MLLMs sind typischerweise stärker als ihre generativen Fähigkeiten, mit einem signifikanten Unterschied zwischen beiden. Basierend auf dieser Erkenntnis schlagen wir HermesFlow vor, ein einfaches, aber allgemeines Framework, das entwickelt wurde, um nahtlos die Kluft zwischen Verständnis und Generierung in MLLMs zu überbrücken. Konkret nehmen wir homologe Daten als Eingabe, um homologe Präferenzdaten sowohl für Verständnis als auch für Generierung zu kuratieren. Durch Pair-DPO und selbstspielende iterative Optimierung richtet HermesFlow multimodales Verständnis und Generierung effektiv mithilfe homologer Präferenzdaten aus. Umfangreiche Experimente zeigen die signifikante Überlegenheit unseres Ansatzes gegenüber früheren Methoden, insbesondere bei der Verringerung des Unterschieds zwischen multimodalem Verständnis und Generierung. Diese Ergebnisse unterstreichen das Potenzial von HermesFlow als allgemeines Ausrichtungsframework für Multimodale Grundlagenmodelle der nächsten Generation. Code: https://github.com/Gen-Verse/HermesFlow
Wir schlagen Diffusion-Schärfung vor, einen Feinabstimmungsansatz, der die nachgelagerte Ausrichtung verbessert, indem er die Optimierung der Probenahmetrajektorien optimiert. Bestehende RL-basierte Feinabstimmungsmethoden konzentrieren sich auf einzelne Trainingsschritte und vernachlässigen die Ausrichtung auf Trajektorienebene, während neuere Optimierungsmethoden für Probenahmetrajektorien erhebliche Inferenzkosten verursachen. Diffusion-Schärfung überwindet dies, indem es ein Pfadintegral-Framework verwendet, um optimale Trajektorien während des Trainings auszuwählen, Belohnungsfeedback nutzt und Inferenzkosten amortisiert. Unsere Methode zeigt eine überlegene Trainingseffizienz mit schnellerer Konvergenz und beste Inferenzeffizienz, ohne zusätzliche NFEs zu benötigen. Umfangreiche Experimente zeigen, dass Diffusion-Schärfung RL-basierte Feinabstimmungsmethoden (z. B. Diffusion-DPO) und Optimierungsmethoden für Probenahmetrajektorien (z. B. Inferenzskalierung) in verschiedenen Metriken wie Textausrichtung, kompositorischen Fähigkeiten und menschlichen Präferenzen übertrifft und eine skalierbare und effiziente Lösung für die zukünftige Feinabstimmung von Diffusionsmodellen bietet. Code: https://github.com/Gen-Verse/Diffusion-Schärfung
Systemnachrichten spielen eine entscheidende Rolle bei Interaktionen mit großen Sprachmodellen (LLMs), oft als Aufforderungen, Gespräche zu beginnen. Durch Systemnachrichten können Benutzer spezifische Rollen zuweisen, beabsichtigte Aufgaben ausführen, Hintergrundinformationen einbeziehen, verschiedene Ausgabeformate und Kommunikationsstile festlegen. Trotz einer solchen Vielseitigkeit fehlen öffentlich verfügbare Daten oft an Systemnachrichten und unterliegen strengen Lizenzbeschränkungen in der Industrie. Die manuelle Markierung öffentlich verfügbarer Daten mit Systemnachrichten, die mit Benutzeranweisungen übereinstimmen, erfordert erhebliche Ressourcen. Angesichts solcher Herausforderungen stellt unsere Arbeit SysGen vor, eine Pipeline zur Generierung von Systemnachrichten mit besser abgestimmten Assistentenantworten aus dem überwachten Feinabstimmungsdatensatz ohne Systemnachrichten. Das Training mit SysGen-Daten hat signifikante Verbesserungen in der Ausrichtung der Modellantworten auf Systemnachrichten und Benutzeranweisungen gezeigt, wie anhand verschiedener Open-Source-Modelle im Multifacet-Benchmark demonstriert wurde, wobei minimale Auswirkungen auf andere nicht gesehene Benchmarks wie Open LLM Leaderboard 2 beibehalten wurden. Unsere qualitative Analyse hebt die Bedeutung verschiedener Systemnachrichten hervor, um eine bessere Anpassungsfähigkeit in verschiedenen Kontexten sicherzustellen.
In jüngster Zeit haben Fortschritte bei LLM-basierten Multi-Agenten (LLM-MA)-Systemen vielversprechende Ergebnisse gezeigt, dennoch bestehen weiterhin bedeutende Herausforderungen beim Management von Kommunikation und Verfeinerung, wenn Agenten bei komplexen Aufgaben zusammenarbeiten. In diesem Artikel schlagen wir Talk Structurally, Act Hierarchically (TalkHier) vor, ein neuartiges Framework, das ein strukturiertes Kommunikationsprotokoll für kontextreiche Austausche einführt und ein hierarchisches Verfeinerungssystem zur Bewältigung von Problemen wie inkorrekten Ausgaben, Falschinformationen und Voreingenommenheiten bereitstellt. TalkHier übertrifft verschiedene Arten des aktuellen Standes der Technik, einschließlich Skalierungsmodellen für Inferenzen (OpenAI-o1), Open-Source-Multi-Agenten-Modellen (z.B. AgentVerse) und Mehrheitsabstimmungsstrategien auf aktuellen LLM- und Einzelagenten-Baselines (z.B. ReAct, GPT4o), über verschiedene Aufgaben hinweg, einschließlich offener Fragebeantwortung, domänenspezifischer selektiver Fragestellung und praktischer Werbetextgenerierung. Diese Ergebnisse unterstreichen sein Potenzial, einen neuen Standard für LLM-MA-Systeme zu setzen und den Weg für effektivere, anpassungsfähigere und kollaborativere Multi-Agenten-Frameworks zu ebnen. Der Code ist verfügbar unter https://github.com/sony/talkhier.
Jüngste Erfolge bei großen multimodalen Modellen (LMMs) haben vielversprechende Anwendungen von Agenten ermöglicht, die in der Lage sind, komplexe Webaufgaben autonom zu erledigen. Obwohl Open-Source-LMM-Agenten in Offline-Evaluierungsbenchmarks bedeutende Fortschritte erzielt haben, bleibt ihre Leistung in realistischeren Online-Szenarien deutlich hinter den menschlichen Fähigkeiten zurück. Ein zentraler Engpass ist das Fehlen von diversen und groß angelegten Trajektorien-Datensätzen über verschiedene Domänen hinweg, deren Erstellung kostspielig ist. In dieser Arbeit gehen wir diese Herausforderung an, indem wir ein skalierbares Rezept entwickeln, um den bisher größten und vielfältigsten Trajektorien-Datensatz zu synthetisieren, der über 94.000 erfolgreiche multimodale Web-Trajektorien, 49.000 einzigartige URLs, 720.000 Screenshots und 33 Millionen Web-Elemente umfasst. Insbesondere nutzen wir umfangreiche Web-Exploration und -Verfeinerung, um diverse Aufgabenintentionen zu erhalten. Die durchschnittlichen Kosten betragen 28 Cent pro erfolgreicher Trajektorie, was sie für eine breite Nutzergemeinschaft erschwinglich macht. Mithilfe dieses Datensatzes trainieren wir Explorer, einen multimodalen Web-Agenten, und demonstrieren starke Leistungen in sowohl Offline- als auch Online-Web-Agenten-Benchmarks wie Mind2Web-Live, Multimodal-Mind2Web und MiniWob++. Darüber hinaus zeigen unsere Experimente, dass die Skalierung von Daten ein entscheidender Treiber für die Verbesserung der Fähigkeiten von Web-Agenten ist. Wir hoffen, dass diese Studie die Forschung zu state-of-the-art LMM-basierten Agenten in größerem Maßstab zugänglicher macht.
Trotz nahezu perfekter Ergebnisse in künstlichen Bewertungen bleibt die Wirksamkeit von Modellbearbeitung in realen Anwendungen unerforscht. Um diese Lücke zu schließen, schlagen wir vor, die Modellbearbeitung im Bereich der Frage-Antwort-Systeme (QA) zu untersuchen, indem wir eine rigorose Bewertungspraxis etablieren, um die Wirksamkeit von Bearbeitungsmethoden bei der Korrektur von Fehlern in großen Sprachmodellen (LLMs) zu bewerten. Dies umfasst QAEdit, einen neuen Benchmark, der aus beliebten QA-Datensätzen abgeleitet ist, sowie ein standardisiertes Bewertungsframework. Unsere Einzelbearbeitungsexperimente zeigen, dass aktuelle Bearbeitungsmethoden deutlich schlechter abschneiden als bisher berichtet (38,5 % vs. ~96 %). Durch Modulanalysen und kontrollierte Experimente demonstrieren wir, dass dieser Leistungsabfall auf Probleme in den Bewertungspraktiken früherer Bearbeitungsforschung zurückzuführen ist. Ein zentrales Problem ist der unangemessene Einsatz von Teacher Forcing beim Testen, wodurch die Fehlerfortpflanzung verhindert wird, indem Ground-Truth-Token (die in realen Szenarien nicht zugänglich sind) als Eingabe verwendet werden. Darüber hinaus simulieren wir den realen Einsatz durch sequenzielle Bearbeitung, was zeigt, dass aktuelle Ansätze bereits nach nur 1000 Bearbeitungen drastisch versagen. Unsere Analyse bietet eine grundlegende Neubewertung sowohl der realen Anwendbarkeit bestehender Modellbearbeitungsmethoden als auch ihrer Bewertungspraktiken und etabliert ein rigoroses Bewertungsframework mit wichtigen Erkenntnissen, um die Forschung zu zuverlässiger und praktischer Modellbearbeitung voranzutreiben.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in codebezogenen Aufgaben wie Code-Verständnis und Code-Generierung gezeigt. Eine ebenso wichtige, jedoch noch wenig erforschte Frage ist, ob LLMs als allgemeine Ersatz-Codeausführer dienen können, um die Ausgabe und das Verhalten eines Programms vorherzusagen, ohne es tatsächlich auszuführen. Um diese Fähigkeit systematisch zu untersuchen, stellen wir SURGE vor, einen umfassenden Benchmark, der acht Schlüsselaspekte abdeckt: mehrsprachige Programmieraufgaben, Programmierprobleme auf Wettbewerbsniveau, Codeanalyse auf Repository-Ebene, aufwändige wissenschaftliche Berechnungen, zeitkomplexe Algorithmen, Analyse fehlerhaften Codes, Programme, die von bestimmten Compilern oder Ausführungsumgebungen abhängig sind, und formale mathematische Beweisverifikation. Wir bewerten mehrere Open-Source- und proprietäre LLMs auf SURGE und führen eine Skalierungsstudie durch, um den Einfluss von Modellgröße und Trainingsdatenumfang auf die Genauigkeit der Ersatzausführung zu analysieren. Darüber hinaus kategorisieren wir Modellvorhersagefehler und erkunden potenzielle Verbesserungsbereiche. Unsere Ergebnisse deuten darauf hin, dass LLMs zwar in bestimmten Fällen Codeausführungsergebnisse vorhersagen können, jedoch Grenzen bei der allgemeinen Ersatzausführung aufweisen. Diese Studie liefert empirische Erkenntnisse zur Machbarkeit der Verwendung von LLMs als Ersatz-Codeausführer. Der Code und das Datenset sind unter https://github.com/Imbernoulli/SURGE verfügbar.
Mit dem explosiven Wachstum der 3D-Inhalteerstellung steigt die Nachfrage nach der automatischen Umwandlung statischer 3D-Modelle in bewegungsbereite Versionen, die realistische Animationen unterstützen. Traditionelle Ansätze stützen sich stark auf manuelle Annotation, was sowohl zeitaufwändig als auch arbeitsintensiv ist. Darüber hinaus hat der Mangel an groß angelegten Benchmarks die Entwicklung von lernbasierten Lösungen behindert. In dieser Arbeit präsentieren wir MagicArticulate, ein effektives Framework, das statische 3D-Modelle automatisch in bewegungsbereite Assets umwandelt. Unsere Hauptbeiträge sind dreifach. Erstens führen wir Articulation-XL ein, einen groß angelegten Benchmark mit über 33k 3D-Modellen mit hochwertigen Artikulationsannotationen, sorgfältig aus Objaverse-XL kuratiert. Zweitens schlagen wir eine neuartige Skelettgenerierungsmethode vor, die die Aufgabe als ein Sequenzmodellierungsproblem formuliert, wobei ein autoregressiver Transformer genutzt wird, um natürlicherweise mit variierenden Anzahlen von Knochen oder Gelenken innerhalb von Skeletten und deren inhärenten Abhängigkeiten über verschiedene 3D-Modelle umzugehen. Drittens sagen wir Skinning-Gewichte mittels eines funktionalen Diffusionsprozesses vorher, der volumetrische geodätische Distanzprioritäten zwischen Vertices und Gelenken einbezieht. Umfangreiche Experimente zeigen, dass MagicArticulate signifikant bessere Leistungen als bestehende Methoden über verschiedene Objektkategorien hinweg erzielt, hochwertige Artikulation ermöglicht und realistische Animationen ermöglicht. Projektseite: https://chaoyuesong.github.io/MagicArticulate.
In jüngster Zeit haben Fortschritte in der Optimierung des Schlussfolgerns die Fähigkeiten großer Sprachmodelle (LLMs) erheblich verbessert. Bisherige Bemühungen zur Verbesserung des Schlussfolgerns beschränkten sich jedoch auf die Lösung mathematischer Probleme und die Fokussierung auf visuelle grafische Eingaben, wobei breitere Anwendungen im allgemeinen Videoverständnis vernachlässigt wurden. Dieser Artikel schlägt video-SALMONN-o1 vor, das erste Open-Source-Sprachmodell mit audiovisueller Unterstützung, das für allgemeine Videoverständnisaufgaben entwickelt wurde. Um seine Schlussfolgerungsfähigkeiten zu verbessern, haben wir einen datenintensiven Datensatz entwickelt, der herausfordernde audiovisuelle Fragen mit schrittweisen Lösungen enthält. Wir schlagen auch die Prozessdirektpräferenzoptimierung (pDPO) vor, die kontrastive Schrittauswahl nutzt, um eine effiziente Modellierung von Schritt-für-Schritt-Belohnungen für multimodale Eingaben zu erreichen. Darüber hinaus führen wir RivaBench ein, den ersten datenintensiven Videoverstehensbenchmark, der über 4.000 hochwertige, von Experten kuratierte Frage-Antwort-Paare in Szenarien wie Stand-up-Comedy, akademischen Präsentationen und synthetischer Videodetektion umfasst. video-SALMONN-o1 erzielt eine Genauigkeitsverbesserung von 3-8% gegenüber dem LLaVA-OneVision-Benchmark in verschiedenen Video-Schlussfolgerungstests. Darüber hinaus erzielt pDPO Verbesserungen von 6-8% im Vergleich zum überwachten Feinabstimmungsmodell auf RivaBench. Die verbesserte Schlussfolgerung ermöglicht video-SALMONN-o1 Null-Schuss-Fähigkeiten zur Erkennung synthetischer Videos.
Dieses Artikel präsentiert Model-guidance (MG), ein neuartiges Ziel für das Training von Diffusionsmodellen, das die häufig verwendete Classifier-free Guidance (CFG) adressiert und entfernt. Unser innovativer Ansatz geht über die Standardmodellierung der reinen Datenverteilung hinaus und integriert die Posterior-Wahrscheinlichkeit von Bedingungen. Die vorgeschlagene Technik basiert auf der Idee der CFG und ist einfach, aber effektiv, was sie zu einem Plug-and-Play-Modul für bestehende Modelle macht. Unsere Methode beschleunigt den Trainingsprozess erheblich, verdoppelt die Inferenzgeschwindigkeit und erreicht eine außergewöhnliche Qualität, die mit aktuellen Diffusionsmodellen mit CFG gleichzieht und diese sogar übertrifft. Umfangreiche Experimente demonstrieren die Wirksamkeit, Effizienz und Skalierbarkeit bei verschiedenen Modellen und Datensätzen. Schließlich erzielen wir state-of-the-art Leistungen auf den ImageNet-256-Benchmarks mit einem FID von 1,34. Unser Code ist unter https://github.com/tzco/Diffusion-wo-CFG verfügbar.
Große Sprachmodelle zeigen bemerkenswerte Fähigkeiten in verschiedenen Bereichen, insbesondere in Mathematik und logischem Denken. Aktuelle Bewertungen vernachlässigen jedoch physikbasiertes Denken - eine komplexe Aufgabe, die Physiktheoreme und Einschränkungen erfordert. Wir präsentieren PhysReason, einen Benchmark mit 1.200 Problemen, bestehend aus wissensbasierten (25%) und auf Schlussfolgerungen basierenden (75%) Problemen, wobei letztere in drei Schwierigkeitsstufen (leicht, mittel, schwer) unterteilt sind. Bemerkenswert ist, dass die Probleme durchschnittlich 8,1 Lösungsschritte erfordern, wobei schwierige Probleme 15,6 Schritte erfordern, was die Komplexität des physikbasierten Denkens widerspiegelt. Wir schlagen das Physics Solution Auto Scoring Framework vor, das effiziente Bewertungen auf Antwort- und umfassender Schrittebene integriert. Spitzenmodelle wie Deepseek-R1, Gemini-2.0-Flash-Thinking und o3-mini-high erreichen bei der Bewertung auf Antwortebene weniger als 60%, wobei die Leistung von Wissensfragen (75,11%) auf schwierige Probleme (31,95%) abfällt. Durch die Bewertung auf Schrittebene identifizierten wir vier Schlüsselengpässe: Anwendung von Physiktheoremen, Verständnis physikalischer Prozesse, Berechnung und Analyse von physikalischen Bedingungen. Diese Erkenntnisse positionieren PhysReason als einen neuartigen und umfassenden Benchmark zur Bewertung der physikbasierten Denkfähigkeiten großer Sprachmodelle. Unser Code und unsere Daten werden unter https:/dxzxy12138.github.io/PhysReason veröffentlicht.
Text-to-SQL zielt darauf ab, natürlichsprachliche Fragen in ausführbare SQL-Abfragen umzuwandeln. Während frühere Ansätze wie die Skelettmaskenauswahl durch das Abrufen ähnlicher Trainingsbeispiele zur Anleitung großer Sprachmodelle (LLMs) eine starke Leistung gezeigt haben, haben sie Schwierigkeiten in realen Szenarien, in denen solche Beispiele nicht verfügbar sind. Um diese Einschränkung zu überwinden, schlagen wir Selbstaugmentierung im Kontextlernen mit fein abgestimmter Beispielauswahl für Text-to-SQL (SAFE-SQL) vor, ein neuartiges Framework, das die SQL-Generierung verbessert, indem es selbstaugmentierte Beispiele generiert und filtert. SAFE-SQL fordert zunächst ein LLM auf, mehrere Text-to-SQL-Beispiele zu generieren, die für die Testeingabe relevant sind. Anschließend filtert SAFE-SQL diese Beispiele durch drei Relevanzbewertungen, um hochwertige Beispiele im Kontextlernen zu konstruieren. Durch die Verwendung selbstgenerierter Beispiele übertrifft SAFE-SQL die bisherigen Zero-Shot- und Few-Shot-Text-to-SQL-Frameworks und erzielt eine höhere Ausführungsgenauigkeit. Bemerkenswert ist, dass unser Ansatz zusätzliche Leistungssteigerungen in besonders schwierigen und unerwarteten Szenarien bietet, in denen herkömmliche Methoden oft versagen.
Wir präsentieren Dyve, einen dynamischen Prozessprüfer, der die Fehlererkennung beim Denken in großen Sprachmodellen durch die Integration von schnellem und langsamem Denken verbessert, inspiriert von Kahnnemans Systemtheorie. Dyve wendet adaptiv eine sofortige Token-Ebene Bestätigung System 1 für einfache Schritte und eine umfassende Analyse System 2 für komplexe Schritte an. Durch die Nutzung einer neuartigen schrittweisen konsensgefilterten Prozessaufsichtstechnik, die Monte Carlo-Schätzungen mit LLM-basierter Bewertung kombiniert, kuratiert Dyve hochwertige Aufsichtssignale aus rauschenden Daten. Experimentelle Ergebnisse auf ProcessBench und dem MATH-Datensatz bestätigen, dass Dyve signifikant besser abschneidet als bestehende prozessbasierte Prüfer und die Leistung in Best-of-N-Szenarien steigert.
Latente generative Modelle haben sich als führender Ansatz für hochwertige Bildsynthese etabliert. Diese Modelle nutzen einen Autoencoder, um Bilder in einen latenten Raum zu komprimieren, gefolgt von einem generativen Modell, das die latente Verteilung lernt. Wir stellen fest, dass bestehende Autoencoder keine Äquivarianz gegenüber semantikerhaltenden Transformationen wie Skalierung und Rotation aufweisen, was zu komplexen latenten Räumen führt, die die generative Leistung beeinträchtigen. Um dies zu beheben, schlagen wir EQ-VAE vor, einen einfachen Regularisierungsansatz, der Äquivarianz im latenten Raum erzwingt und dessen Komplexität reduziert, ohne die Rekonstruktionsqualität zu verschlechtern. Durch das Feinabstimmen vortrainierter Autoencoder mit EQ-VAE verbessern wir die Leistung mehrerer state-of-the-art generativer Modelle, darunter DiT, SiT, REPA und MaskGIT, und erreichen eine 7-fache Beschleunigung bei DiT-XL/2 mit nur fünf Epochen SD-VAE-Feintuning. EQ-VAE ist sowohl mit kontinuierlichen als auch diskreten Autoencodern kompatibel und bietet somit eine vielseitige Verbesserung für eine breite Palette latenter generativer Modelle. Projektseite und Code: https://eq-vae.github.io/.
Die Nutzung mathematischer Großer Sprachmodelle (LLMs) zur Beweisgenerierung ist ein grundlegendes Thema in der LLMs-Forschung. Wir argumentieren, dass die Fähigkeit aktueller LLMs, Aussagen zu beweisen, weitgehend davon abhängt, ob sie den relevanten Beweisprozess während des Trainings durchlaufen haben. Diese Abhängigkeit begrenzt ihr tieferes Verständnis mathematischer Theoreme und verwandter Konzepte. Inspiriert von der pädagogischen Methode des "Beweises durch Gegenbeispiele", die in der menschlichen Mathematikausbildung häufig verwendet wird, zielt unsere Arbeit darauf ab, die Fähigkeit von LLMs zur mathematischen Argumentation und Beweisführung durch Gegenbeispiele zu verbessern. Konkret erstellen wir manuell einen qualitativ hochwertigen, universitätsniveau Mathematik-Benchmark, CounterMATH, der von LLMs verlangt, mathematische Aussagen zu beweisen, indem sie Gegenbeispiele liefern und damit ihr Verständnis mathematischer Konzepte bewerten. Darüber hinaus entwickeln wir einen Datenverarbeitungsrahmen, um automatisch Trainingsdaten für eine weitere Modellverbesserung zu erhalten. Umfangreiche Experimente und detaillierte Analysen zeigen, dass CounterMATH anspruchsvoll ist und darauf hindeutet, dass LLMs wie OpenAI o1 über unzureichende Fähigkeiten zur Beweisführung durch Gegenbeispiele verfügen. Darüber hinaus zeigt unsere Untersuchung des Modelltrainings, dass die Stärkung der konzeptuellen Argumentationsfähigkeiten von LLMs durch Gegenbeispiele entscheidend ist, um ihre allgemeinen mathematischen Fähigkeiten zu verbessern. Wir sind der Ansicht, dass unsere Arbeit neue Perspektiven für die Gemeinschaft mathematischer LLMs bietet.
Bestehende Sprachmodelle haben Schwierigkeiten mit dem Beweis orientierten Programmieren aufgrund von Datenknappheit, die sich auf zwei wesentliche Arten manifestiert: (1) einem Mangel an ausreichenden Korpora für beweisorientierte Programmiersprachen wie F*, und (2) dem Fehlen von groß angelegten, projektbezogenen beweisorientierten Implementierungen, die dem Modell den komplexen Denkprozess beim Durchführen des beweisorientierten Programmierens vermitteln können. Wir stellen die erste Methode zur synthetischen Datenanreicherung für projektbezogenes beweisorientiertes Programmieren sowohl für die Generierung als auch für die Reparatur vor. Unsere Methode begegnet der Datenknappheit, indem sie grundlegende beweisorientierte Programmieraufgaben zur Beherrschung dieser Sprache synthetisiert; vielfältige Codierungsdaten zur Erhebung von Denkfähigkeiten einbezieht und neue Beweise und Reparaturdaten innerhalb bestehender Repositories erstellt. Dieser Ansatz ermöglicht es Sprachmodellen, Beweise sowohl zu synthetisieren als auch zu reparieren, sowohl für funktions- als auch für repositoryebene Codes. Wir zeigen, dass unser feinabgestimmtes 14B-Parameter-Modell, PoPilot, die Leistung der Modelle übertreffen kann, die GPT-4o im projektbezogenen beweisorientierten Programmieren um 64% relativ übertreffen, und die Leistung von GPT-4o um 54% verbessern kann, indem es seine Ausgaben über die Selbstreparatur von GPT-4o repariert.
Massive Daten von hoher Qualität, sowohl Rohdaten für das Vortraining als auch Annotationen für das Nachtraining, wurden sorgfältig vorbereitet, um fortschrittliche große Sprachmodelle (LLMs) zu entwickeln. Im Gegensatz dazu sind für die Informationsextraktion (IE) Vortrainingsdaten, wie z.B. BIO-markierte Sequenzen, schwer zu skalieren. Wir zeigen, dass IE-Modelle von LLM-Ressourcen profitieren können, indem sie die Vorhersage des nächsten Tokens in die Extraktion für bereits im Kontext vorhandene Tokens umformulieren. Speziell lernt unser vorgeschlagenes Extraktionsparadigma für nächste Tokens (NTE) ein vielseitiges IE-Modell, Cuckoo, mit 102,6 Millionen extrahierten Daten, die aus den Vortrainings- und Nachtrainingsdaten des LLMs konvertiert wurden. Unter der Few-Shot-Einstellung passt sich Cuckoo effektiv an traditionelle und komplexe Anweisungsfolgen-IE an und erzielt bessere Leistungen als bestehende vortrainierte IE-Modelle. Als "Free Rider" kann Cuckoo sich natürlich mit den laufenden Fortschritten in der Datenvorbereitung für LLMs weiterentwickeln und von Verbesserungen in den Trainingspipelines für LLMs profitieren, ohne zusätzlichen manuellen Aufwand.
Speicher ist entscheidend, um Agenten in die Lage zu versetzen, komplexe Aufgaben mit zeitlichen und räumlichen Abhängigkeiten zu bewältigen. Während viele Reinforcement-Learning (RL)-Algorithmen Speicher integrieren, fehlt es in diesem Bereich an einem universellen Benchmark, um die Speicherfähigkeiten eines Agenten in verschiedenen Szenarien zu bewerten. Diese Lücke ist besonders deutlich im Bereich der Tischroboter-Manipulation, wo Speicher unerlässlich ist, um Aufgaben mit teilweiser Beobachtbarkeit zu lösen und eine robuste Leistung zu gewährleisten, aber es gibt keine standardisierten Benchmarks. Um dies zu beheben, stellen wir MIKASA (Memory-Intensive Skills Assessment Suite for Agents) vor, einen umfassenden Benchmark für Speicher-RL, mit drei wesentlichen Beiträgen: (1) Wir schlagen ein umfassendes Klassifizierungsrahmenwerk für speicherintensive RL-Aufgaben vor, (2) wir sammeln MIKASA-Base – einen einheitlichen Benchmark, der eine systematische Bewertung von speicherverbesserten Agenten in verschiedenen Szenarien ermöglicht, und (3) wir entwickeln MIKASA-Robo – einen neuartigen Benchmark mit 32 sorgfältig entworfenen speicherintensiven Aufgaben, die die Speicherfähigkeiten in der Tischroboter-Manipulation bewerten. Unsere Beiträge schaffen ein einheitliches Rahmenwerk, um die Forschung im Bereich Speicher-RL voranzutreiben und die Entwicklung zuverlässigerer Systeme für reale Anwendungen zu fördern. Der Code ist verfügbar unter https://sites.google.com/view/memorybenchrobots/.
Große Sprachmodelle (LLMs) mit API-Aufruf-Fähigkeiten ermöglichten die Entwicklung effektiver Sprachagenten (LA) und revolutionierten gleichzeitig das herkömmliche Paradigma der aufgabenorientierten Dialoge (TOD). Aktuelle Ansätze stehen jedoch vor einem kritischen Dilemma: TOD-Systeme werden oft auf einer begrenzten Menge von Ziel-APIs trainiert, was neue Daten erfordert, um ihre Qualität bei der Interaktion mit neuen Diensten aufrechtzuerhalten, während LAs nicht darauf trainiert sind, die Benutzerabsicht über mehrfache Dialogwechsel hinweg beizubehalten. Da sowohl robustes Management von Mehrfachdialogen als auch fortgeschrittene Funktionsaufrufe für effektive Konversationsagenten entscheidend sind, bewerten wir diese Fähigkeiten anhand von drei beliebten Benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA) und API-Bank (LA). Unsere Analysen zeigen, dass spezialisierte Ansätze in einem Bereich hervorragend abschneiden, im anderen jedoch unterdurchschnittlich performen. Um diese Kluft zu überbrücken, stellen wir CALM (Conversational Agentic Language Model) vor, einen einheitlichen Ansatz, der sowohl konversationelle als auch agentische Fähigkeiten integriert. Wir haben CALM-IT erstellt, einen sorgfältig konstruierten Multi-Task-Datensatz, der mehrfache ReAct-Schlussfolgerungen mit komplexer API-Nutzung verknüpft. Mit CALM-IT trainieren wir drei Modelle: CALM 8B, CALM 70B und CALM 405B, die in allen drei Benchmarks, einschließlich GPT-4o, die leistungsstärksten domänenspezifischen Modelle übertreffen.
Diese Arbeit stellt ILIAS vor, ein neues Testdatensatz für die Instanzbasierte Bildersuche im großen Maßstab. Es wurde entwickelt, um die Fähigkeit aktueller und zukünftiger Foundation-Modelle und Retrieval-Techniken zur Erkennung spezifischer Objekte zu bewerten. Die wesentlichen Vorteile gegenüber bestehenden Datensätzen umfassen den großen Umfang, die Domänenvielfalt, präzise Ground-Truth-Daten und eine Leistung, die weit von der Sättigung entfernt ist. ILIAS enthält Abfrage- und Positivbilder für 1.000 Objektinstanzen, die manuell gesammelt wurden, um herausfordernde Bedingungen und diverse Domänen abzudecken. Die groß angelegte Suche wird gegen 100 Millionen Ablenkbilder aus YFCC100M durchgeführt. Um falsche Negative ohne zusätzlichen Annotationsaufwand zu vermeiden, schließen wir nur Abfrageobjekte ein, die bestätigt nach 2014 entstanden sind, d.h. dem Kompilationsdatum von YFCC100M. Eine umfangreiche Benchmarking-Studie wurde mit folgenden Beobachtungen durchgeführt: i) Modelle, die auf spezifische Domänen wie Sehenswürdigkeiten oder Produkte feinabgestimmt wurden, glänzen in dieser Domäne, scheitern jedoch bei ILIAS ii) Das Lernen einer linearen Anpassungsschicht unter Verwendung von Multi-Domänen-Klassensupervision führt zu Leistungsverbesserungen, insbesondere bei Vision-Language-Modellen iii) Lokale Deskriptoren bei der Neuordnung der Suchergebnisse sind nach wie vor ein Schlüsselelement, insbesondere bei starkem Hintergrundrauschen iv) Die Text-zu-Bild-Leistung der Vision-Language-Foundation-Modelle ist überraschend nah an der entsprechenden Bild-zu-Bild-Leistung. Website: https://vrg.fel.cvut.cz/ilias/
Die Verbreitung großer Sprachmodelle und generativer KI in Online-Medien hat den Bedarf an effektiver automatisierter Faktenprüfung verstärkt, um Faktenprüfern bei der Bewältigung des zunehmenden Volumens und der Raffinesse von Fehlinformationen zu unterstützen. Die komplexe Natur der Faktenprüfung erfordert, dass automatisierte Faktenprüfsysteme Erklärungen liefern, die es Faktenprüfern ermöglichen, ihre Ergebnisse zu überprüfen. Es ist jedoch unklar, wie diese Erklärungen mit den Entscheidungs- und Denkprozessen von Faktenprüfern in Einklang gebracht werden sollten, um effektiv in ihre Arbeitsabläufe integriert zu werden. Durch halbstrukturierte Interviews mit Faktenprüf-Profis überbrücken wir diese Lücke, indem wir: (i) darlegen, wie Faktenprüfer Beweise bewerten, Entscheidungen treffen und ihre Prozesse erklären; (ii) untersuchen, wie Faktenprüfer automatisierte Tools in der Praxis nutzen; und (iii) die Anforderungen von Faktenprüfern an Erklärungen für automatisierte Faktenprüfungstools identifizieren. Die Ergebnisse zeigen unerfüllte Erklärungsbedürfnisse auf und identifizieren wichtige Kriterien für reproduzierbare Faktenprüferklärungen, die den Denkweg des Modells nachverfolgen, spezifische Beweise referenzieren und Unsicherheiten sowie Informationslücken hervorheben.
Dieses Paper untersucht die mathematischen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) anhand von 50 neu konstruierten Wortproblemen auf Gymnasialniveau. Im Gegensatz zu früheren Studien, die sich ausschließlich auf die Richtigkeit der Antworten konzentrieren, analysieren wir sorgfältig sowohl die endgültigen Antworten als auch die Lösungsschritte, um Schlussfolgerungsfehler zu identifizieren. Bei der Bewertung von acht State-of-the-Art-Modellen - darunter Mixtral, Llama, Gemini, GPT-4o und OpenAI's o1-Varianten - stellen wir fest, dass neuere Modelle (z.B. o3-mini, deepseek-r1) zwar eine höhere Genauigkeit erreichen, aber alle Modelle Fehler in räumlichem Denken, strategischer Planung und Arithmetik aufweisen, manchmal korrekte Antworten durch fehlerhafte Logik produzieren. Häufige Fehlermodi umfassen unbegründete Annahmen, übermäßiges Vertrauen in numerische Muster und Schwierigkeiten bei der Umsetzung von physikalischem Verständnis in mathematische Schritte. Die manuelle Analyse zeigt, dass Modelle Probleme mit mehrstufigen Schlussfolgerungen oder Allgemeinwissen haben, obwohl sie über umfangreiche mathematische Kenntnisse verfügen. Unsere Ergebnisse unterstreichen die Bedeutung der Bewertung von Schlussfolgerungsprozessen, nicht nur von Antworten, und warnen davor, die Problemlösungsfähigkeiten von LLMs zu überschätzen. Die Studie verdeutlicht persistente Lücken in den Verallgemeinerungsfähigkeiten von LLMs und betont die Notwendigkeit gezielter Verbesserungen im strukturierten Denken und der Behandlung von Einschränkungen.
Dieses Paper stellt das kürzlich aufgekommene Paradigma in der Vorhersage atomarer Eigenschaften in Frage, das Fortschritte mit wachsenden Datensatzgrößen und Rechenressourcen verknüpft. Wir zeigen, dass ein Vortraining auf einem sorgfältig ausgewählten, aufgabenrelevanten Datensatz mit nur 1/24 der Rechenkosten mit großen Vortrainingsansätzen mithalten oder sie sogar übertreffen kann. Wir führen den Chemischen Ähnlichkeitsindex (CSI) ein, eine neue Metrik, inspiriert von der Fréchet-Inception-Distanz der Computer Vision, für Molekülgraphen, die die Übereinstimmung zwischen vorgelagerten Vortrainingsdatensätzen und nachgelagerten Aufgaben quantifiziert. Durch die Auswahl des relevantesten Datensatzes mit minimalem CSI-Abstand zeigen wir, dass Modelle, die auf einem kleineren, fokussierten Datensatz vortrainiert wurden, konsistent besser abschneiden als solche, die auf massiven, gemischten Datensätzen wie JMP vortrainiert wurden, selbst wenn diese größeren Datensätze den relevanten Datensatz enthalten. Gegenintuitiv finden wir auch heraus, dass eine unüberlegte Hinzufügung von mehr Daten die Leistung des Modells beeinträchtigen kann, wenn die zusätzlichen Daten nicht gut mit der vorliegenden Aufgabe übereinstimmen. Unsere Ergebnisse verdeutlichen, dass Qualität beim Vortraining für die Vorhersage atomarer Eigenschaften oft der Quantität überlegen ist.
Einflussfunktionen liefern entscheidende Einblicke in das Modelltraining, doch bestehende Methoden leiden unter hohen Rechenkosten und begrenzter Generalisierungsfähigkeit. Insbesondere haben aktuelle Arbeiten verschiedene Metriken und Algorithmen vorgeschlagen, um den Einfluss von Daten mithilfe von Sprachmodellen zu berechnen, die jedoch nicht gut mit großen Modellen und Datensätzen skalieren. Dies liegt an den teuren Vorwärts- und Rückwärtsdurchläufen, die für die Berechnung erforderlich sind, dem erheblichen Speicherbedarf zur Speicherung großer Modelle und der schlechten Generalisierung von Einflussschätzungen auf neue Daten. In diesem Artikel untersuchen wir die Verwendung kleiner neuronaler Netze – die wir als InfluenceNetwork bezeichnen – zur Schätzung von Einflusswerten, wodurch eine Kostenreduktion von bis zu 99 % erreicht wird. Unsere Auswertung zeigt, dass Einflusswerte mit Modellen geschätzt werden können, die nur 0,0027 % der Größe vollständiger Sprachmodelle betragen (wir verwenden Versionen mit 7B und 8B Parametern). Wir wenden unseren Algorithmus zur Schätzung von Einflusswerten (genannt NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) auf die nachgelagerte Aufgabe der Teilmengenauswahl für das allgemeine Instruktions-Fine-Tuning an. In unserer Studie beziehen wir vier state-of-the-art Einflussfunktionen ein und zeigen, dass es trotz erheblicher Geschwindigkeitssteigerungen keine Kompromisse in der Leistung zwischen NN-CIFT und den ursprünglichen Einflussfunktionen gibt. Wir bieten eine detaillierte Hyperparameteranalyse von NN-CIFT. Der Code für unsere Methode ist hier verfügbar: https://github.com/agarwalishika/NN-CIFT.
Trotz ihrer bemerkenswerten Fähigkeiten lernen LLMs Wortrepräsentationen, die das unerwünschte, aber schlecht verstandene Merkmal der Anisotropie aufweisen. In diesem Paper argumentieren wir, dass das zweite Moment in Adam eine Ursache für anisotrope Einbettungen ist, und schlagen einen modifizierten Optimierer namens Coupled Adam vor, um das Problem zu mildern. Unsere Experimente zeigen, dass Coupled Adam die Qualität der Einbettungen signifikant verbessert und auch zu einer besseren Leistung bei großen Datensätzen führt.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der natürlichen Sprachgenerierung erzielt, stehen jedoch oft vor Herausforderungen bei Aufgaben, die präzise Berechnungen und strukturelle Analysen erfordern. Diese Arbeit untersucht die Leistungsfähigkeit modernster LLMs bei Aufgaben zur Messung von Sprachkomplexität, durch die Berechnung des LIX-Lesbarkeitsmaßes und des durchschnittlichen Abhängigkeitsabstands (ADD). Unter Verwendung von schwedischen Aufsätzen aus der Oberstufe und Universitätsebene evaluieren wir die Fähigkeiten der Modelle, LIX-Werte zu berechnen und Abhängigkeitsparsings durchzuführen, indem wir ihre Ergebnisse mit etablierten Referenzwerten vergleichen. Unsere Ergebnisse zeigen, dass, obwohl alle Modelle eine gewisse Fähigkeit für diese Aufgaben zeigen, ChatGPT-o1-mini am konsistentesten abschneidet und die höchste Genauigkeit sowohl bei der LIX-Berechnung als auch beim Abhängigkeitsparsing erreicht. Darüber hinaus beobachten wir eine starke signifikante Korrelation von -0,875 p 0,026 (N=6) zwischen der Genauigkeit der Modelle bei der Berechnung von LIX und ihrer Gesamtleistung beim Massive Multitask Language Understanding (MMLU) Benchmark. Diese Ergebnisse legen nahe, dass die Fähigkeiten zur Messung von Sprachkomplexität als ungenaue Zero-Shot-Proxy für die Bewertung der allgemeinen Fähigkeiten von LLMs dienen können, was eine praktische Methode zur Modellbewertung ohne umfangreiche Benchmarking-Datensätze bietet.
Die Erkennung von Texten, die von Large Language Models (LLMs) generiert wurden, könnte schwerwiegende Fehler aufgrund falscher Entscheidungen verursachen, wie beispielsweise die Untergrabung der akademischen Würde von Studierenden. Die Erkennung von LLM-Texten muss daher die Interpretierbarkeit der Entscheidung sicherstellen, was den Nutzern dabei helfen kann, zu beurteilen, wie zuverlässig korrekt die Vorhersage ist. Wenn Menschen überprüfen, ob ein Text von einem Menschen verfasst oder von einem LLM generiert wurde, untersuchen sie intuitiv, mit welchem von beiden er mehr ähnliche Textabschnitte teilt. Bisherige interpretierbare Detektoren sind jedoch nicht mit dem menschlichen Entscheidungsprozess abgestimmt und bieten keine Beweise, die Nutzer leicht verstehen können. Um diese Lücke zu schließen, stellen wir ExaGPT vor, einen interpretierbaren Erkennungsansatz, der auf dem menschlichen Entscheidungsprozess basiert, um die Herkunft eines Textes zu überprüfen. ExaGPT identifiziert einen Text, indem es überprüft, ob er mehr ähnliche Textabschnitte mit von Menschen verfassten oder mit von LLM-generierten Texten aus einem Datenspeicher teilt. Dieser Ansatz kann ähnliche Textabschnitte als Beweis liefern, die zur Entscheidung für jeden Abschnitt im Text beitragen. Unsere menschliche Bewertung zeigt, dass die Bereitstellung ähnlicher Textabschnitte effektiver dazu beiträgt, die Korrektheit der Entscheidung zu beurteilen, als bestehende interpretierbare Methoden. Darüber hinaus zeigen umfangreiche Experimente in vier Domänen und mit drei Generatoren, dass ExaGPT bisherige leistungsstarke Detektoren um bis zu +40,9 Genauigkeitspunkte bei einer falsch-positiven Rate von 1% deutlich übertrifft.