Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Reinforcement Learning (RL) formuliert mathematisch Entscheidungsfindung mit dem Markov-Entscheidungsprozess (MDP). Mit MDPs haben Forscher bemerkenswerte Durchbrüche in verschiedenen Bereichen erzielt, darunter Spiele, Robotik und Sprachmodelle. Dieses Papier untersucht eine neue Möglichkeit, Natural Language Reinforcement Learning (NLRL), indem es den traditionellen MDP auf den Raum natürlichsprachlicher Darstellung erweitert. Speziell definiert NLRL RL-Prinzipien, einschließlich Aufgabenziele, Richtlinie, Wertefunktion, Bellman-Gleichung und Richtlinieniteration, innovativ in ihre sprachlichen Entsprechungen um. Mit den jüngsten Fortschritten bei großen Sprachmodellen (LLMs) kann NLRL praktisch implementiert werden, um RL-ähnliche Richtlinien- und Wertverbesserungen durch reines Auffordern oder gradientenbasiertes Training zu erzielen. Experimente über Labyrinth-, Durchbruch- und Tic-Tac-Toe-Spiele zeigen die Wirksamkeit, Effizienz und Interpretierbarkeit des NLRL-Rahmens in verschiedenen Anwendungsfällen. Unser Code wird unter https://github.com/waterhorse1/Natural-language-RL veröffentlicht.
Bestehende Open-Source-multimodale große Sprachmodelle (MLLMs) folgen im Allgemeinen einem Schulungsprozess, der Pre-Training und überwachtes Fine-Tuning umfasst. Diese Modelle leiden jedoch unter Verteilungsverschiebungen, die ihre multimodale Argumentation einschränken, insbesondere bei der Chain-of-Thought (CoT)-Leistung. Um dies zu lösen, führen wir einen Präferenzoptimierungs (PO)-Prozess ein, um die multimodalen Argumentationsfähigkeiten von MLLMs zu verbessern. Speziell (1) auf der Datenseite entwerfen wir eine automatisierte Präferenzdatenkonstruktionspipeline zur Erstellung von MMPR, einem qualitativ hochwertigen, groß angelegten multimodalen Argumentationspräferenzdatensatz, und (2) auf der Modellseite erforschen wir die Integration von PO mit MLLMs, indem wir eine einfache, aber effektive Methode entwickeln, genannt Mixed Preference Optimization (MPO), die die multimodale CoT-Leistung steigert. Unser Ansatz zeigt verbesserte Leistung in mehreren Benchmarks, insbesondere bei multimodalen Argumentationsaufgaben. Beachtenswert ist, dass unser Modell, InternVL2-8B-MPO, eine Genauigkeit von 67,0 bei MathVista erreicht, InternVL2-8B um 8,7 Punkte übertrifft und eine Leistung erzielt, die mit dem 10-mal größeren InternVL2-76B vergleichbar ist. Wir hoffen, dass diese Studie weitere Fortschritte bei MLLMs inspirieren könnte. Code, Daten und Modelle werden öffentlich freigegeben.
Aktuell hat OpenAI o1 ein starkes Interesse an der Erforschung großer Schlussfolgerungsmodelle (LRM) geweckt. Aufbauend auf diesem Schwung konzentriert sich Marco-o1 nicht nur auf Disziplinen mit standardisierten Antworten, wie Mathematik, Physik und Codierung - die gut für reinforcement learning (RL) geeignet sind - sondern legt auch einen größeren Schwerpunkt auf offene Lösungsansätze. Wir möchten der Frage nachgehen: "Kann das o1-Modell effektiv auf breitere Bereiche verallgemeinern, in denen klare Standards fehlen und Belohnungen schwer quantifizierbar sind?" Marco-o1 wird durch Chain-of-Thought (CoT)-Feinabstimmung, Monte Carlo Tree Search (MCTS), Reflexionsmechanismen und innovative Schlussfolgerungsstrategien angetrieben - optimiert für komplexe Problemlösungsaufgaben in der realen Welt.
Wir stellen eine neuartige Methode zur Vorabtrainierung von groß angelegten Bildcodierern vor. Aufbauend auf den jüngsten Fortschritten bei der autoregressiven Vorabtrainierung von Bildmodellen erweitern wir dieses Framework auf eine multimodale Umgebung, d.h. Bilder und Text. In diesem Artikel präsentieren wir AIMV2, eine Familie von generalistischen Bildcodierern, die sich durch einen unkomplizierten Vorabtrainierungsprozess, Skalierbarkeit und bemerkenswerte Leistung über eine Vielzahl von nachgelagerten Aufgaben auszeichnen. Dies wird durch die Kombination des Bildcodierers mit einem multimodalen Decoder erreicht, der autoregressiv Rohbild-Patches und Text-Token generiert. Unsere Codierer zeichnen sich nicht nur bei multimodalen Bewertungen aus, sondern auch bei Bildbenchmarks wie Lokalisierung, Verankerung und Klassifizierung. Bemerkenswerterweise erreicht unser AIMV2-3B-Codierer eine Genauigkeit von 89,5% auf ImageNet-1k mit einem eingefrorenen Stamm. Darüber hinaus übertrifft AIMV2 konsistent modernste kontrastive Modelle (z.B. CLIP, SigLIP) in der multimodalen Bildverarbeitung in vielfältigen Umgebungen.
Wir schlagen Hymba vor, eine Familie von kleinen Sprachmodellen mit einer Hybrid-Head-Parallelarchitektur, die Transformer-Aufmerksamkeitsmechanismen mit Zustandsraummodellen (SSMs) zur Verbesserung der Effizienz integriert. Aufmerksamkeitsköpfe bieten eine hochauflösende Rückrufmöglichkeit, während SSM-Köpfe eine effiziente Kontextzusammenfassung ermöglichen. Darüber hinaus führen wir erlernbare Metatoken ein, die den Anfragen vorangestellt werden, um wichtige Informationen zu speichern und die mit Aufmerksamkeitsmechanismen verbundene "gezwungen-zu-beachten"-Belastung zu lindern. Dieses Modell wird weiter optimiert, indem wir Kreuzschicht-Schlüssel-Wert-(KV)-Teilung und teilweises Schiebefenster-Aufmerksamkeit integrieren, was zu einer kompakten Zwischenspeichergröße führt. Während der Entwicklung führten wir eine kontrollierte Studie durch, in der wir verschiedene Architekturen unter identischen Bedingungen verglichen und signifikante Vorteile unserer vorgeschlagenen Architektur beobachteten. Beachtenswert ist, dass Hymba Spitzenleistungen für kleine Sprachmodelle erzielt: Unser Hymba-1.5B-Base-Modell übertrifft alle öffentlichen Modelle unter 2B in der Leistung und übertrifft sogar Llama-3.2-3B mit 1,32 % höherer durchschnittlicher Genauigkeit, einer 11,67-fachen Reduzierung der Zwischenspeichergröße und einer 3,49-fachen Durchsatzsteigerung.
Der wissenschaftliche Fortschritt hängt von der Fähigkeit der Forscher ab, die wachsende Literatur zu synthetisieren. Können große Sprachmodelle (LMs) Wissenschaftlern bei dieser Aufgabe helfen? Wir stellen OpenScholar vor, ein spezialisiertes abrufgestütztes LM, das wissenschaftliche Anfragen beantwortet, indem es relevante Passagen aus 45 Millionen frei zugänglichen Papieren identifiziert und zitierungsunterstützte Antworten synthetisiert. Zur Bewertung von OpenScholar entwickeln wir ScholarQABench, den ersten groß angelegten Multi-Domänen-Benchmark für Literatursuche, bestehend aus 2.967 von Experten verfassten Anfragen und 208 ausführlichen Antworten aus den Bereichen Informatik, Physik, Neurowissenschaften und Biomedizin. Auf ScholarQABench übertrifft OpenScholar-8B GPT-4o um 5% und PaperQA2 um 7% in der Korrektheit, obwohl es sich um ein kleineres, offenes Modell handelt. Während GPT-4o 78 bis 90% der Zeit Zitate erfindet, erreicht OpenScholar eine Zitiergenauigkeit auf Augenhöhe mit menschlichen Experten. OpenScholars Datenbank, Abrufer und Selbst-Feedback-Inferenzschleife verbessern auch Standard-LMs: beispielsweise verbessert OpenScholar-GPT4o die Korrektheit von GPT-4o um 12%. In menschlichen Bewertungen bevorzugten Experten die Antworten von OpenScholar-8B und OpenScholar-GPT4o gegenüber von Experten verfassten Antworten 51% bzw. 70% der Zeit im Vergleich zu GPT4o mit 32%. Wir stellen unseren gesamten Code, Modelle, Datenbank, Daten und eine öffentliche Demo als Open Source zur Verfügung.
Große Sprachmodelle (LLMs) zeigen verbesserte Fähigkeiten und Zuverlässigkeit, indem sie mehr überlegen, von Chain-of-Thought-Prompting zu Produktlösungen wie OpenAI o1 weiterentwickeln. Trotz verschiedener Bemühungen zur Verbesserung des Denkvermögens von LLMs bleiben hochwertige Daten für langkettiges Denken und optimierte Trainingspipelines in Vision-Sprach-Aufgaben noch unzureichend erforscht. In diesem Artikel präsentieren wir Insight-V, einen frühen Versuch, 1) skalierbar lange und robuste Daten für komplexe multimodale Aufgaben zu erzeugen und 2) eine effektive Trainingspipeline, um die Denkfähigkeiten von multimodalen großen Sprachmodellen (MLLMs) zu verbessern. Speziell zur Erstellung von langen und strukturierten Denkdaten ohne menschliche Arbeit entwerfen wir eine zweistufige Pipeline mit einer progressiven Strategie zur Generierung von ausreichend langen und vielfältigen Denkpfaden und einer Methode zur Bewertung auf mehreren Granularitätsebenen, um die Datenqualität sicherzustellen. Wir beobachten, dass das direkte Überwachen von MLLMs mit solchen langen und komplexen Denkdaten keine ideale Denkfähigkeit hervorbringen wird. Um dieses Problem anzugehen, entwerfen wir ein Multi-Agenten-System, bestehend aus einem Denk-Agenten, der sich auf langkettiges Denken spezialisiert, und einem Zusammenfassungs-Agenten, der darauf trainiert ist, Denkergebnisse zu bewerten und zusammenzufassen. Wir integrieren außerdem einen iterativen DPO-Algorithmus, um die Generationsstabilität und -qualität des Denk-Agenten zu verbessern. Basierend auf dem beliebten LLaVA-NeXT-Modell und unserem stärkeren Basis-MLLM zeigen wir signifikante Leistungssteigerungen bei anspruchsvollen multimodalen Benchmarks, die visuelles Denken erfordern. Durch unser Multi-Agenten-System kann Insight-V auch leicht die Leistung bei auf Wahrnehmung fokussierten multimodalen Aufgaben beibehalten oder verbessern.
Es ist allgemein anerkannt, dass die Leistung von Transformer-Modellen exponentiell mit ihrer Anzahl an Parametern und ihrer Rechenkomplexität zusammenhängt. Während Ansätze wie die Mixture of Experts (MoE) die Parameteranzahl von der Rechenkomplexität entkoppeln, stehen sie dennoch vor Herausforderungen bei der Inferenz aufgrund hoher Speicherzugriffskosten. Diese Arbeit stellt UltraMem vor, das eine groß angelegte, ultra-sparse Speicherschicht integriert, um diese Einschränkungen zu bewältigen. Unser Ansatz reduziert die Inferenzlatenz signifikant, während die Modellleistung beibehalten wird. Wir untersuchen auch die Skalierungsgesetze dieser neuen Architektur und zeigen, dass sie nicht nur günstige Skalierungseigenschaften aufweist, sondern auch herkömmliche Modelle übertrifft. In unseren Experimenten trainieren wir Netzwerke mit bis zu 20 Millionen Speicherplätzen. Die Ergebnisse zeigen, dass unsere Methode innerhalb eines festgelegten Rechenbudgets eine Inferenzgeschwindigkeit und Modellleistung auf dem neuesten Stand der Technik erreicht.
Diffusionsmodelle haben das Gebiet der Inhalts-Synthese und -Bearbeitung revolutioniert. Aktuelle Modelle haben die traditionelle UNet-Architektur durch den Diffusions-Transformer (DiT) ersetzt und die Flussanpassung für verbessertes Training und Sampling eingesetzt. Allerdings weisen sie eine begrenzte Generierungsvielfalt auf. In dieser Arbeit nutzen wir diese Einschränkung, um konsistente Bildbearbeitungen durch selektive Injektion von Aufmerksamkeitsmerkmalen durchzuführen. Die Hauptherausforderung besteht darin, dass DiT im Gegensatz zu den UNet-basierten Modellen über keine grob-zu-fein-Synthesestruktur verfügt, wodurch unklar ist, in welchen Schichten die Injektion durchgeführt werden soll. Daher schlagen wir eine automatische Methode vor, um "wichtige Schichten" innerhalb von DiT zu identifizieren, die für die Bildentstehung entscheidend sind, und zeigen auf, wie diese Schichten eine Reihe von kontrollierten stabilen Bearbeitungen ermöglichen, von nicht-starren Modifikationen bis hin zur Objektzusatznutzung, unter Verwendung des gleichen Mechanismus. Als nächstes führen wir eine verbesserte Bildumkehrmethode für Flussmodelle ein, um eine Bearbeitung von echten Bildern zu ermöglichen. Abschließend bewerten wir unseren Ansatz anhand qualitativer und quantitativer Vergleiche sowie einer Benutzerstudie und zeigen dessen Wirksamkeit in verschiedenen Anwendungen auf. Die Projektseite ist unter https://omriavrahami.com/stable-flow verfügbar.
In diesem Paper stellen wir DINO-X vor, ein vereinheitlichtes objektorientiertes Visionmodell, das von IDEA Research entwickelt wurde und die bisher beste Leistung bei der Objekterkennung in offenen Umgebungen aufweist. DINO-X verwendet die gleiche auf Transformer basierende Encoder-Decoder-Architektur wie Grounding DINO 1.5, um eine objektebene Repräsentation für das Verständnis von Objekten in offenen Umgebungen zu verfolgen. Um die Erkennung von langschwänzigen Objekten zu erleichtern, erweitert DINO-X seine Eingabeoptionen, um Textprompt, visuellen Prompt und benutzerdefinierten Prompt zu unterstützen. Mit solch flexiblen Promptoptionen entwickeln wir einen universellen Objektprompt, um eine promptfreie Erkennung von Objekten in offenen Umgebungen zu unterstützen, was es ermöglicht, alles in einem Bild zu erkennen, ohne dass Benutzer einen Prompt angeben müssen. Um die Kernverankerungsfähigkeit des Modells zu verbessern, haben wir einen groß angelegten Datensatz mit über 100 Millionen hochwertigen Verankerungsbeispielen erstellt, der als Grounding-100M bezeichnet wird, um die Leistung des Modells bei der Erkennung von Objekten mit offenem Vokabular voranzutreiben. Das Vortrainieren auf einem solch groß angelegten Verankerungsdatensatz führt zu einer grundlegenden objektebenen Repräsentation, die es DINO-X ermöglicht, mehrere Wahrnehmungsköpfe zu integrieren, um gleichzeitig mehrere Aufgaben der Objektwahrnehmung und -verständnis zu unterstützen, einschließlich Erkennung, Segmentierung, Pose-Schätzung, Objektbeschriftung, objektbasierter QA usw. Experimentelle Ergebnisse zeigen die überragende Leistung von DINO-X. Insbesondere erreicht das DINO-X Pro-Modell 56,0 AP, 59,8 AP und 52,4 AP auf den COCO, LVIS-minival und LVIS-val Zero-Shot-Objekterkennungs-Benchmarks. Bemerkenswert sind die Ergebnisse von 63,3 AP und 56,5 AP bei den seltenen Klassen der LVIS-minival und LVIS-val Benchmarks, wobei beide die vorherige SOTA-Leistung um 5,8 AP verbessern. Ein solches Ergebnis unterstreicht seine signifikant verbesserte Fähigkeit zur Erkennung von langschwänzigen Objekten.
Halluzinationen in großen Sprachmodellen sind ein weit verbreitetes Problem, jedoch sind die Mechanismen, die bestimmen, ob Modelle halluzinieren werden, schlecht verstanden, was unsere Fähigkeit, dieses Problem zu lösen, einschränkt. Durch die Verwendung von dünn besetzten Autoencodern als Interpretationswerkzeug entdecken wir, dass ein Schlüsselaspekt dieser Mechanismen die Erkennung von Entitäten ist, bei der das Modell feststellt, ob es sich um eine Entität handelt, zu der es Fakten abrufen kann. Dünne besetzte Autoencoder decken bedeutungsvolle Richtungen im Repräsentationsraum auf, die erkennen, ob das Modell eine Entität erkennt, z. B. indem es feststellt, dass es nichts über einen Sportler oder einen Film weiß. Dies legt nahe, dass Modelle Selbstwissen haben können: interne Repräsentationen über ihre eigenen Fähigkeiten. Diese Richtungen sind kausal relevant: Sie sind in der Lage, das Modell dazu zu bringen, Fragen zu bekannten Entitäten abzulehnen oder Attribute von unbekannten Entitäten zu halluzinieren, wenn es dies sonst ablehnen würde. Wir zeigen, dass trotz der Schulung der dünn besetzten Autoencoder auf dem Basismodell diese Richtungen eine kausale Wirkung auf das Ablehnungsverhalten des Chat-Modells haben, was darauf hindeutet, dass das Feintuning des Chats diesen bestehenden Mechanismus umfunktioniert hat. Darüber hinaus bieten wir eine erste Erkundung der mechanistischen Rolle dieser Richtungen im Modell an und stellen fest, dass sie die Aufmerksamkeit der nachgelagerten Köpfe stören, die normalerweise Entitätsattribute zum endgültigen Token verschieben.
Der rasante Fortschritt von Diffusionsmodellen hat die Videosynthese erheblich verbessert, insbesondere bei der steuerbaren Videogenerierung, die für Anwendungen wie autonomes Fahren unerlässlich ist. Allerdings sind bestehende Methoden durch Skalierbarkeit und die Integration von Steuerbedingungen begrenzt, was es ihnen nicht ermöglicht, die Anforderungen an hochauflösende und lange Videos für Anwendungen im autonomen Fahren zu erfüllen. In diesem Artikel stellen wir MagicDriveDiT vor, einen neuartigen Ansatz auf Basis der DiT-Architektur, um diese Herausforderungen anzugehen. Unsere Methode verbessert die Skalierbarkeit durch Flussabstimmung und verwendet eine fortschreitende Schulungsstrategie, um komplexe Szenarien zu bewältigen. Durch die Integration von räumlich-zeitlicher bedingter Codierung erzielt MagicDriveDiT eine präzise Steuerung über räumlich-zeitliche Latente. Umfangreiche Experimente zeigen seine überlegene Leistung bei der Erzeugung realistischer Straßenszenenvideos mit höherer Auflösung und mehr Frames. MagicDriveDiT verbessert signifikant die Qualität der Videogenerierung und die räumlich-zeitliche Steuerung und erweitert damit sein Anwendungspotenzial für verschiedene Aufgaben im autonomen Fahren.
Bestehende feed-forward Bild-zu-3D Methoden stützen sich hauptsächlich auf 2D Multi-View Diffusionsmodelle, die keine 3D Konsistenz garantieren können. Diese Methoden brechen leicht zusammen, wenn sich die Blickrichtung ändert, und behandeln hauptsächlich objektorientierte Eingabebilder. In diesem Papier schlagen wir ein neuartiges einstufiges 3D Diffusionsmodell, DiffusionGS, für die Generierung von Objekten und Szenen aus einer einzigen Ansicht vor. DiffusionGS gibt direkt 3D Gauss'sche Punktewolken bei jedem Zeitschritt aus, um die Ansichtskonsistenz durchzusetzen und dem Modell zu ermöglichen, robuste Ergebnisse bei Eingaben aus beliebigen Richtungen zu generieren, über objektorientierte Eingaben hinaus. Darüber hinaus verbessern wir die Fähigkeiten und Generalisierungsfähigkeiten von DiffusionGS, indem wir die 3D-Trainingsdaten durch die Entwicklung einer Szenen-Objekt-Mischtrainingsstrategie skalieren. Experimente zeigen, dass unsere Methode eine bessere Generierungsqualität aufweist (2,20 dB höher im PSNR und 23,25 niedriger im FID) und über 5x schneller ist (~6s auf einer A100 GPU) als die derzeit besten Methoden. Die Benutzerstudie und Text-zu-3D-Anwendungen zeigen auch den praktischen Nutzen unserer Methode. Unsere Projektseite unter https://caiyuanhao1998.github.io/project/DiffusionGS/ zeigt das Video und die interaktiven Generierungsergebnisse.
Große Sprachmodelle (LLMs) erzielen auf Sprachen mit geringen Ressourcen aufgrund begrenzter Trainingsdaten schlechte Leistungen. Wir stellen eine Methode vor, um Textdaten für Sprachen mit geringen Ressourcen effizient aus dem gesamten Common Crawl-Korpus zu sammeln. Unser Ansatz, UnifiedCrawl, filtert und extrahiert Common Crawl unter Verwendung minimaler Rechenressourcen, wodurch monolinguale Datensätze entstehen, die wesentlich größer sind als zuvor verfügbare Quellen. Wir zeigen, dass die Nutzung dieser Daten zur Feinabstimmung mehrsprachiger LLMs mithilfe effizienter Adaptermethoden (QLoRA) die Leistung auf der Sprache mit geringen Ressourcen signifikant steigert, während der VRAM-Verbrauch minimiert wird. Unsere Experimente zeigen deutliche Verbesserungen in der Sprachmodell-Perplexität und eine Zunahme der Few-Shot-Prompting-Werte. Unsere Arbeit und der veröffentlichte Quellcode bieten einen kostengünstigen Ansatz zur Verbesserung von LLMs für Sprachen mit geringen Ressourcen unter Verwendung handelsüblicher Hardware. Unser Quellcode ist hier verfügbar: https://github.com/bethelmelesse/unifiedcrawl.
In jüngster Zeit haben Fortschritte auf dem Gebiet großer Sprachmodelle, insbesondere durch den Ansatz der Gedankenkette (CoT), signifikante Verbesserungen bei der Lösung komplexer Probleme gezeigt. Allerdings neigen bestehende Modelle entweder dazu, detaillierte Argumentation zugunsten der Kürze aufzugeben, aufgrund von Benutzerpräferenzen, oder sie erfordern umfangreiche und teure Trainingsdaten, um eine komplexe Argumentationsfähigkeit zu erlernen, was ihr Potenzial bei der Lösung komplexer Aufgaben einschränkt. Um diese Lücke zu überbrücken, schlagen wir im Sinne des Skalierens zur Testzeit eine einfache Methode vor, indem wir Modelle ermutigen, einen geduldigeren Argumentationsstil anzunehmen, ohne neue Kenntnisse oder Fähigkeiten einzuführen. Durch die Anwendung eines Präferenzoptimierungsansatzes generieren wir detaillierte Argumentationsprozesse als positive Beispiele und einfache Antworten als negative Beispiele, wodurch das Modell darauf trainiert wird, Gründlichkeit in seinen Antworten zu bevorzugen. Unsere Ergebnisse zeigen eine Leistungssteigerung von bis zu 6,7% bei GSM8k, wobei das Training nur auf einem leichtgewichtigen Datensatz erfolgte.