Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Entstehung großer Sprachmodelle (LLMs) hat einen transformativen Wandel in der künstlichen Intelligenz katalysiert und den Weg für fortgeschrittene intelligente Agenten geebnet, die zu anspruchsvollem Denken, robustem Wahrnehmungsvermögen und vielseitigem Handeln in verschiedenen Domänen fähig sind. Da diese Agenten zunehmend die KI-Forschung und praktische Anwendungen vorantreiben, stellen ihre Gestaltung, Bewertung und kontinuierliche Verbesserung komplexe, vielschichtige Herausforderungen dar. Diese Übersichtsarbeit bietet einen umfassenden Überblick und verortet intelligente Agenten in einer modularen, hirninspirierten Architektur, die Prinzipien aus der Kognitionswissenschaft, Neurowissenschaft und Computerforschung integriert. Wir strukturieren unsere Untersuchung in vier miteinander verbundene Teile. Zunächst tauchen wir in die modulare Grundlage intelligenter Agenten ein, indem wir ihre kognitiven, wahrnehmungsbezogenen und operativen Module systematisch auf analoge menschliche Gehirnfunktionen abbilden und Kernkomponenten wie Gedächtnis, Weltmodellierung, Belohnungsverarbeitung und emotionsähnliche Systeme erläutern. Zweitens diskutieren wir Selbstverbesserungs- und adaptive Evolutionsmechanismen, indem wir untersuchen, wie Agenten ihre Fähigkeiten autonom verfeinern, sich an dynamische Umgebungen anpassen und kontinuierliches Lernen durch automatisierte Optimierungsparadigmen erreichen, einschließlich aufkommender AutoML- und LLM-gestützter Optimierungsstrategien. Drittens betrachten wir kollaborative und evolutionäre Multi-Agenten-Systeme, indem wir die kollektive Intelligenz erforschen, die aus den Interaktionen, der Zusammenarbeit und den gesellschaftlichen Strukturen von Agenten hervorgeht, und Parallelen zu menschlichen Sozialdynamiken aufzeigen. Schließlich gehen wir auf die kritische Notwendigkeit ein, sichere, geschützte und nützliche KI-Systeme zu entwickeln, wobei wir intrinsische und extrinsische Sicherheitsbedrohungen, ethische Ausrichtung, Robustheit und praktische Strategien zur Risikominderung betonen, die für den vertrauenswürdigen Einsatz in der realen Welt erforderlich sind.
Das Training großer Sprachmodelle (LLMs) birgt zahlreiche Herausforderungen, darunter Gradienteninstabilität und Verlustspitzen. Diese Phänomene können zu katastrophaler Divergenz führen, was kostspielige Wiederherstellungen von Checkpoints und das Überspringen von Datenbatches erforderlich macht. Traditionelle Gradienten-Clipping-Techniken, wie konstante oder normbasierte Methoden, können diese Probleme aufgrund ihrer Abhängigkeit von festen Schwellenwerten oder Heuristiken nicht effektiv lösen, was zu ineffizientem Lernen und häufigen manuellen Eingriffen führt. In dieser Arbeit schlagen wir ZClip vor, einen adaptiven Gradienten-Clipping-Algorithmus, der den Clipping-Schwellenwert dynamisch anhand statistischer Eigenschaften der Gradientennormen über die Zeit anpasst. Im Gegensatz zu früheren reaktiven Strategien passt sich ZClip proaktiv an die Trainingsdynamik an, ohne vorherige Annahmen über die Skalierung und die zeitliche Entwicklung der Gradientennormen zu treffen. Im Kern nutzt es z-Score-basierte Anomalieerkennung, um große Gradientenspitzen zu identifizieren und zu mildern, wodurch schädliche Verlustspitzen verhindert werden, ohne die Konvergenz anderweitig zu beeinträchtigen. Unser Code ist verfügbar unter: https://github.com/bluorion-com/ZClip.
Große Multimodalitätsmodelle (LMMs) haben bedeutende Fortschritte im Bereich des visuellen Verstehens und der Generierung erzielt, stehen jedoch weiterhin vor Herausforderungen beim Allgemeinen Visuellen Bearbeiten, insbesondere bei der Befolgung komplexer Anweisungen, der Wahrung der Erscheinungskonsistenz und der Unterstützung flexibler Eingabeformate. Um diese Lücke zu schließen, führen wir RISEBench ein, den ersten Benchmark zur Bewertung von Reasoning-Informed Visual Editing (RISE). RISEBench konzentriert sich auf vier Schlüsseltypen des logischen Denkens: Temporales, Kausales, Räumliches und Logisches Reasoning. Wir haben hochwertige Testfälle für jede Kategorie kuratiert und ein Bewertungsframework vorgeschlagen, das die Anweisungslogik, die Erscheinungskonsistenz und die visuelle Plausibilität sowohl mit menschlichen Gutachtern als auch mit einem LMM-als-Gutachter-Ansatz bewertet. Unsere Experimente zeigen, dass GPT-4o-Native zwar andere Open-Source- und proprietäre Modelle deutlich übertrifft, selbst dieses Spitzensystem jedoch mit logischen Denkaufgaben zu kämpfen hat, was einen Bereich aufzeigt, der noch unzureichend erforscht ist. Als erste Initiative zielt RISEBench darauf ab, grundlegende Einblicke in das reasoning-bewusste visuelle Bearbeiten zu bieten und zukünftige Forschung anzuregen. Obwohl sich das Projekt noch in einem frühen Stadium befindet, sind wir bestrebt, den Benchmark kontinuierlich zu erweitern und zu verfeinern, um umfassendere, zuverlässigere und skalierbarere Bewertungen der nächsten Generation multimodaler Systeme zu unterstützen. Unser Code und unsere Daten werden unter https://github.com/PhoenixZ810/RISEBench veröffentlicht.
Die jüngsten Durchbrüche in OpenAIs GPT4o-Modell haben überraschend gute Fähigkeiten in der Bildgenerierung und -bearbeitung demonstriert, was zu erheblicher Begeisterung in der Community geführt hat. Dieser technische Bericht präsentiert den ersten Evaluierungs-Benchmark (genannt GPT-ImgEval), der die Leistung von GPT-4o in drei kritischen Dimensionen quantitativ und qualitativ untersucht: (1) Generierungsqualität, (2) Bearbeitungsfähigkeit und (3) semantische Synthese auf Basis von Weltwissen. In allen drei Aufgaben zeigt GPT-4o eine starke Leistung und übertrifft bestehende Methoden sowohl in der Kontrolle der Bildgenerierung als auch in der Ausgabequalität deutlich, während es gleichzeitig außergewöhnliche Fähigkeiten im Wissensschluss demonstriert. Darüber hinaus schlagen wir basierend auf den von GPT-4o generierten Daten einen klassifikationsmodellbasierten Ansatz vor, um die zugrunde liegende Architektur von GPT-4o zu untersuchen, wobei unsere empirischen Ergebnisse darauf hindeuten, dass das Modell aus einem autoregressiven (AR) Teil in Kombination mit einem diffusionsbasierten Kopf für die Bilddekodierung besteht, anstatt aus VAR-ähnlichen Architekturen. Wir liefern auch eine vollständige Spekulation über die Gesamtarchitektur von GPT-4o. Zusätzlich führen wir eine Reihe von Analysen durch, um spezifische Grenzen von GPT-4o und die häufig beobachteten synthetischen Artefakte in seiner Bildgenerierung zu identifizieren und zu visualisieren. Wir präsentieren auch eine vergleichende Studie zur mehrfachen Bildbearbeitung zwischen GPT-4o und Gemini 2.0 Flash und diskutieren die Sicherheitsimplikationen der Ausgaben von GPT-4o, insbesondere ihre Erkennbarkeit durch bestehende Bildforensikmodelle. Wir hoffen, dass unsere Arbeit wertvolle Einblicke bieten und einen zuverlässigen Benchmark liefern kann, um zukünftige Forschung zu leiten, Reproduzierbarkeit zu fördern und Innovationen im Bereich der Bildgenerierung und darüber hinaus zu beschleunigen. Die Codes und Datensätze, die zur Bewertung von GPT-4o verwendet wurden, sind unter https://github.com/PicoTrex/GPT-ImgEval zu finden.
Dieses Paper stellt JavisDiT vor, einen neuartigen Joint Audio-Video Diffusion Transformer, der für die synchronisierte Audio-Video-Generierung (JAVG) entwickelt wurde. Basierend auf der leistungsstarken Diffusion Transformer (DiT)-Architektur ist JavisDiT in der Lage, hochwertige Audio- und Videoinhalte gleichzeitig aus offenen Benutzeranfragen zu generieren. Um eine optimale Synchronisation zu gewährleisten, führen wir einen feinkörnigen raumzeitlichen Ausrichtungsmechanismus durch einen Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator ein. Dieses Modul extrahiert sowohl globale als auch feinkörnige raumzeitliche Prioritäten, die die Synchronisation zwischen den visuellen und auditiven Komponenten steuern. Darüber hinaus schlagen wir einen neuen Benchmark, JavisBench, vor, der aus 10.140 hochwertigen, textbeschrifteten Videos mit Ton besteht, die vielfältige Szenen und komplexe reale Szenarien abdecken. Zusätzlich entwickeln wir speziell eine robuste Metrik zur Bewertung der Synchronisation zwischen generierten Audio-Video-Paaren in komplexen realen Inhalten. Experimentelle Ergebnisse zeigen, dass JavisDiT bestehende Methoden deutlich übertrifft, indem es sowohl eine hochwertige Generierung als auch eine präzise Synchronisation sicherstellt und damit einen neuen Standard für JAVG-Aufgaben setzt. Unser Code, Modell und Datensatz werden unter https://javisdit.github.io/ öffentlich zugänglich gemacht.
Reinforcement Learning (RL) wurde in großem Umfang für das Post-Training von großen Sprachmodellen (LLMs) eingesetzt. Kürzlich hat die Förderung von Denkfähigkeiten in LLMs durch RL gezeigt, dass geeignete Lernmethoden eine effektive Skalierbarkeit zur Inferenzzeit ermöglichen können. Eine zentrale Herausforderung von RL besteht darin, präzise Belohnungssignale für LLMs in verschiedenen Domänen jenseits überprüfbarer Fragen oder künstlicher Regeln zu erhalten. In dieser Arbeit untersuchen wir, wie die Belohnungsmodellierung (RM) mit mehr Inferenzrechenleistung für allgemeine Anfragen verbessert werden kann, d.h. die Skalierbarkeit zur Inferenzzeit von generalistischen RM, und darüber hinaus, wie die Effektivität der Leistungs-Rechenleistungs-Skalierung durch geeignete Lernmethoden gesteigert werden kann. Für den RM-Ansatz verwenden wir punktweise generative Belohnungsmodellierung (GRM), um Flexibilität für verschiedene Eingabetypen und Potenzial für die Skalierung zur Inferenzzeit zu ermöglichen. Für die Lernmethode schlagen wir Self-Principled Critique Tuning (SPCT) vor, um skalierbare Belohnungsgenerierungsverhalten in GRMs durch Online-RL zu fördern, um Prinzipien adaptiv und Kritiken präzise zu generieren, was zu DeepSeek-GRM-Modellen führt. Darüber hinaus verwenden wir für eine effektive Skalierung zur Inferenzzeit paralleles Sampling, um die Rechenleistungsnutzung zu erweitern, und führen ein Meta-RM ein, um den Abstimmungsprozess für eine bessere Skalierungsleistung zu leiten. Empirisch zeigen wir, dass SPCT die Qualität und Skalierbarkeit von GRMs signifikant verbessert, bestehende Methoden und Modelle in verschiedenen RM-Benchmarks ohne schwerwiegende Verzerrungen übertrifft und im Vergleich zur Skalierung zur Trainingszeit eine bessere Leistung erzielen kann. DeepSeek-GRM steht in einigen Aufgaben noch vor Herausforderungen, die wir glauben, durch zukünftige Bemühungen in generalistischen Belohnungssystemen bewältigt werden können. Die Modelle werden veröffentlicht und quelloffen gemacht.
Die Synthese von sprechenden Köpfen ist entscheidend für virtuelle Avatare und die Mensch-Computer-Interaktion. Die meisten bestehenden Methoden sind jedoch typischerweise darauf beschränkt, Steuerung durch eine einzige primäre Modalität zu akzeptieren, was ihre praktische Nutzbarkeit einschränkt. Aus diesem Grund stellen wir ACTalker vor, ein end-to-end Video-Diffusionsframework, das sowohl die Steuerung durch mehrere Signale als auch durch ein einzelnes Signal für die Generierung von Videos sprechender Köpfe unterstützt. Für die Mehrfachsteuerung entwerfen wir eine parallele Mamba-Struktur mit mehreren Zweigen, wobei jeder Zweig ein separates Steuersignal nutzt, um spezifische Gesichtsregionen zu kontrollieren. Ein Gate-Mechanismus wird über alle Zweige hinweg angewendet, um eine flexible Steuerung der Videogenerierung zu ermöglichen. Um eine natürliche Koordination des gesteuerten Videos sowohl zeitlich als auch räumlich zu gewährleisten, verwenden wir die Mamba-Struktur, die es den Steuersignalen ermöglicht, Feature-Tokens in beiden Dimensionen in jedem Zweig zu manipulieren. Zusätzlich führen wir eine Mask-Drop-Strategie ein, die es jedem Steuersignal ermöglicht, seine entsprechende Gesichtsregion innerhalb der Mamba-Struktur unabhängig zu kontrollieren und so Steuerungskonflikte zu vermeiden. Experimentelle Ergebnisse zeigen, dass unsere Methode natürlich aussehende Gesichtsvideos erzeugt, die durch verschiedene Signale gesteuert werden, und dass die Mamba-Schicht mehrere Steuermodalitäten nahtlos und konfliktfrei integriert.
Dieses Papier stellt SkyReels-A2 vor, ein kontrollierbares Videogenerierungsframework, das in der Lage ist, beliebige visuelle Elemente (z. B. Charaktere, Objekte, Hintergründe) in synthetisierte Videos zu integrieren, basierend auf textuellen Eingabeaufforderungen, während gleichzeitig eine strikte Konsistenz mit Referenzbildern für jedes Element gewährleistet wird. Wir bezeichnen diese Aufgabe als Elements-to-Video (E2V), deren Hauptherausforderungen in der Bewahrung der Treue jedes Referenzelements, der Sicherstellung einer kohärenten Komposition der Szene und der Erzielung natürlicher Ausgaben liegen. Um diese zu bewältigen, entwerfen wir zunächst eine umfassende Datenpipeline zur Konstruktion von Prompt-Referenz-Video-Tripeln für das Modelltraining. Anschließend schlagen wir ein neuartiges Bild-Text-Joint-Embedding-Modell vor, um Mehrfachelementdarstellungen in den Generierungsprozess einzubetten, wobei elementspezifische Konsistenz mit globaler Kohärenz und Textausrichtung ausbalanciert wird. Wir optimieren auch die Inferenzpipeline sowohl für Geschwindigkeit als auch für Ausgabestabilität. Darüber hinaus führen wir einen sorgfältig kuratierten Benchmark für die systematische Bewertung ein, d. h. A2 Bench. Experimente zeigen, dass unser Framework diverse, hochwertige Videos mit präziser Elementkontrolle generieren kann. SkyReels-A2 ist das erste Open-Source-Modell auf kommerziellem Niveau für die Generierung von E2V und schneidet im Vergleich zu fortschrittlichen Closed-Source-Kommerzmodellen günstig ab. Wir erwarten, dass SkyReels-A2 kreative Anwendungen wie Drama und virtuellen E-Commerce vorantreiben und die Grenzen der kontrollierbaren Videogenerierung erweitern wird.
Wir stellen die anspruchsvolle Aufgabe vor, automatisch einen hochwertigen Wikipedia-Artikel zu erstellen, der Informationen aus mehreren diversen Videos über reale Ereignisse wie Naturkatastrophen oder politische Wahlen zusammenfasst. Videos sind intuitive Quellen für retrieval-augmentierte Generierung (RAG), doch die meisten zeitgenössischen RAG-Workflows konzentrieren sich stark auf Text, und bestehende Methoden für videobasierte Zusammenfassungen beschäftigen sich eher mit dem Verständnis von Szenen auf niedriger Ebene als mit der Semantik von Ereignissen auf höherer Ebene. Um diese Lücke zu schließen, führen wir WikiVideo ein, einen Benchmark, der von Experten verfasste Artikel und dicht annotierte Videos umfasst, die Belege für die Behauptungen in den Artikeln liefern. Dies erleichtert die Integration von Videos in RAG-Pipelines und ermöglicht die Erstellung von tiefgehendem Inhalt, der auf multimodalen Quellen basiert. Darüber hinaus schlagen wir Collaborative Article Generation (CAG) vor, eine neuartige interaktive Methode zur Artikelerstellung aus mehreren Videos. CAG nutzt eine iterative Interaktion zwischen einem r1-artigen Reasoning-Modell und einem VideoLLM, um höhere Schlussfolgerungen über das Zielereignis zu ziehen, als dies mit VideoLLMs allein möglich ist, die sich auf visuelle Merkmale auf niedriger Ebene konzentrieren. Wir benchmarken state-of-the-art VideoLLMs und CAG sowohl in Oracle-Retrieval- als auch in RAG-Szenarien und stellen fest, dass CAG durchweg besser abschneidet als alternative Methoden, während es interessante Ansätze für zukünftige Arbeiten aufzeigt.
Reinforcement Learning (RL) hat kürzlich ein großes Potenzial bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle gezeigt und wird nun aktiv auf Vision-Language-Modelle (VLMs) ausgeweitet. Allerdings basieren bestehende RL-Anwendungen in VLMs oft auf stark angepassten Frameworks, die die Reproduzierbarkeit und Zugänglichkeit behindern, während standardisierte Evaluierungsprotokolle fehlen, was den Vergleich von Ergebnissen oder die Interpretation von Trainingsdynamiken erschwert. Diese Arbeit stellt ein transparentes, von Grund auf entwickeltes Framework für RL in VLMs vor, das einen minimalen, aber funktionalen Vier-Schritte-Pipeline bietet, der über mehrere Modelle und Datensätze validiert wurde. Zusätzlich wird ein standardisiertes Bewertungsschema vorgeschlagen, um Trainingsdynamiken und reflektives Verhalten zu bewerten. Umfangreiche Experimente zu visuellen Denkaufgaben decken wichtige empirische Erkenntnisse auf: Die Antwortlänge ist empfindlich gegenüber Zufallsinitialisierungen, Reflexion korreliert mit der Ausgabelänge, und RL übertrifft durchgängig das Supervised Fine-Tuning (SFT) in der Generalisierung, selbst bei hochwertigen Daten. Diese Erkenntnisse, zusammen mit dem vorgeschlagenen Framework, zielen darauf ab, eine reproduzierbare Basis zu schaffen und eine breitere Beteiligung an der RL-basierten VLM-Forschung zu unterstützen.
Bestehende Skalierungsanalysen von Sprachmodellen (Speech Language Models, SLMs) zeichnen ein düsteres Bild. Sie prognostizieren, dass SLMs im Vergleich zu Textmodellen deutlich mehr Rechenleistung und Daten benötigen, was einige dazu veranlasst, die Machbarkeit des Trainings hochwertiger SLMs in Frage zu stellen. Moderne SLMs werden jedoch häufig von vortrainierten Textmodellen (TextLMs) initialisiert, wobei eine Verschachtelung von Sprache und Text verwendet wird, um Wissenstransfer zu ermöglichen. Dies wirft die Frage auf: Skalieren verschachtelte SLMs effizienter als textlose SLMs? In diesem Papier beantworten wir diese Frage mit einem klaren Ja! Wir führen eine Skalierungsanalyse von verschachtelten SLMs durch, indem wir mehrere Dutzend Modelle trainieren und die Skalierungstrends analysieren. Wir beobachten, dass SLMs in diesem Setup effizienter mit der Rechenleistung skalieren. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass die Skalierungsdynamiken deutlich anders sind als bei textlosen SLMs, was darauf hindeutet, dass ein erheblich größerer Teil des Rechenbudgets für die Vergrößerung der Modellgröße anstelle der Trainings-Tokens verwendet werden sollte. Wir untersuchen auch die Rolle von synthetischen Daten und TextLM-Modellfamilien bei der Erschließung dieses Potenzials. Die Ergebnisse legen nahe, dass unser hochskaliertes Modell eine vergleichbare Leistung mit führenden Modellen bei sprachlichen semantischen Metriken erzielt, während es weniger Rechenleistung und Daten als andere Ansätze benötigt. Wir stellen Modelle, Beispiele und Daten als Open Source zur Verfügung – https://pages.cs.huji.ac.il/adiyoss-lab/sims.
Multimodale Large Language Models (MLLMs) leiden unter hohen Rechenkosten aufgrund ihrer enormen Größe und der großen Anzahl visueller Tokens. In dieser Arbeit untersuchen wir die redundanz auf Schichtebene in MLLMs, indem wir eine neue Metrik einführen, den Layer Contribution (LC), der den Einfluss der Transformationen einer Schicht auf visuelle und Text-Tokens quantifiziert. Die Berechnung des LC beinhaltet die Messung der Abweichung in der Modellausgabe, die sich aus dem Entfernen der Transformationen der Schicht auf die spezifizierten Tokens ergibt. Unser Pilotexperiment zeigt, dass viele Schichten von MLLMs während der Verarbeitung visueller Tokens nur einen minimalen Beitrag leisten. Motiviert durch diese Beobachtung schlagen wir ShortV vor, eine trainingsfreie Methode, die LC nutzt, um ineffektive Schichten zu identifizieren und die Aktualisierung visueller Tokens in diesen Schichten einfriert. Experimente zeigen, dass ShortV die Aktualisierung visueller Tokens in etwa 60\% der MLLM-Schichten einfrieren kann, wodurch die Rechenkosten im Zusammenhang mit der Aktualisierung visueller Tokens drastisch reduziert werden. So erreicht es beispielsweise eine 50\%ige Reduzierung der FLOPs bei LLaVA-NeXT-13B, während die überlegene Leistung erhalten bleibt. Der Code wird öffentlich verfügbar sein unter https://github.com/icip-cas/ShortV.
Diffusionsmodelle bieten beeindruckende Kontrollierbarkeit für Bildaufgaben, hauptsächlich durch Rauschvorhersagen, die aufgabenspezifische Informationen kodieren, und durch klassifikatorfreie Steuerung, die eine einstellbare Skalierung ermöglicht. Dieser Skalierungsmechanismus definiert implizit einen „Skalierungsraum“, dessen Potenzial für fein abgestimmte semantische Manipulation bisher unzureichend erforscht ist. Wir untersuchen diesen Raum, beginnend mit inversionsbasierter Bearbeitung, bei der die Differenz zwischen bedingten und unbedingten Rauschvorhersagen wichtige semantische Informationen trägt. Unser zentraler Beitrag ergibt sich aus einer Fourier-Analyse der Rauschvorhersagen, die zeigt, dass sich deren nieder- und hochfrequente Komponenten im Verlauf der Diffusion unterschiedlich entwickeln. Basierend auf dieser Erkenntnis führen wir FreSca ein, eine einfache Methode, die die Skalierung der Steuerung unabhängig auf verschiedene Frequenzbänder im Fourier-Bereich anwendet. FreSca verbessert nachweislich bestehende Bildbearbeitungsmethoden ohne erneutes Training. Spannenderweise erstreckt sich seine Wirksamkeit auch auf Bildverständnisaufgaben wie Tiefenschätzung, was quantitative Verbesserungen über mehrere Datensätze hinweg liefert.
Die Modellauswahl ist ein entscheidender Schritt in der Zeitreihenprognose und erfordert traditionell umfangreiche Leistungsbewertungen über verschiedene Datensätze hinweg. Meta-Learning-Ansätze zielen darauf ab, diesen Prozess zu automatisieren, basieren jedoch typischerweise auf vorab erstellten Leistungsmatrizen, deren Erstellung kostspielig ist. In dieser Arbeit schlagen wir vor, Large Language Models (LLMs) als leichtgewichtige Alternative für die Modellauswahl zu nutzen. Unser Ansatz eliminiert die Notwendigkeit expliziter Leistungsmatrizen, indem er das inhärente Wissen und die Fähigkeiten zur logischen Schlussfolgerung von LLMs nutzt. Durch umfangreiche Experimente mit LLaMA, GPT und Gemini zeigen wir, dass unser Ansatz traditionelle Meta-Learning-Techniken und heuristische Baselines übertrifft und gleichzeitig den Rechenaufwand erheblich reduziert. Diese Ergebnisse unterstreichen das Potenzial von LLMs für eine effiziente Modellauswahl in der Zeitreihenprognose.
Seit dem Aufkommen von auf logischem Denken basierenden großen Sprachmodellen haben viele große Erfolge damit erzielt, die Fähigkeiten zum logischen Denken in Schülermodelle zu destillieren. Solche Techniken haben die Lücke zwischen logischem Denken und Standard-LLMs bei Codierungsaufgaben erheblich verringert. Trotzdem bleibt ein Großteil der Fortschritte beim Destillieren von Denkmodellen hinter proprietären Datensätzen verborgen oder es fehlen Details zur Datenkuratierung, Filterung und anschließenden Schulung. Um dies zu beheben, erstellen wir einen überlegenen, supervidierten Feinabstimmungsdatensatz (SFT), mit dem wir state-of-the-art Ergebnisse in der Codierungsfähigkeit bei Modellen verschiedener Größen erzielen. Unsere destillierten Modelle verwenden ausschließlich SFT, um 61,8 % auf LiveCodeBench und 24,6 % auf CodeContests zu erreichen, womit sie Alternativen übertreffen, die mit Verstärkungslernen trainiert wurden. Anschließend analysieren wir die Datenquellen, die zur Erstellung unseres Datensatzes verwendet wurden, die Auswirkungen der Code-Ausführungsfilterung und die Bedeutung der Anweisungs-/Lösungsvielfalt. Wir stellen fest, dass die Ausführungsfilterung die Benchmark-Genauigkeit negativ beeinflusst hat, was uns dazu veranlasst, die Vielfalt der Anweisungen über die Korrektheit der Lösungen zu priorisieren. Schließlich analysieren wir auch die Token-Effizienz und die Denkmuster, die von diesen Modellen genutzt werden. Wir werden diese Datensätze und destillierten Modelle der Community als Open Source zur Verfügung stellen.
Jüngste Fortschritte bei Large Language Models (LLMs) haben gezeigt, dass der Einsatz von Process Reward Models (PRMs) als Verifizierer vielversprechend ist, um die Leistung von LLMs zu verbessern. Aktuelle PRMs stehen jedoch vor drei zentralen Herausforderungen: (1) begrenzte Fähigkeiten zur Prozessüberwachung und Generalisierung, (2) Abhängigkeit von der Vorhersage skalarer Werte ohne Nutzung der generativen Fähigkeiten von LLMs und (3) die Unfähigkeit, die Rechenleistung von PRMs zur Testzeit zu skalieren. In dieser Arbeit stellen wir GenPRM vor, ein generatives Prozess-Belohnungsmodell, das explizite Chain-of-Thought (CoT)-Argumentation mit Code-Verifizierung durchführt, bevor es eine Bewertung für jeden Argumentationsschritt abgibt. Um hochwertige Prozessüberwachungs-Labels und Begründungsdaten zu erhalten, schlagen wir Relative Progress Estimation (RPE) und ein Begründungssynthese-Framework vor, das Code-Verifizierung integriert. Experimentelle Ergebnisse auf ProcessBench und mehreren mathematischen Argumentationsaufgaben zeigen, dass GenPRM frühere PRMs deutlich übertrifft, obwohl es nur mit 23K Trainingsdaten aus dem MATH-Datensatz trainiert wurde. Durch Skalierung zur Testzeit übertrifft ein 1,5B GenPRM GPT-4o, und ein 7B GenPRM übertrifft Qwen2.5-Math-PRM-72B auf ProcessBench. Zudem zeigt GenPRM starke Fähigkeiten als Kritikmodell zur Verfeinerung von Policy-Modellen. Diese Arbeit etabliert ein neues Paradigma für die Prozessüberwachung, das die Lücke zwischen PRMs und Kritikmodellen in LLMs schließt. Unser Code, Modell und Daten werden unter https://ryanliu112.github.io/GenPRM verfügbar sein.
Wir präsentieren die ersten mechanistischen Belege dafür, dass modellfreie Reinforcement-Learning-Agenten Planung erlernen können. Dies wird durch die Anwendung einer Methodik basierend auf konzeptbasierter Interpretierbarkeit auf einen modellfreien Agenten in Sokoban erreicht – einem häufig verwendeten Benchmark für die Untersuchung von Planung. Insbesondere zeigen wir, dass DRC, ein generischer modellfreier Agent, der von Guez et al. (2019) eingeführt wurde, gelernte Konzeptrepräsentationen verwendet, um intern Pläne zu formulieren, die sowohl die langfristigen Auswirkungen von Aktionen auf die Umwelt vorhersagen als auch die Aktionsauswahl beeinflussen. Unsere Methodik umfasst: (1) die Suche nach planungsrelevanten Konzepten, (2) die Untersuchung der Planbildung innerhalb der Repräsentationen des Agenten und (3) die Überprüfung, dass entdeckte Pläne (in den Repräsentationen des Agenten) einen kausalen Effekt auf das Verhalten des Agenten durch Interventionen haben. Wir zeigen auch, dass das Auftreten dieser Pläne mit dem Auftreten einer planungsähnlichen Eigenschaft zusammenfällt: der Fähigkeit, von zusätzlicher Rechenleistung während der Testphase zu profitieren. Schließlich führen wir eine qualitative Analyse des vom Agenten erlernten Planungsalgorithmus durch und entdecken eine starke Ähnlichkeit mit parallelisiertem bidirektionalem Suchverfahren. Unsere Erkenntnisse erweitern das Verständnis der internen Mechanismen, die Planungsverhalten in Agenten zugrunde liegen, was angesichts des aktuellen Trends von emergenten Planungs- und Denkfähigkeiten in LLMs durch RL von Bedeutung ist.
Die wissenschaftliche Entdeckung steht durch fortschrittliche Robotik und künstliche Intelligenz vor einem rasanten Fortschritt. Aktuelle wissenschaftliche Praktiken stoßen auf erhebliche Grenzen, da manuelle Experimente zeitaufwendig und ressourcenintensiv bleiben, während multidisziplinäre Forschung die Integration von Wissen über die Expertisegrenzen einzelner Forscher hinaus erfordert. Hier skizzieren wir das Konzept eines autonomen Generalisten-Wissenschaftlers (Autonomous Generalist Scientist, AGS), das agentenbasierte KI und verkörperte Robotik kombiniert, um den gesamten Forschungszyklus zu automatisieren. Dieses System könnte dynamisch mit physischen und virtuellen Umgebungen interagieren und gleichzeitig die Integration von Wissen über verschiedene wissenschaftliche Disziplinen hinweg fördern. Durch den Einsatz dieser Technologien in jeder Forschungsphase – von der Literaturrecherche über die Hypothesengenerierung und Experimentation bis hin zum Verfassen von Manuskripten – und durch die Einbindung interner Reflexion sowie externer Feedbacks zielt dieses System darauf ab, den Zeit- und Ressourcenaufwand für wissenschaftliche Entdeckungen erheblich zu reduzieren. Aufbauend auf der Entwicklung von virtuellen KI-Wissenschaftlern hin zu vielseitigen, KI-basierten Robotikwissenschaftlern verspricht AGS bahnbrechendes Potenzial. Da diese autonomen Systeme zunehmend in den Forschungsprozess integriert werden, stellen wir die Hypothese auf, dass wissenschaftliche Entdeckungen möglicherweise neuen Skalierungsgesetzen folgen könnten, die durch die Anzahl und Fähigkeiten dieser autonomen Systeme geprägt sind. Dies bietet neue Perspektiven darauf, wie Wissen generiert und weiterentwickelt wird. Die Anpassungsfähigkeit verkörperter Roboter an extreme Umgebungen, gepaart mit dem Schwungradeffekt des sich anhäufenden wissenschaftlichen Wissens, birgt das Versprechen, kontinuierlich sowohl physische als auch intellektuelle Grenzen zu überwinden.
3D Gaussian Splatting (3DGS) zeigt eine überlegene Qualität und Renderinggeschwindigkeit, jedoch mit Millionen von 3D-Gaußverteilungen und erheblichen Speicher- und Übertragungskosten. Aktuelle 3DGS-Kompressionsmethoden konzentrieren sich hauptsächlich auf die Kompression von Scaffold-GS und erzielen beeindruckende Leistungen, jedoch mit einer zusätzlichen Voxelstruktur und einer komplexen Kodierungs- und Quantisierungsstrategie. In diesem Artikel streben wir an, eine einfache, aber effektive Methode namens NeuralGS zu entwickeln, die einen anderen Weg zur Kompression des ursprünglichen 3DGS in eine kompakte Darstellung ohne Voxelstruktur und komplexe Quantisierungsstrategien erforscht. Unsere Beobachtung ist, dass neuronale Felder wie NeRF komplexe 3D-Szenen mit Multi-Layer Perceptron (MLP)-Netzwerken mit nur wenigen Megabyte darstellen können. Daher übernimmt NeuralGS effektiv die neuronale Felddarstellung, um die Attribute der 3D-Gaußverteilungen mit MLPs zu kodieren, wobei selbst für großflächige Szenen nur ein geringer Speicherbedarf erforderlich ist. Um dies zu erreichen, verwenden wir eine Clustering-Strategie und passen die Gaußverteilungen mit verschiedenen kleinen MLPs für jedes Cluster an, basierend auf den Wichtigkeitswerten der Gaußverteilungen als Anpassungsgewichte. Wir experimentieren mit mehreren Datensätzen und erreichen eine durchschnittliche Modellgrößenreduktion um das 45-fache, ohne die visuelle Qualität zu beeinträchtigen. Die Kompressionsleistung unserer Methode auf dem ursprünglichen 3DGS ist vergleichbar mit den speziellen Scaffold-GS-basierten Kompressionsmethoden, was das enorme Potenzial der direkten Kompression des ursprünglichen 3DGS mit neuronalen Feldern demonstriert.
Sparse Autoencoders (SAEs) haben kürzlich gezeigt, dass sie die Interpretierbarkeit und Steuerbarkeit von Large Language Models (LLMs) verbessern können. In dieser Arbeit erweitern wir die Anwendung von SAEs auf Vision-Language Models (VLMs), wie z.B. CLIP, und führen einen umfassenden Rahmen zur Bewertung der Monosemantizität in visuellen Repräsentationen ein. Unsere experimentellen Ergebnisse zeigen, dass SAEs, die auf VLMs trainiert werden, die Monosemantizität einzelner Neuronen signifikant verbessern und gleichzeitig hierarchische Repräsentationen aufweisen, die gut mit expertendefinierten Strukturen (z.B. iNaturalist-Taxonomie) übereinstimmen. Besonders bemerkenswert ist, dass wir demonstrieren, dass die Anwendung von SAEs zur Intervention in einem CLIP-Vision-Encoder die Ausgaben von multimodalen LLMs (z.B. LLaVA) direkt steuern kann, ohne dass Änderungen am zugrunde liegenden Modell vorgenommen werden müssen. Diese Ergebnisse unterstreichen die Praktikabilität und Wirksamkeit von SAEs als unüberwachter Ansatz zur Verbesserung sowohl der Interpretierbarkeit als auch der Kontrolle von VLMs.
Automatische Spracherkennungssysteme haben zweifellos Fortschritte durch die Integration von mehrsprachigen und multitask-Modellen wie Whisper gemacht, die eine vielversprechende Fähigkeit gezeigt haben, Sprache über eine breite Palette von Sprachen hinweg zu verstehen und zu verarbeiten. Trotz ihrer Robustheit scheitern diese Modelle oft daran, die linguistischen Besonderheiten von Minderheitensprachen zu bewältigen. Diese Studie schließt diese Lücke, indem sie traditionelle und neuartige Sprachmodelle mit feinabgestimmten Whisper-Modellen kombiniert, um deren Leistung in weniger häufig untersuchten Sprachen zu steigern. Durch rigorose Feinabstimmung und Bewertung über mehrere Datensätze hinweg zeigen wir erhebliche Verbesserungen der Wortfehlerrate, insbesondere in ressourcenarmen Szenarien. Unser Ansatz nutzt nicht nur die umfangreichen Daten, auf denen Whisper vortrainiert wurde, sondern ergänzt auch dessen linguistische Anpassungsfähigkeit durch die Einbindung von Sprachmodellen. Wir erzielten Verbesserungen von bis zu 51\% für In-Distribution-Datensätze und bis zu 34\% für Out-of-Distribution-Sätze unter Verwendung statistischer Sprachmodelle, während große Sprachmodelle moderate, aber durchweg robuste Verbesserungen über verschiedene linguistische Kontexte hinweg lieferten. Die Ergebnisse zeigen, dass die Integration zwar zuverlässig alle Modellgrößen begünstigt, das Ausmaß der Verbesserung jedoch variiert, was die Bedeutung optimierter Sprachmodellparameter unterstreicht. Schließlich betonen wir die Bedeutung der Auswahl geeigneter Bewertungsparameter bei der Berichterstattung von Ergebnissen mit transformerbasierten ASR-Modellen. Zusammenfassend ebnet diese Forschung den Weg für inklusivere ASR-Technologien, die durch die Bereicherung ihres linguistischen Wissens besser über verschiedene Sprachen hinweg abschneiden. Für weitere Implementierungsdetails dieser Studie sind die technische Dokumentation und der Quellcode unter http://www.github.com/hitz-zentroa/whisper-lm verfügbar.
Das Lernen, Parameter von neuronalen Netzwerken basierend auf Aufgabenbeschreibungen und Architekturspezifikationen zu generieren, ist entscheidend für die Verbesserung der Modellanpassungsfähigkeit und des Transferlernens. Bestehende Methoden, insbesondere solche, die auf Diffusionsmodellen basieren, leiden unter begrenzter Skalierbarkeit bei großen Architekturen, Starrheit im Umgang mit variierenden Netzwerktiefen und einer fragmentierten Parametergenerierung, die die Kohärenz zwischen den Schichten untergräbt. In dieser Arbeit schlagen wir IGPG (Instruction Guided Parameter Generation) vor, ein autoregressives Framework, das die Parametersynthese über verschiedene Aufgaben und Architekturen vereinheitlicht. IGPG nutzt ein VQ-VAE und ein autoregressives Modell, um Parameter neuronaler Netzwerke basierend auf Aufgabenanweisungen, Datensätzen und Architekturdetails zu generieren. Durch die autoregressive Generierung von Tokens für die Gewichte neuronaler Netzwerke gewährleistet IGPG die Kohärenz zwischen den Schichten und ermöglicht eine effiziente Anpassung über Modelle und Datensätze hinweg. Auf der Token-Ebene arbeitend, erfasst IGPG effektiv komplexe Parameterverteilungen, die aus einem breiten Spektrum vortrainierter Modelle aggregiert wurden. Umfangreiche Experimente auf mehreren Vision-Datensätzen zeigen, dass IGPG verschiedene vortrainierte Modelle in ein einziges, flexibles generatives Framework integriert. Die synthetisierten Parameter erzielen eine wettbewerbsfähige oder überlegene Leistung im Vergleich zu modernsten Methoden, insbesondere in Bezug auf Skalierbarkeit und Effizienz bei der Anwendung auf große Architekturen. Diese Ergebnisse unterstreichen das Potenzial von IGPG als leistungsstarkes Werkzeug für die Abfrage vortrainierter Gewichte, die Modellauswahl und die schnelle feinabstimmung für spezifische Aufgaben.
Unüberwachte panoptische Segmentierung zielt darauf ab, ein Bild in semantisch bedeutungsvolle Regionen und eindeutige Objektinstanzen zu unterteilen, ohne auf manuell annotierte Daten trainiert zu werden. Im Gegensatz zu früheren Arbeiten zur unüberwachten panoptischen Szenenverständigung eliminieren wir die Notwendigkeit von objektzentrierten Trainingsdaten, wodurch das unüberwachte Verständnis komplexer Szenen ermöglicht wird. Zu diesem Zweck präsentieren wir die erste unüberwachte panoptische Methode, die direkt auf szenenzentrierten Bildern trainiert. Insbesondere schlagen wir einen Ansatz vor, um hochauflösende panoptische Pseudolabels auf komplexen szenenzentrierten Daten zu erhalten, indem visuelle Repräsentationen, Tiefen- und Bewegungsinformationen kombiniert werden. Die Nutzung sowohl des Pseudolabel-Trainings als auch einer panoptischen Selbsttrainingsstrategie führt zu einem neuartigen Ansatz, der präzise panoptische Segmentierungen komplexer Szenen vorhersagt, ohne menschliche Annotationen zu benötigen. Unser Ansatz verbessert die panoptische Qualität signifikant und übertrifft beispielsweise den aktuellen Stand der Technik in der unüberwachten panoptischen Segmentierung auf Cityscapes um 9,4 Prozentpunkte in PQ.