Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Autoregressive Modelle (ARMs) gelten weithin als Grundpfeiler großer Sprachmodelle (LLMs). Wir fordern diese Auffassung heraus, indem wir LLaDA vorstellen, ein Diffusionsmodell, das von Grund auf unter dem Prä-Training und überwachten Feinabstimmungsparadigma trainiert wird. LLaDA modelliert Verteilungen durch einen Vorwärtsdatenmaskierungsprozess und einen Rückprozess, parametrisiert durch einen Vanilla-Transformer zur Vorhersage maskierter Tokens. Durch Optimierung einer Likelihood-Schranke bietet es einen fundierten generativen Ansatz für probabilistische Inferenz. Über umfangreiche Benchmarks hinweg zeigt LLaDA eine starke Skalierbarkeit und übertrifft unsere selbst erstellten ARM-Baselines. Bemerkenswerterweise ist LLaDA 8B im Bereich des kontextbezogenen Lernens wettbewerbsfähig mit starken LLMs wie LLaMA3 8B und zeigt nach der überwachten Feinabstimmung beeindruckende Fähigkeiten zur Anweisungsfolge in Fallstudien wie dem Mehrfachdialog. Darüber hinaus befasst sich LLaDA mit dem Umkehrfluch und übertrifft GPT-4o in einer Aufgabe zur Abschluss eines Umkehrgedichts. Unsere Ergebnisse etablieren Diffusionsmodelle als eine machbare und vielversprechende Alternative zu ARMs und fordern die Annahme heraus, dass die oben diskutierten Schlüsselkapazitäten von LLMs inhärent an ARMs gebunden sind.
Große Schlussfolgerungsmodelle (LRMs) stellen einen Durchbruch in den Problemlösungsfähigkeiten der KI dar, aber ihre Effektivität in interaktiven Umgebungen kann begrenzt sein. Dieser Artikel führt ein und analysiert übermäßiges Nachdenken in LRMs. Ein Phänomen, bei dem Modelle erweiterte interne Schlussfolgerungsketten gegenüber der Umgebungsinteraktion bevorzugen. Durch Experimente an Softwaretechnikaufgaben mit SWE Bench Verified beobachten wir drei wiederkehrende Muster: Analyse-Paralyse, Rogue-Aktionen und vorzeitiges Abbrechen. Wir schlagen ein Rahmenwerk zur Untersuchung dieser Verhaltensweisen vor, das mit menschlichen Expertenbewertungen korreliert, und analysieren 4018 Trajektorien. Wir stellen fest, dass höhere übermäßiges Nachdenken-Werte mit einer verringerten Leistung korrelieren, wobei Schlussfolgerungsmodelle stärkere Tendenzen zum übermäßigen Nachdenken im Vergleich zu Nicht-Schlussfolgerungsmodellen aufweisen. Unsere Analyse zeigt, dass einfache Maßnahmen zur Minderung von übermäßigem Nachdenken in agentischen Umgebungen, wie die Auswahl der Lösung mit der geringeren übermäßiges Nachdenken-Bewertung, die Modellleistung um fast 30% verbessern können, während die Rechenkosten um 43% reduziert werden. Diese Ergebnisse legen nahe, dass die Minderung von übermäßigem Nachdenken starke praktische Auswirkungen hat. Wir schlagen vor, dass durch die Nutzung nativer Funktionsaufruf-Fähigkeiten und selektives Verstärkungslernen übermäßige Nachdenk-Tendenzen gemildert werden könnten. Wir stellen auch unser Bewertungsrahmenwerk und Datensatz als Open Source zur Verfügung, um die Forschung in diese Richtung zu erleichtern unter https://github.com/AlexCuadron/Overthinking.
Wir präsentieren Step-Video-T2V, ein hochmodernes vortrainiertes Text-zu-Video-Modell mit 30 Milliarden Parametern und der Fähigkeit, Videos mit einer Länge von bis zu 204 Frames zu generieren. Ein tief komprimierender Variational Autoencoder, Video-VAE, wurde für Video-Generierungsaufgaben entwickelt, erreicht 16x16 räumliche und 8x zeitliche Kompressionsverhältnisse und bewahrt dabei eine außergewöhnliche Video-Rekonstruktionsqualität. Benutzeranfragen werden mithilfe von zwei zweisprachigen Textencodern codiert, um sowohl Englisch als auch Chinesisch zu verarbeiten. Ein DiT mit 3D-Vollaufmerksamkeit wird unter Verwendung von Flow Matching trainiert und dient dazu, Eingangsrauschen in latente Frames zu denoisieren. Ein auf Video basierter DPO-Ansatz, Video-DPO, wird angewendet, um Artefakte zu reduzieren und die visuelle Qualität der generierten Videos zu verbessern. Wir erläutern auch unsere Trainingsstrategien und teilen wichtige Beobachtungen und Erkenntnisse. Die Leistung von Step-Video-T2V wird anhand eines neuen Video-Generierungs-Benchmarktests, Step-Video-T2V-Eval, bewertet, der seine hochmoderne Text-zu-Video-Qualität im Vergleich zu sowohl Open-Source- als auch kommerziellen Engines zeigt. Darüber hinaus diskutieren wir die Einschränkungen des aktuellen diffusionsbasierten Modellparadigmas und skizzieren zukünftige Richtungen für Video-Grundlagenmodelle. Wir stellen sowohl Step-Video-T2V als auch Step-Video-T2V-Eval unter https://github.com/stepfun-ai/Step-Video-T2V zur Verfügung. Die Online-Version ist auch unter https://yuewen.cn/videos abrufbar. Unser Ziel ist es, die Innovation von Video-Grundlagenmodellen zu beschleunigen und Video-Content-Ersteller zu unterstützen.
Diffusionsmodelle (DMs) sind zur führenden Wahl für generative Aufgaben in verschiedenen Bereichen geworden. Ihre Abhängigkeit von mehreren aufeinanderfolgenden Vorwärtspässen begrenzt jedoch erheblich die Echtzeit-Performance. Frühere Beschleunigungsmethoden konzentrierten sich hauptsächlich darauf, die Anzahl der Abtastschritte zu reduzieren oder Zwischenergebnisse wiederzuverwenden, ohne die Variationen über räumliche Regionen innerhalb des Bildes zu nutzen, aufgrund der Einschränkungen von faltenden U-Netz-Strukturen. Indem wir die Flexibilität von Diffusions-Transformern (DiTs) in der Handhabung variabler Token-Zahlen nutzen, führen wir RAS ein, eine neuartige, trainingsfreie Abtaststrategie, die dynamisch unterschiedliche Abtastverhältnisse für Regionen innerhalb eines Bildes basierend auf dem Fokus des DiT-Modells zuweist. Unsere Schlüsselbeobachtung ist, dass das Modell während jedes Abtastschritts auf semantisch bedeutungsvolle Regionen konzentriert ist und diese Fokusbereiche eine starke Kontinuität über aufeinanderfolgende Schritte aufweisen. Unter Nutzung dieses Einblicks aktualisiert RAS nur die aktuell fokussierten Regionen, während andere Regionen unter Verwendung von zwischengespeichertem Rauschen aus dem vorherigen Schritt aktualisiert werden. Der Fokus des Modells wird basierend auf der Ausgabe des vorherigen Schritts bestimmt und nutzt die beobachtete zeitliche Konsistenz aus. Wir evaluieren RAS an Stable Diffusion 3 und Lumina-Next-T2I und erzielen Geschwindigkeitssteigerungen von bis zu 2,36-fach bzw. 2,51-fach bei minimaler Verschlechterung der Generierungsqualität. Zusätzlich zeigt eine Benutzerstudie, dass RAS vergleichbare Qualitäten unter menschlicher Bewertung liefert und dabei eine 1,6-fache Beschleunigung erreicht. Unser Ansatz macht einen bedeutenden Schritt hin zu effizienteren Diffusions-Transformern und verbessert ihr Potenzial für Echtzeitanwendungen.
Große multimodale Modelle (LMMs) weisen erhebliche Mängel bei der Interpretation von Bildern auf und haben nach einigen Maßstäben eine schlechtere räumliche Kognition als kleine Kinder oder Tiere. Trotzdem erzielen sie hohe Punktzahlen in vielen gängigen visuellen Benchmarks, wobei der Spielraum durch einen kontinuierlichen Fortschritt der Modelle schnell verringert wird. Um dem entgegenzuwirken, besteht ein dringender Bedarf an anspruchsvollen Benchmarks, die länger relevant bleiben. Wir bringen diese Idee an ihre Grenzen, indem wir ZeroBench einführen - einen leichtgewichtigen visuellen Denk-Benchmark, der für zeitgenössische Spitzen-LMMs vollständig unmöglich ist. Unser Benchmark besteht aus 100 manuell kuratierten Fragen und 334 weniger schwierigen Teilfragen. Wir bewerten 20 LMMs auf ZeroBench, von denen alle 0,0% erreichen, und analysieren die Fehler gründlich. Um Fortschritte im visuellen Verständnis zu fördern, veröffentlichen wir ZeroBench öffentlich.
Trotz bemerkenswerter Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) wurden die meisten modernsten Modelle noch nicht gründlich mit menschlichen Präferenzen abgestimmt. Diese Lücke besteht, da die aktuelle Abstimmungsforschung hauptsächlich Fortschritte in spezifischen Bereichen erzielt hat (z. B. Reduzierung von Halluzinationen), während die allgemeinere Frage, ob die Abstimmung von Modellen auf menschliche Präferenzen die Fähigkeiten von MLLMs systematisch verbessern kann, weitgehend unerforscht bleibt. Zu diesem Zweck stellen wir MM-RLHF vor, ein Datenset mit 120.000 fein abgestuften, menschenannotierten Präferenzvergleichspaaren. Dieses Datenset stellt einen erheblichen Fortschritt gegenüber bestehenden Ressourcen dar und bietet eine überlegene Größe, Vielfalt, Annotierungsgenauigkeit und Qualität. Unter Nutzung dieses Datensets schlagen wir mehrere Schlüsselinnovationen vor, um sowohl die Qualität der Belohnungsmodelle als auch die Effizienz der Abstimmungsalgorithmen zu verbessern. Insbesondere führen wir ein Kritikbasiertes Belohnungsmodell ein, das Kritiken der Modellausgaben generiert, bevor Punkte vergeben werden, was im Vergleich zu traditionellen skalaren Belohnungsmechanismen eine verbesserte Interpretierbarkeit und informativere Rückmeldungen bietet. Darüber hinaus schlagen wir Dynamische Belohnungsskalierung vor, eine Methode, die das Verlustgewicht jedes Beispiels entsprechend dem Belohnungssignal anpasst und somit die Nutzung hochwertiger Vergleichspaare optimiert. Unser Ansatz wird über 10 verschiedene Dimensionen und 27 Benchmarks hinweg rigoros evaluiert, wobei die Ergebnisse signifikante und konsistente Verbesserungen in der Modellleistung zeigen. Insbesondere führt das Feintuning von LLaVA-ov-7B mit MM-RLHF und unserem Abstimmungsalgorithmus zu einer 19,5%igen Steigerung der Konversationsfähigkeiten und einer 60%igen Verbesserung der Sicherheit. Wir haben das Präferenzdatenset, das Belohnungsmodell, den Trainings- und Evaluierungscode sowie Belohnungsmodellierungs- und Sicherheitsbenchmarks als Open Source veröffentlicht. Für weitere Details besuchen Sie bitte unsere Projektseite: https://mm-rlhf.github.io.
Diffusionsmodelle ermöglichen die Synthese von hochwertigen und vielfältigen visuellen Inhalten. Allerdings haben sie Schwierigkeiten, seltene oder unbekannte Konzepte zu generieren. Um diese Herausforderung zu bewältigen, untersuchen wir die Verwendung von Retrieval-Augmented Generation (RAG) in Kombination mit Bildgenerierungsmodellen. Wir stellen ImageRAG vor, eine Methode, die basierend auf einem gegebenen Textprompt relevante Bilder dynamisch abruft und diese als Kontext zur Steuerung des Generierungsprozesses nutzt. Frühere Ansätze, die abgerufene Bilder zur Verbesserung der Generierung verwendeten, trainierten Modelle speziell für die retrieval-basierte Generierung. Im Gegensatz dazu nutzt ImageRAG die Fähigkeiten bestehender bildbedingter Modelle und erfordert kein RAG-spezifisches Training. Unser Ansatz ist hochgradig anpassbar und kann auf verschiedene Modelltypen angewendet werden, wobei er eine signifikante Verbesserung bei der Generierung seltener und fein abgestufter Konzepte mit verschiedenen Basismodellen zeigt. Unsere Projektseite ist verfügbar unter: https://rotem-shalev.github.io/ImageRAG
Reasoning LLMs wie OpenAI o1, o3 und DeepSeek R1 haben bedeutende Fortschritte in Mathematik und Codierung erzielt, finden jedoch fortgeschrittene Aufgaben wie kombinatorische Probleme der Internationalen Mathematik-Olympiade (IMO), Abstraktions- und Schlussfolgerungskorpus (ARC) Rätsel und Fragen des Humanity's Last Exam (HLE) herausfordernd. Wir verwenden einen vielfältigen Inferenzansatz, der mehrere Modelle und Methoden zur Testzeit kombiniert. Wir stellen fest, dass die Überprüfung von Mathematik- und Codeproblemen sowie das Ablehnen von Stichproben bei anderen Problemen einfach und effektiv ist. Wir überprüfen automatisch die Korrektheit von Lösungen für IMO-Probleme mit Lean und ARC-Rätseln mit Code und stellen fest, dass das Best-of-N-Verfahren HLE-Fragen effektiv beantwortet. Unser Ansatz erhöht die Antwortgenauigkeit bei IMO-Kombinatorikproblemen von 33,3% auf 77,8%, die Genauigkeit bei HLE-Fragen von 8% auf 37% und löst 80% der ARC-Rätsel, die 948 Menschen nicht lösen konnten, und 26,5% der ARC-Rätsel, die o3 High Compute nicht löst. Testzeit-Simulationen, Verstärkendes Lernen und Meta-Lernen mit Inferenz-Feedback verbessern die Verallgemeinerung, indem Agentengraph-Repräsentationen angepasst und verschiedene Aufforderungen, Codes und Datensätze variiert werden. Unser Ansatz ist zuverlässig, robust und skalierbar, und im Sinne reproduzierbarer Forschung werden wir ihn nach Veröffentlichung öffentlich zugänglich machen.
Große Sprachmodelle (LLMs) haben bedeutende Erfolge in verschiedenen NLP-Aufgaben erzielt. Allerdings begrenzen ihre enormen Rechenkosten die breite Nutzung, insbesondere in Echtzeitanwendungen. Strukturiertes Pruning bietet eine effektive Lösung, indem es Modelle komprimiert und direkt end-to-end Geschwindigkeitsverbesserungen liefert, unabhängig von der Hardwareumgebung. Gleichzeitig zeigen verschiedene Komponenten des Modells unterschiedliche Sensitivitäten gegenüber dem Pruning, was eine nicht einheitliche Modellkompression erfordert. Ein Pruning-Verfahren sollte jedoch nicht nur eine leistungsfähige Substruktur identifizieren, sondern auch das Training nach der Kompression berücksichtigen. Zu diesem Zweck schlagen wir \sysname vor, eine Methode für trainingsbewusstes, strukturiertes Pruning. \sysname basiert auf einem evolutionären Suchprozess, der in jeder Generation mehrere Nachfolgermodelle durch Mutation erzeugt und die am besten geeigneten für das Überleben auswählt. Um den Effekt des Post-Trainings zu bewerten, integrieren wir einen leichten, mehrstufigen Trainingsprozess innerhalb der Nachfolgerpopulation, der schrittweise die Anzahl der Tokens erhöht und schlecht abschneidende Modelle in jeder Auswahlphase eliminiert. Wir validieren unsere Methode durch umfangreiche Experimente mit Llama-2-7B, Llama-3.1-8B und Qwen-2.5-14B-Instruct und erzielen dabei state-of-the-art Leistungen für strukturiertes Pruning. Beispielsweise übertrifft \sysname ShearedLlama, während es während des Post-Kompressionstrainings 5-mal weniger Trainingsdaten benötigt.
Große Sprachmodelle (LLMs) stellen Zahlen in der Regel mit mehreren Tokens dar, was erfordert, dass das Modell diese Tokens aggregiert, um numerische Werte zu interpretieren. Diese Fragmentierung macht sowohl das Training als auch die Inferenz weniger effizient und beeinträchtigt die Leistung des Modells bei zahlenbezogenen Aufgaben negativ. Inspiriert von der Beobachtung, dass vorab trainierte LLMs intern Fourier-ähnliche Merkmale für Zahlentokens erlernen, schlagen wir Fourier Number Embedding (FoNE) vor, eine neuartige Methode, die Zahlen direkt in den Einbettungsraum mit ihren Fourier-Merkmalen abbildet. FoNE kodiert jede Zahl als ein einziges Token mit nur zwei Einbettungsdimensionen pro Ziffer und erfasst so numerische Werte effektiv ohne Fragmentierung. Diese kompakte Darstellung beschleunigt sowohl das Training als auch die Inferenz. Im Vergleich zu traditionellen Subword- und Ziffer-förmigen Einbettungen reduziert FoNE nicht nur den Rechenaufwand, sondern erzielt auch eine höhere Genauigkeit bei verschiedenen numerischen Aufgaben wie Addition, Subtraktion und Multiplikation. Bei der Addition von Dezimalzahlen mit 6 Stellen benötigt FoNE 64-mal weniger Daten, um eine Genauigkeit von 99% zu erreichen als subword- und ziffernförmige Einbettungen, während pro Zahl jeweils 3-mal und 6-mal weniger Tokens verwendet werden. Darüber hinaus ist FoNE die einzige Methode, die bei über 100.000 Testbeispielen für Addition, Subtraktion und Multiplikation eine Genauigkeit von 100% erzielt. Die Codes und Visualisierungen sind verfügbar unter https://fouriernumber.github.io/.
Neuartige Diffusionsmodelle können fotorealistische Bilder mit integriertem hochwertigem Text synthetisieren. Überraschenderweise zeigen wir durch die Aktivierung von Aufmerksamkeits-Patches, dass nur weniger als 1% der Parameter der Diffusionsmodelle, die alle in Aufmerksamkeitsschichten enthalten sind, die Generierung von Textinhalten innerhalb der Bilder beeinflussen. Aufbauend auf dieser Beobachtung verbessern wir die Effizienz und Leistung der Textgenerierung, indem wir uns auf Kreuz- und gemeinsame Aufmerksamkeitsschichten der Diffusionsmodelle konzentrieren. Wir stellen mehrere Anwendungen vor, die von der Lokalisierung der Schichten, die für die Generierung von Textinhalten verantwortlich sind, profitieren. Zunächst zeigen wir, dass ein LoRA-basiertes Feintuning ausschließlich der lokalisierten Schichten die allgemeinen Textgenerierungsfähigkeiten großer Diffusionsmodelle weiter verbessert, während die Qualität und Vielfalt der Generationen der Diffusionsmodelle erhalten bleiben. Anschließend demonstrieren wir, wie wir die lokalisierten Schichten verwenden können, um Textinhalte in generierten Bildern zu bearbeiten. Schließlich erweitern wir diese Idee auf den praktischen Anwendungsfall der Verhinderung der Generierung von toxischem Text auf kostengünstige Weise. Im Gegensatz zu früheren Arbeiten ist unser Lokalisierungsansatz breit anwendbar auf verschiedene Architekturen von Diffusionsmodellen, einschließlich U-Net (z.B. LDM und SDXL) und transformerbasierten Modellen (z.B. DeepFloyd IF und Stable Diffusion 3), unter Verwendung verschiedener Textkodierer (z.B. von CLIP bis zu großen Sprachmodellen wie T5). Projektseite verfügbar unter https://t2i-text-loc.github.io/.
Dieses Positionspapier argumentiert, dass wir, um KI zu verstehen, nicht auf unseren bestehenden Wortschatz menschlicher Wörter vertrauen können. Stattdessen sollten wir bestrebt sein, Neologismen zu entwickeln: neue Wörter, die präzise menschliche Konzepte repräsentieren, die wir Maschinen beibringen möchten, oder Maschinenkonzepte, die wir erlernen müssen. Wir gehen von der Prämisse aus, dass Menschen und Maschinen unterschiedliche Konzepte haben. Dies bedeutet, dass Interpretierbarkeit als ein Kommunikationsproblem betrachtet werden kann: Menschen müssen in der Lage sein, auf Maschinenkonzepte Bezug zu nehmen und sie zu kontrollieren sowie menschliche Konzepte an Maschinen zu kommunizieren. Durch die Entwicklung von Neologismen zur Schaffung einer gemeinsamen menschlich-maschinellen Sprache glauben wir, dass dieses Kommunikationsproblem gelöst werden könnte. Erfolgreiche Neologismen erreichen einen nützlichen Abstraktionsgrad: nicht zu detailliert, um in vielen Kontexten wiederverwendbar zu sein, und nicht zu hochrangig, um präzise Informationen zu vermitteln. Als Machbarkeitsnachweis zeigen wir, wie ein "Längen-Neologismus" die Kontrolle über die Länge der LLM-Antwort ermöglicht, während ein "Diversitäts-Neologismus" das Erzeugen variablerer Antworten ermöglicht. Zusammenfassend argumentieren wir, dass wir KI nicht mithilfe unseres bestehenden Wortschatzes verstehen können und dass die Erweiterung durch Neologismen Möglichkeiten sowohl zur besseren Kontrolle als auch zum besseren Verständnis von Maschinen schafft.
Vortrainierte Basismodelle (Foundation Models, FMs) haben in univariaten Zeitreihenvorhersageaufgaben außergewöhnliche Leistungen gezeigt. Dennoch bestehen mehrere praktische Herausforderungen, darunter die Handhabung komplexer Abhängigkeiten zwischen Merkmalen und die Quantifizierung von Unsicherheiten in Vorhersagen. Diese Studie zielt darauf ab, diese kritischen Einschränkungen zu bewältigen, indem Adapter eingeführt werden; Merkmalsraumtransformationen, die die effektive Nutzung vortrainierter univariater Zeitreihen-FMs für multivariate Aufgaben ermöglichen. Adapter arbeiten, indem sie multivariate Eingaben in einen geeigneten latenten Raum projizieren und das FM unabhängig auf jede Dimension anwenden. Inspiriert von der Literatur zu Repräsentationslernen und teilweise stochastischen Bayes’schen neuronalen Netzen präsentieren wir eine Reihe von Adaptern sowie Optimierungs- und Inferenzstrategien. Experimente, die sowohl auf synthetischen als auch auf realen Datensätzen durchgeführt wurden, bestätigen die Wirksamkeit der Adapter und zeigen erhebliche Verbesserungen in der Vorhersagegenauigkeit und der Unsicherheitsquantifizierung im Vergleich zu Baseline-Methoden. Unser Framework, AdaPTS, positioniert Adapter als eine modulare, skalierbare und effektive Lösung zur Nutzung von Zeitreihen-FMs in multivariaten Kontexten und fördert damit deren breitere Anwendung in realen Anwendungen. Wir veröffentlichen den Code unter https://github.com/abenechehab/AdaPTS.
Sprachen mit geringen Ressourcen (Low-Resource Languages, LRLs) stehen in der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) aufgrund begrenzter Daten vor erheblichen Herausforderungen. Während aktuelle state-of-the-art große Sprachmodelle (Large Language Models, LLMs) nach wie vor Schwierigkeiten mit LRLs haben, bieten kleinere mehrsprachige Modelle (multilingual Models, mLMs) wie mBERT und XLM-R größere Erfolgsaussichten, da ihre Kapazität besser an die geringe Menge an Trainingsdaten angepasst ist. Diese Studie untersucht systematisch parameter-effiziente Adapter-basierte Methoden zur Anpassung von mLMs an LRLs und evaluiert drei Architekturen: Sequential Bottleneck, Invertible Bottleneck und Low-Rank Adaptation. Unter Verwendung von unstrukturiertem Text aus GlotCC und strukturiertem Wissen aus ConceptNet zeigen wir, dass kleine Anpassungsdatensätze (z. B. bis zu 1 GB Freitext oder einige MB an Wissensgraphendaten) Verbesserungen in intrinsischen (maskierte Sprachmodellierung) und extrinsischen Aufgaben (Themenklassifizierung, Sentiment-Analyse und Named Entity Recognition) erzielen. Wir stellen fest, dass Sequential Bottleneck Adapter in der Sprachmodellierung überzeugen, während Invertible Bottleneck Adapter bei nachgelagerten Aufgaben aufgrund besserer Einbettungsausrichtung und höherer Parameteranzahl leicht überlegen sind. Adapter-basierte Methoden erreichen oder übertreffen das vollständige Fine-Tuning, verwenden jedoch deutlich weniger Parameter, und kleinere mLMs erweisen sich für LRLs als effektiver als massive LLMs wie LLaMA-3, GPT-4 und auf DeepSeek-R1 basierende destillierte Modelle. Obwohl die Anpassung die Leistung verbessert, bleibt die Größe der Vortrainingsdaten der dominierende Faktor, insbesondere für Sprachen mit umfangreicher Vortrainingsabdeckung.
Das Feinabstimmen großer Sprachmodelle (Large Language Models, LLMs) auf spezifischen Datensätzen ist eine gängige Praxis, um die Leistung bei Zielaufgaben zu verbessern. Allerdings führt dieser Leistungsgewinn oft zu Overfitting, bei dem das Modell entweder zu stark auf die Aufgabe oder die Merkmale der Trainingsdaten spezialisiert wird, was zu einem Verlust an Verallgemeinerung führt. Dieser Artikel stellt das Konzept des Selektiven Selbst-zu-Überwachten Feinabstimmens (Selective Self-to-Supervised Fine-Tuning, S3FT) vor, ein Feinabstimmungsansatz, der eine bessere Leistung als das Standard-überwachte Feinabstimmen (Supervised Fine-Tuning, SFT) erzielt und gleichzeitig die Verallgemeinerung verbessert. S3FT nutzt das Vorhandensein mehrerer gültiger Antworten auf eine Abfrage. Durch die Verwendung der korrekten Antworten des Modells reduziert S3FT die Spezialisierung des Modells während der Feinabstimmungsphase. S3FT identifiziert zunächst die korrekten Modellantworten aus dem Trainingsdatensatz, indem es einen geeigneten Richter einsetzt. Anschließend erfolgt die Feinabstimmung des Modells unter Verwendung der korrekten Modellantworten und der Goldantwort (oder deren Paraphrase) für die verbleibenden Proben. Die Wirksamkeit von S3FT wird durch Experimente zu mathematischem Denken, Python-Programmierung und Aufgaben zur Leseverständnis belegt. Die Ergebnisse zeigen, dass das Standard-SFT zu einem durchschnittlichen Leistungsabfall von bis zu 4,4 auf mehreren Benchmarks wie MMLU und TruthfulQA führen kann. Im Gegensatz dazu reduziert S3FT diesen Rückgang um die Hälfte, d.h. um 2,5, was auf bessere Verallgemeinerungsfähigkeiten als SFT hinweist, während es bei der Feinabstimmungsaufgaben signifikant besser abschneidet.
In diesem Artikel schlagen wir eine effiziente Multi-Level-Faltungsarchitektur für 3D-Visual-Grounding vor. Konventionelle Methoden können die Anforderungen an Echtzeit-Inferenz aufgrund ihrer Zwei-Stufen- oder punktbasierten Architektur nur schwer erfüllen. Inspiriert vom Erfolg der vollständig spärlichen Multi-Level-Faltungsarchitektur in der 3D-Objekterkennung, streben wir an, ein neues 3D-Visual-Grounding-Framework nach diesem technischen Ansatz zu entwickeln. Da jedoch bei der 3D-Visual-Grounding-Aufgabe die 3D-Szenendarstellung tiefgehend mit Textmerkmalen interagieren muss, ist die spärliche Faltungsarchitektur für diese Interaktion aufgrund der großen Menge an Voxel-Merkmalen ineffizient. Daher schlagen wir textgesteuertes Pruning (TGP) und komplettierungsbasierte Addition (CBA) vor, um die 3D-Szenendarstellung und Textmerkmale auf effiziente Weise durch schrittweises Regionen-Pruning und Zielkomplettierung tiefgehend zu fusionieren. Konkret sparsifiziert TGP die 3D-Szenendarstellung iterativ und ermöglicht so eine effiziente Interaktion der Voxel-Merkmale mit Textmerkmalen durch Cross-Attention. Um die Auswirkungen des Prunings auf feine geometrische Informationen zu mildern, korrigiert CBA die übermäßig beschnittenen Regionen durch Voxel-Komplettierung mit vernachlässigbarem Rechenaufwand. Im Vergleich zu früheren Single-Stage-Methoden erreicht unsere Methode die höchste Inferenzgeschwindigkeit und übertrifft die bisher schnellste Methode um 100\% FPS. Unsere Methode erreicht auch die state-of-the-art Genauigkeit, selbst im Vergleich zu Zwei-Stufen-Methoden, mit einem Vorsprung von +1,13 bei Acc@0,5 auf ScanRefer sowie +2,6 und +3,2 auf NR3D bzw. SR3D. Der Code ist verfügbar unter https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.
Ein wichtiges Ziel der verkörperten Intelligenz ist es, Agenten zu befähigen, langfristige Aufgaben in dynamischen Umgebungen auszuführen, während sie robuste Entscheidungsfindung und Anpassungsfähigkeit aufrechterhalten. Um dieses Ziel zu erreichen, schlagen wir den Spatio-Temporal Memory Agent (STMA) vor, ein neuartiges Framework, das darauf abzielt, die Aufgabenplanung und -ausführung durch die Integration von spatio-temporärem Gedächtnis zu verbessern. STMA basiert auf drei entscheidenden Komponenten: (1) ein spatio-temporales Gedächtnismodul, das historische und Umweltveränderungen in Echtzeit erfasst, (2) ein dynamischer Wissensgraph, der adaptive räumliche Schlussfolgerungen ermöglicht, und (3) ein Planer-Kritiker-Mechanismus, der iterativ Aufgabenstrategien verfeinert. Wir evaluieren STMA in der TextWorld-Umgebung anhand von 32 Aufgaben, die mehrstufige Planung und Exploration unter unterschiedlichen Komplexitätsgraden umfassen. Experimentelle Ergebnisse zeigen, dass STMA eine Verbesserung der Erfolgsquote um 31,25% und eine Steigerung des durchschnittlichen Punktwerts um 24,7% im Vergleich zum State-of-the-Art-Modell erzielt. Die Ergebnisse unterstreichen die Wirksamkeit des spatio-temporalen Gedächtnisses bei der Weiterentwicklung der Gedächtnisfähigkeiten verkörperter Agenten.
Die Masked Image Modeling (MIM) bietet einen vielversprechenden Ansatz für das selbstüberwachte Repräsentationslernen, jedoch hinken bestehende MIM-Modelle immer noch dem Stand der Technik hinterher. In diesem Paper analysieren wir systematisch Zielrepräsentationen, Verlustfunktionen und Architekturen, um CAPI vorzustellen - ein neuartiges rein auf MIM basierendes Framework, das auf der Vorhersage latenter Clusterings beruht. Unser Ansatz nutzt einen clusteringbasierten Verlust, der stabil trainierbar ist und vielversprechende Skalierungseigenschaften aufweist. Unser ViT-L-Backbone, CAPI, erreicht eine Genauigkeit von 83,8% auf ImageNet und eine mIoU von 32,1% auf ADE20K mit einfachen linearen Sonden, wobei es deutlich besser abschneidet als frühere MIM-Methoden und sich der Leistung des aktuellen Standes der Technik, DINOv2, annähert. Wir veröffentlichen unseren gesamten Code und unsere Modelle.
Bei Anwendungen von Diffusionsmodellen ist die kontrollierbare Generierung von praktischer Bedeutung, aber auch herausfordernd. Aktuelle Methoden zur kontrollierbaren Generierung konzentrieren sich hauptsächlich auf die Modifikation der Score-Funktion von Diffusionsmodellen, während die Mean Reverting (MR) Diffusion direkt die Struktur der stochastischen Differentialgleichung (SDE) modifiziert, was die Integration von Bildbedingungen einfacher und natürlicher macht. Allerdings sind aktuelle, training-freie schnelle Sampler nicht direkt auf MR Diffusion anwendbar. Daher erfordert MR Diffusion Hunderte von NFEs (Anzahl der Funktionsauswertungen), um hochwertige Proben zu erhalten. In diesem Artikel schlagen wir einen neuen Algorithmus namens MRS (MR Sampler) vor, um die Anzahl der für MR Diffusion benötigten Proben-NFEs zu reduzieren. Wir lösen die SDE rückwärts in der Zeit und die mit MR Diffusion verbundene gewöhnliche Differentialgleichung des Wahrscheinlichkeitsflusses (PF-ODE) und leiten halbanalytische Lösungen her. Die Lösungen bestehen aus einer analytischen Funktion und einem Integral, das durch ein neuronales Netzwerk parametrisiert ist. Basierend auf dieser Lösung können wir hochwertige Proben in weniger Schritten generieren. Unser Ansatz erfordert kein Training und unterstützt alle gängigen Parametrisierungen, einschließlich Rauschvorhersage, Datenvorhersage und Geschwindigkeitsvorhersage. Umfangreiche Experimente zeigen, dass der MR Sampler bei zehn verschiedenen Bildwiederherstellungsaufgaben eine hohe Probenqualität bei einer Beschleunigung um das 10- bis 20-fache beibehält. Unser Algorithmus beschleunigt das Probenverfahren von MR Diffusion und macht es in der kontrollierbaren Generierung praktikabler.
CLaMP 3 ist ein einheitliches Framework, das entwickelt wurde, um die Herausforderungen der cross-modalen und cross-lingualen Generalisierung in der Musikinformationsgewinnung zu bewältigen. Mithilfe von kontrastivem Lernen werden alle wichtigen Musikmodalitäten – einschließlich Noten, Performancesignale und Audioaufnahmen – mit mehrsprachigem Text in einem gemeinsamen Repräsentationsraum ausgerichtet, wodurch die Suche über nicht ausgerichtete Modalitäten mit Text als Brücke ermöglicht wird. Es verfügt über einen mehrsprachigen Text-Encoder, der an unbekannte Sprachen anpassbar ist und eine starke cross-linguale Generalisierung zeigt. Durch die Nutzung von retrieval-augmentierter Generierung haben wir M4-RAG kuratiert, einen web-skaligen Datensatz, der aus 2,31 Millionen Musik-Text-Paaren besteht. Dieser Datensatz ist mit detaillierten Metadaten angereichert, die eine breite Palette globaler Musiktraditionen repräsentieren. Um zukünftige Forschung voranzutreiben, veröffentlichen wir WikiMT-X, einen Benchmark, der 1.000 Tripel aus Noten, Audio und vielfältigen Textbeschreibungen umfasst. Experimente zeigen, dass CLaMP 3 bei mehreren MIR-Aufgaben Spitzenleistungen erzielt, bisherige starke Baselines deutlich übertrifft und eine hervorragende Generalisierung in multimodalen und mehrsprachigen Musikkontexten demonstriert.
Aktuelle autonome Fahrzeuge verlassen sich hauptsächlich auf ihre individuellen Sensoren, um die Umgebung zu verstehen und zukünftige Trajektorien zu planen, was unzuverlässig sein kann, wenn die Sensoren fehlerhaft sind oder verdeckt werden. Um dieses Problem zu lösen, wurden kooperative Wahrnehmungsmethoden über Fahrzeug-zu-Fahrzeug (V2V)-Kommunikation vorgeschlagen, die sich jedoch hauptsächlich auf die Erkennung und Verfolgung konzentrierten. Wie diese Ansätze zur Gesamtleistung der kooperativen Planung beitragen, ist noch wenig erforscht. Inspiriert von den jüngsten Fortschritten bei der Verwendung von Large Language Models (LLMs) zur Entwicklung autonomer Fahrsysteme schlagen wir eine neuartige Problemstellung vor, die ein LLM in kooperatives autonomes Fahren integriert, mit dem vorgeschlagenen Fahrzeug-zu-Fahrzeug Frage-Antwort (V2V-QA) Datensatz und Benchmark. Wir schlagen auch unsere Basismethode Fahrzeug-zu-Fahrzeug Large Language Model (V2V-LLM) vor, das ein LLM verwendet, um Wahrnehmungsinformationen von mehreren verbundenen autonomen Fahrzeugen (CAVs) zu verschmelzen und fahrspezifische Fragen zu beantworten: Verankerung, Identifizierung bemerkenswerter Objekte und Planung. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes V2V-LLM ein vielversprechendes einheitliches Modellarchitektur für die Durchführung verschiedener Aufgaben im kooperativen autonomen Fahren sein kann und andere Basismethoden, die unterschiedliche Verschmelzungsansätze verwenden, übertreffen. Unsere Arbeit schafft auch eine neue Forschungsrichtung, die die Sicherheit zukünftiger autonomer Fahrsysteme verbessern kann. Unsere Projektwebsite: https://eddyhkchiu.github.io/v2vllm.github.io/.
Das Training zur Ablehnung bei Large Language Models (LLMs) verhindert schädliche Ausgaben, bleibt jedoch anfällig für sowohl automatisierte als auch von Menschen erstellte Umgehungen. Wir stellen einen neuartigen Ansatz vor, bei dem ein Mensch ein ablehnungsgeschultes LLM umgeht, um es bereit zu machen, sich selbst oder andere LLMs zu umgehen. Wir bezeichnen die umgangenen LLMs als J_2 Angreifer, die Zielmodelle systematisch mithilfe verschiedener Red-Teaming-Strategien bewerten und ihre Leistung durch kontextbezogenes Lernen aus früheren Fehlern verbessern können. Unsere Experimente zeigen, dass Sonnet 3.5 und Gemini 1.5 andere LLMs als J_2 übertreffen, indem sie Erfolgsraten von 93,0 % bzw. 91,0 % bei Angriffen (ASRs) gegen GPT-4o erreichen (und ähnliche Ergebnisse bei anderen leistungsfähigen LLMs) auf Harmbench. Unsere Arbeit führt nicht nur einen skalierbaren Ansatz zum strategischen Red Teaming ein, der sich von menschlichen Red Teamern inspirieren lässt, sondern hebt auch das Umgehen-zum-Umgehen als einen übersehenen Fehlermodus der Sicherung hervor. Insbesondere kann ein LLM seine eigenen Sicherheitsvorkehrungen umgehen, indem es eine umgangene Version von sich selbst einsetzt, die bereit ist, bei weiteren Umgehungen zu helfen. Um jeglichen direkten Missbrauch mit J_2 zu verhindern und gleichzeitig die Forschung im Bereich der KI-Sicherheit voranzutreiben, teilen wir unsere Methodik öffentlich, während wir spezifische Aufforderungsdetails vertraulich behandeln.
Proteine sind dynamische molekulare Maschinen, deren biologische Funktionen – von enzymatischer Katalyse über Signaltransduktion bis hin zu struktureller Anpassung – eng mit ihren Bewegungen verknüpft sind. Die gezielte Gestaltung von Proteinen mit spezifischen dynamischen Eigenschaften bleibt jedoch eine Herausforderung, da die Beziehungen zwischen Sequenz, Struktur und molekularer Bewegung komplex und degeneriert sind. Hier stellen wir VibeGen vor, ein generatives KI-Framework, das das end-to-end de novo Protein-Design unter Berücksichtigung von Normalmodenschwingungen ermöglicht. VibeGen verwendet eine agentenbasierte Dual-Modell-Architektur, bestehend aus einem Protein-Designer, der Sequenzkandidaten basierend auf spezifizierten Schwingungsmoden generiert, und einem Protein-Prädiktor, der deren dynamische Genauigkeit bewertet. Dieser Ansatz vereint Vielfalt, Genauigkeit und Neuartigkeit während des Designprozesses. Durch vollatomare Molekülsimulationen als direkte Validierung zeigen wir, dass die entworfenen Proteine die vorgegebenen Normalmodenamplituden entlang des Rückgrats präzise reproduzieren, während sie verschiedene stabile, funktionell relevante Strukturen annehmen. Bemerkenswerterweise sind die generierten Sequenzen de novo und weisen keine signifikante Ähnlichkeit zu natürlichen Proteinen auf, wodurch der zugängliche Proteinraum über evolutionäre Beschränkungen hinaus erweitert wird. Unsere Arbeit integriert Proteindynamik in das generative Protein-Design und etabliert eine direkte, bidirektionale Verbindung zwischen Sequenz und Schwingungsverhalten, wodurch neue Wege für die Entwicklung von Biomolekülen mit maßgeschneiderten dynamischen und funktionellen Eigenschaften eröffnet werden. Dieses Framework hat weitreichende Implikationen für das rationale Design flexibler Enzyme, dynamischer Gerüste und Biomaterialien und ebnet den Weg für eine dynamikinformierte, KI-gestützte Protein-Engineering.