Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die End-to-End-Menschanimation, wie z.B. die audio-gesteuerte Generierung von sprechenden Menschen, hat in den letzten Jahren bemerkenswerte Fortschritte gemacht. Allerdings haben bestehende Methoden immer noch Schwierigkeiten, sich wie große allgemeine Videogenerierungsmodelle zu skalieren, was ihr Potenzial in realen Anwendungen einschränkt. In diesem Paper schlagen wir OmniHuman vor, ein auf Diffusion Transformer basierendes Framework, das Daten durch die Integration von bewegungsbezogenen Bedingungen in die Trainingsphase skalierbar macht. Zu diesem Zweck führen wir zwei Trainingsprinzipien für diese gemischten Bedingungen ein, zusammen mit der entsprechenden Modellarchitektur und Inferenzstrategie. Diese Entwürfe ermöglichen es OmniHuman, die datengetriebene Bewegungsgenerierung voll auszuschöpfen und letztendlich eine hochrealistische Generierung von menschlichen Videos zu erreichen. Vor allem unterstützt OmniHuman verschiedene Porträtinhalte (Nahaufnahme des Gesichts, Porträt, Halbkörper, Ganzkörper), unterstützt sowohl Sprechen als auch Singen, behandelt Mensch-Objekt-Interaktionen und anspruchsvolle Körperhaltungen und passt sich verschiedenen Bildstilen an. Im Vergleich zu bestehenden End-to-End audio-gesteuerten Methoden erzeugt OmniHuman nicht nur realistischere Videos, sondern bietet auch eine größere Flexibilität bei den Eingaben. Es unterstützt außerdem mehrere Steuerungsmodalitäten (audio-gesteuert, video-gesteuert und kombinierte Steuersignale). Videobeispiele finden sich auf der Projektseite von ttfamily (https://omnihuman-lab.github.io)
Direkte Ausrichtungsalgorithmen (DAAs) vereinfachen die Ausrichtung von Sprachmodellen, indem sie das Verstärkungslernen (RL) und die Belohnungsmodellierung (RM) in Reinforcement Learning from Human Feedback (RLHF) durch direkte Richtlinienoptimierung ersetzen. DAAs können nach ihren Rangverlusten (paarweise vs. punktweise), nach den Belohnungen, die in diesen Verlusten verwendet werden (z. B. Wahrscheinlichkeitsverhältnisse der Richtlinie und der Referenzrichtlinie oder Quotenverhältnisse) oder danach, ob eine Phase des überwachten Feintunings (SFT) erforderlich ist (zweistufig vs. einstufig), klassifiziert werden. Wir zeigen zunächst, dass einstufige Methoden schlechter abschneiden als zweistufige Methoden. Um dies zu beheben, integrieren wir eine explizite SFT-Phase und führen den Beta-Parameter ein, der die Stärke der Präferenzoptimierung in einstufigen ORPO und ASFT steuert. Diese Modifikationen verbessern ihre Leistung in Alpaca Eval 2 um +3,46 (ORPO) und +8,27 (ASFT), was zweistufigen Methoden wie DPO entspricht. Eine weitere Analyse zeigt, dass der entscheidende Faktor darin besteht, ob der Ansatz paarweise oder punktweise Ziele verwendet, anstatt der spezifischen impliziten Belohnung oder Verlustfunktion. Diese Ergebnisse unterstreichen die Bedeutung einer sorgfältigen Evaluation, um vorzeitige Behauptungen über Leistungsgewinne oder generelle Überlegenheit bei Ausrichtungsalgorithmen zu vermeiden.
Dichte Prozessbelohnungen haben sich als eine effektivere Alternative zu den spärlichen Belohnungen auf Ergebnisebene beim Skalieren großer Sprachmodelle (LLMs) zur Inferenzzeit erwiesen, insbesondere bei Aufgaben, die komplexe mehrschrittige Schlussfolgerungen erfordern. Während dichte Belohnungen auch eine ansprechende Wahl für das Reinforcement Learning (RL) von LLMs darstellen, da ihre feinkörnigen Belohnungen das Potenzial haben, einige inhärente Probleme von Ergebnisbelohnungen zu bewältigen, wie z.B. Trainingseffizienz und Zuschreibung von Verdiensten, bleibt dieses Potenzial weitgehend ungenutzt. Dies ist hauptsächlich den Herausforderungen beim Online-Training von Prozessbelohnungsmodellen (PRMs) zuzuschreiben, bei dem das Sammeln hochwertiger Prozessetiketten prohibitiv teuer ist und sie besonders anfällig für Reward Hacking sind. Um diesen Herausforderungen zu begegnen, schlagen wir PRIME (Process Reinforcement through IMplicit rEwards) vor, das Online-PRM-Updates ermöglicht, indem nur Richtlinienrollouts und Ergebnisetiketten durch implizite Prozessbelohnungen verwendet werden. PRIME lässt sich gut mit verschiedenen Vorteilsfunktionen kombinieren und verzichtet auf die dedizierte Belohnungsmodell-Trainingsphase, die bestehende Ansätze erfordern, was die Entwicklungskosten erheblich reduziert. Wir zeigen die Wirksamkeit von PRIME in mathematischen und Programmieraufgaben. Ausgehend von Qwen2.5-Math-7B-Base erzielt PRIME eine durchschnittliche Verbesserung von 15,1 % über mehrere wichtige Schlussfolgerungs-Benchmarks im Vergleich zum SFT-Modell. Bemerkenswert ist, dass unser resultierendes Modell, Eurus-2-7B-PRIME, Qwen2.5-Math-7B-Instruct auf sieben Schlussfolgerungs-Benchmarks mit nur 10 % seiner Trainingsdaten übertrifft.
Große Sprachmodelle (LLMs) als Richter und die auf LLM basierende Datensynthese sind zwei grundlegende, durch LLM angetriebene Methoden zur Datenannotation in der Modellentwicklung. Obwohl ihre Kombination die Effizienz des Modelltrainings und der -bewertung signifikant verbessert, wurde bisher wenig Aufmerksamkeit auf die potenzielle Kontamination durch dieses neue Modellentwicklungsparadigma gelegt. In dieser Arbeit decken wir Präferenz-Leakage auf, ein Kontaminationsproblem in LLM-als-Richter verursacht durch die Verwandtschaft zwischen den synthetischen Datengeneratoren und LLM-basierten Evaluatoren. Um dieses Problem zu untersuchen, definieren wir zunächst drei gängige Verwandtschaften zwischen Datengenerator-LLM und Richter-LLM: dieselbes Modell, eine Vererbungsbeziehung und Zugehörigkeit zur selben Modellfamilie. Durch umfangreiche Experimente bestätigen wir empirisch die Voreingenommenheit der Richter gegenüber ihren verwandten Schülermodellen, verursacht durch Präferenz-Leakage über mehrere LLM-Baselines und -Benchmarks hinweg. Weitere Analysen legen nahe, dass Präferenz-Leakage ein weit verbreitetes Problem ist, das im Vergleich zu zuvor identifizierten Voreingenommenheiten in LLM-als-Richter-Szenarien schwerer zu erkennen ist. All diese Erkenntnisse deuten darauf hin, dass Präferenz-Leakage ein weit verbreitetes und herausforderndes Problem im Bereich LLM-als-Richter ist. Wir veröffentlichen alle Codes und Daten unter: https://github.com/David-Li0406/Preference-Leakage.
Die Ausrichtung visueller Merkmale mit Sprach-Einbettungen ist eine zentrale Herausforderung in Modellen für die Verbindung von Vision und Sprache (VLMs). Die Leistungsfähigkeit solcher Modelle hängt entscheidend von einem guten Verbindungselement ab, das visuelle Merkmale, die von einem Vision-Encoder erzeugt wurden, in einen gemeinsamen Einbettungsraum mit dem LLM abbildet, wobei die semantische Ähnlichkeit erhalten bleibt. Bestehende Verbindungselemente, wie mehrschichtige Perzeptrone (MLPs), erzeugen oft Inputs außerhalb der Verteilung oder mit Rauschen, was zu einer Missabstimmung zwischen den Modalitäten führt. In dieser Arbeit schlagen wir eine neue Methode zur Ausrichtung von Vision und Text vor, AlignVLM, die visuelle Merkmale auf einen gewichteten Durchschnitt von LLM-Texteinbettungen abbildet. Unser Ansatz nutzt die sprachlichen Vorkenntnisse, die vom LLM codiert sind, um sicherzustellen, dass visuelle Merkmale auf Bereiche des Raums abgebildet werden, die der LLM effektiv interpretieren kann. AlignVLM ist besonders effektiv für Aufgaben des Dokumentverständnisses, bei denen gescannte Dokumentenbilder genau auf ihren Textinhalt abgebildet werden müssen. Unsere umfangreichen Experimente zeigen, dass AlignVLM im Vergleich zu früheren Ausrichtungsmethoden eine Spitzenleistung erzielt. Wir liefern weitere Analysen, die eine verbesserte Ausrichtung von Vision und Textmerkmalen sowie Robustheit gegenüber Rauschen aufzeigen.
Das Indexierungs-Abruf-Generierungs-Paradigma des Abruf-erweiterten Generierungsmodells (RAG) war äußerst erfolgreich bei der Lösung wissensintensiver Aufgaben durch die Integration externen Wissens in große Sprachmodelle (LLMs). Die Einbindung externen und unüberprüften Wissens erhöht jedoch die Anfälligkeit von LLMs, da Angreifer Angriffsaufgaben durch Manipulation von Wissen ausführen können. In diesem Artikel stellen wir einen Benchmark namens SafeRAG vor, der entwickelt wurde, um die Sicherheit von RAG zu bewerten. Zunächst klassifizieren wir Angriffsaufgaben in Silberrauschen, Interkontextkonflikt, Soft-Ad und weiße Denial-of-Service. Anschließend erstellen wir einen RAG-Sicherheitsbewertungsdatensatz (d. h. SafeRAG-Datensatz) hauptsächlich manuell für jede Aufgabe. Wir nutzen dann den SafeRAG-Datensatz, um verschiedene Angriffsszenarien zu simulieren, denen RAG begegnen könnte. Experimente, die an 14 repräsentativen RAG-Komponenten durchgeführt wurden, zeigen, dass RAG eine erhebliche Anfälligkeit für alle Angriffsaufgaben aufweist und selbst die offensichtlichste Angriffsaufgabe problemlos bestehende Abrufsysteme, Filter oder fortschrittliche LLMs umgehen kann, was zu einer Beeinträchtigung der Servicequalität von RAG führt. Der Code ist verfügbar unter: https://github.com/IAAR-Shanghai/SafeRAG.
Wir präsentieren SliderSpace, ein Framework zur automatischen Zerlegung der visuellen Fähigkeiten von Diffusionsmodellen in steuerbare und menschenverständliche Richtungen. Im Gegensatz zu bestehenden Steuerungsmethoden, die von einem Benutzer verlangen, Attribute für jede Bearbeitungsrichtung einzeln anzugeben, entdeckt SliderSpace gleichzeitig mehrere interpretierbare und vielfältige Richtungen aus einer einzigen Texteingabe. Jede Richtung wird als Adapter niedriger Rangordnung trainiert, was eine kompositionelle Steuerung und die Entdeckung überraschender Möglichkeiten im latenten Raum des Modells ermöglicht. Durch umfangreiche Experimente an hochmodernen Diffusionsmodellen zeigen wir die Wirksamkeit von SliderSpace in drei Anwendungen: Konzeptzerlegung, künstlerische Stilerkundung und Vielfaltserweiterung. Unsere quantitative Bewertung zeigt, dass die von SliderSpace entdeckten Richtungen die visuelle Struktur des Modellwissens effektiv zerlegen und Einblicke in die latenten Fähigkeiten bieten, die in Diffusionsmodellen codiert sind. Benutzerstudien bestätigen weiterhin, dass unsere Methode im Vergleich zu Baselines vielfältigere und nützlichere Variationen erzeugt. Unser Code, Daten und trainierte Gewichte sind unter https://sliderspace.baulab.info verfügbar.
Wir schlagen SCONE (Skalierbare, Kontextualisierte, Ausgelagerte, N-Gramm Einbettung) vor, eine Methode zur Erweiterung von Eingabe-Einbettungsschichten zur Verbesserung der Leistung von Sprachmodellen, wenn die Schichtgröße skaliert wird. Um erhöhte Dekodierungskosten zu vermeiden, behält SCONE den ursprünglichen Wortschatz bei und führt Einbettungen für eine Reihe häufiger n-Gramme ein. Diese Einbettungen bieten eine kontextualisierte Darstellung für jedes Eingabe-Token und werden mit einem separaten Modell während des Trainings erlernt. Während der Inferenz werden sie vorberechnet und in einem Speicher außerhalb des Beschleunigers mit minimalem Einfluss auf die Inferenzgeschwindigkeit gespeichert. SCONE ermöglicht zwei neue Skalierungsstrategien: die Erhöhung der Anzahl der zwischengespeicherten n-Gramm-Einbettungen und die Skalierung des Modells, das zu ihrer Erstellung verwendet wird, während gleichzeitig die festgelegten FLOPS zur Inferenzzeit beibehalten werden. Wir zeigen, dass die Skalierung beider Aspekte es SCONE ermöglicht, eine 1,9 Milliarden Parameter umfassende Baseline über verschiedene Korpora hinweg zu übertreffen, während nur die Hälfte der FLOPS zur Inferenzzeit verwendet werden.
Große Sprachmodelle (LLMs) haben ein bemerkenswertes Potenzial im Bereich des Schlussfolgerns gezeigt, leiden jedoch immer noch unter schwerwiegenden faktischen Halluzinationen aufgrund von Aktualität, Genauigkeit und Abdeckung des parametrischen Wissens. Gleichzeitig bleibt die Integration von Schlussfolgern mit abrufgesteigerter Generierung (RAG) aufgrund einer ineffektiven Aufgabenzerlegung und redundanter Abrufvorgänge eine Herausforderung, die Rauschen einführen und die Qualität der Antworten beeinträchtigen kann. In diesem Artikel schlagen wir DeepRAG vor, ein Framework, das abrufgestütztes Schlussfolgern als Markov-Entscheidungsprozess (MDP) modelliert, um strategische und adaptive Abrufvorgänge zu ermöglichen. Durch die iterative Zerlegung von Abfragen bestimmt DeepRAG dynamisch, ob externes Wissen abgerufen oder auf parametrisches Schlussfolgern in jedem Schritt zurückgegriffen werden soll. Experimente zeigen, dass DeepRAG die Abrufeffizienz verbessert und die Antwortgenauigkeit um 21,99% steigert, was seine Wirksamkeit bei der Optimierung von abrufgestütztem Schlussfolgern demonstriert.
IQ-Tests haben als grundlegende Methodik gedient, um die kognitiven Fähigkeiten des Menschen zu bewerten, indem die Bewertung bewusst von sprachlichem Hintergrund, Sprachkenntnissen oder domänenspezifischem Wissen entkoppelt wurde, um Kernkompetenzen in Abstraktion und Schlussfolgerung zu isolieren. Dennoch fehlen derzeit in der Forschung zur künstlichen Intelligenz systematische Benchmarks, um diese kritischen kognitiven Dimensionen in multimodalen Systemen zu quantifizieren. Um diese Lücke zu schließen, schlagen wir MM-IQ vor, ein umfassendes Bewertungsframework, das 2.710 sorgfältig ausgewählte Testelemente umfasst, die 8 verschiedene Schlussfolgerungsparadigmen abdecken. Durch die systematische Bewertung führender Open-Source- und proprietärer multimodaler Modelle zeigt unser Benchmark deutliche Einschränkungen auf: Selbst modernste Architekturen erreichen nur geringfügig bessere Leistungen als der Zufall (27,49 % gegenüber einer Baseline-Genauigkeit von 25 %). Dieser erhebliche Leistungsunterschied verdeutlicht die Unzulänglichkeit aktueller multimodaler Systeme bei der Annäherung an grundlegende menschliche Schlussfolgerungsfähigkeiten und unterstreicht die Notwendigkeit für wegweisende Fortschritte, um diese kognitive Kluft zu überbrücken.
Ein Kennzeichen menschlicher Intelligenz ist die Fähigkeit, komplexe Artefakte durch strukturierte, mehrstufige Prozesse zu erstellen. Die Generierung von prozeduralen Tutorials mit KI ist ein langjähriges, aber herausforderndes Ziel, das drei Hauptprobleme aufweist: (1) Mangel an prozeduralen Datensätzen für Mehrfachaufgaben, (2) Aufrechterhaltung logischer Kontinuität und visueller Konsistenz zwischen den Schritten und (3) Generalisierung über mehrere Domänen hinweg. Um diesen Herausforderungen zu begegnen, schlagen wir einen multidomänen Datensatz vor, der 21 Aufgaben mit über 24.000 prozeduralen Sequenzen abdeckt. Aufbauend auf diesem Fundament stellen wir MakeAnything vor, ein Framework basierend auf dem Diffusionstransformer (DIT), das Feinabstimmung nutzt, um die In-Context-Fähigkeiten des DIT zur Generierung konsistenter prozeduraler Sequenzen zu aktivieren. Wir führen die asymmetrische Low-Rank-Anpassung (LoRA) für die Bildgenerierung ein, die die Generalisierungsfähigkeiten und die aufgabenspezifische Leistung durch das Einfrieren der Encoder-Parameter und das adaptive Feinabstimmen der Decoder-Schichten ausbalanciert. Darüber hinaus ermöglicht unser ReCraft-Modell die Bild-zu-Prozess-Generierung durch raumzeitliche Konsistenzbeschränkungen, die statische Bilder in plausible Erstellungssequenzen zerlegen. Umfangreiche Experimente zeigen, dass MakeAnything bestehende Methoden übertrifft und neue Leistungsmaßstäbe für prozedurale Generierungsaufgaben setzt.
Wir untersuchen die logischen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) und ihre Skalierbarkeit bei komplexem nicht-monotonem Schlussfolgern. Zu diesem Zweck führen wir ZebraLogic ein, ein umfassendes Bewertungsframework zur Bewertung der Schlussfolgerungsleistung von LLMs bei Logikrätseln, die von Constraint Satisfaction Problems (CSPs) abgeleitet sind. ZebraLogic ermöglicht die Generierung von Rätseln mit kontrollierbarer und quantifizierbarer Komplexität, was eine systematische Untersuchung der Skalierungsgrenzen von Modellen wie Llama, o1-Modellen und DeepSeek-R1 erleichtert. Indem es eine breite Palette von Suchraumkomplexitäten und verschiedenen logischen Einschränkungen umfasst, bietet ZebraLogic eine strukturierte Umgebung zur Bewertung des Schlussfolgerns unter zunehmender Schwierigkeit. Unsere Ergebnisse zeigen einen signifikanten Rückgang der Genauigkeit mit zunehmender Problemkomplexität - ein Phänomen, das wir als Fluch der Komplexität bezeichnen. Diese Einschränkung besteht auch bei größeren Modellen und erhöhter Inferenzzeitberechnung und legt nahe, dass es inhärente Einschränkungen in den aktuellen LLM-Schlussfolgerungsfähigkeiten gibt. Darüber hinaus erforschen wir Strategien zur Verbesserung des logischen Schlussfolgerns, einschließlich Best-of-N-Sampling, Backtracking-Mechanismen und Selbstüberprüfungsanfragen. Unsere Ergebnisse bieten wichtige Einblicke in die Skalierbarkeit des LLM-Schlussfolgerns, heben grundlegende Einschränkungen hervor und skizzieren potenzielle Verbesserungsrichtungen.
Obwohl große Sprachmodelle (LLMs) darin herausragend sind, lange Kontextsequenzen zu verarbeiten, benötigen sie erhebliche Schlüssel-Wert (KV)-Caches, um Kontextinformationen zu speichern, was die Rechen- und Speichereffizienz stark belasten kann. Frühere Bemühungen zur Komprimierung dieser KV-Caches konzentrierten sich hauptsächlich auf die Reduzierung des Speicherbedarfs, waren jedoch in der Verbesserung der Latenz begrenzt. Um dieses Problem anzugehen, stellen wir FastKV vor, eine KV-Cache-Komprimierungsmethode, die darauf abzielt, die Latenz für lange Kontextsequenzen zu verbessern. Um die Verarbeitungsgeschwindigkeiten zu erhöhen und gleichzeitig die Genauigkeit beizubehalten, verwendet FastKV einen neuartigen Token-selektiven Propagierungsansatz (TSP), der die vollständigen Kontextinformationen in den ersten Schichten von LLMs beibehält und nur einen Teil dieser Informationen selektiv in den tieferen Schichten auch im Vorausfüllungsstadium propagiert. Darüber hinaus integriert FastKV eine gruppierte Abfrage-Aufmerksamkeit (GQA)-bewusste KV-Cache-Komprimierung, um die Vorteile von GQA sowohl in Bezug auf Speicher- als auch Recheneffizienz zu nutzen. Unsere experimentellen Ergebnisse zeigen, dass FastKV im Vergleich zu HeadKV, der modernsten KV-Cache-Komprimierungsmethode, Verbesserungen von 2,00-facher und 1,40-facher Zeit bis zum ersten Token (TTFT) bzw. Durchsatz erzielt. Darüber hinaus behält FastKV erfolgreich die Genauigkeit bei langen Kontext-Benchmarks auf einem mit den Baselines vergleichbaren Niveau bei. Unser Code ist unter https://github.com/dongwonjo/FastKV verfügbar.
Im Zuge des raschen Fortschritts großer Sprachmodelle (LLMs) und ihrer Entwicklung zu großen multimodalen Modellen (LMMs) wurden bedeutende Fortschritte in hochresourcen Sprachen wie Englisch und Chinesisch erzielt. Während arabische LLMs bemerkenswerte Fortschritte verzeichnen, bleiben arabische LMMs weitgehend unerforscht und konzentrieren sich oft eng auf einige spezifische Aspekte der Sprache und visuellen Wahrnehmung. Um diese Lücke zu schließen, stellen wir AIN vor - das Arabic Inclusive Multimodal Model, das darauf ausgelegt ist, in verschiedenen Bereichen herausragende Leistungen zu erbringen. AIN ist ein zweisprachiges LMM in Englisch und Arabisch, das auf sorgfältig konstruierten 3,6 Millionen hochwertigen arabisch-englischen multimodalen Datensätzen basiert. AIN zeigt Spitzenleistungen in der arabischen Sprache und verfügt auch über starke visuelle Fähigkeiten in englischer Sprache. Auf dem kürzlich veröffentlichten CAMEL-Bench-Benchmark, der 38 Subdomänen umfasst, darunter Multi-Image-Verständnis, komplexe visuelle Wahrnehmung, Verständnis handschriftlicher Dokumente, Videoverständnis, medizinische Bildgebung, Pflanzenkrankheiten und fernerkundungsbasiertes Verständnis der Landnutzung, zeigt unser AIN eine starke Leistung. Das 7B-Modell übertrifft GPT-4o um einen absoluten Gewinn von 3,4 % im Durchschnitt über acht Domänen und 38 Subdomänen. Die überlegenen Fähigkeiten von AIN positionieren es als einen bedeutenden Schritt zur Stärkung arabischer Sprecher mit fortschrittlichen multimodalen generativen KI-Tools für verschiedene Anwendungen.
Die Veröffentlichungen von OpenAI's o1 und o3 markieren einen signifikanten Paradigmenwechsel bei Large Language Models hin zu fortgeschrittenen Begründungsfähigkeiten. Insbesondere übertraf o3 Menschen in der Lösung neuartiger Probleme und im Erlernen von Fähigkeiten im Abstraktion und Begründungskorpus für Künstliche Allgemeine Intelligenz (ARC-AGI). Dieser Benchmark ist jedoch auf symbolische Muster beschränkt, während Menschen oft multimodale Szenarien wahrnehmen und über diese sowohl mit visuellen als auch sprachlichen Daten begründen. Daher besteht ein dringender Bedarf, fortgeschrittene Begründungsfähigkeiten in multimodalen Aufgaben zu untersuchen. Zu diesem Zweck verfolgen wir die Entwicklung der GPT-[n] und o-[n] Serienmodelle bei anspruchsvollen multimodalen Rätseln, die eine fein abgestufte visuelle Wahrnehmung mit abstrakter oder algorithmischer Begründung erfordern. Die überlegene Leistung von o1 geht mit fast 750-mal höheren Rechenaufwand als bei GPT-4o einher, was Bedenken hinsichtlich seiner Effizienz aufwirft. Unsere Ergebnisse zeigen einen klaren Aufwärtstrend bei den Begründungsfähigkeiten über die Modelliterationen hinweg, mit bemerkenswerten Leistungssprüngen bei den GPT-Serienmodellen und anschließend bei o1. Dennoch beobachten wir, dass das o1-Modell nach wie vor Schwierigkeiten mit einfachen multimodalen Rätseln hat, die abstrakte Begründung erfordern. Darüber hinaus ist seine Leistung bei algorithmischen Rätseln schlecht. Wir planen, kontinuierlich neue Modelle der Serie zu verfolgen und unsere Ergebnisse entsprechend in diesem Papier zu aktualisieren. Alle Ressourcen, die bei dieser Evaluation verwendet wurden, sind öffentlich verfügbar unter https://github.com/declare-lab/LLM-PuzzleTest.
Auch hochentwickelte große Sprachmodelle (LLMs) können voreingenommene oder unsichere Antworten liefern, und Ausrichtungstechniken wie RLHF, die darauf abzielen, dieses Problem zu mildern, sind teuer und anfällig für Overfitting, da sie das LLM neu trainieren. Dieser Artikel stellt einen neuartigen Ansatz zur Ausrichtung zur Inferenzzeit vor, der sicherstellt, dass LLMs mit hoher Wahrscheinlichkeit sichere Antworten generieren, d. h. mit einer Wahrscheinlichkeit, die gegen eins strebt. Dies wird erreicht, indem die sichere Generierung von Antworten zur Inferenzzeit als ein eingeschränkter Markov-Entscheidungsprozess im latenten Raum des LLMs formuliert wird. Wesentlich ist, dass wir einen Sicherheitszustand ergänzen, der die Entwicklung von Sicherheitsbeschränkungen verfolgt und es uns ermöglicht, formale Sicherheitsgarantien nach der Lösung des MDP im latenten Raum zu demonstrieren. Aufbauend auf diesem Fundament schlagen wir InferenceGuard vor, eine praktische Implementierung, die LLMs sicher ausrichtet, ohne die Modellgewichte zu verändern. Empirisch zeigen wir, dass InferenceGuard Sicherheit und Aufgabenerfüllung effektiv ausbalanciert und vorhandene Ausrichtungsmethoden zur Inferenzzeit in der Generierung sicherer und ausgerichteter Antworten übertrifft.
Bestehende Benchmarks für Spitzenmodelle testen oft spezialisiertes, auf Doktoratsniveau liegendes Wissen, das für Nicht-Experten schwer zu erfassen ist. Im Gegensatz dazu präsentieren wir einen Benchmark, der auf der NPR Sunday Puzzle Challenge basiert und nur allgemeines Wissen erfordert. Unser Benchmark ist sowohl für Menschen als auch für Modelle anspruchsvoll, jedoch sind korrekte Lösungen leicht zu überprüfen und Modellfehler leicht zu erkennen. Unsere Arbeit zeigt Fähigkeitslücken auf, die in bestehenden Benchmarks nicht offensichtlich sind: OpenAI o1 übertrifft signifikant andere Schlussfolgerungsmodelle, die auf Benchmarks, die spezialisiertes Wissen testen, gleichauf sind. Darüber hinaus deckt unsere Analyse der Schlussfolgerungsergebnisse neue Arten von Fehlern auf. DeepSeek R1 gibt beispielsweise oft mit "Ich gebe auf" auf, bevor es eine Antwort liefert, von der es weiß, dass sie falsch ist. R1 kann auch in seiner Ausgabe bemerkenswert "unsicher" sein und in seltenen Fällen "das Denken nicht beenden", was auf die Notwendigkeit einer Inferenzzeit-Technik hinweist, um vor Erreichen des Kontextfensterlimits "abzuschließen". Wir quantifizieren auch die Wirksamkeit des längeren Schlussfolgerns mit R1 und Gemini Thinking, um den Punkt zu identifizieren, an dem eine weitere Schlussfolgerung unwahrscheinlich ist, um die Genauigkeit in unserem Benchmark zu verbessern.
Wir präsentieren einen Ansatz für modellbasiertes RL, der eine neue Bestleistung auf dem anspruchsvollen Craftax-classic Benchmark erzielt, einem Open-World-2D-Überlebensspiel, bei dem Agenten eine Vielzahl von allgemeinen Fähigkeiten zeigen müssen - wie starke Verallgemeinerung, tiefe Exploration und langfristiges Denken. Mit einer Reihe sorgfältiger Designentscheidungen zur Verbesserung der Stichproben-Effizienz erreicht unser MBRL-Algorithmus eine Belohnung von 67,4 % nach nur 1 Mio. Umgebungsschritten, was deutlich besser ist als DreamerV3 mit 53,2 % und erstmals die menschliche Leistung von 65,0 % übertrifft. Unser Ansatz beginnt mit dem Aufbau einer SOTA modellfreien Baseline, die eine neuartige Richtlinienarchitektur verwendet, die CNNs und RNNs kombiniert. Anschließend fügen wir drei Verbesserungen zum Standard-MBRL-Setup hinzu: (a) "Dyna mit Warm-up", das die Richtlinie auf echten und imaginären Daten trainiert, (b) "nächster Nachbar-Tokenizer" auf Bildausschnitten, der das Schema zur Erstellung der Eingaben des Transformer-Weltmodells (TWM) verbessert, und (c) "Block-Lehrerzwang", der es dem TWM ermöglicht, gemeinsam über die zukünftigen Token des nächsten Zeitschritts zu spekulieren.
Die Low-Rank-Anpassung (LoRA) und ihre Varianten haben beeindruckende Ergebnisse bei der Reduzierung der Anzahl der trainierbaren Parameter und des Speicherbedarfs großer Transformer-Netzwerke gezeigt, während die Feinabstimmungsleistung beibehalten wird. Die niedrigrangige Natur des Gewichtsupdates begrenzt jedoch inhärent die Repräsentationskraft der feinabgestimmten Modelle, was die Leistung bei komplexen Aufgaben möglicherweise beeinträchtigt. Dies wirft eine kritische Frage auf: Wenn eine Leistungslücke zwischen LoRA und der Standardfeinabstimmung beobachtet wird, liegt dies an der reduzierten Anzahl der trainierbaren Parameter oder an der Rangdefizienz? Dieser Artikel zielt darauf ab, diese Frage zu beantworten, indem er RandLoRA einführt, eine parameter-effiziente Methode, die vollständige Rangaktualisierungen unter Verwendung von erlernten linearen Kombinationen von niedrigrangigen, nicht trainierbaren Zufallsmatrizen durchführt. Unsere Methode beschränkt die Anzahl der trainierbaren Parameter, indem sie die Optimierung auf diagonale Skalierungsmatrizen beschränkt, die auf die festen Zufallsmatrizen angewendet werden. Dies ermöglicht es uns, die niedrigrangigen Einschränkungen effektiv zu überwinden, während wir Parameter- und Speichereffizienz während des Trainings beibehalten. Durch umfangreiche Experimente in den Bereichen Vision, Sprache und Vision-Sprache bewerten wir systematisch die Einschränkungen von LoRA und bestehenden zufälligen Basisverfahren. Unsere Ergebnisse zeigen, dass vollständige Rangaktualisierungen sowohl für Vision- als auch für Sprachaufgaben vorteilhaft sind und noch mehr für Vision-Sprache-Aufgaben, bei denen RandLoRA die Leistungslücke zwischen Standardfeinabstimmung und LoRA signifikant reduziert - und manchmal eliminiert -, was seine Wirksamkeit demonstriert.
Konsistenzmodelle sind eine neue Familie generativer Modelle, die in der Lage sind, hochwertige Proben entweder in einem einzigen Schritt oder in mehreren Schritten zu erzeugen. In letzter Zeit haben Konsistenzmodelle beeindruckende Leistungen gezeigt und Ergebnisse erzielt, die mit Diffusionsmodellen im Pixelraum vergleichbar sind. Der Erfolg beim Skalieren des Konsistenztrainings auf Datensätze im großen Maßstab, insbesondere für Text-zu-Bild- und Video-Generierungsaufgaben, hängt jedoch von der Leistung im latenten Raum ab. In dieser Arbeit analysieren wir die statistischen Unterschiede zwischen Pixel- und latenten Räumen und entdecken, dass latente Daten oft stark impulsartige Ausreißer enthalten, die die Leistung von iCT im latenten Raum erheblich beeinträchtigen. Um dies zu lösen, ersetzen wir Pseudo-Huber-Verluste durch Cauchy-Verluste, um den Einfluss von Ausreißern effektiv zu mindern. Darüber hinaus führen wir einen Diffusionsverlust in frühen Zeitschritten ein und verwenden Optimal Transport (OT)-Kopplung, um die Leistung weiter zu verbessern. Schließlich führen wir den adaptiven Skalierungs-c-Zeitplan ein, um den robusten Schulungsprozess zu steuern, und übernehmen Non-scaling LayerNorm in die Architektur, um die Statistiken der Merkmale besser zu erfassen und den Einfluss von Ausreißern zu reduzieren. Mit diesen Strategien können wir latenten Konsistenzmodellen erfolgreiches Training ermöglichen, das hochwertige Proben in einem oder zwei Schritten erzeugen kann und den Leistungsunterschied zwischen latenten Konsistenz- und Diffusionsmodellen signifikant verringert. Die Implementierung ist hier veröffentlicht: https://github.com/quandao10/sLCT/
Frühere Arbeiten im Bereich der parametermodifizierenden Wissensbearbeitung haben gezeigt, dass groß angelegte sequenzielle Bearbeitungen zu einer signifikanten Modellverschlechterung führen. In diesem Paper untersuchen wir die Gründe dafür und skalieren die sequenzielle Wissensbearbeitung auf 10.000 aufeinanderfolgende Bearbeitungen, während wir die Leistung des ursprünglichen Modells beibehalten. Zunächst zeigen wir, dass Wissensbearbeitungsmethoden, die zuerst lokalisieren und dann bearbeiten, zu Overfitting bei den bearbeiteten Fakten führen. Wir zeigen auch, dass eine kontinuierliche Wissensbearbeitung mit diesen Methoden zu einem unverhältnismäßigen Wachstum der Norm der bearbeiteten Matrix führt. Anschließend liefern wir einen entscheidenden Einblick in die Funktionsweise von lokalisieren-und-dann-bearbeiten Methoden. Wir zeigen, dass das Normwachstum ein verborgener Trick ist, den diese Methoden anwenden, um den Ausgabeanregungen, die aus den bearbeiteten Schichten stammen, eine größere Bedeutung beizumessen. Mit diesem "Bedeutungstrick" tragen die bearbeiteten Schichten wesentlich mehr zur Ausgabe des Modells bei. Um diese Probleme zu mildern, präsentieren wir ENCORE - Frühes Stoppen und Norm-beschränkte Robuste Wissensbearbeitung. ENCORE kontrolliert das Overfitting und das unverhältnismäßige Normwachstum, um langfristige sequenzielle Bearbeitungen zu ermöglichen, bei denen wir bis zu 10.000 aufeinanderfolgende Bearbeitungen ohne Leistungsverlust durchführen können. ENCORE ist auch 61 % schneller als MEMIT und 64 % schneller als AlphaEdit auf Llama3-8B.
Die Generierung von Langformtexten ist entscheidend für das Verfassen von wissenschaftlichen Arbeiten und die Generierung von Code auf Repository-Ebene. Trotzdem weisen aktuelle Modelle, einschließlich GPT-4o, immer noch eine unbefriedigende Leistung auf. Bestehende Methoden, die Präferenzlernen mit Ergebnisüberwachung nutzen, scheitern oft daran, detailliertes Feedback für erweiterte Kontexte bereitzustellen. Diese Schwäche kann zu Inhalten führen, die die Abfrageanforderungen nicht vollständig erfüllen, was zu Problemen wie Längenabweichungen und verringerter Qualität führt. In diesem Paper schlagen wir vor, die Generierung von Langformtexten durch die Integration von Prozessüberwachung zu verbessern. Wir verwenden Monte-Carlo-Baumsuche, um schrittweise Präferenzpaare zu sammeln, wobei ein globaler Speicherpool zur Aufrechterhaltung der Konsistenz genutzt wird. Um das Problem der suboptimalen Kandidatenauswahl anzugehen, integrieren wir externe Kritiken, um die Qualität der Präferenzpaare zu verfeinern und zu verbessern. Schließlich wenden wir schrittweise DPO unter Verwendung der gesammelten schrittweisen Präferenzpaare an. Experimentelle Ergebnisse zeigen, dass unsere Methode die Länge und Qualität bei Langformtext-Generierungstests verbessert, wobei fast verlustfreie Leistung bei allgemeinen Tests über verschiedene Modellgrundlagen hinweg erzielt wird.
Unit tests (UTs) spielen eine entscheidende Rolle bei der Bewertung der Code-Korrektheit sowie bei der Bereitstellung von Rückmeldungen an ein großes Sprachmodell (LLM), während es fehlerhaften Code iterativ debuggt und die automatische Testgenerierung motiviert. Allerdings entdecken wir einen Kompromiss zwischen der Generierung von Unit-Test-Eingaben, die Fehler aufdecken, wenn fehlerhafter Code vorliegt, und der korrekten Vorhersage der Unit-Test-Ausgabe ohne Zugriff auf die Goldlösung. Um diesen Kompromiss anzugehen, schlagen wir UTGen vor, das LLMs lehrt, Unit-Test-Eingaben zu generieren, die Fehler zusammen mit ihren korrekten erwarteten Ausgaben basierend auf Aufgabenbeschreibungen und Kandidatencode aufzeigen. Wir integrieren UTGen in UTDebug, eine robuste Debugging-Pipeline, die generierte Tests verwendet, um LLMs effektiv beim Debuggen zu unterstützen. Da durch das Modell generierte Tests ungenaue Signale liefern können (z. B. durch falsch vorhergesagte Ausgaben), skaliert UTDebug (i) UTGen über die Testzeitberechnung, um die Vorhersage der UT-Ausgabe zu verbessern, und (ii) validiert und nimmt Änderungen basierend auf mehreren generierten UTs zurück, um Überanpassung zu vermeiden. Wir zeigen, dass UTGen die UT-Generierungsbaselines um 7,59% übertrifft, basierend auf einem Metrikenmaß, das sowohl fehleraufdeckende UT-Eingaben als auch korrekte UT-Ausgaben berücksichtigt. Bei Verwendung mit UTDebug stellen wir fest, dass das Feedback von UTGen's Unit-Tests die Passgenauigkeit von Qwen-2.5 7B auf HumanEvalFix und unserem eigenen anspruchsvolleren Debugging-Split von MBPP+ um über 3% bzw. 12,35% (jeweils) im Vergleich zu anderen LLM-basierten UT-Generierungsbaselines verbessert.
Sprachmodelle (LMs) sollten zuverlässige Vertrauensschätzungen liefern, um Benutzern zu helfen, Fehler in ihren Ausgaben zu erkennen und sich bei Bedarf an menschliche Experten zu wenden. Die Bitte an ein Sprachmodell, sein Vertrauen zu bewerten ("Bewerten Sie Ihr Vertrauen von 0-1."), ist eine natürliche Möglichkeit, um seine Unsicherheit zu bewerten. Allerdings haben Modelle Schwierigkeiten, absolute Bewertungen des Vertrauens bereitzustellen (d.h. das Vertrauen in die Beantwortung einer Frage unabhängig von anderen Fragen zu beurteilen), und die grobkörnigen Bewertungen, die sie produzieren, sind nicht nützlich zur Bewertung der Korrektheit ihrer Antworten. Wir schlagen relative Vertrauensschätzung vor, bei der wir Fragen miteinander abgleichen und das Modell bitten, relative Bewertungen des Vertrauens vorzunehmen ("In welcher Frage sind Sie sich sicherer, die korrekte Antwort zu geben?"). Indem wir jede Frage als "Spieler" in einer Serie von Vergleichen gegen andere Fragen behandeln und die Präferenzen des Modells als Ergebnisse der Vergleiche betrachten, können wir Ranglistenaggregationsmethoden wie Elo-Bewertung und Bradley-Terry verwenden, um die Vertrauenspräferenzen des Modells in Vertrauenswerte zu übersetzen. Wir evaluieren relative Vertrauensschätzung im Vergleich zur absoluten Vertrauensschätzung und Selbstkonsistenz-Vertrauensmethoden bei fünf modernsten LMs - GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet und Llama 3.1 405B - über 14 anspruchsvolle STEM-, Sozialwissenschafts- und Alltagslogik-Frage-Antwort-Aufgaben. Unsere Ergebnisse zeigen, dass relative Vertrauensschätzung durchweg zuverlässigere Vertrauenswerte liefert als absolute Vertrauensschätzung, mit durchschnittlichen Gewinnen von 3,5% im selektiven Klassifikations-AUC gegenüber direkten absoluten Vertrauensschätzmethoden und 1,7% gegenüber Selbstkonsistenzansätzen über alle Modelle und Datensätze hinweg.
Das Retroperitoneum beherbergt eine Vielzahl von Tumoren, darunter seltene gutartige und bösartige Arten, die aufgrund ihrer Seltenheit und der Nähe zu lebenswichtigen Strukturen diagnostische und therapeutische Herausforderungen darstellen. Die Schätzung des Tumorvolumens ist aufgrund ihrer unregelmäßigen Formen schwierig, und die manuelle Segmentierung ist zeitaufwändig. Die automatische Segmentierung unter Verwendung von U-Net und seinen Varianten, die Vision Transformer (ViT)-Elemente integrieren, hat vielversprechende Ergebnisse gezeigt, kämpft jedoch mit hohen Rechenanforderungen. Um dies zu bewältigen, bieten Architekturen wie das Mamba State Space Model (SSM) und das Extended Long-Short Term Memory (xLSTM) effiziente Lösungen, indem sie langreichweitige Abhängigkeiten mit geringerem Ressourcenverbrauch handhaben. Diese Studie bewertet U-Net-Verbesserungen, einschließlich CNN, ViT, Mamba und xLSTM, an einem neuen hauseigenen CT-Datensatz und einem öffentlichen Organsegmentierungsdatensatz. Das vorgeschlagene ViLU-Net-Modell integriert Vi-Blöcke für eine verbesserte Segmentierung. Die Ergebnisse heben die Effizienz von xLSTM im U-Net-Framework hervor. Der Code ist öffentlich auf GitHub zugänglich.
Pathologie-Grundlagenmodelle (FMs) versprechen große Fortschritte im Gesundheitswesen. Bevor sie in der klinischen Praxis eingesetzt werden können, ist es entscheidend sicherzustellen, dass sie robust gegenüber Variationen zwischen medizinischen Zentren sind. Wir messen, ob Pathologie-FMs sich auf biologische Merkmale wie Gewebe- und Krebstypen oder auf die bekannten verwirrenden medizinischen Zentrumsunterschriften konzentrieren, die durch Färbeprozesse und andere Unterschiede eingeführt werden. Wir führen den Robustheitsindex ein. Dieses neuartige Robustheitsmaß spiegelt wider, inwieweit biologische Merkmale verwirrende Merkmale dominieren. Zehn aktuelle öffentlich verfügbare Pathologie-FMs werden bewertet. Wir stellen fest, dass alle aktuellen bewerteten Pathologie-Grundlagenmodelle das medizinische Zentrum in hohem Maße repräsentieren. Signifikante Unterschiede im Robustheitsindex werden beobachtet. Bisher hat nur ein Modell einen Robustheitsindex größer als eins, was bedeutet, dass biologische Merkmale verwirrende Merkmale dominieren, jedoch nur geringfügig. Ein quantitativer Ansatz zur Messung des Einflusses von Unterschieden zwischen medizinischen Zentren auf die Leistung von FM-basierten Vorhersagen wird beschrieben. Wir analysieren die Auswirkungen von Unrobustheit auf die Klassifizierungsleistung von nachgelagerten Modellen und stellen fest, dass Fehler bei der Krebstyp-Klassifizierung nicht zufällig sind, sondern speziell auf dieselben Zentrumsverfälscher zurückzuführen sind: Bilder anderer Klassen aus demselben medizinischen Zentrum. Wir visualisieren FM-Einbettungsräume und stellen fest, dass diese stärker nach medizinischen Zentren als nach biologischen Faktoren organisiert sind. Folglich wird das Ursprungszentrum genauer vorhergesagt als die Gewebequelle und der Krebstyp. Der hier eingeführte Robustheitsindex zielt darauf ab, den Fortschritt bei der klinischen Übernahme robuster und zuverlässiger Pathologie-FMs voranzutreiben.