Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Test-Time Scaling (TTS) ist eine wichtige Methode zur Verbesserung der Leistung von Large Language Models (LLMs) durch zusätzliche Berechnungen während der Inferenzphase. Allerdings analysieren aktuelle Studien nicht systematisch, wie Policy-Modelle, Process Reward Models (PRMs) und die Schwierigkeit des Problems TTS beeinflussen. Dieser Mangel an Analyse begrenzt das Verständnis und die praktische Anwendung von TTS-Methoden. In diesem Artikel konzentrieren wir uns auf zwei Kernfragen: (1) Was ist der optimale Ansatz, um die Testzeitberechnung über verschiedene Policy-Modelle, PRMs und Schwierigkeitsgrade von Problemen zu skalieren? (2) Inwieweit kann erweiterte Berechnung die Leistung von LLMs bei komplexen Aufgaben verbessern, und können kleinere Sprachmodelle größere durch diesen Ansatz übertreffen? Durch umfassende Experimente an MATH-500 und anspruchsvollen AIME24-Aufgaben haben wir folgende Beobachtungen gemacht: (1) Die rechenoptimale TTS-Strategie hängt stark von der Wahl des Policy-Modells, PRM und der Problemschwierigkeit ab. (2) Mit unserer rechenoptimalen TTS-Strategie können extrem kleine Policy-Modelle größere Modelle übertreffen. Zum Beispiel kann ein 1B LLM einen 405B LLM bei MATH-500 übertreffen. Darüber hinaus übertrifft auf sowohl MATH-500 als auch AIME24 ein 0.5B LLM GPT-4o, ein 3B LLM übertrifft einen 405B LLM, und ein 7B LLM schlägt o1 und DeepSeek-R1, und das mit höherer Inferenzeffizienz. Diese Ergebnisse zeigen die Bedeutung der Anpassung von TTS-Strategien an die spezifischen Merkmale jeder Aufgabe und jedes Modells und deuten darauf hin, dass TTS ein vielversprechender Ansatz zur Verbesserung der Denkfähigkeiten von LLMs ist.
Die bestehenden Ansätze zur multilingualen Textentgiftung werden durch die Knappheit von parallelen mehrsprachigen Datensätzen behindert. In dieser Arbeit stellen wir eine Pipeline zur Generierung von multilingualen parallelen Entgiftungsdaten vor. Wir präsentieren auch SynthDetoxM, einen manuell gesammelten und synthetisch generierten mehrsprachigen parallelen Textentgiftungsdatensatz, der 16.000 hochwertige Entgiftungssatzpaare in Deutsch, Französisch, Spanisch und Russisch umfasst. Die Daten wurden aus verschiedenen Toxizitätsbewertungsdatensätzen bezogen und dann mit neun modernen Open-Source-Sprachmodellen im Few-Shot-Setting umgeschrieben. Unsere Experimente zeigen, dass Modelle, die auf den produzierten synthetischen Datensätzen trainiert wurden, eine überlegene Leistung im Vergleich zu denen auf dem human-annotierten MultiParaDetox-Datensatz haben, selbst bei begrenzten Daten. Modelle, die auf SynthDetoxM trainiert sind, übertreffen alle evaluierten Sprachmodelle im Few-Shot-Setting. Wir veröffentlichen unseren Datensatz und Code, um weitere Forschungen zur multilingualen Textentgiftung zu unterstützen.
Die Fähigkeiten zur Argumentation, insbesondere zur Lösung komplexer mathematischer Probleme, sind entscheidende Bestandteile der allgemeinen Intelligenz. In jüngster Zeit haben proprietäre Unternehmen, wie beispielsweise die o-Serien-Modelle von OpenAI, bemerkenswerte Fortschritte bei Argumentationsaufgaben erzielt. Die vollständigen technischen Details bleiben jedoch unveröffentlicht, und die angenommenen Techniken sind ausschließlich das Bestärkungslernen (RL) und die lange Gedankenreihe. Dieser Artikel schlägt ein neues RL-Framework namens OREAL vor, um die Leistungsgrenze zu verfolgen, die durch Outcome REwArd-basiertes Bestärkungslernen für mathematische Argumentationsaufgaben erreicht werden kann, bei denen nur binäre Ergebnisbelohnungen leicht zugänglich sind. Wir weisen theoretisch nach, dass das Verhaltenklonen auf positiven Trajektorien aus Best-of-N (BoN)-Stichproben ausreicht, um die KL-regulierten optimale Richtlinie in Umgebungen mit binärem Feedback zu erlernen. Diese Formulierung legt weiterhin nahe, dass die Belohnungen von negativen Stichproben umgeformt werden sollten, um die Gradientenkonsistenz zwischen positiven und negativen Stichproben sicherzustellen. Um die langjährigen Schwierigkeiten zu lindern, die durch spärliche Belohnungen im RL verursacht werden, die durch die teilweise Korrektheit der langen Gedankenreihe für Argumentationsaufgaben noch verschärft werden, wenden wir zusätzlich ein Token-Level-Belohnungsmodell an, um wichtige Token in Argumentationstrajectories zum Lernen auszuwählen. Mit OREAL kann ein 7B-Modell erstmals eine Passgenauigkeit von 94,0 bei MATH-500 durch RL erreichen, was mit 32B-Modellen vergleichbar ist. OREAL-32B übertrifft auch frühere 32B-Modelle, die durch Destillation trainiert wurden, mit einer Passgenauigkeit von 95,0 bei MATH-500. Unsere Untersuchung zeigt auch die Bedeutung von anfänglichen Richtlinienmodellen und Trainingsabfragen für RL auf. Der Code, die Modelle und die Daten werden veröffentlicht, um zukünftige Forschung zu unterstützen: https://github.com/InternLM/OREAL.
In diesem Paper stellen wir den Fluch der Tiefe vor, ein Konzept, das die kürzlich beobachtete Erscheinung in modernen Large Language Models (LLMs) hervorhebt, erklärt und angeht, bei der fast die Hälfte der Schichten weniger effektiv ist als erwartet. Wir bestätigen zunächst die weit verbreitete Existenz dieses Phänomens in den beliebtesten Familien von LLMs wie Llama, Mistral, DeepSeek und Qwen. Unsere Analyse identifiziert theoretisch und empirisch, dass der zugrunde liegende Grund für die Ineffektivität tiefer Schichten in LLMs die weit verbreitete Verwendung der Pre-Layer Normalization (Pre-LN) ist. Während Pre-LN das Training von Transformer LLMs stabilisiert, wächst die Ausgabenvielfalt exponentiell mit der Modelltiefe, was dazu führt, dass die Ableitung der tiefen Transformer-Blöcke eine Identitätsmatrix ist und daher kaum zum Training beiträgt. Um diesen Trainingsnachteil zu beheben, schlagen wir LayerNorm Scaling vor, das die Varianz der Ausgabe der Schichtnormalisierung umgekehrt durch die Quadratwurzel ihrer Tiefe skaliert. Diese einfache Modifikation mildert die Ausgabenvielfaltsexplosion tieferer Transformer-Schichten und verbessert ihren Beitrag. Unsere experimentellen Ergebnisse, die Modellgrößen von 130M bis 1B umfassen, zeigen, dass LayerNorm Scaling die LLM-Vortrainingsleistung im Vergleich zu Pre-LN signifikant verbessert. Darüber hinaus überträgt sich diese Verbesserung nahtlos auf das überwachte Feintuning. All diese Gewinne können darauf zurückgeführt werden, dass LayerNorm Scaling es tieferen Schichten ermöglicht, während des Trainings effektiver beizutragen.
Die Kommunikation in natürlicher Sprache ist ein mächtiges Werkzeug in Multi-Agenten-Umgebungen, da es unabhängigen Agenten ermöglicht, Informationen in teilweise beobachtbaren Umgebungen auszutauschen und eine Koordination ohne vorherige Anweisung mit Menschen zu ermöglichen. Die meisten bisherigen Arbeiten sind jedoch begrenzt, da sie entweder auf dem Training mit großen Mengen menschlicher Demonstrationen beruhen oder nicht in der Lage sind, natürliche und nützliche Kommunikationsstrategien zu generieren. In dieser Arbeit trainieren wir Sprachmodelle, um produktive Diskussionen über ihre Umgebung in natürlicher Sprache zu führen, ohne auf menschliche Demonstrationen angewiesen zu sein. Wir zerlegen das Kommunikationsproblem in Zuhören und Sprechen. Unsere Schlüsselidee besteht darin, die Zielsetzung des Agenten zu nutzen, um nützliche Informationen über die Welt als dichten Belohnungssignal vorherzusagen, das die Kommunikation lenkt. Konkret verbessern wir die Zuhörfähigkeiten eines Modells, indem wir sie trainieren, Informationen über die Umgebung basierend auf Diskussionen vorherzusagen, und wir verbessern gleichzeitig die Sprechfähigkeiten eines Modells mit Multi-Agenten-Verstärkungslernen, indem wir Nachrichten belohnen, basierend auf ihrem Einfluss auf andere Agenten. Um die Rolle und Notwendigkeit der Kommunikation in komplexen sozialen Umgebungen zu untersuchen, untersuchen wir ein verkörpertes soziales Deduktionsspiel basierend auf Among Us, bei dem die Schlüsselfrage die Identität eines feindlichen Schwindlers ist. Wir analysieren aufgrund unserer Technik entstandene Verhaltensweisen wie das Beschuldigen von Verdächtigen und das Bereitstellen von Beweisen und stellen fest, dass sie starke Diskussionen ermöglicht, wodurch die Gewinnraten im Vergleich zu Standard-RL verdoppelt werden. Wir veröffentlichen unseren Code und unsere Modelle unter https://socialdeductionllm.github.io/
Die Quantisierung von Modellgewichten ist entscheidend, um die Kommunikations- und Inferenzkosten großer Modelle zu reduzieren. Die Quantisierung von Modellen - insbesondere auf niedrige Präzisionen wie int4 oder int2 - erfordert jedoch einen Kompromiss in der Modellqualität; insbesondere ist bekannt, dass int2 die Modellqualität erheblich beeinträchtigt. Folglich sind Praktiker oft gezwungen, mehrere Modelle mit unterschiedlichen Quantisierungsstufen zu pflegen oder ein einziges Modell bereitzustellen, das den Qualitäts-Latenz-Kompromiss am besten erfüllt. Andererseits besitzen ganze Datentypen wie int8 von Natur aus eine verschachtelte (Matrjoschka-)Struktur, bei der kleinere Bitbreiten-Integer wie int4 oder int2 in den signifikantesten Bits verschachtelt sind. Dieses Papier schlägt Matrjoschka-Quantisierung (MatQuant) vor, eine neuartige Multiskalen-Quantisierungstechnik, die die Herausforderung der Notwendigkeit mehrerer quantisierter Modelle angeht. Sie ermöglicht das Training und die Pflege eines einzigen Modells, das dann auf verschiedenen Präzisionsstufen bereitgestellt werden kann. Darüber hinaus können aufgrund der Co-Trainings- und Co-Distillation-Regulierung, die MatQuant bietet, die int2-Präzisionsmodelle, die von MatQuant extrahiert werden, um bis zu 10 % genauer sein als die Standard int2-Quantisierung (unter Verwendung von Techniken wie QAT oder OmniQuant). Dies stellt einen signifikanten Fortschritt in der Modellquantisierung dar, wie sich daran zeigt, dass mit demselben Rezept ein int2 FFN-quantisiertes Gemma-2 9B-Modell genauer ist als ein int8 FFN-quantisiertes Gemma-2 2B-Modell.
Dieses Paper stellt das Large Memory Model (LM2) vor, eine Decoder-only Transformer-Architektur, die mit einem zusätzlichen Speichermodul verbessert wurde, um den Einschränkungen herkömmlicher Transformer bei mehrstufigem Denken, relationaler Argumentation und der Synthese von Informationen über große Kontexte hinweg entgegenzuwirken. Das vorgeschlagene LM2 integriert ein Speichermodul, das als Repository für kontextuelle Repräsentationen fungiert, mit Eingabetokens über Kreisaufmerksamkeit interagiert und durch Gate-Mechanismen aktualisiert. Um die allgemeinen Fähigkeiten der Transformer zu bewahren, behält LM2 den ursprünglichen Informationsfluss bei und integriert einen ergänzenden Speicherpfad. Experimentelle Ergebnisse am BABILong Benchmark zeigen, dass das LM2-Modell sowohl das speichererweiterte RMT-Modell um 37,1% als auch das Baseline-Modell Llama-3.2 um durchschnittlich 86,3% übertrifft. LM2 zeigt außergewöhnliche Fähigkeiten bei Multi-Hop-Schlussfolgerungen, numerischem Denken und Frage-Antworten über große Kontexte hinweg. Auf dem MMLU-Datensatz erzielt es eine Verbesserung von 5,0% gegenüber einem vorab trainierten Standardmodell und zeigt somit, dass sein Speichermodul die Leistung bei allgemeinen Aufgaben nicht beeinträchtigt. Darüber hinaus untersuchen wir in unserer Analyse die Interpretierbarkeit des Speichers, die Effektivität der Speichermodule und das Testverhalten. Unsere Ergebnisse betonen die Bedeutung expliziter Speicher für die Verbesserung von Transformer-Architekturen.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der Codegenerierung und Problemlösung erzielt. Aktuelle Ansätze verwenden externe werkzeugbasierte iterative Debugger, die Compiler oder andere werkzeugbasierte Laufzeit-Feedbacks nutzen, um grobe Programme zu verfeinern, die durch verschiedene Methoden generiert wurden. Die Effektivität dieser Ansätze hängt jedoch stark von der Qualität der initialen Codegenerierung ab, was eine offene Herausforderung darstellt. In diesem Paper stellen wir CodeSim vor, ein neuartiges Multi-Agenten-Codegenerierungs-Framework, das die Phasen der Programmsynthese - Planung, Codierung und Debugging - umfassend durch einen menschenähnlichen Wahrnehmungsansatz behandelt. Ähnlich wie Menschen ihre Verständnis von Algorithmen durch visuelle Simulation überprüfen, verfügt CodeSim über eine einzigartige Methode zur Planüberprüfung und internen Fehlersuche durch die schrittweise Simulation von Ein- und Ausgaben. Umfangreiche Experimente über sieben herausfordernde Wettbewerbsproblemlösungs- und Programmsynthese-Benchmarks zeigen die bemerkenswerten Codegenerierungsfähigkeiten von CodeSim. Unser Framework erzielt neue State-of-the-Art (pass@1) Ergebnisse - (HumanEval 95,1%, MBPP 90,7%, APPS 22% und CodeContests 29,1%). Darüber hinaus zeigt unsere Methode Potenzial für noch größere Verbesserungen, wenn sie mit externen Debuggern kombiniert wird. Um weitere Forschung und Entwicklung in diesem Bereich zu erleichtern, haben wir unser Framework unter folgendem Link als Open Source veröffentlicht (https://kagnlp.github.io/codesim.github.io/).
In der Forschung gibt es ein wachsendes Interesse am Aufbau vereinheitlichter multimodaler Verständnis- und Generierungsmodelle, unter denen Show-o als bemerkenswerter Vertreter gilt und großes Potenzial sowohl für die Text-zu-Bild- als auch Bild-zu-Text-Generierung zeigt. Die Inferenz von Show-o beinhaltet das schrittweise Entfernen von Bildtoken und das autoregressive Dekodieren von Texttoken, was leider zu Effizienzproblemen auf beiden Seiten führt. Dieser Artikel stellt Show-o Turbo vor, um die Kluft zu überbrücken. Zunächst identifizieren wir eine vereinheitlichte Denkweise für die Generierung von Bildern und Text in Show-o, basierend auf dem parallelen Dekodieren von Texttoken. Wir schlagen vor, die Konsistenzdestillation (CD), einen qualifizierten Ansatz zur Verkürzung des Entfernungsprozesses von Diffusionsmodellen, auf die multimodalen Entfernungsverläufe von Show-o zu erweitern. Wir führen eine Trajektoriensegmentierungsstrategie und ein Curriculum-Lernverfahren ein, um die Trainingskonvergenz zu verbessern. Empirisch zeigt Show-o Turbo bei der Text-zu-Bild-Generierung einen GenEval-Score von 0,625 bei 4 Abtastschritten ohne Verwendung von klassifiziererfreier Führung (CFG), was die Leistung des ursprünglichen Show-o mit 8 Schritten und CFG übertrifft. Bei der Bild-zu-Text-Generierung weist Show-o Turbo eine Beschleunigung um das 1,5-fache auf, ohne die Leistung signifikant zu beeinträchtigen. Der Code ist verfügbar unter https://github.com/zhijie-group/Show-o-Turbo.
Wir präsentieren, dass hierarchisches LLM-Argumentieren über das Skalieren von Gedankenvorlagen effektiv den Argumentationssuchraum optimieren kann und die mathematischen Argumentationsfähigkeiten leistungsstarker LLMs wie OpenAI o1-preview und DeepSeek V3 übertrifft. Wir trainieren unser ReasonFlux-32B-Modell mit nur 8 GPUs und führen drei Innovationen ein: (i) eine strukturierte und generische Gedankenvorlagenbibliothek, die etwa 500 hochrangige Gedankenvorlagen enthält, die in der Lage sind, auf ähnliche oder relevante Argumentationsprobleme zu verallgemeinern; (ii) die Durchführung hierarchischen Verstärkungslernens an einer Sequenz von Gedankenvorlagen anstelle von langen CoTs, wodurch ein Basis-LLM optimiert wird, um eine optimale Vorlagen-Trajektorie zur schrittweisen Bewältigung komplexer Probleme zu planen; (iii) ein brandneues Inferenzskalierungssystem, das hierarchisches LLM-Argumentieren ermöglicht, indem Gedankenvorlagen zur Inferenzzeit adaptiv skaliert werden. Mit einer Vorlagen-Trajektorie, die aufeinanderfolgende Gedankenvorlagen enthält, verbessert unser ReasonFlux-32B die mathematischen Argumentationsfähigkeiten signifikant auf den Stand der Technik. Bemerkenswerterweise erreicht es auf dem MATH-Benchmark eine Genauigkeit von 91,2% und übertrifft o1-preview um 6,7%. Auf dem USA Mathematik-Olympiade (AIME) Benchmark löst ReasonFlux-32B durchschnittlich 56,7% der Probleme, wobei es o1-preview und DeepSeek-V3 um 27% bzw. 45% übertrifft. Code: https://github.com/Gen-Verse/ReasonFlux
Die Beschleunigung der Inferenz in Large Language Models (LLMs) ist entscheidend für Echtzeitinteraktionen, da sie weit verbreitet in Echtzeitdienste integriert wurden. Spekulatives Decodieren, eine vollständig algorithmische Lösung, hat Aufmerksamkeit erregt, um die Inferenzgeschwindigkeit zu verbessern, indem Tokens entworfen und überprüft werden, um so mehrere Tokens in einem einzigen Vorwärtsschritt zu generieren. Allerdings erfordern aktuelle Entwurfsstrategien in der Regel eine umfangreiche Feinabstimmung oder zeigen eine inkonsistente Leistung über verschiedene Aufgaben hinweg. Um diese Herausforderungen anzugehen, schlagen wir Hierarchy Drafting (HD) vor, einen neuartigen verlustfreien Entwurfsansatz, der verschiedene Token-Quellen in mehrere Datenbanken in einem hierarchischen Rahmen basierend auf zeitlicher Lokalität organisiert. Im Entwurfschritt greift HD sequenziell auf mehrere Datenbanken zu, um Entwurfs-Tokens von der höchsten zur niedrigsten Lokalität zu erhalten, wodurch eine konsistente Beschleunigung über verschiedene Aufgaben hinweg sichergestellt und die Entwurfs-Latenz minimiert wird. Unsere Experimente mit Spec-Bench unter Verwendung von LLMs mit 7B und 13B Parametern zeigen, dass HD bestehende Datenbank-Entwurfsverfahren übertrifft und robuste Inferenzbeschleunigungen über Modellgrößen, Aufgaben und Temperaturen hinweg erreicht.
Große Sprachmodell (LLM) Agenten haben bemerkenswerte Fähigkeiten bei der Aufgabenautomatisierung und intelligenten Entscheidungsfindung gezeigt, was zur weit verbreiteten Verwendung von Agentenentwicklungs-Frameworks wie LangChain und AutoGen geführt hat. Allerdings bedienen diese Frameworks hauptsächlich Entwickler mit umfangreicher technischer Expertise - eine bedeutende Einschränkung, wenn man bedenkt, dass nur 0,03 % der globalen Bevölkerung über die erforderlichen Programmierkenntnisse verfügen. Diese deutliche Zugänglichkeitslücke wirft eine grundlegende Frage auf: Können wir es jedem ermöglichen, unabhhängig von technischem Hintergrund, ihre eigenen LLM-Agenten ausschließlich mit natürlicher Sprache zu erstellen? Um dieser Herausforderung zu begegnen, stellen wir MetaChain vor - ein vollautomatisiertes und hochgradig selbstentwickelndes Framework, das Benutzern ermöglicht, LLM-Agenten allein durch natürliche Sprache zu erstellen und bereitzustellen. Als autonomes Agenten-Betriebssystem fungierend, besteht MetaChain aus vier Schlüsselkomponenten: i) Agentische Systemdienstprogramme, ii) LLM-gestützter handlungsfähiger Motor, iii) selbstverwaltendes Dateisystem und iv) Selbstspiel-Agentenanpassungsmodul. Dieses leichte, aber leistungsstarke System ermöglicht eine effiziente und dynamische Erstellung und Modifikation von Werkzeugen, Agenten und Workflows ohne Kodierungsanforderungen oder manuelle Eingriffe. Über seine agentenentwicklungsfähigkeiten ohne Code hinaus dient MetaChain auch als vielseitiges Multi-Agenten-System für allgemeine KI-Assistenten. Umfassende Bewertungen am GAIA-Benchmark zeigen die Wirksamkeit von MetaChain bei generalistischen Multi-Agenten-Aufgaben, wobei es bestehende State-of-the-Art-Methoden übertrifft. Darüber hinaus haben die RAG-bezogenen Fähigkeiten von MetaChain eine durchweg überlegene Leistung im Vergleich zu vielen alternativen LLM-basierten Lösungen gezeigt.
Jüngste Fortschritte haben die Diffusion Transformers (DiTs) als dominantes Framework in der generativen Modellierung etabliert. Aufbauend auf diesem Erfolg erzielt Lumina-Next eine außergewöhnliche Leistung bei der Erzeugung fotorealistischer Bilder mit Next-DiT. Das Potenzial für die Videogenerierung bleibt jedoch weitgehend ungenutzt, da erhebliche Herausforderungen bei der Modellierung der räumlich-zeitlichen Komplexität, die in Videodaten inhärent ist, bestehen. Um dies zu bewältigen, stellen wir Lumina-Video vor, ein Framework, das die Stärken von Next-DiT nutzt und maßgeschneiderte Lösungen für die Videosynthese einführt. Lumina-Video integriert eine Multi-Scale Next-DiT-Architektur, die gemeinsam mehrere Patchifizierungen lernt, um sowohl Effizienz als auch Flexibilität zu verbessern. Durch die Einbeziehung des Bewegungsscores als explizite Bedingung ermöglicht Lumina-Video auch eine direkte Steuerung des dynamischen Grades der generierten Videos. In Kombination mit einem progressiven Trainingsschema mit zunehmend höherer Auflösung und FPS sowie einem Multi-Source-Trainingsschema mit gemischten natürlichen und synthetischen Daten erzielt Lumina-Video bemerkenswerte ästhetische Qualität und Bewegungsglattheit bei hoher Trainingseffizienz und Inferenzgeschwindigkeit. Darüber hinaus schlagen wir Lumina-V2A vor, ein Video-zu-Audio-Modell auf Basis von Next-DiT, um synchronisierte Geräusche für generierte Videos zu erzeugen. Der Code ist unter https://www.github.com/Alpha-VLLM/Lumina-Video verfügbar.
Bestehende Encoder-freie Vision-Sprache-Modelle (VLMs) verringern schnell den Leistungsunterschied zu ihren encoderbasierten Gegenstücken und betonen das vielversprechende Potenzial für vereinheitlichte multimodale Systeme mit struktureller Einfachheit und effizienter Bereitstellung. Wir klären systematisch den Leistungsunterschied zwischen VLMs, die vortrainierte Vision-Encoder, diskrete Tokenizer und minimalistische visuelle Schichten von Grund auf verwenden, und graben tief, um die bisher unerforschten Merkmale von encoderfreien VLMs zu untersuchen. Wir entwickeln effiziente Strategien für encoderfreie VLMs, die mit gängigen encoderbasierten Modellen konkurrieren. Nach einer gründlichen Untersuchung starten wir EVEv2.0, eine neue und verbesserte Familie von encoderfreien VLMs. Wir zeigen: (i) Durch eine ordnungsgemäße Zerlegung und hierarchische Verknüpfung von Vision und Sprache in einem vereinheitlichten Modell wird die Interferenz zwischen Modalitäten reduziert. (ii) Eine gut durchdachte Schulungsstrategie ermöglicht eine effektive Optimierung für encoderfreie VLMs. Durch umfangreiche Evaluation repräsentiert unser EVEv2.0 eine gründliche Studie zur Entwicklung einer reinen Decoder-Architektur über Modalitäten hinweg und zeigt eine überlegene Daten-Effizienz und starke Vision-Reasoning-Fähigkeiten. Der Code ist öffentlich verfügbar unter: https://github.com/baaivision/EVE.
Die klassifiziererfreie Führung (CFG) ist eine Schlüsseltechnik zur Verbesserung der bedingten Generierung in Diffusionsmodellen, die eine genauere Steuerung ermöglicht und die Qualität der Proben verbessert. Es ist naheliegend, diese Technik auf die Video-Diffusion zu erweitern, die Videos unter der Bedingung einer variablen Anzahl von Kontextbildern erzeugt, die zusammen als Historie bezeichnet werden. Wir stoßen jedoch auf zwei Hauptprobleme bei der Führung mit einer Historie variabler Länge: Architekturen, die nur eine Konditionierung fester Größe unterstützen, und die empirische Beobachtung, dass die CFG-ähnliche Historienauslassung schlechte Leistungen erbringt. Um dies zu lösen, schlagen wir den Diffusion Forcing Transformer (DFoT) vor, eine Video-Diffusionsarchitektur und ein theoretisch fundiertes Trainingsziel, die es gemeinsam ermöglichen, eine flexible Anzahl von Historienbildern zu konditionieren. Anschließend führen wir die Historienführung ein, eine Familie von Führungsmethoden, die durch DFoT einzigartig ermöglicht werden. Wir zeigen, dass bereits ihre einfachste Form, die Vanille-Historienführung, die Qualität der Videoerzeugung und die zeitliche Konsistenz signifikant verbessert. Eine fortgeschrittenere Methode, die Historienführung über Zeit und Frequenz hinweg, verbessert die Bewegungsdynamik weiter, ermöglicht eine zusammengesetzte Verallgemeinerung auf Historien außerhalb der Verteilung und kann extrem lange Videos stabil ausrollen. Webseite: https://boyuan.space/history-guidance
Große Vision-Sprach-Modelle (LVLMs) können effektiv über sowohl textuelle als auch visuelle Eingaben Schlussfolgerungen ziehen, neigen jedoch dazu, syntaktisch kohärente, aber visuell nicht verankerte Inhalte zu halluzinieren. In diesem Artikel untersuchen wir die internen Dynamiken der Halluzination, indem wir die Rangfolgen der Token-Logits während des Generierungsprozesses untersuchen und drei Schlüsselmuster in der Informationsverarbeitung von LVLMs aufdecken: (1) allmählicher Verlust visueller Informationen - visuell verankerte Tokens werden im Laufe der Generierung allmählich weniger bevorzugt, und (2) frühe Erregung - semantisch sinnvolle Tokens erreichen ihren Höhepunkt in den Schichten früher als in der letzten Schicht. (3) verborgene echte Informationen - visuell verankerte Tokens behalten trotz fehlender endgültiger Entscheidung relativ hohe Rangfolgen bei der Inferenz bei. Basierend auf diesen Erkenntnissen schlagen wir VISTA (Visual Information Steering with Token-logit Augmentation) vor, ein trainingsfreies Interventionsrahmenwerk zur Reduzierung von Halluzinationen und Förderung echter Informationen zur Inferenzzeit. VISTA funktioniert durch die Kombination von zwei komplementären Ansätzen: Verstärkung visueller Informationen im Aktivierungsbereich und Nutzung früher Schichtaktivierungen zur Förderung semantisch sinnvoller Dekodierung. Im Vergleich zu bestehenden Methoden erfordert VISTA keine externe Überwachung und ist auf verschiedene Dekodierungsstrategien anwendbar. Umfangreiche Experimente zeigen, dass VISTA im Durchschnitt die Halluzination um etwa 40% bei der bewerteten offenen Generierungsaufgabe reduziert und kontinuierlich bestehende Methoden auf vier Benchmarks über vier Architekturen unter drei Dekodierungsstrategien übertrifft.
Die personalisierte Generierung hat signifikante Fortschritte in der Bildsynthese erzielt, doch die personalisierte Videogenerierung bleibt aufgrund zeitlicher Inkonsistenzen und Qualitätsminderungen eine Herausforderung. In diesem Artikel stellen wir CustomVideoX vor, ein innovatives Framework, das den Video-Diffusionstransformer für die personalisierte Videogenerierung aus einem Referenzbild nutzt. CustomVideoX setzt auf vorab trainierte Videonetzwerke, indem ausschließlich die LoRA-Parameter trainiert werden, um Referenzmerkmale zu extrahieren, was sowohl Effizienz als auch Anpassungsfähigkeit gewährleistet. Um eine nahtlose Interaktion zwischen dem Referenzbild und dem Videomaterial zu ermöglichen, schlagen wir 3D-Referenzaufmerksamkeit vor, die eine direkte und gleichzeitige Einbindung von Referenzbildmerkmalen mit allen Videoframes über räumliche und zeitliche Dimensionen hinweg ermöglicht. Um den übermäßigen Einfluss von Referenzbildmerkmalen und textueller Anleitung auf das generierte Videomaterial während der Inferenz zu mildern, implementieren wir die Strategie der zeitbewussten Referenzaufmerksamkeitsverzerrung (TAB), die die Referenzaufmerksamkeit dynamisch über verschiedene Zeitschritte moduliert. Darüber hinaus führen wir das Entity Region-Aware Enhancement (ERAE)-Modul ein, das stark aktivierten Regionen von Schlüsselelement-Token mit der Referenzmerkmaleinspritzung durch Anpassung der Aufmerksamkeitsverzerrung ausrichtet. Um die personalisierte Videogenerierung umfassend zu bewerten, etablieren wir einen neuen Benchmark, VideoBench, der über 50 Objekte und 100 Anfragen für eine umfangreiche Bewertung umfasst. Experimentelle Ergebnisse zeigen, dass CustomVideoX in Bezug auf Videokonsistenz und -qualität signifikant besser abschneidet als bestehende Methoden.
Trotz des Versprechens, hochwertige Videos zu synthetisieren, leiden Diffusionstransformatoren (DiTs) mit 3D-Vollaufmerksamkeit unter teurer Inferenz aufgrund der Komplexität der Aufmerksamkeitsberechnung und zahlreicher Abtastschritte. Zum Beispiel benötigt das beliebte Open-Sora-Plan-Modell mehr als 9 Minuten, um ein einziges Video mit 29 Frames zu generieren. Dieser Artikel behandelt das Effizienzproblem aus zwei Aspekten: 1) Beschneiden der 3D-Vollaufmerksamkeit basierend auf der Redundanz innerhalb der Videodaten; Wir identifizieren ein weit verbreitetes kachelartiges wiederholendes Muster in den 3D-Aufmerksamkeitskarten für Videodaten und befürworten eine neue Familie von dünnen 3D-Aufmerksamkeit, die eine lineare Komplexität in Bezug auf die Anzahl der Videoframes aufweist. 2) Verkürzen des Abtastprozesses durch die Übernahme der bestehenden Mehrschritt-Konsistenzdestillation; Wir unterteilen die gesamte Abtasttrajektorie in mehrere Segmente und führen Konsistenzdestillation in jedem einzelnen durch, um wenige Schritte der Generationskapazitäten zu aktivieren. Wir entwickeln weiterhin eine dreistufige Schulungspipeline, um die Aufmerksamkeit mit geringer Komplexität und die Generationskapazitäten mit wenigen Schritten zu verbinden. Bemerkenswert ist, dass wir mit 0,1% der Vorab-Schulungsdaten das Open-Sora-Plan-1.2-Modell in ein effizientes Modell verwandeln, das für die Generierung von 29 und 93 Frames 720p-Videos 7,4x - 7,8x schneller ist, mit einem marginalen Leistungsausgleich in VBench. Darüber hinaus zeigen wir, dass unser Ansatz für verteilte Inferenz geeignet ist und einen zusätzlichen Geschwindigkeitszuwachs von 3,91x erzielt, wenn er auf 4 GPUs mit Sequenzparallelität ausgeführt wird.
Der vorherrschende Ansatz zur Schulung von Web-Navigationsagenten sammelt menschliche Demonstrationen für eine Reihe von beliebten Websites und handgeschriebene Aufgaben, aber es wird immer klarer, dass menschliche Daten eine ineffiziente Ressource sind. Wir entwickeln eine Pipeline, um das Training von Agenten im Internet-Maßstab ohne mühsame menschliche Annotationen zu erleichtern. In der ersten Phase generiert ein LLM Aufgaben für 150.000 verschiedene Websites. In der nächsten Phase erledigen LLM-Agenten die Aufgaben und erstellen Trajektorien. In der letzten Phase überprüft ein LLM die Trajektorien und bewertet ihren Erfolg. Sprachmodelle sind wettbewerbsfähig mit menschlichen Annotatoren, indem sie schädliche Inhalte mit einer Genauigkeit von 97% erkennen und filtern, machbare Aufgaben mit einer Rate von 89% generieren und erfolgreiche Trajektorien mit einer Genauigkeit von 82,6% bewerten. Durch Skalierung der Pipeline lösen Agenten auf Basis von Llama 3.1 70B 16,7% der Aufgaben für 150.000 Websites. Das Training auf den von unserer Pipeline generierten Daten ist wettbewerbsfähig mit dem Training auf menschlichen Demonstrationen. In datenbeschränkten Umgebungen, abgeleitet von Mind2Web und WebLINX, verbessern wir die Schrittgenauigkeit um bis zu +89,5% bzw. +122,1% für Agenten, die auf Mischungen von Daten aus unserer Pipeline und menschlichen Daten trainiert wurden. Beim Training von Agenten mit allen verfügbaren menschlichen Daten aus diesen Benchmarks gelingt es den Agenten nicht, auf vielfältige reale Websites zu verallgemeinern, und die Hinzufügung unserer Daten verbessert ihre Verallgemeinerung um +149,0% für WebLINX und +156,3% für Mind2Web. Der Code wird verfügbar sein unter: data-for-agents.github.io.
Neueste Fortschritte in der Optimierung menschlicher Präferenzen, die ursprünglich für Große Sprachmodelle (LLMs) entwickelt wurden, haben ein signifikantes Potenzial gezeigt, um die Text-zu-Bild-Diffusionsmodelle zu verbessern. Diese Methoden zielen darauf ab, die Verteilung bevorzugter Proben zu erlernen, während sie diese von weniger bevorzugten unterscheiden. Allerdings zeigen bestehende Präferenzdatensätze oft Überlappungen zwischen diesen Verteilungen, was zu einer Konfliktdistribution führt. Darüber hinaus haben wir festgestellt, dass Eingabeaufforderungen für weniger bevorzugte Bilder irrelevante Informationen enthalten, was die Fähigkeit des Denoising-Netzwerks zur genauen Vorhersage von Rauschen in Präferenzoptimierungsmethoden einschränkt, bekannt als das Problem der irrelevanten Aufforderung. Um diesen Herausforderungen zu begegnen, schlagen wir die Dual Caption Preference Optimization (DCPO) vor, einen neuartigen Ansatz, der zwei unterschiedliche Bildunterschriften verwendet, um irrelevante Aufforderungen zu reduzieren. Um die Konfliktdistribution anzugehen, führen wir den Pick-Double Caption-Datensatz ein, eine modifizierte Version von Pick-a-Pic v2 mit separaten Bildunterschriften für bevorzugte und weniger bevorzugte Bilder. Wir schlagen außerdem drei verschiedene Strategien zur Generierung unterschiedlicher Bildunterschriften vor: Bildunterschrift, Perturbation und Hybridmethoden. Unsere Experimente zeigen, dass DCPO die Bildqualität und Relevanz für Aufforderungen signifikant verbessert und Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO und MaPO in mehreren Metriken, einschließlich Pickscore, HPSv2.1, GenEval, CLIPscore und ImageReward, übertreffen, die auf SD 2.1 als Grundlage feinabgestimmt wurden.
Die Text-zu-3D-Generierung automatisiert die Erstellung von 3D-Inhalten aus textuellen Beschreibungen, was ein transformatives Potenzial in verschiedenen Bereichen bietet. Allerdings haben bestehende Methoden oft Schwierigkeiten, generierte Inhalte mit menschlichen Präferenzen in Einklang zu bringen, was ihre Anwendbarkeit und Flexibilität einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir in diesem Paper DreamDPO vor, ein optimierungsbasiertes Framework, das menschliche Präferenzen in den 3D-Generierungsprozess integriert, durch direkte Präferenzoptimierung. Praktisch betrachtet konstruiert DreamDPO zunächst paarweise Beispiele, vergleicht dann ihre Ausrichtung mit menschlichen Präferenzen mithilfe von Belohnungen oder großen multimodalen Modellen und optimiert schließlich die 3D-Repräsentation mit einer präferenzgesteuerten Verlustfunktion. Durch die Nutzung von paarweisen Vergleichen zur Abbildung von Präferenzen reduziert DreamDPO die Abhängigkeit von präzisen punktweisen Qualitätsbewertungen und ermöglicht eine fein abgestimmte Steuerbarkeit durch präferenzgesteuerte Optimierung. Experimente zeigen, dass DreamDPO wettbewerbsfähige Ergebnisse erzielt und im Vergleich zu bestehenden Methoden 3D-Inhalte von höherer Qualität und besserer Steuerbarkeit liefert. Der Code und die Modelle werden Open Source zur Verfügung gestellt.
Techniken zur kontextgestützten Generierung (Context-augmented generation, CAG), einschließlich RAG und ICL, erfordern die effiziente Kombination mehrerer Kontexte, um Antworten auf Benutzeranfragen zu generieren. Das direkte Eingeben dieser Kontexte als Sequenz führt zu einer erheblichen Rechenlast, da die kombinierte Auswahl von Kontexten für jede Anfrage erneut codiert werden muss. Um dies zu lösen, untersuchen wir das vielversprechende Potenzial der parallelen Codierung, um unabhängig jeden KV-Zustand jedes Kontexts vorzuberechnen und zu zwischenspeichern. Dieser Ansatz ermöglicht das direkte Laden zwischengespeicherter Zustände während der Inferenz und ermöglicht eine bessere Handhabung von mehreren Kontexten durch die Wiederverwendung von Positionen über verschiedene Kontexte hinweg. Allerdings führt die direkte Anwendung der parallelen Codierung aufgrund von Missabstimmungen in der Aufmerksamkeitsverteilung zu einem signifikanten Leistungsabfall. Um eine effektive und effiziente CAG zu ermöglichen, schlagen wir Adaptive Parallel Encoding (APE) vor, das gemeinsame Präfixe, Aufmerksamkeitstemperatur und Skalierungsfaktoren verwendet, um die Verteilung der parallelen Codierung mit der sequenziellen Codierung abzustimmen. Ergebnisse bei RAG- und ICL-Aufgaben zeigen, dass APE 98% bzw. 93% der Leistung der sequenziellen Codierung beibehalten kann, während es die parallele Codierung um 3,6% bzw. 7,9% übertrifft. Es ist auch für die Verarbeitung von vielen Kontexten in einem Durchgang geeignet. Die Effizienzbewertung zeigt, dass APE eine End-to-End-Beschleunigung um das 4,5-fache erreichen kann, indem die Vorabfüllzeit für einen Kontext der Länge 128K um das 28-fache reduziert wird.
Steel-LLM ist ein chinesisch-zentriertes Sprachmodell, das von Grund auf entwickelt wurde, mit dem Ziel, ein qualitativ hochwertiges Open-Source-Modell trotz begrenzter Rechenressourcen zu erstellen. Das Projekt wurde im März 2024 gestartet, um ein 1-Milliarden-Parameter-Modell auf einem groß angelegten Datensatz zu trainieren, wobei Transparenz und der Austausch praktischer Erkenntnisse priorisiert wurden, um anderen in der Gemeinschaft zu helfen. Der Trainingsprozess konzentrierte sich hauptsächlich auf chinesische Daten, wobei ein kleiner Anteil englischer Daten enthalten war, um Lücken in bestehenden Open-Source-LLMs zu schließen, indem ein detaillierteres und praxisnäheres Konto des Modellbau-Prozesses bereitgestellt wurde. Steel-LLM hat eine wettbewerbsfähige Leistung auf Benchmarks wie CEVAL und CMMLU gezeigt und frühzeitige Modelle größerer Institutionen übertroffen. Dieses Papier bietet eine umfassende Zusammenfassung der wichtigsten Beiträge des Projekts, einschließlich Datensammlung, Modellentwurf, Trainingsmethoden und der Herausforderungen auf dem Weg, und stellt eine wertvolle Ressource für Forscher und Praktiker dar, die ihre eigenen LLMs entwickeln möchten. Die Modell-Checkpoints und das Trainungsskript sind unter https://github.com/zhanshijinwat/Steel-LLM verfügbar.
Spekulatives Decodieren (SD) beschleunigt die Inferenz großer Sprachmodelle, indem ein kleinerer Entwurf eines Modells verwendet wird, um mehrere Token vorherzusagen, die dann parallel vom größeren Zielmodell überprüft werden. Die begrenzte Kapazität des Entwurfsmodells erfordert jedoch häufig baumbasiertes Sampling, um die Vorhersagegenauigkeit zu verbessern, wobei mehrere Kandidaten in jedem Schritt generiert werden. Wir identifizieren eine wesentliche Einschränkung dieses Ansatzes: Die Kandidaten im selben Schritt stammen aus derselben Repräsentation, was die Vielfalt einschränkt und die Gesamteffektivität verringert. Um dies zu lösen, schlagen wir Jakiro vor, das Mixture of Experts (MoE) nutzt, bei dem unabhängige Experten vielfältige Vorhersagen generieren, um Korrelationen zwischen Kandidaten effektiv zu entkoppeln. Darüber hinaus führen wir eine hybride Inferenzstrategie ein, die autoregressives Decodieren für anfängliche Token mit parallelem Decodieren für nachfolgende Stufen kombiniert und letzteres mit einem kontrastiven Mechanismus in den Merkmalen zur Verbesserung der Genauigkeit verstärkt. Unsere Methode steigert die Vorhersagegenauigkeit erheblich und erzielt höhere Beschleunigungen bei der Inferenz. Umfangreiche Experimente mit verschiedenen Modellen bestätigen die Wirksamkeit und Robustheit unseres Ansatzes und etablieren einen neuen SOTA im spekulativen Decodieren. Unser Code ist verfügbar unter https://github.com/haiduo/Jakiro.
Sprachkonditionierte Robotermodelle haben das Potenzial, Robotern zu ermöglichen, eine Vielzahl von Aufgaben basierend auf natürlichen Sprachanweisungen auszuführen. Die Bewertung ihrer Sicherheit und Effektivität bleibt jedoch eine Herausforderung, da es schwierig ist, alle verschiedenen Arten zu testen, wie eine einzelne Aufgabe formuliert werden kann. Aktuelle Benchmarks haben zwei wesentliche Einschränkungen: Sie stützen sich auf eine begrenzte Anzahl von menschenerzeugten Anweisungen, die viele anspruchsvolle Fälle vermissen, und konzentrieren sich nur auf die Aufgabenausführung, ohne die Sicherheit zu bewerten, wie beispielsweise das Vermeiden von Schäden. Um diese Lücken zu schließen, führen wir Embodied Red Teaming (ERT) ein, eine neue Bewertungsmethode, die vielfältige und anspruchsvolle Anweisungen generiert, um diese Modelle zu testen. ERT verwendet automatisierte Red Teaming-Techniken mit Vision-Sprachmodellen (VLMs), um kontextuell fundierte, schwierige Anweisungen zu erstellen. Experimentelle Ergebnisse zeigen, dass sprachkonditionierte Robotermodelle auf dem neuesten Stand der Technik bei von ERT generierten Anweisungen versagen oder unsicher handeln, was die Mängel der aktuellen Benchmarks bei der Bewertung der Leistungs- und Sicherheitsfähigkeiten in realen Situationen unterstreicht. Der Code und Videos sind verfügbar unter: https://s-karnik.github.io/embodied-red-team-project-page.
Die Entwicklung robuster Sicherheitsmaßstäbe für große Sprachmodelle erfordert offene, reproduzierbare Datensätze, die sowohl die angemessene Ablehnung schädlicher Inhalte als auch mögliche Überbeschränkungen legitimer wissenschaftlicher Diskurse messen können. Wir präsentieren einen Open-Source-Datensatz und ein Testframework zur Bewertung von Sicherheitsmechanismen von LLM hauptsächlich für kontrollierte Substanzanfragen, analysieren die Reaktionen von vier Hauptmodellen auf systematisch variierte Aufforderungen. Unsere Ergebnisse zeigen unterschiedliche Sicherheitsprofile: Claude-3.5-Sonett zeigte den konservativsten Ansatz mit 73 % Ablehnungen und 27 % Zulassungen, während Mistral versuchte, 100 % der Anfragen zu beantworten. GPT-3.5-Turbo zeigte eine moderate Einschränkung mit 10 % Ablehnungen und 90 % Zulassungen, und Grok-2 registrierte 20 % Ablehnungen und 80 % Zulassungen. Testen von Strategien zur Variation der Aufforderungen zeigte eine abnehmende Antwortkonsistenz, von 85 % bei einzelnen Aufforderungen auf 65 % bei fünf Variationen. Dieser öffentlich verfügbare Maßstab ermöglicht eine systematische Bewertung des kritischen Gleichgewichts zwischen notwendigen Sicherheitsbeschränkungen und potenzieller Überzensur legitimer wissenschaftlicher Untersuchungen und bildet eine Grundlage zur Messung des Fortschritts bei der Implementierung von KI-Sicherheit. Die Analyse von Gedankengängen zeigt potenzielle Schwachstellen in Sicherheitsmechanismen auf und verdeutlicht die Komplexität der Implementierung robuster Schutzmaßnahmen, ohne wünschenswerte und gültige wissenschaftliche Diskurse unangemessen einzuschränken.