Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz enormer Fortschritte haben generative Videomodelle immer noch Schwierigkeiten, reale Bewegungen, Dynamiken und Physik einzufangen. Wir zeigen, dass diese Einschränkung aus dem herkömmlichen Pixelrekonstruktionsziel resultiert, das Modelle in Richtung Erscheinungstreue auf Kosten der Bewegungskohärenz beeinflusst. Um dies zu lösen, führen wir VideoJAM ein, ein neuartiges Framework, das einem effektiven Bewegungspriorität für Videogeneratoren einflößt, indem es das Modell dazu ermutigt, eine gemeinsame Erscheinungs-Bewegungs-Repräsentation zu erlernen. VideoJAM besteht aus zwei komplementären Einheiten. Während des Trainings erweitern wir das Ziel, sowohl die generierten Pixel als auch ihre entsprechende Bewegung aus einer einzigen erlernten Repräsentation vorherzusagen. Während der Inferenz führen wir Inner-Guidance ein, einen Mechanismus, der die Generierung durch Nutzung der eigenen sich entwickelnden Bewegungsvorhersage des Modells als dynamisches Leitsignal in Richtung kohärenter Bewegung lenkt. Bemerkenswert ist, dass unser Framework auf jedes Videomodell mit minimalen Anpassungen angewendet werden kann, ohne Änderungen an den Trainingsdaten oder Skalierung des Modells zu erfordern. VideoJAM erreicht eine Spitzenleistung in Bewegungskohärenz, übertrifft hochkonkurrierende proprietäre Modelle und verbessert gleichzeitig die wahrgenommene visuelle Qualität der Generierungen. Diese Ergebnisse betonen, dass Erscheinung und Bewegung komplementär sein können und, wenn effektiv integriert, sowohl die visuelle Qualität als auch die Kohärenz der Videogenerierung verbessern können. Projektwebsite: https://hila-chefer.github.io/videojam-paper.github.io/
Der Großteil des Fortschritts bei aktuellen Codierer-Modellen wurde durch überwachtes Feintuning (SFT) vorangetrieben, während das Potenzial des Reinforcement Learning (RL) größtenteils unerforscht bleibt, hauptsächlich aufgrund des Mangels an zuverlässigen Belohnungsdaten/Modellen im Code-Bereich. In diesem Artikel gehen wir dieses Problem an, indem wir automatisierte groß angelegte Testfall-Synthese nutzen, um das Training von Code-Modellen zu verbessern. Konkret entwerfen wir eine Pipeline, die umfangreiche (Frage, Testfall)-Paare aus vorhandenen Code-Daten generiert. Unter Verwendung dieser Testfälle konstruieren wir Präferenzpaare basierend auf Bestehensraten über ausgewählten Programmen, um Belohnungsmodelle mit Bradley-Terry-Verlust zu trainieren. Es zeigt eine durchschnittliche Verbesserung von 10 Punkten für Llama-3.1-8B-Ins und 5 Punkten für Qwen2.5-Coder-7B-Ins durch das beste von 32 Sampling, was das 7B-Modell auf Augenhöhe mit 236B DeepSeek-V2.5 bringt. Darüber hinaus führen wir Reinforcement Learning mit beiden Belohnungsmodellen und Testfall-Bestehensbelohnungen durch, was zu konsistenten Verbesserungen bei HumanEval, MBPP, BigCodeBench und LiveCodeBench (V4) führt. Bemerkenswert ist, dass wir das Training im R1-Stil beginnen, direkt von Qwen2.5-Coder-base ausgehend, und zeigen, dass unser RL-Training das Modell bei HumanEval-plus um über 25\% und bei MBPP-plus um 6\% nach nur 80 Optimierungsschritten verbessern kann. Wir sind der Meinung, dass unsere Ergebnisse das enorme Potenzial des Reinforcement Learning in Codierer-Modellen verdeutlichen.
Das Erlernen von Diffusionsbrückenmodellen ist einfach; sie schnell und praktisch zu machen ist eine Kunst. Diffusionsbrückenmodelle (DBMs) sind eine vielversprechende Erweiterung von Diffusionsmodellen für Anwendungen in der Bild-zu-Bild-Übersetzung. Allerdings leiden DBMs wie viele moderne Diffusions- und Flussmodelle unter dem Problem langsamer Inferenz. Um dem entgegenzuwirken, schlagen wir eine neuartige Destillationstechnik auf Basis der inversen Brückenabgleichsformulierung vor und leiten das handhabbare Ziel ab, um es in der Praxis zu lösen. Im Gegensatz zu zuvor entwickelten DBM-Destillationstechniken kann die vorgeschlagene Methode sowohl bedingte als auch unbedingte Arten von DBMs destillieren, Modelle in einem Ein-Schritt-Generator destillieren und nur die korrupten Bilder für das Training verwenden. Wir evaluieren unseren Ansatz sowohl für bedingte als auch unbedingte Arten des Brückenabgleichs in einer breiten Palette von Setups, einschließlich Superresolution, JPEG-Restaurierung, Skizze-zu-Bild und anderen Aufgaben, und zeigen, dass unsere Destillationstechnik es uns ermöglicht, die Inferenz von DBMs um das 4- bis 100-fache zu beschleunigen und je nach speziellem Setup sogar eine bessere Generierungsqualität als das verwendete Lehrermodell zu bieten.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten zur Argumentation in verschiedenen Bereichen gezeigt. Aktuelle Studien haben gezeigt, dass eine Erhöhung der Rechenleistung zur Testzeit die Argumentationsfähigkeiten von LLMs verbessert. Dies beinhaltet in der Regel umfangreiches Sampling zur Inferenzzeit, das von einem externen LLM-Verifizierer geleitet wird, was zu einem Zwei-Spieler-System führt. Trotz externer Anleitung zeigt die Effektivität dieses Systems das Potenzial eines einzelnen LLMs, komplexe Aufgaben zu bewältigen. Daher stellen wir ein neues Forschungsproblem auf: Können wir die Suchfähigkeiten internalisieren, um die Argumentationsfähigkeiten eines einzelnen LLMs grundlegend zu verbessern? Diese Arbeit untersucht eine orthogonalen Ansatz, der sich auf post-Training LLMs für autoregressives Suchen konzentriert (d. h. ein erweitertes Argumentationsverfahren mit Selbstreflexion und Selbstexploration neuer Strategien). Um dies zu erreichen, schlagen wir das Chain-of-Action-Thought (COAT) Argumentieren und ein zweistufiges Trainingsparadigma vor: 1) eine Formatanpassungsphase im kleinen Maßstab, um das COAT-Argumentationsformat zu internalisieren und 2) eine groß angelegte Selbstverbesserungsphase unter Verwendung von reinforcement learning. Unser Ansatz führt zu Satori, einem 7B LLM, der auf Open-Source-Modellen und -Daten trainiert wurde. Umfangreiche empirische Evaluierungen zeigen, dass Satori Spitzenleistungen bei mathematischen Argumentationsbenchmarks erzielt und eine starke Verallgemeinerung auf Aufgaben außerhalb des Domänen zeigt. Code, Daten und Modelle werden vollständig Open Source zur Verfügung gestellt.
Sprachagenten sind zu einer vielversprechenden Lösung für komplexe interaktive Aufgaben geworden. Einer der Schlüsselbestandteile für den Erfolg von Sprachagenten ist das Belohnungsmodell auf der Trajektorie des agentischen Arbeitsablaufs, das während des Trainings oder der Inferenz wertvolle Anleitung bietet. Aufgrund des Mangels an Annotationen für Zwischeninteraktionen verwenden die meisten bestehenden Arbeiten jedoch ein Ergebnis-Belohnungsmodell, um Richtlinien über gesamte Trajektorien zu optimieren. Dies kann zu suboptimalen Richtlinien führen und die Gesamtleistung beeinträchtigen. Um dies zu lösen, schlagen wir QLASS (Q-geführte Sprachagenten schrittweise Suche) vor, um automatisch Annotationen zu generieren, indem Q-Werte schrittweise für offene Sprachagenten geschätzt werden. Durch die Einführung eines Überlegungsbaums und die Durchführung einer Prozess-Belohnungsmodellierung bietet QLASS effektive Zwischenanleitung für jeden Schritt. Mit der schrittweisen Anleitung schlagen wir eine Q-geführte Generierungsstrategie vor, um Sprachagenten eine bessere Anpassung an langfristigen Wert zu ermöglichen, was zu signifikanten Leistungsverbesserungen während der Modellinferenz bei komplexen interaktiven Agentenaufgaben führt. Bemerkenswert ist, dass QLASS auch mit fast der Hälfte der annotierten Daten starke Leistung beibehält und damit seine Effizienz im Umgang mit begrenzter Überwachung zeigt. Wir zeigen auch empirisch, dass QLASS zu effektiveren Entscheidungen durch qualitative Analyse führen kann. Wir werden unseren Code und unsere Daten veröffentlichen.
Dieses Paper untersucht eine wenig erforschte Herausforderung bei großen Sprachmodellen (LLMs): den Einfluss von KV-Cache-Komprimierungsmethoden auf die grundlegenden Fähigkeiten von LLMs. Während bestehende Methoden beeindruckende Kompressionsraten bei Benchmarks mit langem Kontext erzielen, bleiben ihre Auswirkungen auf die Kernfähigkeiten des Modells unteruntersucht. Wir präsentieren eine umfassende empirische Studie, die führende KV-Cache-Komprimierungsmethoden über verschiedene Aufgaben hinweg evaluiert, darunter Weltwissen, gesunder Menschenverstand, arithmetisches Denken, Codegenerierung, Sicherheit sowie Verständnis und Generierung von langem Kontext. Unsere Analyse zeigt, dass KV-Cache-Komprimierungsmethoden aufgabenspezifische Leistungseinbußen aufweisen. Arithmetische Denkaufgaben erweisen sich als besonders sensibel gegenüber aggressiver Kompression, wobei verschiedene Methoden Leistungseinbußen von 17,4 % bis 43,3 % zeigen. Bemerkenswerterweise zeigt das DeepSeek R1 Distill-Modell eine robustere Kompressionsverträglichkeit im Vergleich zu instruktionsangepassten Modellen, wobei nur Leistungseinbußen von 9,67 % bis 25,53 % festgestellt werden. Basierend auf unserer Analyse von Aufmerksamkeitsmustern und der Leistungsfähigkeit der Kompression über Aufgaben hinweg schlagen wir ShotKV vor, einen neuartigen Kompressionsansatz, der präzise die Phasen der Vorabfüllung und Decodierung behandelt und dabei semantische Kohärenz auf Schotebene aufrechterhält. Empirische Ergebnisse zeigen, dass ShotKV bei aggressiven Kompressionsraten Leistungsverbesserungen von 9 % bis 18 % bei langen Kontextgenerierungsaufgaben erzielt.
Das Zusammenführen von Ausgaben aus verschiedenen Quellen ist ein einfacher, aber effektiver Ansatz, um die Leistung zu steigern. Mixture-of-Agents (MoA) ist eine solche beliebte Ensemble-Methode, die Ausgaben von mehreren verschiedenen Large Language Models (LLMs) aggregiert. Dieser Artikel wirft die Frage im Kontext von Sprachmodellen auf: Ist es wirklich vorteilhaft, verschiedene LLMs zu mischen? Wir schlagen Self-MoA vor - eine Ensemble-Methode, die Ausgaben nur vom einzelnen leistungsstärksten LLM aggregiert. Unsere umfangreichen Experimente zeigen überraschenderweise, dass Self-MoA in einer Vielzahl von Szenarien die Standard-MoA, die verschiedene LLMs mischt, übertrifft: Self-MoA erzielt eine Verbesserung von 6,6% gegenüber MoA beim AlpacaEval 2.0 Benchmark und durchschnittlich 3,8% Verbesserung über verschiedene Benchmarks, einschließlich MMLU, CRUX und MATH. Die Anwendung von Self-MoA auf eines der bestplatzierten Modelle in AlpacaEval 2.0 erreicht direkt die neue Bestleistung in der Rangliste. Um die Wirksamkeit von Self-MoA zu verstehen, untersuchen wir systematisch den Kompromiss zwischen Vielfalt und Qualität der Ausgaben unter verschiedenen MoA-Einstellungen. Wir bestätigen, dass die Leistung von MoA recht empfindlich gegenüber der Qualität ist und das Mischen verschiedener LLMs oft die durchschnittliche Qualität der Modelle senkt. Um die Studie zu ergänzen, identifizieren wir die Szenarien, in denen das Mischen verschiedener LLMs hilfreich sein könnte. Dieser Artikel stellt außerdem eine sequenzielle Version von Self-MoA vor, die in der Lage ist, eine große Anzahl von LLM-Ausgaben dynamisch über mehrere Runden zusammenzuführen und genauso effektiv ist wie das Zusammenführen aller Ausgaben auf einmal.
Trotz des bemerkenswerten Fortschritts bei textbasierten Bildgenerierungsmodellen sind sie anfällig für adversarielle Angriffe und generieren unbeabsichtigt unsichere, unethische Inhalte. Bestehende Ansätze stützen sich oft auf das Feintuning von Modellen, um bestimmte Konzepte zu entfernen, was rechnerisch aufwendig ist, die Skalierbarkeit beeinträchtigt und/oder die Generierungsqualität gefährdet. In dieser Arbeit schlagen wir ein neuartiges Framework vor, das auf k-sparse Autoencodern (k-SAEs) basiert, um eine effiziente und interpretierbare Konzeptmanipulation in Diffusionsmodellen zu ermöglichen. Konkret identifizieren wir zunächst interpretierbare monosemantische Konzepte im latenten Raum von Texteinbettungen und nutzen sie, um die Generierung präzise von einem bestimmten Konzept (z.B. Nacktheit) abzulenken oder darauf zuzusteuern oder ein neues Konzept (z.B. fotografischer Stil) einzuführen. Durch umfangreiche Experimente zeigen wir, dass unser Ansatz sehr einfach ist, kein erneutes Training des Basismodells oder LoRA-Adapter erfordert, die Generierungsqualität nicht beeinträchtigt und gegen adversarielle Prompt-Manipulationen robust ist. Unsere Methode führt zu einer Verbesserung von 20,01% bei der Entfernung unsicherer Konzepte, ist effektiv bei Stilmanipulation und ist 5-mal schneller als der aktuelle Stand der Technik.
Die auf Stichproben basierende Suche, ein einfaches Paradigma zur Nutzung von Rechenleistung zur Testzeit, beinhaltet die Generierung mehrerer Kandidatenantworten und die Auswahl der besten Antwort - typischerweise durch Überprüfung jeder Antwort auf Korrektheit. In diesem Papier untersuchen wir die Skalierungstrends, die die auf Stichproben basierende Suche steuern. Zu unseren Erkenntnissen gehört, dass allein durch das Skalieren einer minimalistischen Implementierung, die nur zufällige Stichproben und direkte Selbstüberprüfung verwendet, kontinuierliche Leistungsverbesserungen erzielt werden, die beispielsweise die Argumentationsfähigkeiten des Gemini v1.5 Pro-Modells über die des o1-Preview auf beliebten Benchmarks hinaus verbessern. Wir führen die Skalierbarkeit der auf Stichproben basierenden Suche teilweise auf ein Phänomen des impliziten Skalierens zurück, bei dem das Sammeln eines größeren Pools von Antworten wiederum die Überprüfungsgenauigkeit verbessert. Darüber hinaus identifizieren wir zwei nützliche Prinzipien zur Verbesserung der Selbstüberprüfungsfähigkeiten mit Rechenleistung zur Testzeit: (1) Der Vergleich von Antworten liefert hilfreiche Signale über die Fehler- und Halluzinationsorte, und (2) verschiedene Ausgabestile des Modells sind für verschiedene Kontexte nützlich - Gedankengänge sind nützlich für das Argumentieren, aber schwerer zu überprüfen. Wir stellen auch fest, dass, obwohl eine genaue Überprüfung möglich ist, Frontmodelle erstaunlich schwache Out-of-the-Box-Überprüfungsfähigkeiten zeigen und führen einen Benchmark ein, um Fortschritte bei diesen Defiziten zu messen.
Dieses Papier stellt das COCONut-PanCap-Datenset vor, das entwickelt wurde, um die panoptische Segmentierung und die verankerte Bildunterschrift zu verbessern. Aufbauend auf dem COCO-Datenset mit fortschrittlichen COCONut-Panoptikmasken zielt dieses Datenset darauf ab, Einschränkungen in bestehenden Bild-Text-Datensätzen zu überwinden, die oft an detaillierten, szenenübergreifenden Beschreibungen fehlen. Das COCONut-PanCap-Datenset integriert feingliedrige, regionsbezogene Bildunterschriften, die auf panoptischen Segmentierungsmasken basieren, um Konsistenz sicherzustellen und die Detailgenauigkeit der generierten Bildunterschriften zu verbessern. Durch menschenbearbeitete, dicht annotierte Beschreibungen unterstützt COCONut-PanCap das verbesserte Training von Bildsprachmodellen (VLMs) für die Bildverarbeitung und generativen Modellen für Text-zu-Bild-Aufgaben. Experimentelle Ergebnisse zeigen, dass COCONut-PanCap die Leistung bei Verständnis- und Generierungsaufgaben signifikant steigert und ergänzende Vorteile gegenüber groß angelegten Datensätzen bietet. Dieses Datenset setzt einen neuen Maßstab für die Bewertung von Modellen bei gemeinsamen panoptischen Segmentierungs- und verankerten Bildunterschriftsaufgaben und adressiert den Bedarf an hochwertigen, detaillierten Bild-Text-Anmerkungen im multimodalen Lernen.
Die Erstellung von Computer-Aided Design (CAD)-Modellen erfordert erhebliche Fachkenntnisse und Anstrengungen. Text-to-CAD, das textuelle Beschreibungen in CAD-parametrische Sequenzen umwandelt, ist entscheidend, um diesen Prozess zu optimieren. In jüngsten Studien wurden Ground-Truth-parametrische Sequenzen, auch als sequenzielle Signale bekannt, als Aufsicht verwendet, um dieses Ziel zu erreichen. CAD-Modelle sind jedoch von Natur aus multimodal und bestehen aus parametrischen Sequenzen und entsprechenden gerenderten visuellen Objekten. Darüber hinaus ist der Renderprozess von parametrischen Sequenzen zu visuellen Objekten viele-zu-eins. Daher sind sowohl sequenzielle als auch visuelle Signale entscheidend für ein effektives Training. In dieser Arbeit stellen wir CADFusion vor, ein Framework, das Large Language Models (LLMs) als Grundlage verwendet und zwischen zwei Schulungsphasen wechselt: der sequenziellen Lernphase (SL) und der visuellen Rückmeldung (VF) Phase. In der SL-Phase trainieren wir LLMs mithilfe von Ground-Truth-parametrischen Sequenzen, um die Erzeugung logisch kohärenter parametrischer Sequenzen zu ermöglichen. In der VF-Phase belohnen wir parametrische Sequenzen, die in bevorzugte visuelle Objekte gerendert werden, und bestrafen solche, die dies nicht tun, um den LLMs beizubringen, wie gerenderte visuelle Objekte wahrgenommen und bewertet werden. Diese beiden Phasen wechseln sich während des Trainings ab, um ein ausgewogenes Lernen sicherzustellen und die Vorteile beider Signale zu bewahren. Experimente zeigen, dass CADFusion die Leistung signifikant verbessert, sowohl qualitativ als auch quantitativ.
Die Anpassung von Text-zu-Bild-Modellen ermöglicht es Benutzern, benutzerdefinierte Konzepte einzufügen und die Konzepte in unbekannten Umgebungen zu generieren. Bestehende Methoden stützen sich entweder auf kostspielige Optimierung zur Testzeit oder trainieren Encoder auf Einzelbild-Trainingsdatensätzen ohne Multi-Bild-Überwachung, was zu einer schlechteren Bildqualität führt. Wir schlagen einen einfachen Ansatz vor, der beide Einschränkungen angeht. Zunächst nutzen wir bestehende Text-zu-Bild-Modelle und 3D-Datensätze, um einen hochwertigen Synthetischen Anpassungsdatensatz (SynCD) zu erstellen, der aus mehreren Bildern des gleichen Objekts in unterschiedlicher Beleuchtung, Umgebung und Pose besteht. Anschließend schlagen wir eine neue Encoder-Architektur auf Basis von gemeinsamen Aufmerksamkeitsmechanismen vor, die feinere visuelle Details aus Eingangsbildern besser integrieren. Schließlich schlagen wir eine neue Inferenztechnik vor, die Überbelichtungsprobleme während der Inferenz durch Normalisierung der Text- und Bildführungsvektoren mildert. Durch umfangreiche Experimente zeigen wir, dass unser Modell, das auf dem synthetischen Datensatz mit dem vorgeschlagenen Encoder und Inferenzalgorithmus trainiert wurde, bestehende abstimmmittelfreie Methoden auf Standard-Anpassungsbenchmarks übertrifft.
Die Feinabstimmung großer Sprachmodelle (LLMs) auf Geräten erregt zunehmend Interesse. In jüngsten Arbeiten wurden Niederrang-Anpassungstechniken (LoRA) mit föderiertem Feintuning kombiniert, um Herausforderungen im Zusammenhang mit der Größe der Gerätemodelle und der Datenknappheit zu mildern. Dennoch bleibt die Heterogenität der Rechenressourcen ein kritischer Engpass: Während höherrangige Module im Allgemeinen die Leistung verbessern, schränken unterschiedliche Gerätefähigkeiten den möglichen Rangbereich von LoRA ein. Bestehende Ansätze zur Lösung dieses Problems fehlen entweder eine analytische Rechtfertigung oder führen zusätzlichen Rechenaufwand ein, was einen breiten Spielraum für eine effiziente und theoretisch fundierte Lösung lässt. Um diesen Herausforderungen zu begegnen, schlagen wir federiertes Skizzieren von LoRA (FSLoRA) vor, das einen Skizzierungsmechanismus nutzt, um Geräten die selektive Aktualisierung von Teilmatrizen globaler LoRA-Module zu ermöglichen, die vom Server verwaltet werden. Durch Anpassung der Skizzierungsverhältnisse, die die Ränge der Teilmatrizen auf den Geräten bestimmen, passt sich FSLoRA flexibel an gerätespezifische Kommunikations- und Rechenbeschränkungen an. Wir bieten eine strenge Konvergenzanalyse von FSLoRA an, die charakterisiert, wie die Skizzierungsverhältnisse die Konvergenzrate beeinflussen. Durch umfassende Experimente mit mehreren Datensätzen und LLM-Modellen zeigen wir die überlegene Leistung von FSLoRA im Vergleich zu verschiedenen Baselines.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Bereichen gezeigt. Mit den sich entwickelnden Fähigkeiten und den zunehmenden Einsatzszenarien von LLMs steigen auch die Herausforderungen bei ihrem Einsatz aufgrund ihrer schieren Größe und der fortschrittlichen, aber komplexen Aktivierungsentwürfe, die in bekannten Modellreihen wie Llama, Gemma und Mistral vorherrschen. Diese Herausforderungen sind insbesondere in ressourcenbeschränkten Einsatzszenarien deutlich geworden, wo die Reduzierung von Effizienzengpässen bei der Inferenz unerlässlich ist. Unter verschiedenen jüngsten Bemühungen hat sich die Aktivierungsapproximation als vielversprechender Ansatz zur Verbesserung der Inferenzeffizienz herauskristallisiert, der in Anwendungen wie privater Inferenz manchmal als unverzichtbar betrachtet wird. Trotz erheblicher Geschwindigkeitssteigerungen bei minimalem Einfluss auf die Nützlichkeit, die sogar für den realen Einsatz als solide und praktikabel erscheinen, bleiben die Sicherheitsimplikationen von Aktivierungsapproximationen unklar. In dieser Arbeit schließen wir diese kritische Lücke in der Sicherheit von LLMs, indem wir die erste systematische Sicherheitsbewertung von Aktivierungsapproximationen durchführen. Unsere Sicherheitsprüfung erstreckt sich über sieben sota-Techniken in drei beliebten Kategorien und zeigt eine konsistente Sicherheitsverschlechterung bei zehn sicherheitsorientierten LLMs auf.