papers.description
Wir präsentieren Hala, eine Familie von arabisch-zentrierten Instruktions- und Übersetzungsmodellen, die mit unserer Translate-and-Tune-Pipeline entwickelt wurden. Zuerst komprimieren wir ein leistungsstarkes AR↔EN-Lehrermodell auf FP8 (was einen etwa 2-fachen Durchsatz ohne Qualitätsverlust ermöglicht) und verwenden es, um hochwertige bilinguale Supervision zu erstellen. Ein leichtgewichtiges Sprachmodell LFM2-1.2B wird dann auf diesen Daten feinabgestimmt und verwendet, um hochwertige englische Instruktionssätze ins Arabische zu übersetzen, wodurch ein Millionen-umfassendes Korpus entsteht, das auf die Befolgung von Anweisungen zugeschnitten ist. Wir trainieren Hala-Modelle mit 350M, 700M, 1.2B und 9B Parametern und wenden Slerp-Merging an, um die arabische Spezialisierung mit den Stärken des Basismodells auszugleichen. Auf arabisch-zentrierten Benchmarks erzielt Hala state-of-the-art Ergebnisse sowohl in der „Nano“- (≤2B) als auch in der „Small“-Kategorie (7-9B) und übertrifft dabei ihre Basismodelle. Wir veröffentlichen Modelle, Daten, Evaluierungen und Rezepte, um die Forschung im Bereich der arabischen NLP zu beschleunigen.
Wir stellen SAIL-VL2 vor, ein offenes Vision-Sprache-Grundmodell (LVM) für umfassendes multimodales Verständnis und logisches Denken. Als Nachfolger von SAIL-VL erreicht SAIL-VL2 auf den Parameterebenen 2B und 8B state-of-the-art Leistungen über diverse Bild- und Video-Benchmarks hinweg und zeigt starke Fähigkeiten von feinkörniger Wahrnehmung bis hin zu komplexem logischen Denken. Drei zentrale Innovationen tragen zu seiner Effektivität bei. Erstens verbessert eine groß angelegte Datenkuratierungspipeline mit Bewertungs- und Filterstrategien sowohl die Qualität als auch die Verteilung über Beschriftungen, OCR, Frage-Antwort-Daten und Videodaten hinweg, was die Trainings effizienz steigert. Zweitens beginnt ein progressives Trainingsframework mit einem leistungsstarken vortrainierten Vision-Encoder (SAIL-ViT), schreitet durch multimodales Vortraining fort und gipfelt in einem Denk-Fusions-SFT-RL-Hybridparadigma, das die Modellfähigkeiten systematisch stärkt. Drittens gehen architektonische Fortschritte über dichte LLMs hinaus zu effizienten spärlichen Mixture-of-Experts (MoE)-Designs. Mit diesen Beiträgen zeigt SAIL-VL2 wettbewerbsfähige Leistungen über 106 Datensätze hinweg und erzielt state-of-the-art Ergebnisse auf anspruchsvollen Denk-Benchmarks wie MMMU und MathVista. Darüber hinaus belegt SAIL-VL2-2B auf der OpenCompass-Rangliste den ersten Platz unter den offiziell veröffentlichten Open-Source-Modellen unter der 4B-Parameterebene und dient gleichzeitig als effiziente und erweiterbare Grundlage für die Open-Source-Multimodal-Community.
Omnidirektionale Sicht, die 360-Grad-Vision zur Umgebungserfassung nutzt, wird in Bereichen wie Robotik, industrieller Inspektion und Umweltüberwachung zunehmend kritisch. Im Vergleich zur traditionellen Lochkamera-Vision bietet die omnidirektionale Sicht ein ganzheitliches Umgebungsbewusstsein, das die Vollständigkeit der Szenenwahrnehmung und die Zuverlässigkeit der Entscheidungsfindung erheblich verbessert. Grundlagenforschung in diesem Bereich hat jedoch historisch hinter der traditionellen Lochkamera-Vision zurückgelegen. Dieser Vortrag präsentiert einen aufkommenden Trend im Zeitalter des verkörperten KI: die rasante Entwicklung der omnidirektionalen Sicht, angetrieben durch wachsende industrielle Nachfrage und akademisches Interesse. Wir heben jüngste Durchbrüche in der omnidirektionalen Generierung, omnidirektionalen Wahrnehmung, omnidirektionalen Verständnis und verwandten Datensätzen hervor. Basierend auf Erkenntnissen aus Wissenschaft und Industrie schlagen wir eine ideale Panorama-Systemarchitektur im Zeitalter der verkörperten KI vor, PANORAMA, die aus vier Schlüssel-Subsystemen besteht. Darüber hinaus bieten wir detaillierte Meinungen zu aufkommenden Trends und interdisziplinären Auswirkungen an der Schnittstelle von Panorama-Vision und verkörperter KI sowie den zukünftigen Fahrplan und offene Herausforderungen. Dieser Überblick fasst die neuesten Fortschritte zusammen und skizziert Herausforderungen und Chancen für zukünftige Forschungen zum Aufbau robuster, universeller omnidirektionaler KI-Systeme im Zeitalter der verkörperten KI.
Prüfungen sind ein grundlegender Test von Expertenintelligenz und erfordern integriertes Verständnis, logisches Denken und Generierungsfähigkeiten. Bestehende Prüfungs-Benchmarks konzentrieren sich hauptsächlich auf Verständnis- und Denkaufgaben, während aktuelle Generierungs-Benchmarks die Darstellung von Weltwissen und visuellen Konzepten betonen, jedoch die Bewertung strenger Zeichenprüfungen vernachlässigen. Wir stellen GenExam vor, den ersten Benchmark für multidisziplinäre Text-zu-Bild-Prüfungen, der 1.000 Beispiele aus 10 Fächern mit prüfungsähnlichen Anweisungen umfasst, die in einer vierstufigen Taxonomie organisiert sind. Jede Aufgabe ist mit Referenzbildern und detaillierten Bewertungspunkten ausgestattet, um eine präzise Bewertung der semantischen Korrektheit und visuellen Plausibilität zu ermöglichen. Experimente zeigen, dass selbst state-of-the-art Modelle wie GPT-Image-1 und Gemini-2.5-Flash-Image weniger als 15 % strikte Punkte erreichen und die meisten Modelle nahezu 0 % erzielen, was die große Herausforderung unseres Benchmarks verdeutlicht. Indem Bildgenerierung als Prüfung betrachtet wird, bietet GenExam eine strenge Bewertung der Fähigkeit von Modellen, Wissen, logisches Denken und Generierung zu integrieren, und liefert Einblicke auf dem Weg zu allgemeiner künstlicher Intelligenz (AGI).
Während Code Language Models (CLMs) eine überlegene Leistung bei Softwareentwicklungsaufgaben wie Code-Generierung und -Zusammenfassung gezeigt haben, offenbaren aktuelle empirische Studien eine kritische Schwachstelle in Bezug auf den Datenschutz: Diese Modelle weisen unbeabsichtigtes Auswendiglernen sensibler Trainingsdaten auf, was die wortgetreue Reproduktion vertraulicher Informationen ermöglicht, wenn spezifisch danach gefragt wird. Um dieses Problem zu lösen, wurden mehrere Ansätze vorgeschlagen, darunter die Deduplizierung von Trainingsdaten und die Ergänzung durch differenzielle Privatsphäre. Diese Methoden erfordern jedoch eine vollständige Neuausbildung bereits eingesetzter CLMs, was erhebliche Rechenkosten verursacht. In diesem Artikel wollen wir die folgende Forschungsfrage beantworten: Kann sensibles, von CLMs auswendig gelerntes Information effektiv und effizient gelöscht werden? Wir führen eine wegweisende Untersuchung zum Löschen sensibler Auswendiglerninhalte in CLMs durch maschinelles Verlernen (Machine Unlearning) durch – eine nachträgliche Modifikationsmethode, die spezifische Informationen aus trainierten Modellen entfernt, ohne eine vollständige Neuausbildung zu erfordern. Konkret quantifizieren wir zunächst die Risiken des Auswendiglernens sensibler Daten innerhalb von CLM-Trainingsdatensätzen und erstellen einen Hochrisiko-Datensatz mit 50.000 sensiblen, auswendig gelernten Beispielen als Ziele für das Verlernen. Wir untersuchen zwei weit verbreitete, auf Gradientenanstieg basierende Verlernansätze: die einfache und die constraint-basierte Methode, und stellen CodeEraser vor, eine erweiterte Variante, die gezielt sensible, auswendig gelernte Code-Segmente entfernt, während die strukturelle Integrität und funktionale Korrektheit des umgebenden Codes erhalten bleibt. Umfangreiche Experimente mit drei Familien von CLMs – CodeParrot, CodeGen-Mono und Qwen2.5-Coder – bestätigen die Wirksamkeit und Effizienz von CodeEraser beim Löschen gezielter sensibler Auswendiglerninhalte bei gleichzeitiger Aufrechterhaltung der Modellnutzbarkeit.
Jüngste Entwicklungen bei auf großen Sprachmodellen (LLM) basierenden Agenten haben beeindruckende Fähigkeiten in verschiedenen Domänen gezeigt, wie beispielsweise tiefgehende Forschungssysteme, die eine überlegene Leistung bei komplexen Informationssuche- und Syntheseaufgaben demonstrieren. Obwohl allgemeine tiefgehende Forschungsagenten beeindruckende Fähigkeiten aufweisen, haben sie erhebliche Schwierigkeiten mit Herausforderungen im medizinischen Bereich, wie führende proprietäre Systeme zeigen, die nur begrenzte Genauigkeit bei komplexen medizinischen Benchmarks erreichen. Die wesentlichen Einschränkungen sind: (1) dem Modell fehlt ausreichend dichtes medizinisches Wissen für klinische Entscheidungsfindung, und (2) das Framework ist durch das Fehlen spezialisierter Retrieval-Tools, die für medizinische Kontexte maßgeschneidert sind, eingeschränkt. Wir präsentieren einen medizinischen tiefgehenden Forschungsagenten, der diese Herausforderungen durch zwei Kerninnovationen adressiert. Erstens entwickeln wir ein neuartiges Daten-Synthese-Framework unter Verwendung medizinischer Wissensgraphen, das die längsten Ketten aus Teilgraphen um seltene medizinische Entitäten extrahiert, um komplexe Multi-Hop-Frage-Antwort-Paare zu generieren. Zweitens integrieren wir eine speziell entwickelte private medizinische Retrieval-Engine neben allgemeinen Tools, die eine genaue Synthese medizinischer Informationen ermöglicht. Unser Ansatz generiert über 2100 diverse Trajektorien über 12 medizinische Fachgebiete hinweg, wobei jede durchschnittlich 4,2 Tool-Interaktionen aufweist. Durch ein zweistufiges Trainingsparadigma, das überwachtes Fein-Tuning und Online-Verstärkungslernen mit zusammengesetzten Belohnungen kombiniert, demonstriert unser MedResearcher-R1-32B-Modell eine außergewöhnliche Leistung und setzt neue Maßstäbe auf medizinischen Benchmarks, während es gleichzeitig eine wettbewerbsfähige Leistung bei allgemeinen tiefgehenden Forschungsaufgaben beibehält. Unsere Arbeit zeigt, dass strategische domänenspezifische Innovationen in Architektur, Tool-Design und Trainingsdatenkonstruktion es kleineren Open-Source-Modellen ermöglichen können, viel größere proprietäre Systeme in spezialisierten Domänen zu übertreffen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte im mathematischen Denken erzielt, kämpfen jedoch weiterhin mit hochpräzisen Aufgaben wie numerischer Berechnung und formaler symbolischer Manipulation. Die Integration externer Tools hat sich als vielversprechender Ansatz erwiesen, um diese Lücke zu schließen. Trotz jüngster Fortschritte haben bestehende Methoden mit drei zentralen Herausforderungen zu kämpfen: der Erstellung von Tool-integrierten Denkdaten, der feingranularen Optimierung und der Verbesserung der Inferenz. Um diese Einschränkungen zu überwinden, schlagen wir THOR (Tool-Integrated Hierarchical Optimization via RL) vor. Zunächst führen wir TIRGen ein, eine Multi-Agenten-Actor-Critic-basierte Pipeline zur Erstellung hochwertiger Datensätze von Tool-integrierten Denkpfaden, die sich an der Policy ausrichten und gut über verschiedene Modelle hinweg verallgemeinern. Zweitens führen wir eine RL-Strategie ein, die eine feingranulare hierarchische Optimierung durchführt, indem sie sowohl die Problemlösung auf Trajektorienebene als auch die Codegenerierung auf Schrittebene gemeinsam optimiert. Dies wird durch unsere zentrale Erkenntnis motiviert, dass der Erfolg eines Zwischen-Tool-Aufrufs ein starker Indikator für die Korrektheit der endgültigen Antwort ist. Schließlich integriert THOR einen Selbstkorrekturmechanismus, der unmittelbares Tool-Feedback nutzt, um fehlerhafte Denkpfade während der Inferenz dynamisch zu überarbeiten. Unser Ansatz zeigt eine starke Generalisierung über verschiedene Modelle hinweg und funktioniert sowohl in Denk- als auch in Nicht-Denkmodellen effektiv. Er erzielt außerdem state-of-the-art Leistungen für Modelle ähnlicher Größe auf mehreren mathematischen Benchmarks und liefert gleichzeitig konsistente Verbesserungen auf Code-Benchmarks. Unser Code wird öffentlich unter https://github.com/JingMog/THOR verfügbar sein.
Wir stellen Wan-Animate vor, ein einheitliches Framework für Charakteranimation und -ersetzung. Gegeben ein Charakterbild und ein Referenzvideo kann Wan-Animate den Charakter animieren, indem es die Ausdrücke und Bewegungen des Charakters im Video präzise nachahmt, um hochwertige Charaktervideos zu erzeugen. Alternativ kann es den animierten Charakter in das Referenzvideo integrieren, um den ursprünglichen Charakter zu ersetzen, wobei die Beleuchtung und der Farbton der Szene nachgebildet werden, um eine nahtlose Integration in die Umgebung zu erreichen. Wan-Animate basiert auf dem Wan-Modell. Um es für Charakteranimationsaufgaben anzupassen, verwenden wir ein modifiziertes Eingabeparadigma, um zwischen Referenzbedingungen und zu generierenden Regionen zu unterscheiden. Dieses Design vereint mehrere Aufgaben in einer gemeinsamen symbolischen Darstellung. Wir verwenden räumlich ausgerichtete Skelettsignale, um Körperbewegungen nachzuahmen, und implizite Gesichtsmerkmale, die aus den Quellbildern extrahiert werden, um Ausdrücke nachzustellen, was die Erzeugung von Charaktervideos mit hoher Steuerbarkeit und Ausdruckskraft ermöglicht. Darüber hinaus entwickeln wir zur Verbesserung der Umgebungsintegration bei der Charakterersetzung ein zusätzliches Relighting-LoRA. Dieses Modul bewahrt die Erscheinungskonsistenz des Charakters, während es die passende Umgebungsbeleuchtung und den Farbton anwendet. Experimentelle Ergebnisse zeigen, dass Wan-Animate state-of-the-art Leistung erzielt. Wir sind bestrebt, die Modellgewichte und den Quellcode zu veröffentlichen.
Dieses Papier gibt einen Überblick über die MARS2 2025 Challenge zum Thema Multimodales Reasoning. Unser Ziel ist es, verschiedene Ansätze im Bereich des multimodalen maschinellen Lernens und der großen Sprachmodelle (LLMs) durch einen umfangreichen Benchmark zusammenzuführen. Wir hoffen, dass dies Forschern besser ermöglicht, den Stand der Technik in diesem sehr dynamischen Bereich zu verfolgen. Gleichzeitig hat eine wachsende Anzahl von Testumgebungen die Entwicklung von allgemeinen großen Sprachmodellen vorangetrieben. Daher konzentriert sich MARS2 in diesem Jahr auf reale und spezialisierte Szenarien, um die Anwendungen des multimodalen Reasonings von MLLMs zu erweitern. Unser Organisationsteam hat zwei maßgeschneiderte Datensätze, Lens und AdsQA, als Testsets veröffentlicht, die allgemeines Reasoning in 12 alltäglichen Szenarien bzw. domänenspezifisches Reasoning in Werbevideos unterstützen. Wir haben über 40 Baseline-Modelle evaluiert, die sowohl allgemeine MLLMs als auch aufgabenspezifische Modelle umfassen, und drei Wettbewerbskategorien eröffnet: Visual Grounding in Real-world Scenarios (VG-RS), Visual Question Answering with Spatial Awareness (VQA-SA) und Visual Reasoning in Creative Advertisement Videos (VR-Ads). Schließlich haben sich 76 Teams aus renommierten akademischen und industriellen Institutionen registriert, und über 40 gültige Einreichungen (von mehr als 1200) wurden in unsere Ranglisten aufgenommen. Unsere Datensätze, Codesätze (über 40 Baselines und mehr als 15 Methoden der Teilnehmer) und Ranglisten sind öffentlich auf der MARS2-Workshop-Website und unserer GitHub-Organisationsseite https://github.com/mars2workshop/ verfügbar, wo unsere Updates und Ankündigungen zu kommenden Veranstaltungen kontinuierlich bereitgestellt werden.
Große Sprachmodelle (LLMs) haben oft Schwierigkeiten mit der Kontexttreue und liefern inkonsistente Antworten, wenn sie Fragen auf der Grundlage bereitgestellter Informationen beantworten sollen. Bestehende Ansätze verlassen sich entweder auf teures überwachtes Fein-Tuning, um nach der Antwort Beweise zu generieren, oder trainieren Modelle, um Websuchen durchzuführen, ohne unbedingt die Nutzung des gegebenen Kontexts zu verbessern. Wir schlagen CARE vor, ein neuartiges natives, retrieval-augmentiertes Reasoning-Framework, das LLMs beibringt, explizit kontextinterne Beweise in ihren Reasoning-Prozess zu integrieren, indem sie die eigenen Retrieval-Fähigkeiten des Modells nutzen. Unsere Methode erfordert nur begrenzte annotierte Beweisdaten und verbessert sowohl die Retrieval-Genauigkeit als auch die Antwortgenerierungsleistung durch strategisch abgerufene kontextinterne Tokens in der Reasoning-Kette. Umfangreiche Experimente auf mehreren realen und kontrafaktischen QA-Benchmarks zeigen, dass unser Ansatz überwachtes Fein-Tuning, traditionelle retrieval-augmentierte Generierungsmethoden und externe Retrieval-Lösungen deutlich übertrifft. Diese Arbeit stellt einen grundlegenden Fortschritt dar, um LLMs für wissensintensive Aufgaben genauer, zuverlässiger und effizienter zu machen.
Wir stellen LLM-Interleaved (LLM-I) vor, ein flexibles und dynamisches Framework, das die verschachtelte Bild-Text-Generierung als ein Werkzeugnutzungsproblem neu definiert. LLM-I wurde entwickelt, um den „Ein-Werkzeug“-Engpass aktueller einheitlicher Modelle zu überwinden, die auf synthetische Bildgebung beschränkt sind und bei Aufgaben, die faktische Fundierung oder programmatische Präzision erfordern, Schwierigkeiten haben. Unser Framework befähigt einen zentralen LLM- oder MLLM-Agenten, intelligent ein vielfältiges Toolkit spezialisierter visueller Werkzeuge zu orchestrieren, darunter Online-Bildersuche, diffusionsbasierte Generierung, Code-Ausführung und Bildbearbeitung. Der Agent wird trainiert, diese Werkzeuge über ein Reinforcement-Learning (RL)-Framework geschickt auszuwählen und anzuwenden, das ein hybrides Belohnungssystem kombiniert, das regelbasierte Logik mit Bewertungen von LLM- und MLLM-Evaluatoren verbindet. Auf einem vielfältigen neuen Datensatz mit vier verschiedenen Modell-Backbones trainiert, demonstriert LLM-I state-of-the-art Leistung und übertrifft bestehende Methoden mit großem Abstand in vier Benchmarks. Wir führen auch eine neuartige Testzeit-Skalierungsstrategie ein, die weitere Leistungssteigerungen bietet. Projektseite: https://github.com/ByteDance-BandAI/LLM-I.
Generatives maschinelles Lernen bietet neue Möglichkeiten, um die komplexe Dynamik des Erdsystems besser zu verstehen. Neuere, auf Diffusion basierende Methoden adressieren spektrale Verzerrungen und verbessern die Ensemble-Kalibrierung in der Wettervorhersage im Vergleich zu deterministischen Methoden, haben sich jedoch bisher als schwierig erwiesen, stabil in hohen Auflösungen zu skalieren. Wir stellen AERIS vor, einen pixelbasierten Swin-Diffusion-Transformer mit 1,3 bis 80 Milliarden Parametern, um diese Lücke zu schließen, sowie SWiPe, eine generalisierbare Technik, die Fensterparallelismus mit Sequenz- und Pipeline-Parallelismus kombiniert, um fensterbasierte Transformer zu partitionieren, ohne zusätzliche Kommunikationskosten oder eine erhöhte globale Batch-Größe zu verursachen. Auf Aurora (10.080 Knoten) erreicht AERIS 10,21 ExaFLOPS (gemischte Präzision) und eine Spitzenleistung von 11,21 ExaFLOPS mit einer Patch-Größe von 1x1 auf dem 0,25° ERA5-Datensatz, wobei eine schwache Skalierungseffizienz von 95,5 % und eine starke Skalierungseffizienz von 81,6 % erzielt wird. AERIS übertrifft das IFS ENS und bleibt auf saisonalen Skalen bis zu 90 Tagen stabil, was das Potenzial von milliardenparametrigen Diffusionsmodellen für die Wetter- und Klimavorhersage unterstreicht.
Aktuelle Bildgenerierungsmodelle erfassen die Bildverteilung typischerweise in einem vorkonstruierten latenten Raum, der auf einem eingefrorenen Bild-Tokenizer basiert. Es besteht jedoch eine erhebliche Diskrepanz zwischen der Rekonstruktions- und der Generierungsverteilung, wobei aktuelle Tokenizer nur die Rekonstruktionsaufgabe priorisieren, die vor dem generativen Training stattfindet, ohne die Generierungsfehler während des Samplings zu berücksichtigen. In diesem Papier analysieren wir umfassend die Ursache dieser Diskrepanz in einem diskreten latenten Raum und schlagen darauf aufbauend ein neuartiges Tokenizer-Trainingsschema vor, das sowohl ein Haupttraining als auch ein Nachtraining umfasst, wobei der Fokus jeweils auf der Verbesserung der latenten Raumkonstruktion und der Dekodierung liegt. Während des Haupttrainings wird eine latente Störungsstrategie vorgeschlagen, um Sampling-Rauschen zu simulieren, d.h. die unerwarteten Token, die während der generativen Inferenz erzeugt werden. Konkret schlagen wir ein Plug-and-Play-Tokenizer-Trainingsschema vor, das die Robustheit des Tokenizers signifikant verbessert und somit die Generierungsqualität und Konvergenzgeschwindigkeit steigert, sowie eine neue Tokenizer-Bewertungsmetrik, pFID, die die Leistung des Tokenizers erfolgreich mit der Generierungsqualität korreliert. Während des Nachtrainings optimieren wir den Tokenizer-Decoder weiter in Bezug auf ein gut trainiertes generatives Modell, um die Verteilungsdifferenz zwischen generierten und rekonstruierten Token zu verringern. Mit einem sim400M-Generator erreicht ein diskreter Tokenizer, der mit unserem vorgeschlagenen Haupttraining trainiert wurde, einen bemerkenswerten gFID-Wert von 1,60 und erzielt mit dem zusätzlichen Nachtraining einen weiteren gFID-Wert von 1,36. Weitere Experimente werden durchgeführt, um die Wirksamkeit unserer Nachtrainingsstrategie breit zu validieren, sowohl für diskrete als auch kontinuierliche Tokenizer, die mit autoregressiven und diffusionsbasierten Generatoren gekoppelt sind.
Wir stellen SteeringControl vor, einen Benchmark zur Bewertung von Methoden zur Steuerung von Repräsentationen in Bezug auf zentrale Ausrichtungsziele – Voreingenommenheit, schädliche Generierung und Halluzination – sowie deren Auswirkungen auf sekundäre Verhaltensweisen wie Sykophantie und Alltagsmoral. Während frühere Arbeiten zur Ausrichtung oft Wahrhaftigkeit oder Denkfähigkeit hervorheben, um die Nebenwirkungen der Steuerung von Repräsentationen zu demonstrieren, stellen wir fest, dass es viele unerforschte Kompromisse gibt, die noch nicht systematisch verstanden sind. Wir sammeln einen Datensatz von sicherheitsrelevanten primären und sekundären Verhaltensweisen, um die Wirksamkeit der Steuerung und die Verhaltensverschränkung zu bewerten, wobei wir uns auf fünf gängige Steuerungsmethoden konzentrieren. Um dies zu ermöglichen, entwickeln wir ein modulares Steuerungsframework basierend auf einzigartigen Komponenten, die als Bausteine vieler bestehender Methoden dienen. Unsere Ergebnisse mit Qwen-2.5-7B und Llama-3.1-8B zeigen, dass eine starke Steuerungsleistung von der spezifischen Kombination aus Steuerungsmethode, Modell und Zielverhalten abhängt und dass schwerwiegende Konzeptverschränkungen aus schlechten Kombinationen dieser drei Faktoren resultieren können. Wir veröffentlichen unseren Code hier: https://github.com/wang-research-lab/SteeringControl.git.
Variationale Quantenschaltungen (VQCs) sind zentral für das Quantenmaschinenlernen, während jüngste Fortschritte bei Kolmogorov-Arnold-Netzwerken (KANs) die Stärke lernbarer Aktivierungsfunktionen hervorheben. Wir vereinen diese Richtungen, indem wir quantenvariationale Aktivierungsfunktionen (QVAFs) einführen, die durch Einzel-Qubit-Datenwiederhochladungsschaltungen, genannt DatA Re-Uploading ActivatioNs (DARUANs), realisiert werden. Wir zeigen, dass DARUAN mit trainierbaren Gewichten in der Datenvorverarbeitung ein exponentiell wachsendes Frequenzspektrum mit Datenwiederholungen besitzt, was eine exponentielle Reduktion der Parametergröße im Vergleich zu Fourier-basierten Aktivierungen ohne Verlust der Ausdrucksstärke ermöglicht. Die Einbettung von DARUAN in KANs ergibt quanteninspirierte KANs (QKANs), die die Interpretierbarkeit von KANs beibehalten, während sie deren Parametereffizienz, Ausdrucksstärke und Generalisierung verbessern. Wir führen weiterhin zwei neuartige Techniken ein, um die Skalierbarkeit, Machbarkeit und Recheneffizienz zu steigern, wie z.B. Schichtenerweiterung und hybride QKANs (HQKANs) als direkte Ersatz für mehrschichtige Perzeptronen (MLPs) in Feed-Forward-Netzwerken für großskalige Modelle. Wir liefern theoretische Analysen und umfangreiche Experimente zu Funktionsregression, Bildklassifikation und autoregressiver generativer Sprachmodellierung, die die Effizienz und Skalierbarkeit von QKANs demonstrieren. DARUANs und QKANs bieten eine vielversprechende Richtung zur Weiterentwicklung des Quantenmaschinenlernens sowohl auf Noisy Intermediate-Scale Quantum (NISQ)-Hardware als auch auf klassischen Quantensimulatoren.
Wir schlagen eine Pipeline vor, um dynamische 3D-Rauch-Assets aus einem einzelnen Video in freier Umgebung zu extrahieren und zu rekonstruieren und diese weiterhin für interaktive Simulationen zur Rauchgestaltung und -bearbeitung zu integrieren. Jüngste Entwicklungen im Bereich der 3D-Vision haben die Rekonstruktion und das Rendering von Fluiddynamik erheblich verbessert, was realistische und zeitlich konsistente Ansichtssynthesen ermöglicht. Allerdings stützen sich aktuelle Rekonstruktionen von Fluiden stark auf sorgfältig kontrollierte Laborumgebungen, während Videos aus der realen Welt, die in freier Umgebung aufgenommen wurden, weitgehend unerforscht bleiben. Wir identifizieren drei zentrale Herausforderungen bei der Rekonstruktion von Rauch in realen Videos und entwickeln gezielte Techniken, darunter die Rauch-Extraktion mit Hintergrundentfernung, die Initialisierung von Rauchpartikeln und Kamerapositionen sowie die Inferenz von Multi-View-Videos. Unsere Methode übertrifft nicht nur bisherige Rekonstruktions- und Generierungsverfahren durch hochwertige Rauch-Rekonstruktionen (+2,22 durchschnittlicher PSNR bei Videos in freier Umgebung), sondern ermöglicht auch vielfältige und realistische Bearbeitungen der Fluiddynamik durch die Simulation unserer Rauch-Assets. Wir stellen unsere Modelle, Daten und 4D-Rauch-Assets unter [https://autumnyq.github.io/WildSmoke](https://autumnyq.github.io/WildSmoke) zur Verfügung.
Da große Sprachmodelle (LLMs) zunehmend integraler Bestandteil von Multi-Agenten-Systemen werden, entstehen neue Datenschutzrisiken, die über reine Memorierung, direkte Inferenz oder Einzelinteraktionsbewertungen hinausgehen. Insbesondere können scheinbar harmlose Antworten, die über mehrere Interaktionen hinweg zusammengesetzt werden, kumulativ Angreifern ermöglichen, sensible Informationen zu rekonstruieren – ein Phänomen, das wir als kompositionellen Datenschutzverlust bezeichnen. Wir präsentieren die erste systematische Untersuchung solcher kompositioneller Datenschutzlecks und möglicher Abhilfemaßnahmen in Multi-Agenten-LLM-Systemen. Zunächst entwickeln wir ein Framework, das modelliert, wie zusätzliches Wissen und Agenteninteraktionen gemeinsam Datenschutzrisiken verstärken, selbst wenn jede Antwort für sich genommen harmlos ist. Um dies zu mindern, schlagen wir zwei Verteidigungsstrategien vor und evaluieren sie: (1) die Theory-of-Mind-Verteidigung (ToM), bei der Verteidiger-Agenten die Absicht eines Fragestellers ableiten, indem sie antizipieren, wie ihre Ausgaben von Angreifern ausgenutzt werden könnten, und (2) die Collaborative Consensus Defense (CoDef), bei der antwortende Agenten mit Peers zusammenarbeiten, die auf Basis eines gemeinsamen aggregierten Zustands abstimmen, um die Verbreitung sensibler Informationen einzuschränken. Entscheidend ist, dass wir unsere Bewertung sowohl auf Kompositionen ausrichten, die sensible Informationen offenlegen, als auch auf solche, die harmlose Schlussfolgerungen liefern. Unsere Experimente quantifizieren, wie sich diese Verteidigungsstrategien in der Balance zwischen Datenschutz und Nutzen unterscheiden. Wir stellen fest, dass die Chain-of-Thought-Methode allein nur begrenzten Schutz vor Lecks bietet (~39% Blockierungsrate sensibler Anfragen), während unsere ToM-Verteidigung die Blockierung sensibler Anfragen erheblich verbessert (bis zu 97%), jedoch den Erfolg bei harmlosen Aufgaben reduzieren kann. CoDef erreicht die beste Balance mit dem höchsten Balanced Outcome (79,8%) und unterstreicht den Nutzen der Kombination von expliziter Argumentation mit der Zusammenarbeit der Verteidiger. Zusammengenommen decken unsere Ergebnisse eine neue Klasse von Risiken in kollaborativen LLM-Einsätzen auf und bieten umsetzbare Erkenntnisse für die Gestaltung von Schutzmaßnahmen gegen kompositionelle, kontextgetriebene Datenschutzlecks.
Personalisierte Finanzberatung erfordert die Berücksichtigung von Nutzerzielen, Einschränkungen, Risikotoleranz und Rechtszuständigkeiten. Bisherige Arbeiten mit großen Sprachmodellen (LLMs) konzentrierten sich auf Unterstützungssysteme für Anleger und Finanzplaner. Gleichzeitig untersuchen zahlreiche aktuelle Studien breitere Aufgaben der persönlichen Finanzplanung, einschließlich Budgetierung, Schuldenmanagement, Altersvorsorge und Nachlassplanung, durch agentenbasierte Pipelines, die hohe Wartungskosten verursachen und weniger als 25 % der erwarteten finanziellen Renditen erzielen. In dieser Studie stellen wir einen neuartigen und reproduzierbaren Rahmen vor, der relevante finanzielle Kontexte mit Studien zur Verhaltensfinanzierung integriert, um Aufsichtsdaten für End-to-End-Berater zu erstellen. Mit diesem Rahmen erstellen wir ein 19k-Beispiele umfassendes Reasoning-Datenset und führen ein umfassendes Fine-Tuning des Qwen-3-8B-Modells auf diesem Datensatz durch. Durch einen zurückgehaltenen Test-Split und eine blinde LLM-Jury-Studie zeigen wir, dass durch sorgfältige Datenkuratierung und Verhaltensintegration unser 8B-Modell eine Leistung erzielt, die mit deutlich größeren Baselines (14-32B Parameter) in Bezug auf faktische Genauigkeit, Flüssigkeit und Personalisierung vergleichbar ist, während es 80 % geringere Kosten als die größeren Gegenstücke verursacht.
Diese Studie präsentiert einen systematischen Vergleich zwischen hybriden quantenklassischen neuronalen Netzwerken und rein klassischen Modellen anhand von drei Benchmark-Datensätzen (MNIST, CIFAR100 und STL10), um deren Leistung, Effizienz und Robustheit zu bewerten. Die hybriden Modelle integrieren parametrisierte Quantenschaltkreise in klassische Deep-Learning-Architekturen, während die klassischen Gegenstücke konventionelle Convolutional Neural Networks (CNNs) verwenden. Die Experimente wurden über 50 Trainings-Epochen für jeden Datensatz durchgeführt, wobei die Bewertung auf der Validierungsgenauigkeit, Testgenauigkeit, Trainingszeit, Nutzung von Rechenressourcen und adversarischen Robustheit (getestet mit Störungen von epsilon=0,1) basierte. Die zentralen Ergebnisse zeigen, dass hybride Modelle in der finalen Genauigkeit durchweg besser abschneiden als klassische Modelle, mit Validierungsgenauigkeiten von {99,38\% (MNIST), 41,69\% (CIFAR100) und 74,05\% (STL10) im Vergleich zu den klassischen Benchmarks von 98,21\%, 32,25\% bzw. 63,76\%. Besonders bemerkenswert ist, dass der Vorteil der hybriden Modelle mit der Komplexität des Datensatzes skaliert, wobei die signifikantesten Verbesserungen bei CIFAR100 (+9,44\%) und STL10 (+10,29\%) zu verzeichnen sind. Hybride Modelle trainieren zudem 5–12-mal schneller (z. B. 21,23 s vs. 108,44 s pro Epoche bei MNIST) und verwenden 6–32\% weniger Parameter, während sie eine überlegene Generalisierung auf unbekannte Testdaten beibehalten. Tests zur adversarischen Robustheit zeigen, dass hybride Modelle auf einfacheren Datensätzen deutlich widerstandsfähiger sind (z. B. 45,27\% robuste Genauigkeit auf MNIST vs. 10,80\% für klassische Modelle), jedoch auf komplexen Datensätzen wie CIFAR100 eine vergleichbare Anfälligkeit aufweisen (ca. 1\% Robustheit bei beiden). Analysen der Ressourceneffizienz zeigen, dass hybride Modelle weniger Speicher verbrauchen (4–5 GB vs. 5–6 GB für klassische Modelle) und eine geringere CPU-Auslastung aufweisen (9,5\% vs. 23,2\% im Durchschnitt). Diese Ergebnisse legen nahe, dass hybride quantenklassische Architekturen überzeugende Vorteile in Bezug auf Genauigkeit, Trainings effizienz und Parameter-Skalierbarkeit bieten, insbesondere für komplexe Bildverarbeitungsaufgaben.