papers.description
Web-Agenten wie Deep Research haben übermenschliche kognitive Fähigkeiten demonstriert und sind in der Lage, äußerst anspruchsvolle informationssuchende Probleme zu lösen. Die meisten Forschungen bleiben jedoch hauptsächlich textzentriert und übersehen visuelle Informationen in der realen Welt. Dies macht multimodales Deep Research äußerst herausfordernd, da solche Agenten viel stärkere Fähigkeiten in den Bereichen Wahrnehmung, Logik, Wissen und der Nutzung anspruchsvollerer Werkzeuge im Vergleich zu textbasierten Agenten benötigen. Um diese Einschränkung zu überwinden, stellen wir WebWatcher vor, einen multimodalen Agenten für Deep Research, der mit erweiterten visuell-sprachlichen Fähigkeiten ausgestattet ist. Er nutzt hochwertige synthetische multimodale Trajektorien für ein effizientes Cold-Start-Training, verwendet verschiedene Werkzeuge für tiefgreifendes Schlussfolgern und verbessert die Generalisierung durch Reinforcement Learning weiter. Um die Fähigkeiten multimodaler Agenten besser bewerten zu können, schlagen wir BrowseComp-VL vor, einen Benchmark im BrowseComp-Stil, der komplexe Informationsbeschaffung unter Einbeziehung sowohl visueller als auch textueller Informationen erfordert. Experimentelle Ergebnisse zeigen, dass WebWatcher proprietäre Baselines, RAG-Workflows und Open-Source-Agenten in vier anspruchsvollen VQA-Benchmarks deutlich übertrifft, was den Weg zur Lösung komplexer multimodaler informationssuchender Aufgaben ebnet.
Die Erzeugung von erkundbaren 3D-Welten aus einem einzelnen Bild oder Textprompt bildet einen Eckpfeiler der räumlichen Intelligenz. Aktuelle Arbeiten nutzen Videomodelle, um weitreichende und generalisierbare 3D-Welten zu erzeugen. Allerdings leiden bestehende Ansätze oft unter einer begrenzten Reichweite in den generierten Szenen. In dieser Arbeit schlagen wir Matrix-3D vor, ein Framework, das eine panoramische Darstellung für die weitreichende omnidirektionale Erzeugung erkundbarer 3D-Welten nutzt und dabei bedingte Videogenerierung mit panoramischer 3D-Rekonstruktion kombiniert. Zunächst trainieren wir ein trajektoriegeführtes panoramisches Video-Diffusionsmodell, das Szenen-Mesh-Renderings als Bedingung verwendet, um hochwertige und geometrisch konsistente Szenenvideos zu erzeugen. Um das Panoramaszenenvideo in eine 3D-Welt zu überführen, schlagen wir zwei separate Methoden vor: (1) ein vorwärtsgerichtetes großes Panorama-Rekonstruktionsmodell für die schnelle 3D-Szenenrekonstruktion und (2) eine optimierungsbasierte Pipeline für präzise und detaillierte 3D-Szenenrekonstruktion. Um ein effektives Training zu ermöglichen, führen wir auch den Matrix-Pano-Datensatz ein, die erste groß angelegte synthetische Sammlung, die 116K hochwertige statische panoramische Videosequenzen mit Tiefen- und Trajektorie-Annotationen umfasst. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes Framework Spitzenleistungen in der panoramischen Videogenerierung und 3D-Welterzeugung erreicht. Weitere Informationen finden Sie unter https://matrix-3d.github.io.
Jüngste Fortschritte bei LLM-basierten Agenten haben bemerkenswerte Fähigkeiten bei der Bewältigung komplexer, wissensintensiver Aufgaben durch die Integration externer Tools demonstriert. Unter den verschiedenen Tool-Optionen spielen Suchtools eine entscheidende Rolle beim Zugriff auf umfangreiches externes Wissen. Dennoch erreichen Open-Source-Agenten noch kein Expertenniveau in Bezug auf Suchintelligenz, also die Fähigkeit, mehrdeutige Anfragen zu lösen, präzise Suchen zu generieren, Ergebnisse zu analysieren und gründliche Explorationen durchzuführen. Bestehende Ansätze weisen Mängel in Bezug auf Skalierbarkeit, Effizienz und Datenqualität auf. Beispielsweise begrenzen kleine Zugriffslimits in bestehenden Online-RL-Methoden, z.B. <=10, das Erlernen komplexer Strategien. Dieses Papier stellt ASearcher vor, ein Open-Source-Projekt für das groß angelegte RL-Training von Suchagenten. Unsere wesentlichen Beiträge umfassen: (1) Skalierbares, vollständig asynchrones RL-Training, das langfristige Suchen ermöglicht und gleichzeitig eine hohe Trainingseffizienz beibehält. (2) Ein prompt-basierter LLM-Agent, der eigenständig hochwertige und herausfordernde QAs synthetisiert und so einen umfangreichen QA-Datensatz erstellt. Durch RL-Training erzielt unser prompt-basierter QwQ-32B-Agent erhebliche Verbesserungen, mit 46,7 % und 20,8 % Avg@4-Gewinnen auf xBench bzw. GAIA. Bemerkenswert ist, dass unser Agent extrem langfristige Suchen durchführt, mit Tool-Aufrufen, die 40 Zugriffe überschreiten, und Ausgabe-Tokens, die während der Trainingszeit 150k überschreiten. Mit einem einfachen Agenten-Design und ohne externe LLMs erreicht ASearcher-Web-QwQ Avg@4-Werte von 42,1 auf xBench und 52,8 auf GAIA und übertrifft damit bestehende Open-Source-32B-Agenten. Wir stellen unsere Modelle, Trainingsdaten und Codes unter https://github.com/inclusionAI/ASearcher zur Verfügung.
Die Befolgung von Anweisungen hat die jüngste Ära der Large Language Models (LLMs) vorangetrieben und ist die grundlegende Fähigkeit, die fortgeschrittenere Kompetenzen wie logisches Denken und agentenbasiertes Verhalten ermöglicht. Da Aufgaben zunehmend anspruchsvoller werden, werden die logischen Strukturen, die in natürlichen Sprachanweisungen eingebettet sind, immer komplexer. Dennoch ist die Frage, wie gut LLMs mit solchen logikreichen Anweisungen umgehen können, noch weitgehend unerforscht. Wir schlagen LogicIFGen und LogicIFEval vor. LogicIFGen ist ein skalierbares, automatisiertes Framework zur Generierung überprüfbarer Anweisungen aus Codefunktionen, die natürlicherweise reiche Logik wie Bedingungen, Verschachtelungen, Rekursionen und Funktionsaufrufe ausdrücken können. Wir haben zudem eine Sammlung komplexer Codefunktionen zusammengestellt und LogicIFGen verwendet, um LogicIFEval zu konstruieren, einen Benchmark, der 426 überprüfbare, logikreiche Anweisungen umfasst. Unsere Experimente zeigen, dass aktuelle state-of-the-art LLMs immer noch Schwierigkeiten haben, die Anweisungen in LogicIFEval korrekt zu befolgen. Die meisten LLMs können weniger als 60 % der Anweisungen korrekt befolgen, was erhebliche Defizite in der Fähigkeit zur Anweisungsbefolgung offenbart. Code und Benchmark: https://github.com/mianzhang/LogicIF
In diesem Artikel stellen wir CharacterShot vor, ein kontrollierbares und konsistentes 4D-Charakteranimationsframework, das es jedem einzelnen Designer ermöglicht, dynamische 3D-Charaktere (d.h. 4D-Charakteranimationen) aus einem einzelnen Referenzcharakterbild und einer 2D-Posensequenz zu erstellen. Wir beginnen mit dem Vortraining eines leistungsstarken 2D-Charakteranimationsmodells, das auf einem modernen DiT-basierten Bild-zu-Video-Modell basiert und jede 2D-Posensequenz als kontrollierbares Signal zulässt. Anschließend heben wir das Animationsmodell von 2D auf 3D an, indem wir ein Dual-Attention-Modul zusammen mit einer Kameravorinformation einführen, um multiview-Videos mit räumlich-zeitlicher und räumlich-sichtbarer Konsistenz zu erzeugen. Schließlich wenden wir eine neuartige, nachbar-beschränkte 4D-Gaussian-Splatting-Optimierung auf diese multiview-Videos an, was zu kontinuierlichen und stabilen 4D-Charakterdarstellungen führt. Darüber hinaus haben wir, um die Charakter-zentrierte Leistung zu verbessern, einen umfangreichen Datensatz Character4D erstellt, der 13.115 einzigartige Charaktere mit vielfältigen Erscheinungsbildern und Bewegungen enthält, die aus mehreren Blickwinkeln gerendert wurden. Umfangreiche Experimente auf unserem neu erstellten Benchmark, CharacterBench, zeigen, dass unser Ansatz aktuelle State-of-the-Art-Methoden übertrifft. Code, Modelle und Datensätze werden unter https://github.com/Jeoyal/CharacterShot öffentlich verfügbar sein.
Diffusion Large Language Models (dLLMs) erzeugen Text durch iteratives Entrauschen, doch aktuelle Dekodierungsstrategien verwerfen die reichhaltigen Zwischenvorhersagen zugunsten des finalen Outputs. Unsere Arbeit enthüllt hier ein kritisches Phänomen, die zeitliche Oszillation, bei der korrekte Antworten oft im mittleren Prozess entstehen, aber in späteren Entrauschungsschritten überschrieben werden. Um dieses Problem zu adressieren, führen wir zwei komplementäre Methoden ein, die zeitliche Konsistenz nutzen: 1) Temporal Self-Consistency Voting, eine trainingsfreie Dekodierungsstrategie zur Testzeit, die Vorhersagen über Entrauschungsschritte hinweg aggregiert, um den konsistentesten Output auszuwählen; und 2) eine nachträgliche Trainingsmethode namens Temporal Consistency Reinforcement, die Temporal Semantic Entropy (TSE), ein Maß für semantische Stabilität über Zwischenvorhersagen hinweg, als Belohnungssignal verwendet, um stabile Generierungen zu fördern. Empirische Ergebnisse über mehrere Benchmarks hinweg demonstrieren die Wirksamkeit unseres Ansatzes. Allein durch die Verwendung des negativen TSE-Belohnungssignals beobachten wir eine bemerkenswerte durchschnittliche Verbesserung von 24,7 % auf dem Countdown-Datensatz gegenüber einem bestehenden dLLM. In Kombination mit dem Genauigkeits-Belohnungssignal erzielen wir absolute Gewinne von 2,0 % auf GSM8K, 4,3 % auf MATH500, 6,6 % auf SVAMP und 25,3 % auf Countdown. Unsere Erkenntnisse unterstreichen das ungenutzte Potenzial der zeitlichen Dynamik in dLLMs und bieten zwei einfache, aber effektive Werkzeuge, um sie zu nutzen.
Kürzlich haben große Reasoning-Modelle starke mathematische und Programmierfähigkeiten gezeigt, und Deep Search nutzt ihre Reasoning-Fähigkeiten bei anspruchsvollen Informationsbeschaffungsaufgaben. Bisherige Deep-Search-Ansätze beschränken sich in der Regel auf eine einzige Wissensquelle, entweder lokal oder das Web. Unternehmen benötigen jedoch oft private Deep-Search-Systeme, die Suchwerkzeuge sowohl über lokale als auch Web-Korpora nutzen können. Ein einfacher Ansatz wäre das Training eines Agenten, der mit mehreren Suchwerkzeugen ausgestattet ist, mittels flachem Reinforcement Learning (RL). Dies hat jedoch Probleme wie geringe Effizienz der Trainingsdaten und mangelnde Beherrschung komplexer Werkzeuge. Um dieses Problem zu lösen, schlagen wir ein hierarchisches agentenbasiertes Deep-Search-Framework, HierSearch, vor, das mit hierarchischem RL trainiert wird. Auf der unteren Ebene werden ein lokaler Deep-Search-Agent und ein Web-Deep-Search-Agent trainiert, um Beweise aus ihren jeweiligen Domänen abzurufen. Auf der oberen Ebene koordiniert ein Planungsagent die untergeordneten Agenten und liefert die endgültige Antwort. Um das direkte Kopieren von Antworten und die Fehlerfortpflanzung zu verhindern, haben wir einen Wissensverfeinerer entwickelt, der Halluzinationen und irrelevante Beweise, die von den untergeordneten Agenten zurückgegeben werden, herausfiltert. Experimente zeigen, dass HierSearch im Vergleich zu flachem RL eine bessere Leistung erzielt und verschiedene Deep-Search- und Multi-Source-Retrieval-Augmented-Generation-Baselines in sechs Benchmarks aus den Bereichen Allgemeinwissen, Finanzen und Medizin übertrifft.
Wir stellen VertexRegen vor, ein neuartiges Framework zur Mesh-Generierung, das die Erzeugung in einem kontinuierlichen Detaillierungsgrad ermöglicht. Bestehende autoregressive Methoden generieren Meshes in einem partiell-zu-vollständigen Ansatz, sodass Zwischenschritte der Generierung unvollständige Strukturen darstellen. VertexRegen lässt sich von progressiven Meshes inspirieren und formuliert den Prozess als Umkehrung des Edge-Collapse, d.h. Vertex-Split, neu, der durch ein generatives Modell erlernt wird. Experimentelle Ergebnisse zeigen, dass VertexRegen Meshes von vergleichbarer Qualität wie state-of-the-art Methoden erzeugt, wobei es einzigartig eine jederzeitige Generierung bietet, mit der Flexibilität, an jedem Schritt anzuhalten, um gültige Meshes mit unterschiedlichen Detaillierungsgraden zu erzeugen.
Vision-Language-Modelle haben beeindruckende Fähigkeiten als Computer-Nutzungs-Agenten (CUAs) bewiesen, die in der Lage sind, diverse Computeraufgaben zu automatisieren. Während ihr kommerzielles Potenzial wächst, bleiben kritische Details der leistungsfähigsten CUA-Systeme geschlossen. Da diese Agenten zunehmend digitale Interaktionen vermitteln und folgenreiche Entscheidungen in unserem Namen ausführen werden, benötigt die Forschungsgemeinschaft Zugang zu offenen CUA-Frameworks, um deren Fähigkeiten, Grenzen und Risiken zu untersuchen. Um diese Lücke zu schließen, schlagen wir OpenCUA vor, ein umfassendes Open-Source-Framework zur Skalierung von CUA-Daten und Foundation-Modellen. Unser Framework besteht aus: (1) einer Annotationsinfrastruktur, die menschliche Computer-Nutzungs-Demonstrationen nahtlos erfasst; (2) AgentNet, dem ersten groß angelegten Computer-Nutzungs-Aufgaben-Datensatz, der 3 Betriebssysteme und über 200 Anwendungen und Websites umfasst; (3) einer skalierbaren Pipeline, die Demonstrationen in Zustand-Aktions-Paare mit reflektierender langkettiger Chain-of-Thought-Argumentation umwandelt, die robuste Leistungssteigerungen bei der Datenskalierung aufrechterhält. Unsere End-to-End-Agentenmodelle zeigen starke Leistungen in CUA-Benchmarks. Insbesondere erreicht OpenCUA-32B eine durchschnittliche Erfolgsrate von 34,8 % auf OSWorld-Verified und setzt damit einen neuen State-of-the-Art (SOTA) unter Open-Source-Modellen, der den OpenAI CUA (GPT-4o) übertrifft. Weitere Analysen bestätigen, dass unser Ansatz gut über verschiedene Domänen hinweg generalisiert und signifikant von erhöhter Testzeit-Berechnung profitiert. Wir veröffentlichen unser Annotationswerkzeug, Datensätze, Code und Modelle, um offene Grundlagen für weitere CUA-Forschung zu schaffen.
Die Verankerung von grafischen Benutzeroberflächen (GUI), also die Aufgabe, natürliche Sprachbefehle auf präzise Bildschirmkoordinaten abzubilden, ist grundlegend für autonome GUI-Agenten. Während bestehende Methoden durch umfangreiche überwachte Trainings oder Verstärkungslernen mit beschrifteten Belohnungen starke Leistungen erzielen, bleiben sie durch die Kosten und Verfügbarkeit von Pixel-annotationen eingeschränkt. Wir beobachten, dass wenn Modelle mehrere Vorhersagen für dasselbe GUI-Element generieren, die räumlichen Überlappungsmuster implizite Konfidenzsignale offenbaren, die eine genauere Lokalisierung leiten können. Basierend auf dieser Erkenntnis schlagen wir GUI-RC (Region Consistency) vor, eine Methode zur Skalierung zur Testzeit, die räumliche Abstimmungsgitter aus mehreren gesampelten Vorhersagen konstruiert, um Konsensregionen zu identifizieren, in denen Modelle die höchste Übereinstimmung zeigen. Ohne jegliches Training verbessert GUI-RC die Genauigkeit um 2-3% über verschiedene Architekturen hinweg auf ScreenSpot-Benchmarks. Wir führen weiterhin GUI-RCPO (Region Consistency Policy Optimization) ein, das diese Konsistenzmuster in Belohnungen für Verstärkungslernen zur Testzeit umwandelt. Indem berechnet wird, wie gut jede Vorhersage mit dem kollektiven Konsens übereinstimmt, ermöglicht GUI-RCPO Modellen, ihre Ausgaben auf unmarkierten Daten während der Inferenz iterativ zu verfeinern. Umfangreiche Experimente demonstrieren die Allgemeingültigkeit unseres Ansatzes: GUI-RC steigert Qwen2.5-VL-3B-Instruct von 80,11% auf 83,57% auf ScreenSpot-v2, während GUI-RCPO es durch selbstüberwachte Optimierung weiter auf 85,14% verbessert. Unser Ansatz offenbart das ungenutzte Potenzial von Skalierung zur Testzeit und Verstärkungslernen zur Testzeit für die GUI-Verankerung und bietet einen vielversprechenden Weg hin zu robusteren und dateneffizienteren GUI-Agenten.
Aktuelle Arbeiten zur Verbesserung der Fähigkeiten von großen Sprachmodellen (LLMs) im Bereich des logischen Denkens haben die explizite Längenkontrolle als Mittel zur Begrenzung der Rechenkosten bei gleichzeitiger Wahrung der Genauigkeit eingeführt. Bisherige Ansätze stützen sich jedoch auf feste Trainingsbudgets, die den natürlichen Fortschritt von der Exploration zur Kompression während des Lernens nicht nutzen. In dieser Arbeit schlagen wir eine Curriculum-Learning-Strategie für die längenkontrollierte Argumentation unter Verwendung von Group Relative Policy Optimization (GRPO) vor. Unsere Methode beginnt mit großzügigen Token-Budgets und reduziert diese im Laufe des Trainings schrittweise, wodurch Modelle dazu angeregt werden, zunächst effektive Lösungsstrategien zu entdecken und diese dann in prägnantere Argumentationspfade zu verdichten. Wir erweitern GRPO um eine Belohnungsfunktion, die drei Signale ausbalanciert: Aufgabenkorrektheit (über Verifizierer-Feedback), Längeneffizienz und Formatierungseinhaltung (über strukturelle Tags). Experimente auf GSM8K, MATH500, SVAMP, College Math und GSM+ zeigen, dass das curriculum-basierte Training bei gleichem Endbudget durchweg feste Budget-Baselines übertrifft, mit höherer Genauigkeit und deutlich verbesserter Token-Effizienz. Wir untersuchen weiterhin die Auswirkungen der Belohnungsgewichtung und des Abklingplans und zeigen, dass progressive Einschränkungen als starke induktive Verzerrung für das Training effizienter Argumentationsmodelle dienen. Unser Code und unsere Checkpoints sind verfügbar unter: https://github.com/hammoudhasan/curriculum_grpo.
Aktuelle Diffusionsmodelle für die audio-gesteuerte Avatar-Videogenerierung haben Schwierigkeiten, lange Videos mit natürlicher Audio-Synchronisation und Identitätskonsistenz zu synthetisieren. Dieses Paper stellt StableAvatar vor, den ersten end-to-end Video-Diffusion-Transformer, der unendlich lange hochwertige Videos ohne Nachbearbeitung synthetisiert. Basierend auf einem Referenzbild und Audio integriert StableAvatar maßgeschneiderte Trainings- und Inferenzmodule, um die Generierung von unendlich langen Videos zu ermöglichen. Wir beobachten, dass der Hauptgrund, der bestehende Modelle daran hindert, lange Videos zu generieren, in ihrer Audiomodellierung liegt. Sie verlassen sich typischerweise auf Drittanbieter-Extraktoren, um Audio-Embeddings zu erhalten, die dann direkt über Cross-Attention in das Diffusionsmodell injiziert werden. Da aktuelle Diffusions-Backbones keine audio-bezogenen Prioritäten besitzen, führt dieser Ansatz zu einer schwerwiegenden Akkumulation von latenten Verteilungsfehlern über Videoclips hinweg, wodurch die latente Verteilung nachfolgender Segmente allmählich von der optimalen Verteilung abweicht. Um dies zu beheben, führt StableAvatar einen neuartigen Time-step-aware Audio Adapter ein, der die Fehlerakkumulation durch zeitstufenbewusste Modulation verhindert. Während der Inferenz schlagen wir einen neuartigen Audio Native Guidance Mechanism vor, der die Audio-Synchronisation weiter verbessert, indem die sich entwickelnde gemeinsame Audio-Latent-Vorhersage der Diffusion als dynamisches Führungssignal genutzt wird. Um die Glätte der unendlich langen Videos zu verbessern, führen wir eine Dynamic Weighted Sliding-window Strategy ein, die latente Zustände über die Zeit hinweg fusioniert. Experimente auf Benchmarks zeigen die Wirksamkeit von StableAvatar sowohl qualitativ als auch quantitativ.
Text-to-Image (T2I)-Generierung wurde intensiv mit Diffusionsmodellen und autoregressiven Modellen untersucht. Kürzlich haben Masked Generative Transformers als Alternative zu autoregressiven Modellen Aufmerksamkeit erregt, da sie die inhärenten Einschränkungen der kausalen Aufmerksamkeit und des autoregressiven Decodings durch bidirektionale Aufmerksamkeit und paralleles Decoding überwinden, was eine effiziente und hochwertige Bildgenerierung ermöglicht. Dennoch bleibt die kompositionelle T2I-Generierung eine Herausforderung, da selbst state-of-the-art Diffusionsmodelle oft scheitern, Attribute präzise zu binden und eine angemessene Text-Bild-Ausrichtung zu erreichen. Während Diffusionsmodelle in diesem Zusammenhang umfassend untersucht wurden, zeigen Masked Generative Transformers ähnliche Einschränkungen, wurden jedoch in diesem Kontext noch nicht erforscht. Um dies zu adressieren, schlagen wir Unmasking with Contrastive Attention Guidance (UNCAGE) vor, eine neuartige trainingsfreie Methode, die die kompositionelle Treue verbessert, indem sie Aufmerksamkeitskarten nutzt, um die Entmaskung von Tokens zu priorisieren, die einzelne Objekte klar repräsentieren. UNCAGE verbessert durchgängig die Leistung in quantitativen und qualitativen Bewertungen über mehrere Benchmarks und Metrik hinweg, mit vernachlässigbarem Inferenz-Overhead. Unser Code ist verfügbar unter https://github.com/furiosa-ai/uncage.
Wir präsentieren Aryabhata 1.0, ein kompaktes Modell mit 7B Parametern für mathematisches Denken, das für die indische Aufnahmeprüfung, die Joint Entrance Examination (JEE), optimiert ist. Trotz rasanter Fortschritte bei großen Sprachmodellen (LLMs) sind aktuelle Modelle oft noch nicht für den Bildungsbereich geeignet. Aryabhata 1.0 wurde durch die Zusammenführung starker Open-Weight-Reasoning-Modelle entwickelt, gefolgt von einem überwachten Feinabstimmungsprozess (SFT) mit Curriculum-Learning auf verifizierten Chain-of-Thought (CoT)-Spuren, die durch Best-of-n-Rejection-Sampling kuratiert wurden. Um die Leistung weiter zu steigern, wenden wir Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) an, basierend auf dem A2C-Objective mit gruppenrelativer Vorteilsschätzung sowie neuartigen Explorationsstrategien wie Adaptive Group Resizing und Temperature Scaling. Evaluiert sowohl auf In-Distribution- (JEE Main 2025) als auch Out-of-Distribution-Benchmarks (MATH, GSM8K), übertrifft Aryabhata bestehende Modelle in Bezug auf Genauigkeit und Effizienz und bietet gleichzeitig pädagogisch nützliche Schritt-für-Schritt-Begründungen. Wir veröffentlichen Aryabhata als Basismodell, um prüfungszentrierte, Open-Source-kleine Sprachmodelle voranzutreiben. Dies markiert unsere erste offene Veröffentlichung für Community-Feedback (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 auf Hugging Face}); PW trainiert aktiv zukünftige Modelle, um die Lernergebnisse für Schüler weiter zu verbessern.
Effektive Werkzeugnutzung ist entscheidend dafür, dass große Sprachmodelle (LLMs) sinnvoll mit ihrer Umgebung interagieren können. Der Fortschritt wird jedoch durch den Mangel an effizienten Reinforcement-Learning (RL)-Frameworks, die speziell für die Werkzeugnutzung entwickelt wurden, eingeschränkt. Dies liegt an den Herausforderungen bei der Konstruktion stabiler Trainingsumgebungen und der Gestaltung überprüfbarer Belohnungsmechanismen. Um dies zu adressieren, schlagen wir eine automatisierte Pipeline zur Umgebungskonstruktion vor, die Szenariozerlegung, Dokumentgenerierung, Funktionsintegration, Komplexitätsskalierung und lokalisierte Bereitstellung umfasst. Dies ermöglicht die Erstellung hochwertiger Trainingsumgebungen, die detaillierte und messbare Rückmeldungen liefern, ohne auf externe Werkzeuge angewiesen zu sein. Zusätzlich führen wir einen überprüfbaren Belohnungsmechanismus ein, der sowohl die Präzision der Werkzeugnutzung als auch die Vollständigkeit der Aufgabenausführung bewertet. In Kombination mit Trajektoriendaten, die aus den konstruierten Umgebungen gesammelt werden, integriert sich dieser Mechanismus nahtlos in standardmäßige RL-Algorithmen, um feedbackgesteuertes Modelltraining zu ermöglichen. Experimente mit LLMs unterschiedlicher Größenordnungen zeigen, dass unser Ansatz die Werkzeugnutzungsleistung der Modelle signifikant verbessert, ohne deren allgemeine Fähigkeiten zu beeinträchtigen, unabhängig von Inferenzmodi oder Trainingsalgorithmen. Unsere Analyse legt nahe, dass diese Verbesserungen auf ein besseres Verständnis des Kontexts und eine verbesserte Schlussfolgerungsfähigkeit zurückzuführen sind, die durch Aktualisierungen der MLP-Parameter in den unteren Schichten der Modelle angetrieben werden.
Effektive Multi-Shot-Generierung erfordert gezielte, filmähnliche Übergänge und strikte filmische Kontinuität. Aktuelle Methoden priorisieren jedoch oft grundlegende visuelle Konsistenz und vernachlässigen dabei entscheidende Schnittmuster (z. B. Schuss/Gegenschuss, Einblendungen), die den narrativen Fluss für fesselndes Storytelling vorantreiben. Dies führt zu Ergebnissen, die zwar visuell kohärent sein mögen, aber an narrativer Raffinesse und wahrer filmischer Integrität mangeln. Um diese Lücke zu schließen, führen wir Next Shot Generation (NSG) ein: die Synthese eines nachfolgenden, hochwertigen Shots, der sich kritisch an professionelle Schnittmuster hält und gleichzeitig strenge filmische Kontinuität bewahrt. Unser Framework, Cut2Next, nutzt einen Diffusion Transformer (DiT). Es setzt In-Context-Tuning ein, das durch eine neuartige Hierarchical Multi-Prompting-Strategie geleitet wird. Diese Strategie verwendet Relational Prompts, um den Gesamtkontext und die Schnittstile zwischen den Shots zu definieren. Individual Prompts spezifizieren dann den Inhalt und die filmografischen Attribute pro Shot. Zusammen leiten sie Cut2Next an, filmisch angemessene nächste Shots zu generieren. Architektonische Innovationen, Context-Aware Condition Injection (CACI) und Hierarchical Attention Mask (HAM), integrieren diese vielfältigen Signale weiter, ohne neue Parameter einzuführen. Wir erstellen die Datensätze RawCuts (groß angelegt) und CuratedCuts (verfeinert), beide mit hierarchischen Prompts, und führen CutBench zur Bewertung ein. Experimente zeigen, dass Cut2Next in visueller Konsistenz und Texttreue überzeugt. Entscheidend ist, dass Benutzerstudien eine starke Präferenz für Cut2Next offenbaren, insbesondere für seine Einhaltung der beabsichtigten Schnittmuster und der gesamten filmischen Kontinuität, was seine Fähigkeit zur Generierung hochwertiger, narrativ ausdrucksstarker und filmisch kohärenter nachfolgender Shots bestätigt.
Eine geschickte Hand, die in der Lage ist, Objekte generalisierbar zu greifen, ist grundlegend für die Entwicklung von allgemein einsetzbarer, verkörperter KI. Bisherige Methoden konzentrieren sich jedoch eng auf Metriken zur Greifstabilität auf niedriger Ebene und vernachlässigen affordanzbewusste Positionierung sowie menschenähnliche Posen, die für nachgelagerte Manipulationen entscheidend sind. Um diese Einschränkungen zu überwinden, schlagen wir AffordDex vor, ein neuartiges Framework mit zweistufigem Training, das eine universelle Greifpolitik erlernt, die ein inhärentes Verständnis sowohl von Bewegungspräferenzen als auch von Objektaffordanzen besitzt. In der ersten Stufe wird ein Trajektorienimitator auf einem umfangreichen Korpus menschlicher Handbewegungen vortrainiert, um eine starke Priorität für natürliche Bewegungen zu verankern. In der zweiten Stufe wird ein Residualmodul trainiert, um diese allgemeinen, menschenähnlichen Bewegungen an spezifische Objektinstanzen anzupassen. Diese Verfeinerung wird maßgeblich durch zwei Komponenten geleitet: unser Negativ-Affordanzbewusstes Segmentierungsmodul (NAA), das funktional ungeeignete Kontaktregionen identifiziert, und einen privilegierten Lehrer-Schüler-Distillationsprozess, der sicherstellt, dass die finale visuell basierte Politik äußerst erfolgreich ist. Umfangreiche Experimente zeigen, dass AffordDex nicht nur universelles, geschicktes Greifen erreicht, sondern auch in der Haltung bemerkenswert menschenähnlich und in der Kontaktposition funktional angemessen bleibt. Dadurch übertrifft AffordDex die aktuellsten Baselines deutlich bei bekannten Objekten, unbekannten Instanzen und sogar völlig neuen Kategorien.
Wir präsentieren das erste Evaluationsframework, das es ermöglicht, beliebige lokale Large Language Models (LLMs) ohne Feinabstimmung oder spezialisiertes Training in vollständigen Diplomacy-Spielen einzusetzen. Bisherige Arbeiten erforderten entweder hochmoderne LLMs oder Feinabstimmung aufgrund der hohen Komplexität und Informationsdichte des Spielzustands in Diplomacy. In Kombination mit der hohen Varianz der Spiele machten diese Faktoren Diplomacy für Studien schwer zugänglich. In dieser Arbeit haben wir datengetriebene Iterationen genutzt, um eine textbasierte Darstellung des Spielzustands so zu optimieren, dass ein 24B-Modell zuverlässig Spiele ohne jegliche Feinabstimmung abschließen kann. Wir entwickeln Werkzeuge, um Hypothesentests und statistische Analysen zu erleichtern, und präsentieren Fallstudien zu Überzeugungsfähigkeit, aggressiven Spielstilen und der Leistung über eine Reihe von Modellen hinweg. Wir führen eine Vielzahl von Experimenten mit vielen populären LLMs durch und stellen fest, dass größere Modelle die beste Leistung erbringen, kleinere Modelle jedoch immer noch angemessen spielen. Wir führen auch die Critical State Analysis ein: ein experimentelles Protokoll zur schnellen Iteration und tiefgehenden Analyse von Schlüsselmomenten in einem Spiel. Unser Framework demokratisiert die Bewertung von strategischem Denken in LLMs, indem es die Notwendigkeit einer Feinabstimmung eliminiert, und liefert Einblicke, wie diese Fähigkeiten natürlich in weit verbreiteten LLMs entstehen. Unser Code ist im Anhang verfügbar und wird Open Source bereitgestellt.
Dank der Entwicklung von Cross-Modal-Modellen schreitet die Text-zu-Video-Retrieval (T2VR) schnell voran, doch ihre Robustheit bleibt weitgehend unerforscht. Bestehende Angriffe auf T2VR sind darauf ausgelegt, Videos von Anfragen wegzuschieben, d.h., die Ränge von Videos zu unterdrücken, während Angriffe, die Videos zu ausgewählten Anfragen hinziehen, d.h., die Ränge von Videos zu fördern, weitgehend unerforscht bleiben. Diese Angriffe können weitreichender sein, da Angreifer dadurch mehr Aufrufe/Klicks für finanzielle Vorteile und die Verbreitung von (Fehl-)Informationen erzielen können. Zu diesem Zweck führen wir den ersten Angriff auf T2VR ein, um Videos auf adversarische Weise zu fördern, den wir als Video-Promotion-Angriff (ViPro) bezeichnen. Wir schlagen außerdem Modal Refinement (MoRe) vor, um die feineren, komplexen Interaktionen zwischen visuellen und textuellen Modalitäten zu erfassen und die Black-Box-Übertragbarkeit zu verbessern. Umfassende Experimente decken 2 bestehende Baselines, 3 führende T2VR-Modelle, 3 verbreitete Datensätze mit über 10.000 Videos ab, die unter 3 Szenarien evaluiert werden. Alle Experimente werden in einem Multi-Target-Setting durchgeführt, um realistische Szenarien widerzuspiegeln, in denen Angreifer versuchen, das Video in Bezug auf mehrere Anfragen gleichzeitig zu fördern. Wir haben unsere Angriffe auch auf Abwehrmechanismen und Unwahrnehmbarkeit hin evaluiert. Insgesamt übertrifft ViPro andere Baselines im Durchschnitt um über 30/10/4 % für White/Grey/Black-Box-Settings. Unsere Arbeit beleuchtet eine übersehene Schwachstelle, bietet eine qualitative Analyse der oberen/unteren Grenze unserer Angriffe und gibt Einblicke in potenzielle Gegenmaßnahmen. Der Code wird öffentlich unter https://github.com/michaeltian108/ViPro verfügbar sein.
Dieses Papier stellt eine einfache, aber effektive Regularisierung für das interne Sprachmodell vor, das durch den Decoder in Encoder-Decoder-ASR-Modellen induziert wird, wodurch die Robustheit und Generalisierung sowohl in in-domain als auch out-of-domain-Szenarien verbessert wird. Die vorgeschlagene Methode, Decoder-Centric Regularization in Encoder-Decoder (DeCRED), fügt dem Decoder zusätzliche Klassifikatoren hinzu, die die Vorhersage des nächsten Tokens über Zwischenlogits ermöglichen. Empirisch reduziert DeCRED die mittlere interne LM-BPE-Perplexität um 36,6 % relativ zu 11 Testdatensätzen. Darüber hinaus führt dies zu tatsächlichen Verbesserungen der Wortfehlerrate (WER) gegenüber der Baseline in 5 von 7 in-domain und 3 von 4 out-of-domain-Testdatensätzen, wobei die makro WER von 6,4 % auf 6,3 % bzw. von 18,2 % auf 16,2 % reduziert wird. Auf TEDLIUM3 erreicht DeCRED eine WER von 7,0 % und übertrifft damit die Baseline und die encoder-zentrierte InterCTC-Regularisierung um 0,6 % bzw. 0,5 %. Schließlich vergleichen wir DeCRED mit OWSM v3.1 und Whisper-medium und zeigen wettbewerbsfähige WERs trotz des Trainings mit deutlich weniger Daten und weniger Parametern.
KI-Codierungsassistenten wie GitHub Copilot revolutionieren die Softwareentwicklung rapide, doch ihre Sicherheit bleibt höchst ungewiss – insbesondere in risikoreichen Bereichen wie der Cybersicherheit. Aktuelle Red-Teaming-Tools verlassen sich oft auf feste Benchmarks oder unrealistische Eingabeaufforderungen, wodurch viele reale Schwachstellen übersehen werden. Wir stellen ASTRA vor, ein automatisiertes Agentensystem, das entwickelt wurde, um systematisch Sicherheitslücken in KI-gestützten Codegenerierungs- und Sicherheitsberatungssystemen aufzudecken. ASTRA arbeitet in drei Phasen: (1) Es erstellt strukturierte, domänenspezifische Wissensgraphen, die komplexe Softwareaufgaben und bekannte Schwachstellen modellieren; (2) Es führt eine Online-Schwachstellenexploration für jedes Zielmodell durch, indem es sowohl den Eingaberaum, d.h. die räumliche Exploration, als auch die Denkprozesse, d.h. die zeitliche Exploration, adaptiv untersucht, geleitet durch die Wissensgraphen; und (3) Es generiert hochwertige, verletzungsinduzierende Fälle, um die Modellausrichtung zu verbessern. Im Gegensatz zu früheren Methoden konzentriert sich ASTRA auf realistische Eingaben – Anfragen, die Entwickler tatsächlich stellen könnten – und nutzt sowohl offline abstraktionsgestützte Domänenmodellierung als auch online Wissensgraphenanpassung, um Randfall-Schwachstellen aufzudecken. In zwei großen Evaluierungsdomänen findet ASTRA 11–66 % mehr Probleme als bestehende Techniken und erzeugt Testfälle, die zu 17 % effektiverer Ausrichtungstraining führen, was seinen praktischen Wert für den Aufbau sichererer KI-Systeme unterstreicht.
In diesem Artikel stellen wir AimBot vor, eine leichtgewichtige visuelle Augmentierungstechnik, die explizite räumliche Hinweise bereitstellt, um das Lernen von visuomotorischen Strategien in der robotergestützten Manipulation zu verbessern. AimBot überlagert Schusslinien und Zielkreuze auf Multi-View-RGB-Bilder und bietet damit zusätzliche visuelle Anleitung, die den Zustand des Endeffektors kodiert. Die Überlagerungen werden aus Tiefenbildern, Kamerapositionen und der aktuellen Pose des Endeffektors berechnet und vermitteln explizit die räumlichen Beziehungen zwischen dem Greifer und den Objekten in der Szene. AimBot verursacht einen minimalen Rechenaufwand (weniger als 1 ms) und erfordert keine Änderungen an den Modellarchitekturen, da es lediglich die ursprünglichen RGB-Bilder durch augmentierte Versionen ersetzt. Trotz seiner Einfachheit zeigen unsere Ergebnisse, dass AimBot die Leistung verschiedener visuomotorischer Strategien sowohl in der Simulation als auch in realen Umgebungen konsequent verbessert, was die Vorteile von räumlich verankertem visuellem Feedback unterstreicht.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Bereichen gezeigt, wobei die Codegenerierung als ein zentraler Schwerpunkt hervorgeht. Obwohl zahlreiche Benchmarks vorgeschlagen wurden, um ihre Fähigkeiten zur Codegenerierung zu bewerten, weisen diese Benchmarks mehrere kritische Einschränkungen auf. Erstens stützen sie sich oft auf manuelle Annotationen, die zeitaufwendig sind und sich nur schwer über verschiedene Programmiersprachen und Problemkomplexitäten skalieren lassen. Zweitens konzentrieren sich die meisten bestehenden Benchmarks hauptsächlich auf Python, während die wenigen mehrsprachigen Benchmarks unter begrenzter Schwierigkeit und ungleichmäßiger Sprachverteilung leiden. Um diese Herausforderungen zu bewältigen, schlagen wir AutoCodeGen vor, eine automatisierte Methode zur Generierung von mehrsprachigen Codegenerierungsdatensätzen mit hohem Schwierigkeitsgrad ohne manuelle Annotationen. AutoCodeGen gewährleistet die Korrektheit und Vollständigkeit von Testfällen, indem Testeingaben mit LLMs generiert und Testausgaben durch eine mehrsprachige Sandbox ermittelt werden, während eine hohe Datenqualität durch rückwärtsgerichtete Problemgenerierung und mehrere Filterungsschritte erreicht wird. Mit dieser neuartigen Methode führen wir AutoCodeBench ein, einen groß angelegten Codegenerierungs-Benchmark, der 3.920 Probleme umfasst, die gleichmäßig über 20 Programmiersprachen verteilt sind. Er wurde speziell entwickelt, um LLMs anhand von anspruchsvollen, vielfältigen und praktischen mehrsprachigen Aufgaben zu bewerten. Wir evaluieren über 30 führende Open-Source- und proprietäre LLMs auf AutoCodeBench und seiner vereinfachten Version AutoCodeBench-Lite. Die Ergebnisse zeigen, dass selbst die fortschrittlichsten LLMs mit der Komplexität, Vielfalt und Mehrsprachigkeit dieser Aufgaben zu kämpfen haben. Darüber hinaus führen wir AutoCodeBench-Complete ein, das speziell für Basismodelle entwickelt wurde, um ihre Few-Shot-Codegenerierungsfähigkeiten zu bewerten. Wir hoffen, dass die AutoCodeBench-Serie als wertvolle Ressource dienen und die Gemeinschaft dazu inspirieren wird, sich auf anspruchsvollere und praktischere mehrsprachige Codegenerierungsszenarien zu konzentrieren.
Es wurde gezeigt, dass LLMs (Large Language Models) bei der maschinellen Übersetzung (MT) mit der Verwendung von In-Context-Learning (ICL) gute Leistungen erbringen und dabei überwachte Modelle bei der Übersetzung in Hochressourcensprachen (HRLs) übertreffen. Allerdings hinken sie bei der Übersetzung in Niedrigressourcensprachen (LRLs) hinterher. Die Auswahl von Beispielen durch Ähnlichkeitssuche und überwachtes Feinabstimmen hilft, doch die dadurch erzielten Verbesserungen sind durch die Größe, Qualität und Vielfalt der vorhandenen parallelen Datensätze begrenzt. Eine gängige Technik in der Niedrigressourcen-MT ist die Erstellung synthetischer paralleler Daten, wobei die häufigste Methode die Rückübersetzung ist, bei der vorhandene Zielsprachentexte automatisch in die Ausgangssprache übersetzt werden. Dies setzt jedoch das Vorhandensein von qualitativ hochwertigen und relevanten Zielsprachentexten voraus, die für viele LRLs nicht ohne Weiteres verfügbar sind. In diesem Artikel stellen wir TopXGen vor, einen LLM-basierten Ansatz zur Erzeugung von qualitativ hochwertigen und thematisch vielfältigen Daten in mehreren LRLs, die dann rückübersetzt werden können, um nützliche und vielfältige parallele Texte für ICL und Feinabstimmung zu erzeugen. Unsere Intuition ist, dass LLMs zwar Schwierigkeiten haben, in LRLs zu übersetzen, ihre Fähigkeit, gut in HRLs zu übersetzen, und ihre Mehrsprachigkeit es ihnen jedoch ermöglichen, qualitativ hochwertige, natürlich klingende Zielsprachentexte zu generieren, die gut in eine Hochressourcen-Ausgangssprache übersetzt werden können. Wir zeigen, dass TopXGen die Übersetzungsleistung von LLMs während des Feinabstimmens und des In-Context-Learnings steigert. Code und Ergebnisse sind unter https://github.com/ArmelRandy/topxgen verfügbar.
Obwohl große Sprachmodelle zunehmend leistungsfähiger werden, ist es immer noch unangemessen, von ihnen zu erwarten, dass sie Aufgaben, die im Internet unterrepräsentiert sind, hervorragend bewältigen. Die Nutzung von LLMs für spezialisierte Anwendungen, insbesondere in Nischen-Programmiersprachen und privaten Domänen, bleibt herausfordernd und weitgehend ungelöst. In dieser Arbeit adressieren wir diese Lücke, indem wir einen umfassenden, quelloffenen Ansatz zur Anpassung von LLMs an die Q-Programmiersprache vorstellen, ein beliebtes Werkzeug in der quantitativen Finanzwelt, das im Vergleich zu Python, C, Java und anderen „Mainstream“-Sprachen viel weniger im Internet präsent ist und daher keine Stärke allgemeiner KI-Modelle darstellt. Wir führen einen neuen Leetcode-artigen Evaluationsdatensatz für Q ein, benchmarken führende Frontier-Modelle auf diesem Datensatz und führen anschließend Pretraining, überwachtes Feintuning und Reinforcement Learning durch, um eine Reihe von Reasoning- und Nicht-Reasoning-Modellen basierend auf der Qwen-2.5-Serie zu trainieren, die fünf Parametergrößen umfasst (1,5B, 3B, 7B, 14B, 32B). Unser bestes Modell erreicht eine Pass@1-Genauigkeit von 59 Prozent auf unserem Q-Benchmark und übertrifft damit das leistungsstärkste Frontier-Modell, Claude Opus-4, um 29,5 Prozent. Darüber hinaus übertreffen alle Modelle, sogar unser 1,5B-Modell, GPT-4.1 bei dieser Aufgabe. Neben der Veröffentlichung von Modellen, Code und Daten bieten wir einen detaillierten Leitfaden für die Datensatzerstellung, das Modell-Pretraining, das überwachte Feintuning und das Reinforcement Learning. Unsere Methodik ist breit anwendbar, und wir diskutieren, wie diese Techniken auf andere Aufgaben ausgeweitet werden können, einschließlich solcher, bei denen die Bewertung auf weichen oder subjektiven Signalen beruhen kann.
Die Aufgabe des Stiltransfers für 3D-Gaußsche Splats wurde in vielen früheren Arbeiten untersucht, doch diese erfordern die Rekonstruktion oder Feinabstimmung des Splats unter Einbeziehung von Stilinformationen oder die Optimierung eines Merkmalsextraktionsnetzwerks auf der Splat-Darstellung. Wir schlagen einen rekonstruktions- und optimierungsfreien Ansatz zur Stilisierung von 3D-Gaußschen Splats vor. Dies wird erreicht, indem eine Graphenstruktur über die implizite Oberfläche der Splat-Darstellung erzeugt wird. Anschließend wird ein vorwärtsgerichtetes, oberflächenbasiertes Stilisierungsverfahren verwendet und zurück auf die einzelnen Splats in der Szene interpoliert. Dies ermöglicht die Verwendung beliebiger Stilbilder und 3D-Gaußscher Splats ohne zusätzliches Training oder Optimierung. Darüber hinaus ermöglicht dies eine schnelle Stilisierung von Splats, die selbst auf Consumer-Hardware Geschwindigkeiten von unter 2 Minuten erreicht. Wir demonstrieren die qualitativ hochwertigen Ergebnisse, die dieser Ansatz erzielt, und vergleichen ihn mit anderen Methoden zum Stiltransfer bei 3D-Gaußschen Splats. Der Code ist öffentlich verfügbar unter https://github.com/davidmhart/FastSplatStyler.
Die Implementierung der Quantenspieltheorie auf echter Hardware ist aufgrund von Rauschen, Dekohärenz und begrenzter Qubit-Konnektivität eine Herausforderung, doch solche Demonstrationen sind entscheidend, um theoretische Vorhersagen zu validieren. Wir präsentieren eine der ersten vollständigen experimentellen Realisierungen des „Battle of the Sexes“-Spiels im Rahmen des Eisert-Wilkens-Lewenstein (EWL)-Modells auf IBMs Quantenprozessor „ibm_sherbrooke“ mit supraleitender Technologie. Vier Quantenstrategien (I, H, R(π/4), R(π)) wurden über 31 Verschränkungswerte γ im Bereich [0, π] mit 2048 Messungen pro Konfiguration evaluiert, wodurch ein direkter Vergleich zwischen analytischen Vorhersagen und Hardware-Ergebnissen ermöglicht wurde. Um Rauschen und Variabilität zu minimieren, führen wir eine Methode zur geführten Schaltungszuordnung (Guided Circuit Mapping, GCM) ein, die Qubit-Paare dynamisch auswählt und das Routing basierend auf Echtzeit-Topologie- und Kalibrierungsdaten optimiert. Das analytische Modell sagt eine Verbesserung der Auszahlung von bis zu 108 % gegenüber dem klassischen Gleichgewicht voraus, und trotz hardwarebedingter Abweichungen bewahren die experimentellen Ergebnisse mit GCM die erwarteten Auszahlungstrends innerhalb eines relativen Fehlers von 3,5 % bis 12 %. Diese Ergebnisse zeigen, dass Quantenvorteile in der strategischen Koordination unter realistischen NISQ-Bedingungen bestehen können und somit einen Weg zu praktischen Anwendungen der Quantenspieltheorie in Multi-Agenten-, Wirtschafts- und verteilten Entscheidungssystemen eröffnen.
Das Verständnis von Vorurteilen und Stereotypen, die in den Gewichten von Large Language Models (LLMs) kodiert sind, ist entscheidend für die Entwicklung effektiver Strategien zu deren Minderung. Voreingenommenes Verhalten ist oft subtil und nicht trivial zu isolieren, selbst wenn es gezielt hervorgerufen wird, was eine systematische Analyse und Entvoreingenommenung besonders herausfordernd macht. Um dies zu adressieren, stellen wir BiasGym vor, ein einfaches, kosteneffizientes und verallgemeinerbares Framework zur zuverlässigen Injektion, Analyse und Minderung konzeptueller Assoziationen innerhalb von LLMs. BiasGym besteht aus zwei Komponenten: BiasInject, das spezifische Vorurteile durch token-basiertes Fine-Tuning in das Modell injiziert, während das Modell selbst eingefroren bleibt, und BiasScope, das diese injizierten Signale nutzt, um die Komponenten zu identifizieren und zu steuern, die für voreingenommenes Verhalten verantwortlich sind. Unsere Methode ermöglicht eine konsistente Hervorrufung von Vorurteilen für mechanistische Analysen, unterstützt gezielte Entvoreingenommenung ohne Leistungseinbußen bei nachgelagerten Aufgaben und verallgemeinert auf Vorurteile, die während des Trainings nicht gesehen wurden. Wir demonstrieren die Wirksamkeit von BiasGym bei der Reduzierung realer Stereotype (z. B. dass Menschen aus einem Land „rücksichtslose Fahrer“ seien) und bei der Untersuchung fiktiver Assoziationen (z. B. dass Menschen aus einem Land „blaue Haut“ hätten), und zeigen damit seinen Nutzen sowohl für Sicherheitsinterventionen als auch für Interpretierbarkeitsforschung.
Rote Blutkörperchen (Erythrozyten) sind für die menschliche Gesundheit von entscheidender Bedeutung, und ihre präzise morphologische Analyse ist wichtig für die Diagnose hämatologischer Erkrankungen. Trotz des Potenzials von Foundation-Modellen in der medizinischen Diagnostik gibt es bisher nur wenige umfassende KI-Lösungen für die Analyse von Erythrozyten. Wir stellen RedDino vor, ein selbstüberwachtes Foundation-Modell, das speziell für die Bildanalyse von Erythrozyten entwickelt wurde. RedDino nutzt eine an Erythrozyten angepasste Version des DINOv2-Frameworks für selbstüberwachtes Lernen und wurde auf einem kuratierten Datensatz von 1,25 Millionen Erythrozytenbildern aus verschiedenen Aufnahmemodalitäten und Quellen trainiert. Umfangreiche Auswertungen zeigen, dass RedDino bestehende State-of-the-Art-Modelle bei der Klassifizierung von Erythrozytenformen übertrifft. Durch Bewertungen wie lineares Probing und Nearest-Neighbor-Klassifizierung bestätigen wir seine starken Merkmalsrepräsentationen und seine Generalisierungsfähigkeit. Unsere Hauptbeiträge sind: (1) ein Foundation-Modell, das speziell für die Erythrozytenanalyse entwickelt wurde, (2) Ablationsstudien zur Untersuchung von DINOv2-Konfigurationen für die Modellierung von Erythrozyten und (3) eine detaillierte Bewertung der Generalisierungsleistung. RedDino adressiert zentrale Herausforderungen in der computergestützten Hämatologie, indem es subtile morphologische Merkmale erfasst und die Entwicklung zuverlässiger Diagnosewerkzeuge vorantreibt. Der Quellcode und die vortrainierten Modelle für RedDino sind unter https://github.com/Snarci/RedDino verfügbar, und die vortrainierten Modelle können aus unserer Hugging-Face-Sammlung unter https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc heruntergeladen werden.
Urbanisierung, Klimawandel und landwirtschaftlicher Stress erhöhen die Nachfrage nach präziser und zeitnaher Umweltüberwachung. Die Landoberflächentemperatur (LST) ist in diesem Zusammenhang eine Schlüsselvariable und wird aus Fernerkundungssatelliten abgeleitet. Diese Systeme stehen jedoch vor einem Zielkonflikt zwischen räumlicher und zeitlicher Auflösung. Während spatio-temporale Fusionsmethoden vielversprechende Lösungen bieten, haben nur wenige die Schätzung der täglichen LST mit einer Auflösung von 10 m adressiert. In dieser Studie präsentieren wir WGAST, ein schwach überwachtes generatives Netzwerk zur täglichen 10-m-LST-Schätzung durch spatio-temporale Fusion von Terra MODIS, Landsat 8 und Sentinel-2. WGAST ist das erste End-to-End-Deep-Learning-Framework, das für diese Aufgabe entwickelt wurde. Es verwendet eine bedingte generative adversariale Architektur, bei der der Generator aus vier Stufen besteht: Merkmalsextraktion, Fusion, LST-Rekonstruktion und Rauschunterdrückung. In der ersten Stufe wird eine Reihe von Encodern eingesetzt, um mehrstufige latente Repräsentationen aus den Eingabedaten zu extrahieren, die in der zweiten Stufe mithilfe von Kosinusähnlichkeit, Normalisierung und temporalen Aufmerksamkeitsmechanismen fusioniert werden. Die dritte Stufe dekodiert die fusionierten Merkmale in hochauflösende LST, gefolgt von einem Gauß-Filter zur Unterdrückung von hochfrequentem Rauschen. Das Training folgt einer schwach überwachten Strategie, die auf physikalischen Mittelungsprinzipien basiert und durch einen PatchGAN-Diskriminator verstärkt wird. Experimente zeigen, dass WGAST bestehende Methoden sowohl in quantitativer als auch in qualitativer Hinsicht übertrifft. Im Vergleich zur leistungsstärksten Baseline reduziert WGAST den RMSE im Durchschnitt um 17,18 % und verbessert den SSIM um 11,00 %. Darüber hinaus ist WGAST robust gegenüber durch Wolken verursachter LST und erfasst effektiv feinskalige thermische Muster, wie durch 33 bodengestützte Sensoren validiert wurde. Der Code ist verfügbar unter https://github.com/Sofianebouaziz1/WGAST.git.
Die kontinuierliche Lernfähigkeit großer Sprachmodelle (LLMs) ist entscheidend für die Weiterentwicklung künstlicher allgemeiner Intelligenz. Allerdings leidet das kontinuierliche Feinabstimmen von LLMs über verschiedene Domänen hinweg häufig unter katastrophalem Vergessen, das sich durch folgende Merkmale auszeichnet: 1) signifikantes Vergessen ihrer allgemeinen Fähigkeiten und 2) starke Leistungseinbußen bei zuvor gelernten Aufgaben. Um beide Probleme gleichzeitig auf einfache und stabile Weise zu lösen, schlagen wir General Sample Replay (GeRe) vor, ein Framework, das übliche Vortrainingstexte für effizientes Anti-Vergessen nutzt. Über die gängigsten replay-basierten Praktiken unter GeRe hinaus nutzen wir neuronale Zustände, um eine verbesserte Optimierungsmethode mit aktivierungszustandsbeschränkter Schwellenwert-Marge (TM)-Verlustfunktion einzuführen, die die Konsistenz der Aktivierungszustände während des Replay-Lernens aufrechterhält. Wir sind die Ersten, die validieren, dass eine kleine, feste Menge von vorab gesammelten allgemeinen Replay-Stichproben ausreicht, um beide Bedenken zu lösen – die Beibehaltung allgemeiner Fähigkeiten bei gleichzeitiger Förderung der Gesamtleistung über sequenzielle Aufgaben hinweg. Tatsächlich kann Ersteres Letzteres inhärent begünstigen. Durch kontrollierte Experimente vergleichen wir systematisch TM mit verschiedenen Replay-Strategien unter dem GeRe-Framework, darunter einfache Label-Anpassung, Logit-Imitation via KL-Divergenz und Feature-Imitation via L1/L2-Verluste. Die Ergebnisse zeigen, dass TM die Leistung konsequent verbessert und eine bessere Robustheit aufweist. Unsere Arbeit ebnet den Weg für effizientes Replay von LLMs in der Zukunft. Unser Code und unsere Daten sind unter https://github.com/Qznan/GeRe verfügbar.
Aktuelle Benchmarks für mathematisches Denken bei großen Sprachmodellen (LLMs) nähern sich der Sättigung, wobei einige eine Genauigkeit von > 90 % erreichen, und werden zunehmend durch Kontamination der Trainingsdaten beeinträchtigt. Wir stellen Putnam-AXIOM vor, einen Benchmark mit 522 universitären Wettbewerbsproblemen aus dem renommierten William Lowell Putnam Mathematical Competition, sowie Putnam-AXIOM Variation, einen ungesehenen Begleitsatz von 100 funktionalen Varianten, die durch programmatische Veränderung von Variablen und Konstanten erzeugt wurden. Das Variationsprotokoll erzeugt einen unbegrenzten Strom gleich schwieriger, ungesehener Instanzen – was einen kontaminationsresistenten Testbereich bietet. Auf dem Originaldatensatz erreicht OpenAI's o1-preview – das stärkste evaluierte Modell – eine Genauigkeit von 41,9 %, die jedoch auf den gepaarten Variationen um 19,6 % (relativer Rückgang von 46,8 %) sinkt. Die übrigen achtzehn Modelle zeigen denselben Abwärtstrend, wobei zehn von ihnen nicht überlappende 95 %-Konfidenzintervalle aufweisen. Diese Lücken deuten auf Auswendiglernen hin und unterstreichen die Notwendigkeit dynamischer Benchmarks. Wir ergänzen die „boxed“ Genauigkeit mit Teacher-Forced Accuracy (TFA), einer leichtgewichtigen Metrik, die Denkspuren direkt bewertet und die Bewertung von Beweisen in natürlicher Sprache automatisiert. Putnam-AXIOM bietet somit einen rigorosen, kontaminationsresistenten Bewertungsrahmen zur Beurteilung fortgeschrittenen mathematischen Denkens von LLMs. Daten und Evaluationscode sind öffentlich verfügbar unter https://github.com/brando90/putnam-axiom.
Die Erdoberfläche unterliegt ständigen Veränderungen, und die Erkennung dieser Veränderungen liefert wertvolle Erkenntnisse, die verschiedene Aspekte der menschlichen Gesellschaft bereichern. Während traditionelle Methoden zur Veränderungserkennung eingesetzt wurden, um Veränderungen aus bi-temporalen Bildern zu detektieren, erfordern diese Ansätze in der Regel Fachwissen für eine genaue Interpretation. Um einen breiteren und flexibleren Zugang zu Veränderungsinformationen für nicht-experimentelle Nutzer zu ermöglichen, wurde die Aufgabe der Change Detection Visual Question Answering (CDVQA) eingeführt. Bisherige CDVQA-Methoden wurden jedoch unter der Annahme entwickelt, dass Trainings- und Testdatensätze ähnliche Verteilungen aufweisen. Diese Annahme trifft in realen Anwendungen nicht zu, wo Domänenverschiebungen häufig auftreten. In diesem Beitrag wird die CDVQA-Aufgabe mit dem Fokus auf die Bewältigung von Domänenverschiebungen neu betrachtet. Zu diesem Zweck wird ein neuer multi-modaler und multi-domänen Datensatz, BrightVQA, eingeführt, um die Forschung zur Domänengeneralisierung in CDVQA zu fördern. Darüber hinaus wird ein neuartiges Zustandsraummodell, das sogenannte Text-Conditioned State Space Model (TCSSM), vorgeschlagen. Das TCSSM-Framework ist darauf ausgelegt, sowohl bi-temporale Bilddaten als auch geokatastrophenbezogene Textinformationen auf einheitliche Weise zu nutzen, um domäneninvariante Merkmale über verschiedene Domänen hinweg zu extrahieren. Eingangsabhängige Parameter im TCSSM werden dynamisch unter Verwendung sowohl bi-temporaler Bilder als auch geokatastrophenbezogener Beschreibungen vorhergesagt, wodurch die Ausrichtung zwischen bi-temporalen visuellen Daten und den zugehörigen Textbeschreibungen erleichtert wird. Umfangreiche Experimente werden durchgeführt, um die vorgeschlagene Methode im Vergleich zu state-of-the-art Modellen zu bewerten, und es wird durchgängig eine überlegene Leistung demonstriert. Der Code und der Datensatz werden nach der Annahme unter https://github.com/Elman295/TCSSM öffentlich zugänglich gemacht.
Künstlerischer Stiltransfer ist dank der Fortschritte bei faltungs- und transformer-basierten neuronalen Netzwerken seit langem möglich. Die meisten Algorithmen wenden den künstlerischen Stiltransfer auf das gesamte Bild an, doch individuelle Benutzer möchten möglicherweise den Stiltransfer nur auf einen bestimmten Bereich des Bildes anwenden. Die gängige Praxis besteht darin, das Bild nach der Stilisierung einfach zu maskieren. Diese Arbeit zeigt, dass dieser Ansatz dazu neigt, die Stilmerkmale im interessierenden Bereich nicht korrekt zu erfassen. Wir schlagen ein partiell faltungsbasiertes Stiltransfer-Netzwerk vor, das die Stilmerkmale exklusiv auf den interessierenden Bereich anwendet. Zusätzlich präsentieren wir netzwerkinternes Blending, das Unvollkommenheiten bei der Bereichsauswahl berücksichtigt. Wir zeigen, dass dies die Stilisierung visuell und quantitativ verbessert, anhand von Beispielen aus dem SA-1B-Datensatz. Der Code ist öffentlich verfügbar unter https://github.com/davidmhart/StyleTransferMasked.
Paralinguistische Vokalisationen – einschließlich nonverbaler Laute wie Lachen und Atmen sowie lexikalisierter Interjektionen wie „ähm“ und „oh“ – sind ein wesentlicher Bestandteil der natürlichen gesprochenen Kommunikation. Trotz ihrer Bedeutung bei der Vermittlung von Emotionen, Absichten und interaktionalen Hinweisen werden solche Hinweise in konventionellen Systemen zur automatischen Spracherkennung (ASR) und Sprachsynthese (TTS) weitgehend übersehen. Wir stellen NVSpeech vor, eine integrierte und skalierbare Pipeline, die die Erkennung und Synthese paralinguistischer Vokalisationen verbindet und die Erstellung von Datensätzen, ASR-Modellierung und kontrollierbare TTS umfasst. (1) Wir führen einen manuell annotierten Datensatz von 48.430 menschlich gesprochenen Äußerungen mit 18 paralinguistischen Kategorien auf Wortebene ein. (2) Wir entwickeln das paralinguistisch bewusste ASR-Modell, das paralinguistische Hinweise als inline dekodierbare Tokens behandelt (z. B. „Du bist so lustig [Lachen]“) und so eine gemeinsame lexikalische und nonverbale Transkription ermöglicht. Dieses Modell wird dann verwendet, um einen großen Korpus automatisch zu annotieren, den ersten groß angelegten chinesischen Datensatz von 174.179 Äußerungen (573 Stunden) mit wortgenauer Ausrichtung und paralinguistischen Hinweisen. (3) Wir feinen Zero-Shot-TTS-Modelle sowohl auf menschlich als auch automatisch annotierten Daten an, um eine explizite Kontrolle über paralinguistische Vokalisationen zu ermöglichen und so eine kontextbewusste Einfügung an beliebigen Token-Positionen für eine menschenähnliche Sprachsynthese zu erlauben. Durch die Vereinheitlichung der Erkennung und Generierung paralinguistischer Vokalisationen bietet NVSpeech die erste offene, groß angelegte, wortgenau annotierte Pipeline für die Modellierung expressiver Sprache in Mandarin, die Erkennung und Synthese auf skalierbare und kontrollierbare Weise integriert. Datensätze und Audio-Demos sind unter https://nvspeech170k.github.io/ verfügbar.