papers.description
Während das Paradigma des „tiefen Denkens“ bedeutende Fortschritte in verifizierbaren Domänen wie der Mathematik vorangetrieben hat, bleibt seine Anwendung auf offene, kreative Generierung eine kritische Herausforderung. Die beiden dominierenden Methoden zur Vermittlung von Denkprozessen – Reinforcement Learning (RL) und Instruktionsdistillation – scheitern in diesem Bereich; RL kämpft mit dem Fehlen klarer Belohnungssignale und hochwertiger Belohnungsmodelle, während Distillation prohibitiv teuer ist und durch die Fähigkeiten des Lehrer-Modells begrenzt wird. Um diese Einschränkungen zu überwinden, führen wir REverse-Engineered Reasoning (REER) ein, ein neues Paradigma, das den Ansatz grundlegend verändert. Anstatt einen Denkprozess „vorwärts“ durch Versuch und Irrtum oder Nachahmung aufzubauen, arbeitet REER „rückwärts“ von bekannten guten Lösungen aus, um den latenten, schrittweisen tiefen Denkprozess zu entdecken, der sie hätte hervorbringen können. Mit diesem skalierbaren, gradientenfreien Ansatz kuratieren und veröffentlichen wir DeepWriting-20K, einen umfangreichen Datensatz mit 20.000 tiefen Denkpfaden für offene Aufgaben. Unser Modell, DeepWriter-8B, das auf diesen Daten trainiert wurde, übertrifft nicht nur starke Open-Source-Baselines, sondern erreicht auch eine Leistung, die mit führenden proprietären Modellen wie GPT-4o und Claude 3.5 konkurriert und diese teilweise sogar übertrifft.
Das Paradigma der Large Language Models (LLMs) hat sich zunehmend in Richtung agentenbasierter Anwendungen verschoben, bei denen Webbrowsing-Fähigkeiten grundlegend sind, um Informationen aus verschiedenen Online-Quellen abzurufen. Allerdings zeigen bestehende Open-Source-Webagenten entweder begrenzte Fähigkeiten zur Informationssuche bei komplexen Aufgaben oder es fehlen transparente Implementierungen. In dieser Arbeit identifizieren wir, dass die zentrale Herausforderung in der Knappheit anspruchsvoller Daten für die Informationssuche liegt. Um diese Einschränkung zu überwinden, führen wir WebExplorer ein: einen systematischen Ansatz zur Datengenerierung, der modellbasierte Exploration und iterative, lang-zu-kurz Abfrageevolution nutzt. Diese Methode erzeugt anspruchsvolle Abfrage-Antwort-Paare, die mehrstufiges Denken und komplexe Webnavigation erfordern. Durch die Nutzung unseres kuratierten, hochwertigen Datensatzes entwickeln wir erfolgreich den fortschrittlichen Webagenten WebExplorer-8B durch überwachtes Fein-Tuning gefolgt von Reinforcement Learning. Unser Modell unterstützt eine Kontextlänge von 128K und bis zu 100 Tool-Aufrufe, was die Lösung langfristiger Probleme ermöglicht. In verschiedenen Benchmarks zur Informationssuche erreicht WebExplorer-8B die beste Leistung in seiner Größenordnung. Bemerkenswerterweise ist WebExplorer-8B als Modell mit 8B Parametern in der Lage, nach dem RL-Training effektiv über durchschnittlich 16 Schritte zu suchen und dabei eine höhere Genauigkeit als WebSailor-72B auf BrowseComp-en/zh zu erzielen sowie die beste Leistung unter Modellen mit bis zu 100B Parametern auf WebWalkerQA und FRAMES zu erreichen. Über diese Informationssuchaufgaben hinaus zeigt unser Modell auch eine starke Generalisierung auf dem HLE-Benchmark, obwohl es nur auf wissensintensive QA-Daten trainiert wurde. Diese Ergebnisse unterstreichen unseren Ansatz als praktischen Weg hin zu langfristigen Webagenten.
Wir stellen TraceRL vor, ein trajektorienbewusstes Reinforcement-Learning-Framework für Diffusionssprachmodelle (DLMs), das bevorzugte Inferenztrajektorien in das Post-Training integriert und auf verschiedene Architekturen anwendbar ist. Ausgestattet mit einem diffusionsbasierten Wertmodell, das die Trainingsstabilität verbessert, demonstrieren wir verbesserte Leistungen bei komplexen mathematischen und Programmieraufgaben. Darüber hinaus kann es auch angewendet werden, um block-spezifische Modelle an größere Blöcke anzupassen, was die Sampling-Flexibilität erhöht. Mit TraceRL leiten wir eine Reihe von state-of-the-art Diffusionssprachmodellen ab, nämlich TraDo. Obwohl kleiner als 7B-skalierte AR-Modelle, übertrifft TraDo-4B-Instruct diese dennoch konsistent bei komplexen mathematischen Denkaufgaben. TraDo-8B-Instruct erzielt relative Genauigkeitsverbesserungen von 6,1 % gegenüber Qwen2.5-7B-Instruct und 51,3 % gegenüber Llama3.1-8B-Instruct auf mathematischen Denkbenchmarks. Durch Curriculum Learning leiten wir auch das erste lang-CoT DLM ab, das Qwen2.5-7B-Instruct auf MATH500 mit einer relativen Genauigkeitssteigerung von 18,1 % übertrifft. Um reproduzierbare Forschung und praktische Anwendungen zu erleichtern, veröffentlichen wir ein umfassendes Open-Source-Framework für den Aufbau, das Training und die Bereitstellung von Diffusions-LLMs über verschiedene Architekturen hinweg. Das Framework integriert beschleunigte KV-Cache-Techniken und Inferenz-Engines sowohl für die Inferenz als auch für das Reinforcement Learning und umfasst Implementierungen verschiedener überwachter Feinabstimmungs- und RL-Methoden für Mathematik, Programmierung und allgemeine Aufgaben. Code und Modelle: https://github.com/Gen-Verse/dLLM-RL
Die Einführung groß angelegter Vision-Foundation-Modelle, die auf diversen natürlichen Bildern vortrainiert wurden, hat einen Paradigmenwechsel in der Computer Vision eingeleitet. Dennoch bleibt die Frage offen, wie effektiv die Fähigkeiten dieser fortschrittlichen Vision-Foundation-Modelle auf spezialisierte Domänen wie die medizinische Bildgebung übertragen werden können. Dieser Bericht untersucht, ob DINOv3, ein moderner selbstüberwachter Vision-Transformer (ViT), der sich durch starke Leistungen bei dichten Vorhersageaufgaben auszeichnet, direkt als leistungsstarker, einheitlicher Encoder für medizinische Bildverarbeitungsaufgaben ohne domänenspezifisches Vortraining dienen kann. Um dies zu beantworten, evaluieren wir DINOv3 in gängigen medizinischen Bildverarbeitungsaufgaben, einschließlich 2D/3D-Klassifikation und Segmentierung über eine breite Palette von medizinischen Bildgebungsmodalitäten. Wir analysieren systematisch seine Skalierbarkeit durch Variation der Modellgrößen und Eingabebildauflösungen. Unsere Ergebnisse zeigen, dass DINOv3 beeindruckende Leistungen erbringt und eine neue, beachtliche Baseline etabliert. Bemerkenswerterweise kann es sogar medizinspezifische Foundation-Modelle wie BiomedCLIP und CT-Net bei mehreren Aufgaben übertreffen, obwohl es ausschließlich auf natürlichen Bildern trainiert wurde. Allerdings identifizieren wir klare Einschränkungen: Die Merkmale des Modells verschlechtern sich in Szenarien, die eine tiefgehende Domänenspezialisierung erfordern, wie bei Ganzpräparat-Pathologiebildern (WSIs), Elektronenmikroskopie (EM) und Positronen-Emissions-Tomographie (PET). Darüber hinaus beobachten wir, dass DINOv3 im medizinischen Bereich nicht konsistent den Skalierungsgesetzen folgt; die Leistung steigt nicht zuverlässig mit größeren Modellen oder feineren Merkmalsauflösungen, sondern zeigt unterschiedliche Skalierungsverhalten über verschiedene Aufgaben hinweg. Letztlich etabliert unsere Arbeit DINOv3 als eine starke Baseline, deren leistungsstarke visuelle Merkmale als robuste Priorität für multiple komplexe medizinische Aufgaben dienen können. Dies eröffnet vielversprechende zukünftige Forschungsrichtungen, wie die Nutzung seiner Merkmale zur Durchsetzung von Multiview-Konsistenz in der 3D-Rekonstruktion.
Visuelles Denken, ein Eckpfeiler der menschlichen Intelligenz, umfasst komplexe Wahrnehmungs- und logische Prozesse, die für die Lösung verschiedener visueller Probleme unerlässlich sind. Während Fortschritte in der Computer Vision leistungsstarke Modelle für verschiedene Wahrnehmungsaufgaben hervorgebracht haben, bleibt die Nutzung dieser für allgemeines visuelles Denken eine Herausforderung. Frühere Arbeiten zeigen, dass die Erweiterung von LLMs mit Vision-Modellen durch überwachtes Feinabstimmen die Leistung verbessert, jedoch mit wesentlichen Einschränkungen wie teurer Datengenerierung, Abhängigkeit von sorgfältiger Datenfilterung und schlechter Generalisierung konfrontiert ist. Um diese Probleme zu lösen, schlagen wir ReVPT vor, um die Fähigkeiten multimodaler LLMs zur Nutzung und zum Denken mit visuellen Werkzeugen durch Reinforcement Learning zu verbessern. Wir führen einen neuartigen RL-Algorithmus basierend auf GRPO ein, der darauf ausgelegt ist, Modelle zu trainieren, mit einer Suite von vier visuellen Werkzeugen zu denken. Durch umfangreiche Experimente zeigen wir, dass unsere Methode Spitzenleistungen auf mehreren wahrnehmungsintensiven Benchmarks, einschließlich SAT, CV-Bench, BLINK und MMStar, erreicht und die überwachten und textbasierten RL-Feinabstimmungs-Baselines deutlich übertrifft. Bemerkenswerterweise übertreffen unsere ReVPT-3B und ReVPT-7B die Instruktionsmodelle um 9,03 % bzw. 9,44 % auf CV-Bench. Schließlich liefern wir der Gemeinschaft neue Einblicke in die RL-basierte Nutzung visueller Werkzeuge durch umfangreiche Ablationen. Unser Code ist verfügbar unter https://github.com/ls-kelvin/REVPT.
Tiefe Forschungssysteme, agentenbasierte KI, die komplexe, mehrstufige Aufgaben durch die Koordination von Denkprozessen, Suche im offenen Web und in Benutzerdateien sowie Werkzeugnutzung lösen, bewegen sich in Richtung hierarchischer Bereitstellungen mit einem Planer, Koordinator und Ausführern. In der Praxis bleibt das end-to-end-Training ganzer Stacks unpraktikabel, daher trainieren die meisten Arbeiten einen einzelnen Planer, der mit Kernwerkzeugen wie Suche, Browsen und Code verbunden ist. Während SFT (Supervised Fine-Tuning) Protokolltreue vermittelt, leidet es unter Imitations- und Exposur-Bias und nutzt Umweltfeedback unzureichend. Präferenzabgleichmethoden wie DPO sind schema- und proxyabhängig, off-policy und schwach bei langfristiger Kreditzuweisung und multiobjektiven Kompromissen. Eine weitere Einschränkung von SFT und DPO ist ihre Abhängigkeit von menschlich definierten Entscheidungspunkten und Teilfähigkeiten durch Schemadesign und beschriftete Vergleiche. Reinforcement Learning (RL) passt sich der geschlossenen Schleife und der Werkzeuginteraktionsforschung an, indem es trajektorienbasierte Richtlinien optimiert, Exploration, Erholungsverhalten und prinzipielle Kreditzuweisung ermöglicht und die Abhängigkeit von solchen menschlichen Prioritäten und Bewerter-Bias reduziert. Diese Übersicht ist, unseres Wissens, die erste, die sich den RL-Grundlagen tiefer Forschungssysteme widmet. Sie systematisiert Arbeiten nach DeepSeek-R1 entlang drei Achsen: (i) Datensynthese und -kuratierung; (ii) RL-Methoden für agentenbasierte Forschung, die Stabilität, Stichprobeneffizienz, Langkontexthandhabung, Belohnungs- und Kreditdesign, multiobjektive Optimierung und multimodale Integration abdecken; und (iii) agentenbasierte RL-Trainingssysteme und -frameworks. Wir behandeln auch Agentenarchitektur und -koordination sowie Evaluierung und Benchmarks, einschließlich aktueller QA-, VQA-, Langform-Synthese- und domänengebundener Werkzeuginteraktionsaufgaben. Wir destillieren wiederkehrende Muster, identifizieren Infrastruktur-Engpässe und bieten praktische Anleitungen für das Training robuster, transparenter tiefer Forschungsagenten mit RL.
Multi-Task-Learning (MTL) wird häufig durch das Zusammenführen von Datensätzen vor dem Feinabstimmen erreicht, doch die zunehmende Verfügbarkeit von feinabgestimmten Modellen hat zu neuen Ansätzen wie dem Modellzusammenführen durch Aufgabenarithmetik geführt. Eine große Herausforderung in diesem Kontext ist die Aufgabeninterferenz, die mit der Anzahl der Aufgaben zunimmt. Wir schlagen eine Methode vor, die Modelle, die für verschiedene Aufgaben trainiert wurden, in ein einziges Modell zusammenführt und dabei eine starke Leistung über alle Aufgaben hinweg beibehält. Unser Ansatz nutzt die Jensen-Shannon-Divergenz, um den Zusammenführungsprozess zu steuern, ohne zusätzliche beschriftete Daten zu benötigen, und gleicht die Aufgabenpriorität automatisch aus. Im Gegensatz zu bestehenden Methoden bleibt unser Ansatz robust, wenn die Anzahl der Aufgaben wächst, und übertrifft kontinuierlich frühere Arbeiten.
Wir stellen Paper2Agent vor, ein automatisiertes Framework, das Forschungsarbeiten in KI-Agenten umwandelt. Paper2Agent transformiert Forschungsergebnisse von passiven Artefakten in aktive Systeme, die die nachgelagerte Nutzung, Übernahme und Entdeckung beschleunigen können. Herkömmliche Forschungsarbeiten erfordern von den Lesern erheblichen Aufwand, um den Code, die Daten und die Methoden eines Papers zu verstehen und für ihre eigene Arbeit anzupassen, was Barrieren für die Verbreitung und Wiederverwendung schafft. Paper2Agent adressiert diese Herausforderung, indem es automatisch ein Paper in einen KI-Agenten umwandelt, der als kompetenter Forschungsassistent fungiert. Es analysiert systematisch das Paper und den zugehörigen Codebase mithilfe mehrerer Agenten, um einen Model Context Protocol (MCP)-Server zu konstruieren, und generiert und führt dann iterativ Tests durch, um das resultierende MCP zu verfeinern und zu robustifizieren. Diese Paper-MCPs können anschließend flexibel mit einem Chat-Agenten (z.B. Claude Code) verbunden werden, um komplexe wissenschaftliche Anfragen in natürlicher Sprache durchzuführen und dabei Werkzeuge und Workflows aus dem ursprünglichen Paper aufzurufen. Wir demonstrieren die Wirksamkeit von Paper2Agent bei der Erstellung zuverlässiger und leistungsfähiger Paper-Agenten durch detaillierte Fallstudien. Paper2Agent hat einen Agenten erstellt, der AlphaGenome nutzt, um genomische Varianten zu interpretieren, sowie Agenten basierend auf ScanPy und TISSUE, um Einzelzell- und räumliche Transkriptomik-Analysen durchzuführen. Wir validieren, dass diese Paper-Agenten die Ergebnisse des ursprünglichen Papers reproduzieren und neue Benutzeranfragen korrekt ausführen können. Indem Paper2Agent statische Papers in dynamische, interaktive KI-Agenten verwandelt, führt es ein neues Paradigma für die Wissensverbreitung ein und legt den Grundstein für ein kollaboratives Ökosystem von KI-Co-Wissenschaftlern.
Vision-Language-Modelle (VLMs) haben bemerkenswerte Erfolge bei verschiedenen visuellen Aufgaben gezeigt, doch ihre Leistung verschlechtert sich in komplexen visuellen Umgebungen. Während bestehende Verbesserungsansätze zusätzliches Training erfordern, auf externe Segmentierungswerkzeuge angewiesen sind oder auf grobgranularer Ebene operieren, übersehen sie die inhärenten Fähigkeiten von VLMs. Um diese Lücke zu schließen, untersuchen wir die Aufmerksamkeitsmuster von VLMs und entdecken Folgendes: (1) Visuelle Komplexität korreliert stark mit der Aufmerksamkeitsentropie, was sich negativ auf die Schlussfolgerungsleistung auswirkt; (2) Die Aufmerksamkeit verfeinert sich schrittweise vom globalen Scannen in flachen Schichten zur fokussierten Konvergenz in tieferen Schichten, wobei der Konvergenzgrad durch die visuelle Komplexität bestimmt wird. (3) Theoretisch beweisen wir, dass der Kontrast von Aufmerksamkeitskarten zwischen allgemeinen Abfragen und aufgabenbezogenen Abfragen die Zerlegung des visuellen Signals in semantische Signale und visuelle Rauschkomponenten ermöglicht. Aufbauend auf diesen Erkenntnissen schlagen wir Contrastive Attention Refinement for Visual Enhancement (CARVE) vor, eine trainingsfreie Methode, die aufgabenrelevante visuelle Signale durch Aufmerksamkeitskontrastierung auf Pixelebene extrahiert. Umfangreiche Experimente zeigen, dass CARVE die Leistung konsequent verbessert und bis zu 75 % Verbesserung bei Open-Source-Modellen erreicht. Unsere Arbeit liefert entscheidende Einblicke in das Zusammenspiel zwischen visueller Komplexität und Aufmerksamkeitsmechanismen und bietet einen effizienten Weg zur Verbesserung des visuellen Denkens durch kontrastierende Aufmerksamkeit.
Einheitliche multimodale Verständnis- und Generierungsmodelle haben in letzter Zeit erhebliche Fortschritte in der Bildgenerierungsfähigkeit erzielt, doch besteht weiterhin eine große Lücke in der Befolgung von Anweisungen und der Detailtreue im Vergleich zu Systemen, die Verständnis und Generierung eng miteinander verknüpfen, wie beispielsweise GPT-4o. Angeregt durch jüngste Fortschritte im Bereich des verschachtelten Denkens, untersuchen wir, ob ein solches Denken die Text-zu-Bild (T2I)-Generierung weiter verbessern kann. Wir stellen Interleaving Reasoning Generation (IRG) vor, ein Framework, das zwischen textbasiertem Denken und Bildsynthese abwechselt: Das Modell erzeugt zunächst ein textbasiertes Denken, um ein initiales Bild zu leiten, reflektiert dann das Ergebnis, um feinkörnige Details, visuelle Qualität und Ästhetik zu verfeinern, während die Semantik erhalten bleibt. Um IRG effektiv zu trainieren, schlagen wir Interleaving Reasoning Generation Learning (IRGL) vor, das zwei Teilziele verfolgt: (1) die Stärkung der initialen Denk-und-Generieren-Phase, um Kerninhalte und Basisqualität zu etablieren, und (2) die Ermöglichung hochwertiger textueller Reflexion und treuer Umsetzung dieser Verfeinerungen in einem nachfolgenden Bild. Wir haben IRGL-300K kuratiert, einen Datensatz, der in sechs dekomponierte Lernmodi organisiert ist, die gemeinsam das Lernen von textbasiertem Denken und vollständigen Denk-Bild-Trajektorien abdecken. Ausgehend von einem einheitlichen Basismodell, das nativ verschachtelte Text-Bild-Ausgaben erzeugt, baut unser zweistufiges Training zunächst robustes Denken und Reflektieren auf und optimiert dann effizient die IRG-Pipeline in den vollständigen Denk-Bild-Trajektorien-Daten. Umfangreiche Experimente zeigen Spitzenleistungen, die absolute Gewinne von 5-10 Punkten auf GenEval, WISE, TIIF, GenAI-Bench und OneIG-EN erzielen, zusammen mit erheblichen Verbesserungen in der visuellen Qualität und feinkörnigen Detailtreue. Der Code, die Modellgewichte und Datensätze werden unter folgendem Link veröffentlicht: https://github.com/Osilly/Interleaving-Reasoning-Generation.
Wir stellen UniVerse-1 vor, ein einheitliches, Veo-3-ähnliches Modell, das in der Lage ist, koordinierte Audio- und Videoinhalte gleichzeitig zu erzeugen. Um die Trainings effizienz zu steigern, umgehen wir das Training von Grund auf und verwenden stattdessen eine „Stitching of Experts“ (SoE)-Technik. Dieser Ansatz fusioniert tiefgreifend die entsprechenden Blöcke von vortrainierten Modellen für Video- und Musikerzeugung und nutzt so deren grundlegenden Fähigkeiten voll aus. Um genaue Annotationen und zeitliche Ausrichtung sowohl für Umgebungsgeräusche als auch für Sprache mit Videoinhalten sicherzustellen, haben wir einen Online-Annotationspipeline entwickelt, der die erforderlichen Trainingsdaten verarbeitet und während des Trainingsprozesses Labels generiert. Diese Strategie umgeht die Leistungsverschlechterung, die oft durch fehlausgerichtete textbasierte Annotationen verursacht wird. Durch die Synergie dieser Techniken erzeugt unser Modell, nachdem es auf etwa 7.600 Stunden Audio-Video-Daten feinabgestimmt wurde, Ergebnisse mit gut koordinierten Audio-Visuals für die Erzeugung von Umgebungsgeräuschen und starker Ausrichtung für die Spracherzeugung. Um unsere vorgeschlagene Methode systematisch zu bewerten, führen wir Verse-Bench ein, einen neuen Benchmark-Datensatz. Um die Forschung in der Audio-Video-Erzeugung voranzutreiben und die Leistungslücke zu state-of-the-art Modellen wie Veo3 zu schließen, stellen wir unser Modell und den Code öffentlich zur Verfügung. Wir hoffen, dass dieser Beitrag der breiteren Forschungsgemeinschaft zugutekommt. Projektseite: https://dorniwang.github.io/UniVerse-1/.
Text-to-Image (T2I)-Generierung zielt darauf ab, Bilder aus textuellen Eingabeaufforderungen zu synthetisieren, die gemeinsam spezifizieren, was gezeigt werden muss, und implizieren, was abgeleitet werden kann, wodurch sie zwei Kernfähigkeiten entsprechen: Komposition und logisches Schlussfolgern. Mit den zunehmenden Fortschritten von T2I-Modellen im Bereich des Schlussfolgerns über die reine Komposition hinaus, offenbaren bestehende Benchmarks jedoch deutliche Einschränkungen bei der umfassenden Bewertung dieser Fähigkeiten sowohl im Gesamten als auch im Detail. Gleichzeitig ermöglichen diese Fortschritte den Modellen, komplexere Eingabeaufforderungen zu verarbeiten, während aktuelle Benchmarks auf geringe Szenendichte und vereinfachte Eins-zu-eins-Schlussfolgerungen beschränkt bleiben. Um diese Einschränkungen zu adressieren, schlagen wir T2I-CoReBench vor, einen umfassenden und komplexen Benchmark, der sowohl die Kompositions- als auch die Schlussfolgerungsfähigkeiten von T2I-Modellen bewertet. Um Vollständigkeit zu gewährleisten, strukturieren wir die Komposition um Elemente von Szenengraphen (Instanz, Attribut und Relation) und das logische Schlussfolgern um das philosophische Rahmenwerk der Inferenz (deduktiv, induktiv und abduktiv), wodurch eine 12-dimensionale Bewertungstaxonomie formuliert wird. Um die Komplexität zu erhöhen, kuratieren wir jede Eingabeaufforderung, angetrieben durch die inhärenten Komplexitäten realer Szenarien, mit hoher Kompositionsdichte für die Komposition und mehrstufiger Inferenz für das logische Schlussfolgern. Zusätzlich versehen wir jede Eingabeaufforderung mit einer Checkliste, die individuelle Ja/Nein-Fragen spezifiziert, um jedes beabsichtigte Element unabhängig zu bewerten und so eine fein granulare und zuverlässige Bewertung zu ermöglichen. Statistisch gesehen umfasst unser Benchmark 1.080 anspruchsvolle Eingabeaufforderungen und rund 13.500 Checklisten-Fragen. Experimente mit 27 aktuellen T2I-Modellen zeigen, dass ihre Kompositionsfähigkeit in komplexen, hochdichten Szenarien weiterhin begrenzt bleibt, während die Fähigkeit zum logischen Schlussfolgern als kritischer Engpass noch weiter zurückliegt, wobei alle Modelle Schwierigkeiten haben, implizite Elemente aus den Eingabeaufforderungen abzuleiten. Unsere Projektseite: https://t2i-corebench.github.io/.
Die Integration von Large Language Models (LLMs) in das automatisierte Theorembeweisen hat enormes Potenzial gezeigt, ist jedoch grundlegend durch Herausforderungen bei der Skalierung sowohl des Reinforcement Learning (RL) während des Trainings als auch der Rechenleistung während der Inferenz eingeschränkt. Dieses Papier stellt BFS-Prover-V2 vor, ein System, das entwickelt wurde, um dieses duale Skalierungsproblem zu adressieren. Wir präsentieren zwei primäre Innovationen. Die erste ist ein neuartiges Multi-Turn Off-Policy RL-Framework, das kontinuierlich die Leistung des LLM-Schrittbeweisers während des Trainings verbessert. Dieses Framework, inspiriert von den Prinzipien von AlphaZero, nutzt eine mehrstufige Expert-Iteration-Pipeline mit adaptiver Taktik-Level-Datenfilterung und periodischem Retraining, um die Leistungsplateaus zu überwinden, die typischerweise das langfristige RL in LLM-basierten Agenten begrenzen. Die zweite Innovation ist eine Planer-verstärkte Multi-Agenten-Sucharchitektur, die die Fähigkeiten zur logischen Schlussfolgerung während der Inferenz skaliert. Diese Architektur verwendet ein allgemeines Schlussfolgerungsmodell als hochrangigen Planer, um komplexe Theoreme iterativ in eine Sequenz einfacherer Teilziele zu zerlegen. Dieser hierarchische Ansatz reduziert den Suchraum erheblich und ermöglicht es einem Team paralleler Beweisagenten, effizient zusammenzuarbeiten, indem sie einen gemeinsamen Beweiscache nutzen. Wir zeigen, dass dieser duale Ansatz zur Skalierung state-of-the-art Ergebnisse auf etablierten Benchmarks für formale Mathematik liefert. BFS-Prover-V2 erreicht 95,08 % und 41,4 % auf den Testdatensätzen von MiniF2F und ProofNet. Obwohl im Bereich der formalen Mathematik demonstriert, sind die in dieser Arbeit vorgestellten RL- und Inferenztechniken von breiterem Interesse und können auf andere Domänen angewendet werden, die langfristige Multi-Turn-Schlussfolgerungen und komplexe Suchprozesse erfordern.
Die Ausstattung großer Sprachmodelle (LLMs) mit komplexen, verschachtelten Denk- und Werkzeugnutzungsfähigkeiten ist zu einem zentralen Schwerpunkt in der Forschung zu agentenbasierten KI-Systemen geworden, insbesondere durch die jüngsten Fortschritte bei den auf logisches Denken („Thinking“) ausgerichteten Modellen. Solche Fähigkeiten sind entscheidend, um eine Reihe wichtiger Anwendungen zu ermöglichen. Eine solche Anwendung ist die Tiefenforschung (Deep Research, DR), die umfangreiche Recherchen und logisches Schlussfolgern über viele Quellen hinweg erfordert. Unsere Arbeit in diesem Artikel konzentriert sich auf die Entwicklung nativer autonomer Einzelagenten-Modelle für DR, die minimales Web-Crawling und die Integration von Python-Werkzeugen beinhalten. Im Gegensatz zu Multi-Agenten-Systemen, bei denen Agenten vordefinierte Rollen übernehmen und in einem statischen Workflow Schritt für Schritt Anweisungen erhalten, bestimmt ein autonomer Einzelagent seine nächste Aktion dynamisch basierend auf dem Kontext, ohne manuelle Anweisungen. Während frühere Arbeiten Trainingsmethoden für Basis- oder instruktionsoptimierte LLMs vorgeschlagen haben, konzentrieren wir uns auf kontinuierliches Reinforcement Learning (RL) von auf logisches Denken optimierten Modellen, um agentenbasierte Fähigkeiten weiter zu verbessern, ohne die Denkfähigkeit zu beeinträchtigen. Zu diesem Zweck schlagen wir ein einfaches RL-Verfahren mit vollständig synthetischen Daten vor, das wir auf verschiedene Open-Source-LLMs anwenden. Unsere beste Variante, SFR-DR-20B, erreicht bis zu 28,7 % auf dem Humanity's Last Exam-Benchmark. Darüber hinaus führen wir wichtige Analyseexperimente durch, um weitere Einblicke in unsere Methoden zu liefern.
Test-Time-Skalierung erhöht den Rechenaufwand während der Inferenz, indem sie Modellen ermöglicht, lange Argumentationsketten zu generieren, und hat in vielen Bereichen starke Leistungen gezeigt. In dieser Arbeit zeigen wir jedoch, dass dieser Ansatz für wissensintensive Aufgaben noch nicht effektiv ist, bei denen hohe faktische Genauigkeit und niedrige Halluzinationsraten entscheidend sind. Wir führen eine umfassende Bewertung der Test-Time-Skalierung mit 12 Argumentationsmodellen anhand von zwei wissensintensiven Benchmarks durch. Unsere Ergebnisse zeigen, dass eine Erhöhung des Rechenaufwands während der Inferenz die Genauigkeit nicht konsistent verbessert und in vielen Fällen sogar zu mehr Halluzinationen führt. Anschließend analysieren wir, wie erweiterte Argumentation das Halluzinationsverhalten beeinflusst. Wir stellen fest, dass reduzierte Halluzinationen oft darauf zurückzuführen sind, dass das Modell nach längerem Nachdenken beschließt, sich zu enthalten, anstatt auf eine verbesserte faktische Erinnerung. Umgekehrt führt längeres Nachdenken bei einigen Modellen dazu, dass sie versuchen, zuvor unbeantwortete Fragen zu beantworten, was häufig zu Halluzinationen führt. Fallstudien zeigen, dass erweiterte Argumentation einen Bestätigungsfehler induzieren kann, was zu übermäßig selbstbewussten Halluzinationen führt. Trotz dieser Einschränkungen stellen wir fest, dass das Aktivieren von Nachdenken im Vergleich zum Nicht-Nachdenken weiterhin vorteilhaft ist. Code und Daten sind verfügbar unter https://github.com/XuZhao0/tts-knowledge.
Die Integration von Large Language Models (LLMs) in verschiedene Anwendungen hat den Bedarf an strukturierten und zuverlässigen Antworten verstärkt. Eine zentrale Herausforderung in Retrieval-Augmented Generation (RAG)-Systemen besteht darin, sicherzustellen, dass die Ausgaben den erwarteten Formaten entsprechen und gleichzeitig Halluzinationen minimiert werden. Diese Studie untersucht die Rolle von geführtem Decodieren in RAG-Systemen und vergleicht drei Methoden – Outlines, XGrammar und LM Format Enforcer – in verschiedenen mehrstufigen Prompting-Setups (0-turn, 1-turn und 2-turn). Durch die Bewertung von Erfolgsraten, Halluzinationsraten und Ausgabequalität liefern wir Einblicke in deren Leistung und Anwendbarkeit. Unsere Ergebnisse zeigen, wie mehrstufige Interaktionen das geführte Decodieren beeinflussen, und decken unerwartete Leistungsvariationen auf, die die Methodenauswahl für spezifische Anwendungsfälle informieren können. Diese Arbeit trägt zum Verständnis der strukturierten Ausgabegenerierung in RAG-Systemen bei und bietet sowohl theoretische Erkenntnisse als auch praktische Leitlinien für den Einsatz von LLMs.
Dunkler Humor in Online-Memes stellt aufgrund seiner Abhängigkeit von impliziten, sensiblen und kulturell kontextuellen Hinweisen einzigartige Herausforderungen dar. Um den Mangel an Ressourcen und Methoden zur Erkennung von dunklem Humor in multimodalen Inhalten zu beheben, stellen wir einen neuartigen Datensatz von 4.379 Reddit-Memes vor, die für dunklen Humor, Zielkategorie (Geschlecht, psychische Gesundheit, Gewalt, Rasse, Behinderung und andere) sowie eine dreistufige Intensitätsbewertung (leicht, mittel, schwer) annotiert sind. Aufbauend auf dieser Ressource schlagen wir ein reasoning-augmentiertes Framework vor, das zunächst strukturierte Erklärungen für jedes Meme mithilfe eines Large Vision-Language Models (VLM) generiert. Durch eine Rollenumkehr-Selbstschleife nimmt das VLM die Perspektive des Autors ein, um seine Erklärungen iterativ zu verfeinern und so Vollständigkeit und Ausrichtung sicherzustellen. Anschließend extrahieren wir textuelle Merkmale sowohl aus der OCR-Transkription als auch aus dem selbstverfeinerten Reasoning über einen Text-Encoder, während visuelle Merkmale mithilfe eines Vision Transformers gewonnen werden. Ein Tri-stream Cross-Reasoning Network (TCRNet) fusioniert diese drei Ströme – Text, Bild und Reasoning – über paarweise Aufmerksamkeitsmechanismen und erzeugt eine einheitliche Repräsentation für die Klassifizierung. Experimentelle Ergebnisse zeigen, dass unser Ansatz starke Baselines in drei Aufgaben übertrifft: Erkennung von dunklem Humor, Zielidentifikation und Intensitätsvorhersage. Der Datensatz, die Annotationen und der Code werden veröffentlicht, um weitere Forschungen im Bereich des multimodalen Humorverständnisses und der Inhaltsmoderation zu erleichtern. Code und Datensatz sind verfügbar unter: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
Wir präsentieren Llama-GENBA-10B, ein dreisprachiges Basismodell, das die englischzentrierte Verzerrung in großen Sprachmodellen adressiert. Basierend auf Llama 3.1-8B und auf 10 Milliarden Parameter skaliert, wurde Llama-GENBA-10B kontinuierlich mit 164 Milliarden Tokens (82 Milliarden Englisch, 82 Milliarden Deutsch und 80 Millionen Bairisch) vortrainiert, um Ressourcen auszugleichen und die Dominanz des Englischen zu verhindern. Das Modell richtet sich an die deutsche NLP-Community und fördert gleichzeitig Bairisch als ressourcenarme Sprache. Die Entwicklung bewältigte vier Herausforderungen: (1) die Zusammenstellung eines mehrsprachigen Korpus trotz der Knappheit von Bairisch, (2) die Erstellung eines einheitlichen Tokenizers für Englisch, Deutsch und Bairisch, (3) die Optimierung der Architektur und der Sprachverhältnis-Hyperparameter für den sprachübergreifenden Transfer sowie (4) die Einrichtung der ersten standardisierten dreisprachigen Evaluationssuite durch die Übersetzung deutscher Benchmarks ins Bairische. Die Auswertungen zeigen, dass Llama-GENBA-10B eine starke sprachübergreifende Leistung erzielt, wobei die feinabgestimmte Variante Apertus-8B-2509 und gemma-2-9b im Bairischen übertrifft und sich als das beste Modell seiner Klasse für diese Sprache etabliert, während es auch EuroLLM im Englischen übertrifft und dessen Ergebnisse im Deutschen erreicht. Das Training auf dem Cerebras CS-2 demonstrierte effizientes großflächiges mehrsprachiges Vortraining mit dokumentiertem Energieverbrauch und bietet einen Leitfaden für inklusive Basismodelle, die ressourcenarme Sprachen integrieren.
Drag-basierte Bildbearbeitung hat sich als leistungsstarkes Paradigma für intuitive Bildmanipulation etabliert. Bisherige Ansätze stützen sich jedoch hauptsächlich auf die Manipulation des latenten Raums von generativen Modellen, was zu begrenzter Präzision, verzögertem Feedback und modellspezifischen Einschränkungen führt. Dementsprechend präsentieren wir Inpaint4Drag, ein neuartiges Framework, das drag-basierte Bearbeitung in bidirektionales Warping im Pixelraum und Bildinpainting zerlegt. Inspiriert von der elastischen Objektverformung in der physischen Welt behandeln wir Bildregionen als verformbare Materialien, die unter Benutzermanipulation ihre natürliche Form beibehalten. Unsere Methode erreicht Echtzeit-Warping-Vorschauen (0,01s) und effizientes Inpainting (0,3s) bei einer Auflösung von 512x512, was die Interaktionserfahrung im Vergleich zu bestehenden Methoden, die Minuten pro Bearbeitung benötigen, erheblich verbessert. Indem wir Drag-Eingaben direkt in standardisierte Inpainting-Formate umwandeln, dient unser Ansatz als universeller Adapter für jedes Inpainting-Modell ohne Architekturänderungen und erbt automatisch alle zukünftigen Verbesserungen in der Inpainting-Technologie. Umfangreiche Experimente zeigen, dass unsere Methode eine überlegene visuelle Qualität und präzise Kontrolle bei gleichbleibender Echtzeitleistung erreicht. Projektseite: https://visual-ai.github.io/inpaint4drag/
In diesem Positionspapier gehen wir auf die anhaltende Kluft zwischen den rasant wachsenden KI-Fähigkeiten und dem zurückbleibenden Fortschritt in der Sicherheit ein. Bestehende Paradigmen teilen sich in „KI sicher machen“, das nachträgliche Ausrichtung und Schutzmaßnahmen anwendet, aber spröde und reaktiv bleibt, und „Sichere KI schaffen“, das intrinsische Sicherheit betont, jedoch Schwierigkeiten hat, unvorhergesehene Risiken in offenen Umgebungen zu adressieren. Wir schlagen daher Safe-by-Coevolution als eine neue Formulierung des „Sichere KI schaffen“-Paradigmas vor, inspiriert von der biologischen Immunität, bei der Sicherheit zu einem dynamischen, adversarischen und kontinuierlichen Lernprozess wird. Um diese Vision zu operationalisieren, führen wir R^2AI – Resistant and Resilient AI – als praktischen Rahmen ein, der Widerstandsfähigkeit gegen bekannte Bedrohungen mit Resilienz gegenüber unvorhergesehenen Risiken vereint. R^2AI integriert schnelle und langsame Sicherheitsmodelle, adversarische Simulation und Verifikation durch einen Sicherheits-Windkanal sowie kontinuierliche Feedback-Schleifen, die Sicherheit und Fähigkeiten dazu anregen, sich gemeinsam weiterzuentwickeln. Wir argumentieren, dass dieser Rahmen einen skalierbaren und proaktiven Weg bietet, um kontinuierliche Sicherheit in dynamischen Umgebungen aufrechtzuerhalten, sowohl kurzfristige Schwachstellen als auch langfristige existenzielle Risiken zu adressieren, während die KI sich in Richtung AGI und ASI weiterentwickelt.
Vision-Language-Action (VLA)-Modelle stellen einen vielversprechenden Ansatz zur Realisierung von generalistischen, verkörperten Agenten dar, die sich schnell an neue Aufgaben, Modalitäten und Umgebungen anpassen können. Allerdings bleiben Methoden zur Interpretation und Steuerung von VLA-Modellen weit hinter klassischen Robotik-Pipelines zurück, die auf expliziten Modellen von Kinematik, Dynamik und Regelung basieren. Dieser Mangel an mechanistischem Verständnis ist eine zentrale Herausforderung für den Einsatz gelernten Verhaltens in der realen Robotik, wo Robustheit und Erklärbarkeit entscheidend sind. Angeregt durch Fortschritte in der mechanistischen Interpretierbarkeit großer Sprachmodelle, führen wir das erste Framework zur Interpretation und Steuerung von VLA-Modellen über ihre internen Repräsentationen ein, das eine direkte Intervention im Modellverhalten zur Inferenzzeit ermöglicht. Wir projizieren Feedforward-Aktivierungen innerhalb von Transformer-Schichten auf die Token-Einbettungsbasis und identifizieren spärliche semantische Richtungen – wie Geschwindigkeit und Richtung –, die kausal mit der Aktionsauswahl verknüpft sind. Aufbauend auf diesen Erkenntnissen präsentieren wir eine allgemeine Methode zur Aktivierungssteuerung, die das Verhalten in Echtzeit moduliert, ohne Feinabstimmung, Belohnungssignale oder Interaktion mit der Umgebung. Wir evaluieren diese Methode an zwei kürzlich veröffentlichten Open-Source-VLA-Modellen, Pi0 und OpenVLA, und demonstrieren eine Null-Shot-Verhaltenskontrolle in der Simulation (LIBERO) sowie auf einem physischen Roboter (UR5). Diese Arbeit zeigt, dass interpretierbare Komponenten verkörperter VLA-Modelle systematisch zur Steuerung genutzt werden können – und etabliert damit ein neues Paradigma für transparente und steuerbare Foundation-Modelle in der Robotik.
Um die Effizienz von GUI-Agenten auf verschiedenen Plattformen wie Smartphones und Computern zu steigern, entsteht ein hybrides Paradigma, das flexible GUI-Operationen mit effizienten Shortcuts (z. B. APIs, Deep Links) kombiniert, als vielversprechende Richtung. Allerdings ist ein Rahmenwerk zur systematischen Bewertung dieser hybriden Agenten noch unzureichend erforscht. Um einen ersten Schritt zur Schließung dieser Lücke zu machen, stellen wir MAS-Bench vor, ein Benchmark, das die Bewertung von GUI-Shortcut-Hybridagenten mit einem speziellen Fokus auf den mobilen Bereich vorantreibt. Über die bloße Verwendung vordefinierter Shortcuts hinaus bewertet MAS-Bench die Fähigkeit eines Agenten, eigenständig Shortcuts zu generieren, indem er wiederverwendbare, kostengünstige Workflows entdeckt und erstellt. Es umfasst 139 komplexe Aufgaben über 11 reale Anwendungen, eine Wissensbasis mit 88 vordefinierten Shortcuts (APIs, Deep-Links, RPA-Skripte) und 7 Bewertungsmetriken. Die Aufgaben sind so gestaltet, dass sie über reine GUI-Operationen lösbar sind, jedoch durch intelligentes Einbetten von Shortcuts erheblich beschleunigt werden können. Experimente zeigen, dass hybride Agenten deutlich höhere Erfolgsraten und Effizienz erreichen als ihre rein GUI-basierten Gegenstücke. Dieses Ergebnis demonstriert auch die Wirksamkeit unserer Methode zur Bewertung der Shortcut-Generierungsfähigkeiten eines Agenten. MAS-Bench schließt eine kritische Bewertungslücke und bietet eine grundlegende Plattform für zukünftige Fortschritte bei der Entwicklung effizienterer und robusterer intelligenter Agenten.
Vision-Language-Modelle (VLMs) wie CLIP haben beeindruckende Fähigkeiten im Zero-Shot- und Few-Shot-Lernen über diverse Anwendungen hinweg gezeigt. Die Anpassung dieser Modelle an neue, feingranulare Domänen bleibt jedoch aufgrund der Abhängigkeit von Prompt-Engineering und den hohen Kosten einer vollständigen Modellfeinanpassung schwierig. Bisherige Anpassungsansätze stützen sich auf erweiterte Komponenten, wie Prompt-Tokens und Adapter-Module, was die Anpassungsqualität einschränken, das Modell destabilisieren und das während des Vortrainings erworbene umfangreiche Wissen beeinträchtigen kann. In dieser Arbeit präsentieren wir CLIP-SVD, eine neuartige multimodale und parameter-effiziente Anpassungstechnik, die die Singulärwertzerlegung (SVD) nutzt, um den internen Parameterraum von CLIP zu modifizieren, ohne zusätzliche Module einzufügen. Konkret feinanpassen wir nur die Singulärwerte der CLIP-Parametermatrizen, um die Basisvektoren für die Domänenanpassung zu skalieren, während das vortrainierte Modell erhalten bleibt. Dieser Ansatz ermöglicht eine verbesserte Anpassungsleistung unter Verwendung von nur 0,04 % der gesamten Modellparameter und eine bessere Bewahrung der Generalisierungsfähigkeit. CLIP-SVD erzielt state-of-the-art Klassifikationsergebnisse auf 11 natürlichen und 10 biomedizinischen Datensätzen und übertrifft bisherige Methoden sowohl in der Genauigkeit als auch in der Generalisierung unter Few-Shot-Bedingungen. Zusätzlich nutzen wir einen sprachbasierten Ansatz, um die Effektivität und Dynamik der CLIP-Anpassung zu analysieren und so die Interpretierbarkeit von CLIP-SVD zu ermöglichen. Der Code ist öffentlich verfügbar unter https://github.com/HealthX-Lab/CLIP-SVD.
Die Knappheit von hochwertigen, logisch fundierten Daten stellt ein entscheidendes Hindernis für die Weiterentwicklung des mathematischen Denkens von Large Language Models (LLMs) dar. Unsere Arbeit begegnet dieser Herausforderung, indem sie jahrzehntelange Forschung im Bereich des automatischen Theorembeweisens in eine skalierbare Datenmaschine umwandelt. Anstatt sich auf fehleranfällige LLMs oder komplexe Syntax von Beweisassistenten wie Lean und Isabelle zu verlassen, nutzt unser Framework die Sättigungsfähigkeiten des E-Provers auf der umfangreichen TPTP-Axiombibliothek, um einen umfangreichen, garantiert gültigen Korpus von Theoremen abzuleiten. Unsere Pipeline ist prinzipientreu und einfach: Axiome sättigen, nach „interessanten“ Theoremen filtern und Aufgaben generieren. Da keine LLMs im Prozess involviert sind, eliminieren wir faktische Fehler durch Konstruktion. Diese rein symbolischen Daten werden dann in drei schwierigkeitskontrollierte Herausforderungen transformiert: Verifikation von Implikationen, Prämissenauswahl und Beweisrekonstruktion. Unsere Zero-Shot-Experimente mit führenden Modellen zeigen eine deutliche Schwäche: Die Leistung bricht bei Aufgaben ein, die tiefes, strukturelles Denken erfordern. Unser Framework bietet sowohl das Diagnosewerkzeug, um diese Lücke zu messen, als auch eine skalierbare Quelle symbolischer Trainingsdaten, um sie zu schließen. Wir stellen den Code und die Daten öffentlich zur Verfügung. https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
Die Registrierung von LiDAR-Punktwolken ist grundlegend für die Wahrnehmung und Navigation von Robotern. In geometrisch degenerierten oder engen Umgebungen werden Registrierungsprobleme jedoch schlecht konditioniert, was zu instabilen Lösungen und verringerter Genauigkeit führt. Obwohl bestehende Ansätze versuchen, diese Probleme zu bewältigen, scheitern sie daran, die Kernherausforderung zu adressieren: die genaue Erkennung, Interpretation und Lösung dieser schlechten Konditionierung, was zu verpassten Detektionen oder fehlerhaften Lösungen führt. In dieser Studie stellen wir DCReg vor, ein prinzipielles Framework, das schlecht konditionierte Registrierungsprobleme systematisch durch drei integrierte Innovationen angeht. Erstens erreicht DCReg eine zuverlässige Erkennung schlechter Konditionierung durch die Anwendung einer Schur-Komplement-Zerlegung auf die Hessematrix. Diese Technik entkoppelt das Registrierungsproblem in saubere Rotations- und Translationsunterräume und eliminiert Kopplungseffekte, die Degenerationsmuster in konventionellen Analysen verdecken. Zweitens entwickeln wir innerhalb dieser sauberen Unterräume quantitative Charakterisierungstechniken, die explizite Abbildungen zwischen mathematischen Eigenräumen und physikalischen Bewegungsrichtungen herstellen und damit handlungsrelevante Erkenntnisse darüber liefern, welche spezifischen Bewegungen unzureichend eingeschränkt sind. Schließlich nutzen wir diesen sauberen Unterraum, um eine gezielte Minderungsstrategie zu entwerfen: einen neuartigen Vorkonditionierer, der selektiv nur die identifizierten schlecht konditionierten Richtungen stabilisiert, während alle gut eingeschränkten Informationen im beobachtbaren Raum erhalten bleiben. Dies ermöglicht eine effiziente und robuste Optimierung mittels der vorkonditionierten konjugierten Gradientenmethode mit einem einzigen physikalisch interpretierbaren Parameter. Umfangreiche Experimente zeigen, dass DCReg eine Verbesserung der Lokalisierungsgenauigkeit von mindestens 20 % bis 50 % und eine Beschleunigung um das 5- bis 100-fache gegenüber state-of-the-art Methoden in verschiedenen Umgebungen erreicht. Unsere Implementierung wird unter https://github.com/JokerJohn/DCReg verfügbar sein.