Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Überwinden menschlicher kognitiver Grenzen stellt eine entscheidende Herausforderung im Training von LLMs (Large Language Models) dar. Proprietäre agentenbasierte Systeme wie DeepResearch haben übermenschliche Fähigkeiten bei extrem komplexen Informationssuch-Benchmarks wie BrowseComp demonstriert, eine Leistung, die bisher unerreichbar war. Wir vertreten die Ansicht, dass ihr Erfolg auf einem ausgeklügelten Denkmuster beruht, das in Open-Source-Modellen fehlt: die Fähigkeit, extreme Unsicherheit systematisch zu reduzieren, wenn man sich durch riesige Informationslandschaften bewegt. Basierend auf dieser Erkenntnis stellen wir WebSailor vor, eine umfassende Post-Training-Methodik, die darauf abzielt, diese entscheidende Fähigkeit zu vermitteln. Unser Ansatz umfasst die Generierung neuartiger, hochgradig unsicherer Aufgaben durch strukturiertes Sampling und Informationsverschleierung, RFT-Cold-Start und einen effizienten agentenbasierten RL-Trainingsalgorithmus, die Duplicating Sampling Policy Optimization (DUPO). Mit dieser integrierten Pipeline übertrifft WebSailor alle Open-Source-Agenten bei komplexen Informationssuchaufgaben deutlich, erreicht die Leistung proprietärer Agenten und schließt die Fähigkeitslücke.
Jüngste Fortschritte im multimodalen Denken wurden maßgeblich durch die textbasierte Chain-of-Thought (CoT)-Methode vorangetrieben, ein Paradigma, bei dem Modelle ihre Denkprozesse innerhalb der Sprache durchführen. Dieser textzentrierte Ansatz behandelt das Sehen jedoch als einen statischen, initialen Kontext und schafft damit eine grundlegende „semantische Lücke“ zwischen reichhaltigen Wahrnehmungsdaten und diskretem symbolischem Denken. Die menschliche Kognition geht oft über die Sprache hinaus und nutzt das Sehen als dynamische mentale Skizzenfläche. Eine ähnliche Entwicklung entfaltet sich nun in der KI und markiert einen grundlegenden Paradigmenwechsel von Modellen, die lediglich über Bilder nachdenken, hin zu solchen, die tatsächlich mit Bildern denken können. Dieses aufkommende Paradigma zeichnet sich dadurch aus, dass Modelle visuelle Informationen als Zwischenschritte in ihrem Denkprozess nutzen und das Sehen so von einem passiven Input in einen dynamischen, manipulierbaren kognitiven Arbeitsbereich verwandeln. In dieser Übersichtsarbeit zeichnen wir diese Entwicklung der Intelligenz entlang einer Trajektorie zunehmender kognitiver Autonomie nach, die sich in drei Schlüsselphasen entfaltet: von der Exploration externer Werkzeuge über die programmatische Manipulation bis hin zur intrinsischen Imagination. Um dieses sich schnell entwickelnde Feld zu strukturieren, leistet unsere Übersichtsarbeit vier wesentliche Beiträge. (1) Wir etablieren die Grundprinzipien des „Denkens mit Bildern“-Paradigmas und dessen dreistufigen Rahmen. (2) Wir bieten eine umfassende Übersicht über die Kernmethoden, die jede Phase dieser Roadmap kennzeichnen. (3) Wir analysieren die kritische Landschaft der Evaluierungsbenchmarks und transformativen Anwendungen. (4) Wir identifizieren bedeutende Herausforderungen und skizzieren vielversprechende Zukunftsperspektiven. Durch diese strukturierte Übersicht möchten wir eine klare Roadmap für zukünftige Forschung hin zu leistungsfähigerer und menschlich ausgerichteter multimodaler KI bieten.
Die Rekonstruktion von 3D-Strukturen mit offenem Vokabular und Szenenverständnis aus 2D-Bildern ist eine grundlegende, aber herausfordernde Aufgabe. Jüngste Entwicklungen haben dies durch eine pro-Szene-Optimierung mit eingebetteten Sprachinformationen erreicht. Diese Ansätze sind jedoch stark auf das kalibrierte Paradigma der dichten Ansichtsrekonstruktion angewiesen, was zu schwerwiegenden Rendering-Artefakten und unglaubwürdiger semantischer Synthese führt, wenn nur begrenzte Ansichten verfügbar sind. In diesem Artikel stellen wir ein neuartiges generatives Framework vor, genannt LangScene-X, das die Erzeugung konsistenter multimodaler Informationen für die Rekonstruktion und das Verständnis vereinheitlicht. Durch die generative Fähigkeit, konsistentere neue Beobachtungen zu erzeugen, können wir generalisierbare 3D-Szenen mit eingebetteter Sprache aus nur wenigen Ansichten erstellen. Konkret trainieren wir zunächst ein TriMap-Video-Diffusionsmodell, das Erscheinungsbild (RGBs), Geometrie (Normalen) und Semantik (Segmentierungskarten) aus spärlichen Eingaben durch progressive Wissensintegration erzeugen kann. Darüber hinaus schlagen wir einen Language Quantized Compressor (LQC) vor, der auf großen Bilddatensätzen trainiert wird, um Spracheinbettungen effizient zu kodieren und somit eine übergreifende Generalisierung ohne erneutes Training pro Szene zu ermöglichen. Schließlich rekonstruieren wir die Sprachoberflächenfelder, indem wir Sprachinformationen auf die Oberfläche von 3D-Szenen ausrichten, was offene Sprachabfragen ermöglicht. Umfangreiche Experimente mit realen Daten demonstrieren die Überlegenheit unseres LangScene-X gegenüber state-of-the-art Methoden in Bezug auf Qualität und Generalisierbarkeit. Projektseite: https://liuff19.github.io/LangScene-X.
Trotz der entscheidenden Rolle von Belohnungsmodellen (RMs) beim Reinforcement Learning aus menschlichem Feedback (RLHF) schneiden aktuelle state-of-the-art offene RMs in den meisten bestehenden Evaluierungsbenchmarks schlecht ab und erfassen nicht das Spektrum nuancenreicher und anspruchsvoller menschlicher Präferenzen. Selbst Ansätze, die fortschrittliche Trainingstechniken einbeziehen, haben keine signifikanten Leistungsverbesserungen erzielt. Wir vermuten, dass diese Anfälligkeit hauptsächlich auf Einschränkungen in Präferenzdatensätzen zurückzuführen ist, die oft eng gefasst, synthetisch beschriftet oder ohne strenge Qualitätskontrolle sind. Um diese Herausforderungen zu bewältigen, präsentieren wir einen groß angelegten Präferenzdatensatz mit 40 Millionen Präferenzpaaren, genannt SynPref-40M. Um die Datenkuratierung in großem Maßstab zu ermöglichen, entwickeln wir eine menschlich-KI-synergetische zweistufige Pipeline, die die komplementären Stärken der menschlichen Annotationsqualität und der KI-Skalierbarkeit nutzt. In dieser Pipeline liefern Menschen verifizierte Annotationen, während große Sprachmodelle automatische Kuratierung auf der Grundlage menschlicher Anleitung durchführen. Basierend auf diesem Präferenzmix führen wir Skywork-Reward-V2 ein, eine Suite von acht Belohnungsmodellen mit Parametern zwischen 0,6B und 8B, die auf einer sorgfältig kuratierten Teilmenge von 26 Millionen Präferenzpaaren aus SynPref-40M trainiert wurden. Wir zeigen, dass Skywork-Reward-V2 vielseitig über ein breites Spektrum von Fähigkeiten hinweg ist, einschließlich der Ausrichtung an menschlichen Präferenzen, objektiver Korrektheit, Sicherheit, Widerstandsfähigkeit gegen stilistische Verzerrungen und Best-of-N-Skalierung, und state-of-the-art-Leistungen in sieben großen Belohnungsmodell-Benchmarks erzielt. Ablationsstudien bestätigen, dass die Wirksamkeit unseres Ansatzes nicht nur auf der Datenmenge, sondern auch auf der hochwertigen Kuratierung beruht. Die Skywork-Reward-V2-Serie stellt einen erheblichen Fortschritt bei offenen Belohnungsmodellen dar, hebt das ungenutzte Potenzial bestehender Präferenzdatensätze hervor und zeigt, wie die Synergie zwischen menschlicher und KI-Kuratierung eine signifikant höhere Datenqualität freisetzen kann.
Trotz erheblicher Fortschritte bei Text-zu-Bild-Diffusionsmodellen bleibt die präzise räumliche Steuerung der generierten Ausgaben eine Herausforderung. ControlNet adressiert dies durch die Einführung eines zusätzlichen Konditionierungsmoduls, während ControlNet++ die Ausrichtung durch einen Zyklus-Konsistenzverlust weiter verfeinert, der nur auf die finalen Denoising-Schritte angewendet wird. Dieser Ansatz vernachlässigt jedoch Zwischenschritte der Generierung, was seine Effektivität einschränkt. Wir schlagen InnerControl vor, eine Trainingsstrategie, die räumliche Konsistenz über alle Diffusionsschritte hinweg erzwingt. Unsere Methode trainiert leichte Faltungsproben, um Eingabesteuersignale (z.B. Kanten, Tiefe) aus Zwischenmerkmalen des UNet in jedem Denoising-Schritt zu rekonstruieren. Diese Proben extrahieren effizient Signale selbst aus stark verrauschten latenten Zuständen und ermöglichen so pseudo-Ground-Truth-Steuerungen für das Training. Durch die Minimierung der Diskrepanz zwischen vorhergesagten und Zielbedingungen während des gesamten Diffusionsprozesses verbessert unser Ausrichtungsverlust sowohl die Steuerungstreue als auch die Generierungsqualität. In Kombination mit etablierten Techniken wie ControlNet++ erreicht InnerControl state-of-the-art-Leistung über diverse Konditionierungsmethoden hinweg (z.B. Kanten, Tiefe).
Inferenzzeit-Berechnungstechniken, analog zum menschlichen System-2-Denken, sind in letzter Zeit populär geworden, um die Modellleistungen zu verbessern. Die meisten bestehenden Ansätze leiden jedoch unter mehreren Einschränkungen: Sie sind modalitätsspezifisch (z. B. funktionieren sie nur mit Text), problemspezifisch (z. B. verifizierbare Domänen wie Mathematik und Programmierung) oder erfordern zusätzliche Überwachung/Weiterbildung auf der Grundlage von unüberwachtem Vortraining (z. B. Verifizierer oder verifizierbare Belohnungen). In diesem Papier stellen wir die Frage: „Ist es möglich, diese System-2-Denkansätze zu verallgemeinern und Modelle zu entwickeln, die ausschließlich durch unüberwachtes Lernen lernen zu denken?“ Interessanterweise finden wir, dass die Antwort ja lautet, indem wir lernen, die Kompatibilität zwischen Eingaben und Kandidaten-Vorhersagen explizit zu verifizieren und dann Vorhersageprobleme als Optimierung in Bezug auf diesen Verifizierer neu zu formulieren. Konkret trainieren wir Energy-Based Transformers (EBTs) – eine neue Klasse von Energy-Based Models (EBMs) –, um jedem Eingabe- und Kandidaten-Vorhersage-Paar einen Energiewert zuzuweisen, wodurch Vorhersagen durch energiebasierte Gradientenabstiegsminimierung bis zur Konvergenz ermöglicht werden. Sowohl bei diskreten (Text) als auch bei kontinuierlichen (visuellen) Modalitäten stellen wir fest, dass EBTs während des Trainings schneller skalieren als der dominante Transformer++-Ansatz und eine bis zu 35 % höhere Skalierungsrate in Bezug auf Daten, Batch-Größe, Parameter, FLOPs und Tiefe erreichen. Während der Inferenz verbessern EBTs die Leistung mit System-2-Denken um 29 % mehr als der Transformer++ bei Sprachaufgaben, und EBTs übertreffen Diffusion Transformers bei der Bildentrauschung, während sie weniger Vorwärtsdurchläufe verwenden. Darüber hinaus stellen wir fest, dass EBTs bei den meisten nachgelagerten Aufgaben bessere Ergebnisse erzielen als bestehende Modelle bei gleicher oder schlechterer Vortrainingsleistung, was darauf hindeutet, dass EBTs besser generalisieren als bestehende Ansätze. Folglich sind EBTs ein vielversprechendes neues Paradigma für die Skalierung sowohl der Lern- als auch der Denkfähigkeiten von Modellen.
Wir stellen IntFold vor, ein kontrollierbares Grundlagenmodell für die Vorhersage allgemeiner und spezialisierter Biomolekülstrukturen. IntFold zeigt eine Vorhersagegenauigkeit, die mit dem Stand der Technik, AlphaFold3, vergleichbar ist, während es einen überlegenen, maßgeschneiderten Attention-Kernel nutzt. Über die Standardstrukturvorhersage hinaus kann IntFold durch die Verwendung individueller Adapter angepasst werden, um allosterische Zustände, eingeschränkte Strukturen und Bindungsaffinität vorherzusagen. Darüber hinaus führen wir einen neuartigen Confidence-Head ein, um die Docking-Qualität zu schätzen, was eine differenziertere Bewertung für anspruchsvolle Ziele wie Antikörper-Antigen-Komplexe ermöglicht. Schließlich teilen wir Erkenntnisse, die während des Trainingsprozesses dieses rechenintensiven Modells gewonnen wurden.
Aktuelle Arbeiten haben gezeigt, dass der Trainingsverlust als Potenzgesetz sowohl mit der Modellgröße als auch mit der Anzahl der Tokens skaliert und dass die Erreichung rechenoptimaler Modelle eine gemeinsame Skalierung von Modellgröße und Tokenanzahl erfordert. Diese Skalierungsgesetze gehen jedoch von einer unbegrenzten Datenmenge aus und gelten hauptsächlich in rechenbeschränkten Szenarien. Da moderne große Sprachmodelle zunehmend auf massive, internetgroße Datensätze angewiesen sind, wird die Annahme, dass sie rechenbeschränkt sind, immer weniger zutreffend. Diese Verschiebung unterstreicht die Notwendigkeit von Architekturen, die die Token-Effizienz priorisieren. In dieser Arbeit untersuchen wir die Verwendung des 2-simplizialen Transformers, einer Architektur, die die Standard-Dot-Produkt-Attention auf trilineare Funktionen verallgemeinert und durch eine effiziente Triton-Kernel-Implementierung realisiert wird. Wir zeigen, dass der 2-simpliziale Transformer eine bessere Token-Effizienz als Standard-Transformer erreicht: Bei einem festen Token-Budget übertreffen gleich große Modelle ihre Dot-Produkt-Pendants bei Aufgaben in den Bereichen Mathematik, Programmierung, logisches Denken und Logik. Wir quantifizieren diese Verbesserungen, indem wir demonstrieren, dass die 2-simpliziale Attention den Exponenten in den Skalierungsgesetzen für Wissens- und Denkaufgaben im Vergleich zur Dot-Produkt-Attention verändert.
Komplexe Informationsbedürfnisse in realen Suchszenarien erfordern tiefgehendes Denken und die Synthese von Wissen aus verschiedenen Quellen, was traditionelle Retrieval-Augmented-Generation (RAG)-Pipelines nur unzureichend bewältigen können. Aktuelle Ansätze, die auf logischem Denken basieren, leiden unter einer grundlegenden Einschränkung: Sie verwenden ein einziges Modell, um sowohl die hochrangige Planung als auch die detaillierte Ausführung zu handhaben, was zu ineffizientem Denken und begrenzter Skalierbarkeit führt. In diesem Artikel stellen wir HiRA vor, ein hierarchisches Framework, das strategische Planung von spezialisierter Ausführung trennt. Unser Ansatz zerlegt komplexe Suchaufgaben in fokussierte Teilaufgaben, weist jede Teilaufgabe domänenspezifischen Agenten zu, die mit externen Werkzeugen und Denkfähigkeiten ausgestattet sind, und koordiniert die Ergebnisse durch einen strukturierten Integrationsmechanismus. Diese Trennung verhindert, dass Ausführungsdetails das hochrangige Denken stören, und ermöglicht es dem System, spezialisiertes Fachwissen für verschiedene Arten der Informationsverarbeitung zu nutzen. Experimente auf vier komplexen, cross-modalen Deep-Search-Benchmarks zeigen, dass HiRA state-of-the-art RAG- und agentenbasierte Systeme deutlich übertrifft. Unsere Ergebnisse zeigen Verbesserungen sowohl in der Antwortqualität als auch in der Systemeffizienz und unterstreichen die Wirksamkeit der entkoppelten Planung und Ausführung für mehrstufige Informationssuchaufgaben. Unser Code ist verfügbar unter https://github.com/ignorejjj/HiRA.
Peer Review ist ein grundlegender Bestandteil der wissenschaftlichen Forschung, doch die zunehmende Anzahl von Publikationen hat die Herausforderungen dieses expertiseintensiven Prozesses verstärkt. Während Large Language Models (LLMs) vielversprechend in verschiedenen wissenschaftlichen Aufgaben sind, bleibt ihr Potenzial, bei der Peer Review zu unterstützen, insbesondere bei der Identifizierung von Einschränkungen in wissenschaftlichen Arbeiten, weitgehend unerforscht. Wir präsentieren zunächst eine umfassende Taxonomie von Einschränkungstypen in der wissenschaftlichen Forschung, mit einem Fokus auf KI. Angeleitet von dieser Taxonomie stellen wir für die Untersuchung von Einschränkungen LimitGen vor, den ersten umfassenden Benchmark zur Bewertung der Fähigkeit von LLMs, frühes Feedback zu unterstützen und die menschliche Peer Review zu ergänzen. Unser Benchmark besteht aus zwei Teilmengen: LimitGen-Syn, ein synthetischer Datensatz, der sorgfältig durch kontrollierte Perturbationen hochwertiger Arbeiten erstellt wurde, und LimitGen-Human, eine Sammlung von tatsächlich von Menschen verfassten Einschränkungen. Um die Fähigkeit von LLM-Systemen zur Identifizierung von Einschränkungen zu verbessern, erweitern wir sie mit Literaturrecherche, die entscheidend ist, um die Identifizierung von Einschränkungen in früheren wissenschaftlichen Erkenntnissen zu verankern. Unser Ansatz verbessert die Fähigkeiten von LLM-Systemen, Einschränkungen in Forschungsarbeiten zu generieren, und ermöglicht es ihnen, konkreteres und konstruktiveres Feedback zu geben.
Das logische Schließen bleibt eine herausfordernde Aufgabe für große Sprachmodelle (LLMs), insbesondere in der logisch eingeschränkten Umgebung des automatisierten Theorembeweises (ATP), aufgrund von spärlichen Belohnungen und der enormen Komplexität von Beweisen. Diese Herausforderungen werden in Benchmarks wie PutnamBench noch verstärkt, die universitätsrelevante Probleme enthalten, die komplexes, mehrstufiges Denken erfordern. Um dies zu bewältigen, führen wir selbstgenerierte zielbedingte Markov-Entscheidungsprozesse (sG-MDPs) ein, ein neues Framework, in dem Agenten ihre Teilziele basierend auf dem sich entwickelnden Beweisstatus generieren und verfolgen. Durch diese strukturiertere Generierung von Zielen wird das resultierende Problem besser für die Suche geeignet. Anschließend wenden wir Monte-Carlo-Baumsuchalgorithmen (MCTS) an, um das sG-MDP zu lösen, und implementieren unseren Ansatz in Bourbaki (7B), einem modularen System, das mehrere 7B-LLMs für die Generierung von Teilzielen und die Synthese von Taktiken kombinieren kann. Auf PutnamBench löst Bourbaki (7B) 26 Probleme und erzielt damit neue state-of-the-art Ergebnisse mit Modellen dieser Größenordnung.
Obwohl große Sprachmodelle (LLMs) transformativ geworden sind, machen sie immer noch Fehler und können unproduktive Argumentationspfade verfolgen. Selbstkorrektur ist eine wichtige Fähigkeit für ein vertrauenswürdiges LLM, insbesondere für ein autoregressives LLM. Während LLMs Fehler in Benutzereingaben erkennen können, zeigen sie einen systematischen „Selbstkorrektur-Blindspot“ – sie korrigieren identische Fehler in ihren eigenen Ausgaben nicht. Um dieses Phänomen systematisch zu untersuchen, führen wir Self-Correction Bench ein, einen systematischen Rahmen, um dieses Phänomen durch kontrollierte Fehlerinjektion auf drei Komplexitätsstufen zu messen. Bei der Prüfung von 14 Modellen finden wir eine durchschnittliche Blindspot-Rate von 64,5 %. Wir finden mehrere Hinweise darauf, dass diese Einschränkung mit der Zusammensetzung der Trainingsdaten zusammenhängt: menschliche Trainingsdemonstrationen zeigen überwiegend fehlerfreie Antworten anstatt Fehlerkorrektursequenzen, im Gegensatz zu RL-trainierten Modellen, die Fehlerkorrektur durch Ergebnisrückmeldungen lernen. Bemerkenswerterweise reduziert das einfache Anhängen von „Warte“ die Blindspots um 89,3 %, was darauf hindeutet, dass die Fähigkeit vorhanden ist, aber aktiviert werden muss. Unsere Arbeit beleuchtet eine kritische Einschränkung in aktuellen LLMs und bietet potenzielle Wege zur Verbesserung ihrer Zuverlässigkeit und Vertrauenswürdigkeit.
Lineare Aufmerksamkeitsmechanismen bieten erhebliche Vorteile für Large Language Models (LLMs), indem sie eine lineare Rechenkomplexität bereitstellen und die effiziente Verarbeitung ultra-langer Sequenzen (z.B. 1M Kontext) ermöglichen. Allerdings werden bestehende Sequence Parallelism (SP)-Methoden, die für die Verteilung dieser Arbeitslasten über Geräte unerlässlich sind, aufgrund des erheblichen Kommunikationsaufwands zum primären Engpass. In diesem Artikel stellen wir ZeCO (Zero Communication Overhead) Sequence Parallelism für lineare Aufmerksamkeitsmodelle vor, eine neue SP-Methode, die entwickelt wurde, um diese Einschränkungen zu überwinden und eine end-to-end nahezu lineare Skalierbarkeit für das Training langer Sequenzen zu erreichen. Zum Beispiel dauert das Training eines Modells mit einer Sequenzlänge von 1M über 64 Geräte mit ZeCO in etwa genauso lange wie das Training mit einer 16k-Sequenz auf einem einzelnen Gerät. Im Kern von ZeCO liegt All-Scan, ein neues kollektives Kommunikationsprimitiv. All-Scan stellt jedem SP-Rank genau den initialen Operatorzustand bereit, den er benötigt, während ein minimaler Kommunikationsaufwand aufrechterhalten wird, wodurch der Kommunikationsoverhead effektiv eliminiert wird. Theoretisch beweisen wir die Optimalität von ZeCO, indem wir zeigen, dass es nur vernachlässigbare Zeit- und Raumoverheads einführt. Empirisch vergleichen wir die Kommunikationskosten verschiedener Sequence Parallelism-Strategien und demonstrieren, dass All-Scan die schnellste Kommunikation in SP-Szenarien erreicht. Insbesondere erreicht ZeCO auf 256 GPUs mit einer 8M-Sequenzlänge eine 60\%ige Beschleunigung im Vergleich zur derzeit besten SP-Methode (SOTA). Wir glauben, dass ZeCO einen klaren Weg zur effizienten Ausbildung der nächsten Generation von LLMs auf bisher nicht handhabbaren Sequenzlängen ebnet.
Supervised Fine-Tuning (SFT) wird häufig eingesetzt, um große Sprachmodelle (LLMs) mit Aufgaben der Informationsextraktion (IE), wie z. B. der Erkennung von benannten Entitäten (NER), abzustimmen. Die Annotation solcher feingranularer Labels und das Training domänenspezifischer Modelle ist jedoch kostspielig. Bisherige Arbeiten trainieren typischerweise ein einheitliches Modell über mehrere Domänen hinweg, doch solche Ansätze mangelt es an Anpassungsfähigkeit und Skalierbarkeit, da nicht alle Trainingsdaten für die Zieldomänen vorteilhaft sind und die Skalierung trainierter Modelle nach wie vor eine Herausforderung darstellt. Wir schlagen das SaM-Framework vor, das Expert*innenmodelle zur Inferenzzeit dynamisch auswählt und zusammenführt. Konkret wählen wir für eine Zieldomäne domänenspezifische Expert*innenmodelle aus, die auf bestehenden Domänen vortrainiert wurden, basierend auf (i) der Ähnlichkeit der Domäne zur Zieldomäne und (ii) der Leistung bei Stichprobeninstanzen. Die Expert*innenmodelle werden dann zusammengeführt, um aufgabenoptimierte Modelle für die Zieldomäne zu erstellen. Durch die dynamische Zusammenführung von Expert*innenmodellen, die für die Zieldomänen vorteilhaft sind, verbessern wir die Generalisierung über verschiedene Domänen hinweg, ohne zusätzliches Training zu benötigen. Darüber hinaus können Expert*innenmodelle einfach hinzugefügt oder entfernt werden, was eine hohe Skalierbarkeit ermöglicht. Umfangreiche Experimente auf mehreren Benchmarks demonstrieren die Effektivität unseres Frameworks, das das einheitliche Modell im Durchschnitt um 10 % übertrifft. Wir geben zudem Einblicke in potenzielle Verbesserungen, praktische Erfahrungen und Erweiterungen unseres Frameworks.
Reinforcement Learning (RL) hat sich zu einer zentralen Technologie in der Post-Training-Phase von großen Sprachmodellen (LLMs) entwickelt. Traditionelle, aufgabenbezogene RL-Frameworks leiden unter erheblichen Skalierbarkeitsengpässen, während aufgabengetrennte RL-Frameworks mit komplexen Datenflüssen sowie entsprechenden Ressourcenleerlauf- und Arbeitslastungleichgewichten konfrontiert sind. Darüber hinaus sind die meisten bestehenden Frameworks eng mit den Trainings- oder Inferenz-Engines von LLMs verknüpft, was die Unterstützung von benutzerdefinierten Engines erschwert. Um diese Herausforderungen zu bewältigen, schlagen wir AsyncFlow vor, ein asynchrones Streaming-RL-Framework für effizientes Post-Training. Konkret führen wir ein Modul für verteilte Datenspeicherung und -übertragung ein, das eine einheitliche Datenverwaltung und fein abgestimmte Planungsfähigkeit in vollständig gestreamter Form bietet. Diese Architektur ermöglicht automatisiertes Pipeline-Overlapping zwischen RL-Aufgaben und dynamischen Lastausgleich. Zudem schlagen wir einen asynchronen Workflow auf Basis des Producer-Consumer-Prinzips vor, der darauf abzielt, Rechenleerlauf durch strategisches Verzögern des Parameteraktualisierungsprozesses innerhalb von Staleness-Schwellenwerten zu minimieren. Schließlich ist die Kernfähigkeit von AsyncFlow architektonisch von den zugrunde liegenden Trainings- und Inferenz-Engines entkoppelt und durch serviceorientierte Benutzeroberflächen gekapselt, was ein modulares und anpassbares Benutzererlebnis bietet. Umfangreiche Experimente zeigen eine durchschnittliche Verbesserung des Durchsatzes um das 1,59-fache im Vergleich zu modernen Baseline-Systemen. Die in dieser Arbeit vorgestellte Architektur bietet wertvolle Erkenntnisse für die Gestaltung von RL-Trainingssystemen der nächsten Generation.
Die Multi-Organ-Segmentierung ist ein entscheidender Bestandteil der medizinischen Bildverarbeitung und für Ärzte unerlässlich, um präzise Diagnosen zu stellen und effektive Behandlungspläne zu entwickeln. Trotz bedeutender Fortschritte in diesem Bereich leiden aktuelle Modelle zur Multi-Organ-Segmentierung oft unter ungenauen Details, Abhängigkeit von geometrischen Prompts und dem Verlust räumlicher Informationen. Um diese Herausforderungen zu bewältigen, stellen wir ein neuartiges Modell namens CRISP-SAM2 vor, das auf CRoss-modaler Interaktion und semantischem Prompting basiert und auf SAM2 aufbaut. Dieses Modell bietet einen vielversprechenden Ansatz zur Multi-Organ-Segmentierung, der durch textuelle Beschreibungen der Organe geleitet wird. Unsere Methode beginnt damit, visuelle und textuelle Eingaben mithilfe eines progressiven Cross-Attention-Interaktionsmechanismus in cross-modale kontextualisierte Semantik umzuwandeln. Diese Semantik wird dann in den Bildencoder injiziert, um das detaillierte Verständnis der visuellen Informationen zu verbessern. Um die Abhängigkeit von geometrischen Prompts zu beseitigen, verwenden wir eine semantische Prompting-Strategie, die den ursprünglichen Prompt-Encoder ersetzt, um die Wahrnehmung schwieriger Ziele zu schärfen. Zusätzlich wird eine Ähnlichkeits-Sortierungs- und Selbstaktualisierungsstrategie für den Speicher sowie ein Masken-Verfeinerungsprozess angewendet, um sich weiter an die medizinische Bildgebung anzupassen und lokalisierte Details zu verbessern. Vergleichende Experimente, die auf sieben öffentlichen Datensätzen durchgeführt wurden, zeigen, dass CRISP-SAM2 bestehende Modelle übertrifft. Umfangreiche Analysen demonstrieren zudem die Effektivität unserer Methode und bestätigen ihre überlegene Leistung, insbesondere bei der Bewältigung der zuvor genannten Einschränkungen. Unser Code ist verfügbar unter: https://github.com/YU-deep/CRISP\_SAM2.git.
Jüngste Fortschritte in der visuell-sprachlichen Segmentierung haben das fundierte visuelle Verständnis erheblich vorangebracht. Diese Modelle zeigen jedoch häufig Halluzinationen, indem sie Segmentierungsmasken für Objekte erzeugen, die nicht im Bildinhalt verankert sind, oder indem sie irrelevante Regionen falsch kennzeichnen. Bestehende Evaluierungsprotokolle für Segmentierungshalluzinationen konzentrieren sich hauptsächlich auf Label- oder textuelle Halluzinationen, ohne den visuellen Kontext zu manipulieren, was ihre Fähigkeit zur Diagnose kritischer Fehler einschränkt. Als Antwort darauf stellen wir HalluSegBench vor, den ersten Benchmark, der speziell zur Bewertung von Halluzinationen in der visuellen Verankerung durch die Linse des kontrafaktischen visuellen Denkens entwickelt wurde. Unser Benchmark besteht aus einem neuartigen Datensatz von 1340 kontrafaktischen Instanzenpaaren, die 281 einzigartige Objektklassen umfassen, und einer Reihe neu eingeführter Metriken, die die Halluzinationsempfindlichkeit unter visuell kohärenten Szenenbearbeitungen quantifizieren. Experimente mit HalluSegBench anhand von state-of-the-art visuell-sprachlichen Segmentierungsmodellen zeigen, dass visuell getriebene Halluzinationen deutlich häufiger auftreten als labelgetriebene, wobei Modelle oft an falschen Segmentierungen festhalten, was die Notwendigkeit kontrafaktischen Denkens zur Diagnose der Verankerungstreue unterstreicht.