Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) neigen oft zu Halluzinationen bei Aufgaben zur Fragebeantwortung (QA). Ein wichtiger, jedoch bisher wenig erforschter Faktor, der dazu beiträgt, ist die Zeitlichkeit von Fragen – ob sie zeitlos (Antworten bleiben über die Zeit stabil) oder veränderlich (Antworten ändern sich) sind. In dieser Arbeit stellen wir EverGreenQA vor, den ersten mehrsprachigen QA-Datensatz mit zeitlosen Labels, der sowohl die Evaluation als auch das Training unterstützt. Mit EverGreenQA benchmarken wir 12 moderne LLMs, um zu bewerten, ob sie die Zeitlichkeit von Fragen explizit (über verbalisierte Urteile) oder implizit (über Unsicherheitssignale) kodieren. Wir trainieren außerdem EG-E5, einen leichten mehrsprachigen Klassifikator, der Spitzenleistungen bei dieser Aufgabe erzielt. Schließlich demonstrieren wir den praktischen Nutzen der zeitlosen Klassifikation in drei Anwendungen: Verbesserung der Selbsteinschätzung, Filterung von QA-Datensätzen und Erklärung des Retrieval-Verhaltens von GPT-4o.
Wir stellen PartCrafter vor, das erste strukturierte 3D-Generativmodell, das mehrere semantisch bedeutungsvolle und geometrisch unterschiedliche 3D-Meshes aus einem einzelnen RGB-Bild gemeinsam synthetisiert. Im Gegensatz zu bestehenden Methoden, die entweder monolithische 3D-Formen erzeugen oder Zwei-Stufen-Pipelines verfolgen, d. h. zunächst ein Bild segmentieren und dann jedes Segment rekonstruieren, verwendet PartCrafter eine einheitliche, kompositionelle Generierungsarchitektur, die nicht auf vorsortierte Eingaben angewiesen ist. Basierend auf einem einzelnen Bild denoisiert es gleichzeitig mehrere 3D-Teile und ermöglicht so eine end-to-end teilbewusste Generierung sowohl einzelner Objekte als auch komplexer Mehr-Objekt-Szenen. PartCrafter baut auf einem vortrainierten 3D-Mesh-Diffusionstransformer (DiT) auf, der auf ganzen Objekten trainiert wurde, und übernimmt die vortrainierten Gewichte, den Encoder und den Decoder. Es führt zwei wesentliche Innovationen ein: (1) Einen kompositionellen latenten Raum, in dem jedes 3D-Teil durch eine Menge entkoppelter latenter Tokens repräsentiert wird; (2) Einen hierarchischen Aufmerksamkeitsmechanismus, der einen strukturierten Informationsfluss sowohl innerhalb einzelner Teile als auch über alle Teile hinweg ermöglicht und so globale Kohärenz sicherstellt, während gleichzeitig die Detailgenauigkeit auf Teilebene während der Generierung erhalten bleibt. Um die Überwachung auf Teilebene zu unterstützen, haben wir einen neuen Datensatz erstellt, indem wir Teilannotationen aus groß angelegten 3D-Objekt-Datensätzen extrahiert haben. Experimente zeigen, dass PartCrafter bestehende Ansätze bei der Generierung zerlegbarer 3D-Meshes übertrifft, einschließlich Teile, die in den Eingabebildern nicht direkt sichtbar sind, und demonstriert die Stärke teilbewusster generativer Prioritäten für das 3D-Verständnis und die Synthese. Code und Trainingsdaten werden veröffentlicht.
Während multimodale große Sprachmodelle (MLLMs) durch Verstärkungslernen erhebliche Fortschritte bei komplexen Denkaufgaben erzielt haben, wird allgemein angenommen, dass umfangreiche Trainingsdaten notwendig sind, um die multimodale Denkfähigkeit zu verbessern, was unweigerlich zu Datenredundanz und erheblichen Rechenkosten führt. Doch können kleinere, hochwertige Datensätze die Leistung vollständiger Korpora für multimodales Denken in MLLMs erreichen oder übertreffen? In dieser Arbeit stellen wir diese Annahme durch eine zentrale Beobachtung in Frage: Sinnvolles multimodales Denken wird nur durch eine spärliche Teilmenge von Trainingsbeispielen, sogenannte kognitive Beispiele, ausgelöst, während die Mehrheit nur marginal beiträgt. Aufbauend auf dieser Erkenntnis schlagen wir ein neuartiges Datenauswahlparadigma namens Reasoning Activation Potential (RAP) vor, das kognitive Beispiele identifiziert, indem es das Potenzial jedes Beispiels schätzt, echtes multimodales Denken anzuregen. Dies geschieht durch zwei komplementäre Schätzer: 1) den Causal Discrepancy Estimator (CDE), der auf dem Prinzip des Potential Outcome Models basiert und Beispiele eliminiert, die zu stark auf Sprachprioritäten angewiesen sind, indem er die Ausgaben zwischen multimodalen und rein textbasierten Eingaben vergleicht; 2) den Attention Confidence Estimator (ACE), der Token-Level-Selbstaufmerksamkeit nutzt, um Beispiele zu verwerfen, die in Zwischenschritten des Denkprozesses von irrelevanten, aber überbetonten Tokens dominiert werden. Darüber hinaus führen wir ein Difficulty-aware Replacement Module (DRM) ein, das triviale Instanzen durch kognitiv anspruchsvolle ersetzt und so die Komplexität für robustes multimodales Denken sicherstellt. Experimente auf sechs Datensätzen zeigen, dass unsere RAP-Methode mit nur 9,3 % der Trainingsdaten durchweg überlegene Leistung erzielt und gleichzeitig die Rechenkosten um über 43 % reduziert. Unser Code ist verfügbar unter https://github.com/Leo-ssl/RAP.
Die Leistung großer Sprachmodelle bei domänenspezifischen Aufgaben erfordert ein Fine-Tuning, das rechenintensiv und technisch anspruchsvoll ist. Dieser Artikel konzentriert sich auf parameter-effizientes Fine-Tuning mittels Soft Prompting, einem vielversprechenden Ansatz, der vortrainierte Modelle durch das Lernen einer kleinen Menge von Parametern an nachgelagerte Aufgaben anpasst. Wir schlagen eine neuartige Input Dependent Soft Prompting Technik mit einem Self-Attention Mechanismus (ID-SPAM) vor, die Soft Prompts basierend auf den Eingabe-Tokens generiert und verschiedenen Tokens mit unterschiedlicher Gewichtung Aufmerksamkeit schenkt. Unsere Methode ist einfach und effizient, da sie die Anzahl der trainierbaren Parameter gering hält. Wir zeigen die Vorteile des vorgeschlagenen Ansatzes im Vergleich zu state-of-the-art Techniken bei verschiedenen Aufgaben und demonstrieren die verbesserte Fähigkeit zum Zero-Shot-Domänentransfer.
Trotz rasanter Fortschritte bei Vision-Language-Modellen (VLMs) weisen aktuelle Benchmarks für multimodales Denken in drei Schlüsseldimensionen Defizite auf. Erstens stützen sie sich überwiegend auf statische Bilder und erfassen nicht die zeitliche Komplexität realer Umgebungen. Zweitens konzentrieren sie sich eng auf mathematische Problemlösungen und vernachlässigen das breitere Spektrum an Denkfähigkeiten – einschließlich abstrakter, physikalischer, planerischer, räumlicher und zeitlicher Fähigkeiten –, die für robuste multimodale Intelligenz erforderlich sind. Drittens erreichen viele Benchmarks schnell eine Sättigung, was nur begrenzten Spielraum für die Diagnose von Fehlermodi oder die Messung kontinuierlicher Fortschritte bietet. Wir stellen MORSE-500 (Multimodal Reasoning Stress-test Environment) vor, einen Video-Benchmark, der aus 500 vollständig skriptbasierten Clips mit eingebetteten Fragen aus sechs komplementären Denkkategorien besteht. Jede Instanz wird programmatisch mithilfe deterministischer Python-Skripte (über Manim, Matplotlib, MoviePy), generativer Videomodelle und kuratierter realer Aufnahmen erzeugt. Dieser skriptgesteuerte Entwurf ermöglicht eine fein abgestimmte Kontrolle über visuelle Komplexität, Ablenkungsdichte und zeitliche Dynamik – was es erlaubt, den Schwierigkeitsgrad systematisch zu skalieren, während sich Modelle verbessern. Im Gegensatz zu statischen Benchmarks, die nach der Sättigung obsolet werden, ist MORSE-500 darauf ausgelegt, sich weiterzuentwickeln: Seine kontrollierbare Generierungspipeline unterstützt die Erstellung beliebig anspruchsvoller neuer Instanzen, was ihn ideal für das Stresstesten der nächsten Modellgeneration macht. Erste Experimente mit state-of-the-art Systemen – darunter verschiedene Gemini 2.5 Pro und OpenAI o3, die zum Zeitpunkt der Studie die leistungsstärksten verfügbaren Modelle repräsentieren, sowie starke Open-Source-Modelle – zeigen erhebliche Leistungslücken in allen Kategorien, mit besonders großen Defiziten bei abstrakten und planerischen Aufgaben. Wir veröffentlichen den vollständigen Datensatz, die Generierungsskripte und das Evaluationsframework, um transparente, reproduzierbare und zukunftsorientierte Forschung im Bereich des multimodalen Denkens zu unterstützen.
Hochwertige, groß angelegte Audio-Beschriftung ist entscheidend für den Fortschritt im Bereich des Audio-Verständnisses. Dennoch erzeugen aktuelle automatisierte Methoden oft Beschriftungen, denen fein abgestufte Details und kontextuelle Genauigkeit fehlen, was hauptsächlich auf ihre Abhängigkeit von begrenzten unimodalen oder oberflächlichen multimodalen Informationen zurückzuführen ist. Inspiriert von der menschlichen auditiven Wahrnehmung, die geschickt cross-modale Hinweise integriert und eine ausgefeilte Analyse der auditiven Szene durchführt, stellen wir eine neuartige zweistufige automatisierte Pipeline vor. Diese Pipeline verwendet zunächst spezialisierte vortrainierte Modelle, um diverse kontextuelle Hinweise zu extrahieren (z. B. Sprache, Musik, allgemeine Geräusche und visuelle Informationen aus zugehörigen Videos). Ein großes Sprachmodell (LLM) synthetisiert dann diese umfangreichen multimodalen Eingaben, um detaillierte und kontextbewusste Audio-Beschriftungen zu generieren. Zu den wesentlichen Beiträgen dieser Arbeit gehören: (1) die vorgeschlagene skalierbare Methode zur Erzeugung fein abgestufter Audio-Beschriftungen; (2) FusionAudio, ein neuer groß angelegter Datensatz, der 1,2 Millionen solcher detaillierten Beschriftungen sowie 6 Millionen Frage-Antwort-Paare umfasst; und (3) verbesserte Audio-Modelle, die mit FusionAudio entwickelt wurden, insbesondere ein CLAP-basierter Audio-Encoder mit überlegener Audio-Text-Ausrichtung und Befolgung von Anweisungen. Diese Arbeit ebnet den Weg für ein nuancierteres und genaueres automatisiertes Verständnis komplexer Audio-Umgebungen. Code und Daten sind unter https://github.com/satsuki2486441738/FusionAudio verfügbar.
Große Sprachmodelle (LLMs) werden zwar zunehmend leistungsfähig, bleiben jedoch anfällig für Prompt-Injection-Angriffe, bei denen bösartige Eingaben das Modell dazu veranlassen, von seinen vorgesehenen Anweisungen abzuweichen. Dieses Papier stellt Sentinel vor, ein neuartiges Detektionsmodell, qualifire/prompt-injection-sentinel, basierend auf der \answerdotai/ModernBERT-large-Architektur. Durch die Nutzung der fortschrittlichen Funktionen von ModernBERT und Feinabstimmung auf einem umfangreichen und vielfältigen Datensatz, der einige Open-Source- und private Sammlungen umfasst, erreicht Sentinel Spitzenleistungen. Dieser Datensatz vereint verschiedene Angriffstypen, von Rollenspielen und Anweisungshijacking bis hin zu Versuchen, voreingenommene Inhalte zu generieren, sowie eine breite Palette von harmlosen Anweisungen, wobei private Datensätze speziell auf subtile Fehlerkorrekturen und reale Fehlklassifizierungen abzielen. Auf einem umfassenden, ungesehenen internen Testset zeigt Sentinel eine durchschnittliche Genauigkeit von 0,987 und einen F1-Score von 0,980. Darüber hinaus übertrifft es bei der Auswertung auf öffentlichen Benchmarks konsequent starke Baselines wie protectai/deberta-v3-base-prompt-injection-v2. Diese Arbeit beschreibt detailliert die Architektur von Sentinel, seine sorgfältige Datensatzkuration, seine Trainingsmethodik und eine umfassende Evaluierung, die seine überlegenen Erkennungsfähigkeiten hervorhebt.
Omni-modale Sprachmodelle (OLMs) zielen darauf ab, verschiedene Eingabemodalitäten – wie Text, Bilder, Video und Audio – zu integrieren und darüber zu schlussfolgern, während gleichzeitig starke Sprachfähigkeiten erhalten bleiben. Trotz jüngster Fortschritte bleiben bestehende Modelle, insbesondere Open-Source-Modelle, weit von echter Omni-Modalität entfernt und haben Schwierigkeiten, über die spezifischen Modalitätspaare, auf die sie trainiert wurden, hinaus zu generalisieren oder bei der Verarbeitung multimodaler Eingaben eine starke Leistung zu erzielen. Wir untersuchen die Auswirkungen der Modalitätserweiterung, der dominierenden Technik für das Training multimodaler Modelle, bei der ein Standard-Sprachmodell auf Zielbereichs- und Sprachdaten feinabgestimmt wird. Konkret gehen wir drei zentralen Fragen nach: (1) Beeinträchtigt die Modalitätserweiterung die Kernsprachfähigkeiten? (2) Kann das Zusammenführen von Modellen unabhängig feinabgestimmte, modalitätsspezifische Modelle effektiv integrieren, um Omni-Modalität zu erreichen? (3) Führt die Omni-Modalitätserweiterung im Vergleich zur sequenziellen Erweiterung zu besserer Wissensweitergabe und Generalisierung? Durch umfangreiche Experimente analysieren wir diese Kompromisse und liefern Einblicke in die Machbarkeit, echte Omni-Modalität mit aktuellen Ansätzen zu erreichen.
Wir präsentieren STARFlow, ein skalierbares generatives Modell basierend auf Normalizing Flows, das eine starke Leistung in der Synthese hochauflösender Bilder erzielt. Das Kernstück von STARFlow ist der Transformer Autoregressive Flow (TARFlow), der die Ausdruckskraft von Normalizing Flows mit den strukturierten Modellierungsfähigkeiten von Autoregressiven Transformern kombiniert. Zunächst etablieren wir die theoretische Universalität von TARFlow für die Modellierung kontinuierlicher Verteilungen. Auf dieser Grundlage führen wir mehrere wichtige architektonische und algorithmische Innovationen ein, um die Skalierbarkeit erheblich zu verbessern: (1) ein Tief-Flach-Design, bei dem ein tiefer Transformer-Block den Großteil der Modellrepräsentationskapazität erfasst, ergänzt durch einige flache Transformer-Blöcke, die recheneffizient, aber dennoch erheblich vorteilhaft sind; (2) die Modellierung im latenten Raum vortrainierter Autoencoder, die sich als effektiver erweist als die direkte Pixel-Ebene-Modellierung; und (3) einen neuartigen Leitfadenalgorithmus, der die Probenqualität deutlich steigert. Entscheidend ist, dass unser Modell ein end-to-end Normalizing Flow bleibt, was ein exaktes Maximum-Likelihood-Training in kontinuierlichen Räumen ohne Diskretisierung ermöglicht. STARFlow erzielt eine wettbewerbsfähige Leistung sowohl bei klassenbedingten als auch bei textbedingten Bildgenerierungsaufgaben und nähert sich in der Probenqualität den State-of-the-art-Diffusionsmodellen an. Unseres Wissens ist dies die erste erfolgreiche Demonstration von Normalizing Flows, die in diesem Maßstab und dieser Auflösung effektiv arbeiten.
Die Bereitstellung wirksamer Behandlungen und fundierte klinische Entscheidungen sind wesentliche Ziele der modernen Medizin und klinischen Versorgung. Wir interessieren uns für die Simulation von Krankheitsdynamiken zur Unterstützung klinischer Entscheidungsprozesse unter Nutzung der jüngsten Fortschritte bei großen generativen Modellen. Zu diesem Zweck stellen wir das Medical World Model (MeWM) vor, das erste Weltmodell in der Medizin, das zukünftige Krankheitszustände visuell auf der Grundlage klinischer Entscheidungen vorhersagt. MeWM besteht aus (i) Vision-Sprach-Modellen, die als Policy-Modelle dienen, und (ii) Tumor-generativen Modellen als Dynamikmodelle. Das Policy-Modell erstellt Aktionspläne, wie z.B. klinische Behandlungen, während das Dynamikmodell das Fortschreiten oder die Rückbildung von Tumoren unter gegebenen Behandlungsbedingungen simuliert. Darauf aufbauend schlagen wir das inverse Dynamikmodell vor, das Überlebensanalysen auf den simulierten post-therapeutischen Tumor anwendet, um die Wirksamkeit der Behandlung zu bewerten und den optimalen klinischen Aktionsplan auszuwählen. Infolgedessen simuliert das vorgeschlagene MeWM Krankheitsdynamiken durch die Synthese post-therapeutischer Tumore mit state-of-the-art Spezifität in Turing-Tests, die von Radiologen bewertet werden. Gleichzeitig übertrifft sein inverses Dynamikmodell medizinisch spezialisierte GPTs bei der Optimierung individueller Behandlungsprotokolle in allen Metriken. Bemerkenswerterweise verbessert MeWM die klinische Entscheidungsfindung für interventionelle Ärzte, indem es den F1-Score bei der Auswahl des optimalen TACE-Protokolls um 13 % steigert, und ebnet so den Weg für die zukünftige Integration medizinischer Weltmodelle als zweite Gutachter.
Audio-aware Large Language Models (ALLMs) können sowohl die textuellen als auch die nicht-textuellen Informationen in Audioeingaben verstehen. In diesem Artikel untersuchen wir den Einsatz von ALLMs als automatische Bewertungssysteme zur Beurteilung von Sprechstilen in Reden. Wir verwenden ALLM-Bewerter, um die von Spoken Language Models (SLMs) generierten Reden in zwei Aufgaben zu bewerten: die Befolgung von Stilanweisungen für die Stimme und das Rollenspiel. Der Sprechstil, den wir betrachten, umfasst Emotion, Lautstärke, Sprechtempo, Wortbetonung, Tonhöhenkontrolle und nonverbale Elemente. Wir setzen vier Spoken Language Models (SLMs) ein, um die beiden Aufgaben zu erfüllen, und lassen sowohl Menschen als auch ALLMs die Antworten der SLMs bewerten. Wir vergleichen zwei ALLM-Bewerter, GPT-4o-audio und Gemini-2.5-pro, mit den Ergebnissen menschlicher Bewertungen und zeigen, dass die Übereinstimmung zwischen Gemini und menschlichen Bewertern vergleichbar ist mit der Übereinstimmung zwischen menschlichen Bewertern. Diese vielversprechenden Ergebnisse zeigen, dass ALLMs als Bewerter zur Evaluierung von SLMs eingesetzt werden können. Unsere Ergebnisse verdeutlichen auch, dass aktuelle SLMs, selbst GPT-4o-audio, noch Verbesserungspotenzial in der Kontrolle des Sprechstils und der Erzeugung natürlicher Dialoge haben.
Die Entwicklung moderner Künstlicher Intelligenz (KI)-Modelle, insbesondere diffusionsbasierter Modelle, die in der Computer Vision und Bildgenerierung eingesetzt werden, durchläuft einen paradigmatischen Wandel in den Entwicklungsmethoden. Traditionell von einem „Modellzentrierten“ Ansatz dominiert, bei dem Leistungssteigerungen hauptsächlich durch zunehmend komplexe Modellarchitekturen und Hyperparameteroptimierung angestrebt wurden, erkennt das Feld nun einen differenzierteren „Datenzentrierten“ Ansatz. Dieser aufkommende Rahmen stellt die Qualität, Struktur und Relevanz der Trainingsdaten als Haupttreiber der Modellleistung in den Vordergrund. Um diesen Paradigmenwechsel zu operationalisieren, führen wir das DataSeeds.AI-Beispieldatensatz (den „DSD“) ein, der zunächst aus etwa 10.610 hochwertigen, von Menschen bewerteten Fotografien mit umfangreichen mehrstufigen Annotationen besteht. Der DSD ist ein grundlegender Computer-Vision-Datensatz, der einen neuen Standard für kommerzielle Bilddatensätze etablieren soll. Als kleiner Ausschnitt aus dem über 100 Millionen Bilder umfassenden Katalog von DataSeed.AI bietet der DSD eine skalierbare Grundlage, die für eine robuste kommerzielle und multimodale KI-Entwicklung erforderlich ist. Durch diese detaillierte explorative Analyse dokumentieren wir die quantitativen Verbesserungen, die der DSD bei spezifischen Modellen im Vergleich zu bekannten Benchmarks erzielt, und stellen den Code sowie die in unserer Evaluierung verwendeten trainierten Modelle öffentlich zur Verfügung.
Die Wahrnehmung der Welt aus sowohl egozentrischer (erste Person) als auch exozentrischer (dritte Person) Perspektive ist grundlegend für die menschliche Kognition und ermöglicht ein reiches und komplementäres Verständnis dynamischer Umgebungen. In den letzten Jahren hat sich die Fähigkeit von Maschinen, das synergetische Potenzial dieser dualen Perspektiven zu nutzen, als vielversprechende Forschungsrichtung im Bereich des Video-Verstehens herauskristallisiert. In dieser Übersichtsarbeit bieten wir eine umfassende Betrachtung des Video-Verstehens aus sowohl exozentrischer als auch egozentrischer Sicht. Wir beginnen damit, die praktischen Anwendungen der Integration von egozentrischen und exozentrischen Techniken hervorzuheben und skizzieren ihr potenzielles Zusammenwirken über verschiedene Domänen hinweg. Anschließend identifizieren wir zentrale Forschungsaufgaben, um diese Anwendungen zu realisieren. Daraufhin systematisieren und überprüfen wir aktuelle Fortschritte in drei Hauptforschungsrichtungen: (1) die Nutzung egozentrischer Daten zur Verbesserung des exozentrischen Verstehens, (2) die Verwendung exozentrischer Daten zur Optimierung der egozentrischen Analyse und (3) gemeinsame Lernframeworks, die beide Perspektiven vereinen. Für jede Richtung analysieren wir eine Vielzahl von Aufgaben und relevanten Arbeiten. Zudem diskutieren wir Benchmark-Datensätze, die die Forschung in beiden Perspektiven unterstützen, und bewerten deren Umfang, Vielfalt und Anwendbarkeit. Abschließend erörtern wir die Grenzen aktueller Arbeiten und schlagen vielversprechende zukünftige Forschungsrichtungen vor. Durch die Synthese von Erkenntnissen aus beiden Perspektiven zielen wir darauf ab, Fortschritte im Video-Verstehen und in der künstlichen Intelligenz zu inspirieren, um Maschinen näher an eine menschenähnliche Wahrnehmung der Welt heranzuführen. Ein GitHub-Repo mit verwandten Arbeiten ist unter https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision zu finden.
Competitive Programming hat sich aufgrund seiner hohen Anforderungen an das logische Denken und der präzisen Rückmeldung zur Korrektheit zu einer Schlüsselaufgabe sowohl für das Training als auch für die Bewertung der Denkfähigkeiten von großen Sprachmodellen (LLMs) entwickelt. Allerdings sind, obwohl eine große Menge öffentlicher Problemdaten wie Problemstellungen und Lösungen verfügbar ist, die Testfälle dieser Probleme oft schwer zu beschaffen. Daher ist die Generierung von Testfällen eine notwendige Aufgabe für den Aufbau groß angelegter Datensätze, und die Qualität der Testfälle bestimmt direkt die Genauigkeit der Bewertung. In diesem Artikel stellen wir ein LLM-basiertes Agentensystem vor, das hochwertige Testfälle für Competitive-Programming-Probleme erstellt. Wir wenden dieses System auf den CodeContests-Datensatz an und schlagen eine neue Version mit verbesserten Testfällen vor, die CodeContests+ genannt wird. Wir haben die Qualität der Testfälle in CodeContests+ bewertet. Zunächst haben wir 1,72 Millionen Einreichungen mit Pass/Fail-Labels verwendet, um die Genauigkeit dieser Testfälle bei der Bewertung zu überprüfen. Die Ergebnisse zeigten, dass CodeContests+ eine deutlich höhere Genauigkeit als CodeContests erreicht, insbesondere mit einer deutlich höheren True-Positive-Rate (TPR). Anschließend bestätigten unsere Experimente im Bereich des Reinforcement Learning (RL) mit LLMs weiterhin, dass Verbesserungen in der Testfallqualität erhebliche Vorteile für RL bringen.
Die Erstellung präziser, physikalischer Simulationen direkt aus der Bewegung realer Roboter bietet großen Nutzen für sicheres, skalierbares und kostengünstiges Roboterlernen, bleibt jedoch äußerst anspruchsvoll. Reale Roboterdaten leiden unter Verdeckungen, verrauschten Kamerapositionen und dynamischen Szenelementen, was die Erstellung geometrisch genauer und fotorealistischer digitaler Zwillinge unbekannter Objekte erschwert. Wir stellen ein neuartiges Real-to-Sim-Framework vor, das all diese Herausforderungen gleichzeitig bewältigt. Unser zentraler Ansatz ist eine hybride Szenendarstellung, die das fotorealistische Rendering von 3D-Gaußschen Splats mit expliziten Objektnetzen, die für physikalische Simulationen geeignet sind, in einer einzigen Repräsentation vereint. Wir schlagen eine End-to-End-Optimierungspipeline vor, die differenzierbares Rendering und differenzierbare Physik innerhalb von MuJoCo nutzt, um alle Szenenkomponenten – von der Objektgeometrie und -erscheinung bis hin zu Roboterpositionen und physikalischen Parametern – direkt aus rohen und ungenauen Roboterbahnen gemeinsam zu verfeinern. Diese einheitliche Optimierung ermöglicht es uns, gleichzeitig hochgenaue Objektnetzrekonstruktionen zu erreichen, fotorealistische neue Ansichten zu generieren und annotierungsfreie Roboterpositionskalibrierungen durchzuführen. Wir demonstrieren die Wirksamkeit unseres Ansatzes sowohl in der Simulation als auch anhand anspruchsvoller realer Sequenzen mit einem ALOHA 2 bimanuellen Manipulator, wodurch praktischere und robustere Real-to-Simulation-Pipelines ermöglicht werden.
LLMs werden das Gesundheitswesen mit fortschrittlicher Entscheidungsunterstützung und flexiblen Chat-Assistenten revolutionieren. Allerdings neigen LLMs dazu, ungenaue medizinische Inhalte zu generieren. Um LLMs in hochwertigem medizinischen Wissen zu verankern, wurden LLMs mit externem Wissen durch RAG (Retrieval-Augmented Generation) ausgestattet, bei dem unstrukturiertes medizinisches Wissen in kleine Textabschnitte unterteilt wird, die selektiv abgerufen und in den Kontext der LLMs integriert werden können. Dennoch stützen sich bestehende RAG-Pipelines auf rohe, unstrukturierte medizinische Texte, die verrauscht, ungeprüft und für LLMs schwer effektiv nutzbar sein können. Systematische Ansätze, um medizinisches Wissen so zu organisieren, dass es für LLMs optimal zugänglich gemacht wird, fehlen weitgehend. Um diese Herausforderungen zu bewältigen, stellen wir MIRIAD vor, einen groß angelegten, kuratierten Korpus von 5.821.948 medizinischen Frage-Antwort-Paaren, die jeweils aus einem Abschnitt der begutachteten medizinischen Fachliteratur umformuliert und verankert wurden, unter Verwendung einer halbautomatisierten Pipeline, die LLM-Generierung, Filterung, Verankerung und menschliche Annotation kombiniert. Im Gegensatz zu früheren medizinischen Korpora, die auf unstrukturiertem Text basieren, fasst MIRIAD medizinisches Wissen im Web-Maßstab in einem operationalisierten Frage-Antwort-Format zusammen, das eine gezieltere Abfrage ermöglicht. Experimente mit anspruchsvollen medizinischen QA-Benchmarks zeigen, dass die Erweiterung von LLMs mit MIRIAD die Genauigkeit um bis zu 6,7 % im Vergleich zu unstrukturierten RAG-Baselines mit demselben Quellkorpus und der gleichen Menge an abgerufenem Text verbessert. Darüber hinaus verbesserte MIRIAD die Fähigkeit von LLMs, medizinische Halluzinationen zu erkennen, um 22,5 bis 37 % (Anstieg des F1-Scores). Wir stellen außerdem MIRIAD-Atlas vor, eine interaktive Karte von MIRIAD, die 56 medizinische Disziplinen umfasst und klinischen Nutzern ermöglicht, medizinisches Wissen visuell zu erkunden, zu durchsuchen und zu verfeinern. MIRIAD verspricht, eine Vielzahl von Downstream-Anwendungen zu ermöglichen, darunter medizinische Informationsretriever, verbesserte RAG-Anwendungen und wissensbasierte Chat-Schnittstellen, was letztendlich zuverlässigere LLM-Anwendungen im Gesundheitswesen ermöglicht.
Manipulation stellt seit langem eine Herausforderung für Roboter dar, während Menschen mühelos komplexe Interaktionen mit Objekten ausführen können, wie beispielsweise das Aufhängen einer Tasse an der Tassenablage. Ein wesentlicher Grund hierfür ist das Fehlen eines umfangreichen und einheitlichen Datensatzes, um Robotern Manipulationsfähigkeiten beizubringen. Aktuelle Roboterdatensätze erfassen oft Roboteraktionen in verschiedenen Aktionsräumen innerhalb einer einfachen Szene. Dies behindert die Fähigkeit des Roboters, eine einheitliche und robuste Aktionsrepräsentation für verschiedene Roboter in unterschiedlichen Szenen zu erlernen. Wenn wir beobachten, wie Menschen eine Manipulationsaufgabe verstehen, stellen wir fest, dass das Verständnis dafür, wie sich Objekte im 3D-Raum bewegen sollten, ein entscheidender Hinweis für die Steuerung von Aktionen ist. Dieser Hinweis ist körperunabhängig und sowohl für Menschen als auch für verschiedene Roboter geeignet. Motiviert durch diese Erkenntnis, streben wir an, ein 3D-Flow-Weltmodell sowohl aus menschlichen als auch aus roboterbasierten Manipulationsdaten zu erlernen. Dieses Modell sagt die zukünftige Bewegung der interagierenden Objekte im 3D-Raum voraus und leitet die Aktionsplanung für die Manipulation. Konkret synthetisieren wir einen groß angelegten 3D-Optical-Flow-Datensatz, genannt ManiFlow-110k, durch eine Pipeline zur automatischen Erkennung bewegter Objekte. Ein videodiffusionsbasiertes Weltmodell lernt dann die Physik der Manipulation aus diesen Daten und generiert 3D-Optical-Flow-Trajektorien, die auf Sprachanweisungen basieren. Mit dem generierten 3D-Objekt-Optical-Flow schlagen wir einen flow-gesteuerten Rendering-Mechanismus vor, der den vorhergesagten Endzustand rendert und GPT-4o nutzt, um zu bewerten, ob der vorhergesagte Flow mit der Aufgabenbeschreibung übereinstimmt. Dies stattet den Roboter mit einer geschlossenen Planungsfähigkeit aus. Schließlich betrachten wir den vorhergesagten 3D-Optical-Flow als Einschränkungen für eine Optimierungsstrategie, um eine Reihe von Roboteraktionen für die Manipulation zu bestimmen. Umfangreiche Experimente zeigen eine starke Generalisierung über verschiedene robotische Manipulationsaufgaben hinweg und eine zuverlässige körperübergreifende Anpassung ohne hardware-spezifisches Training.
Die rasanten Fortschritte bei Large Language Models (LLMs) treiben die Entwicklung autonomer Multi-Agenten-Systeme (MAS) voran. Allerdings mangelt es aktuellen Frameworks oft an Flexibilität, Ressourcenbewusstsein, Modellvielfalt und autonomer Werkzeugerstellung. Dieses Paper stellt HASHIRU (Hierarchical Agent System for Hybrid Intelligent Resource Utilization) vor, ein neuartiges MAS-Framework, das Flexibilität, Ressourceneffizienz und Anpassungsfähigkeit verbessert. HASHIRU verfügt über einen „CEO“-Agenten, der spezialisierte „Mitarbeiter“-Agenten dynamisch verwaltet, die basierend auf Aufgabenanforderungen und Ressourcenbeschränkungen (Kosten, Speicher) instanziiert werden. Seine hybride Intelligenz priorisiert kleinere, lokale LLMs (über Ollama), nutzt jedoch bei Bedarf flexibel externe APIs und größere Modelle. Ein ökonomisches Modell mit Einstellungs- und Entlassungskosten fördert Teamstabilität und effiziente Ressourcenallokation. Das System umfasst auch die autonome Erstellung von API-Werkzeugen und eine Speicherfunktion. Bewertungen bei Aufgaben wie der Begutachtung akademischer Paper (58 % Erfolgsrate), Sicherheitsbewertungen (100 % auf einer JailbreakBench-Teilmenge) und komplexem logischem Denken (Überlegenheit gegenüber Gemini 2.0 Flash bei GSM8K: 96 % vs. 61 %; JEEBench: 80 % vs. 68,3 %; SVAMP: 92 % vs. 84 %) demonstrieren die Fähigkeiten von HASHIRU. Fallstudien zeigen seine Selbstverbesserung durch autonome Kostenmodellgenerierung, Werkzeugintegration und Budgetverwaltung. HASHIRU bietet einen vielversprechenden Ansatz für robustere, effizientere und anpassungsfähigere MAS durch dynamische hierarchische Kontrolle, ressourcenbewusste hybride Intelligenz und autonome funktionale Erweiterung. Der Quellcode und Benchmarks sind unter https://github.com/HASHIRU-AI/HASHIRU bzw. https://github.com/HASHIRU-AI/HASHIRUBench verfügbar, und eine Live-Demo kann auf Anfrage unter https://hashiruagentx-hashiruai.hf.space genutzt werden.
Große multimodale Modelle (LMMs) haben beeindruckende Fortschritte in der visuellen Wahrnehmung und im logischen Denken erzielt. Wenn sie jedoch mit visuell mehrdeutigem oder nicht-semantischem Szenentext konfrontiert werden, haben sie oft Schwierigkeiten, den Inhalt präzise zu erkennen und zu verstehen, und erzeugen häufig semantisch plausibel, aber visuell falsche Antworten, was wir als semantische Halluzination bezeichnen. In dieser Arbeit untersuchen wir die zugrunde liegenden Ursachen für semantische Halluzinationen und identifizieren eine zentrale Erkenntnis: Transformer-Schichten in LLMs, die eine stärkere Aufmerksamkeit auf Szenentextregionen richten, neigen weniger dazu, semantische Halluzinationen zu erzeugen. Daher schlagen wir ein trainingsfreies Framework zur Minderung semantischer Halluzinationen vor, das aus zwei Schlüsselkomponenten besteht: (1) ZoomText, eine Strategie vom Groben zum Feinen, die potenzielle Textregionen ohne externe Detektoren identifiziert; und (2) Grounded Layer Correction, das adaptiv interne Repräsentationen aus Schichten, die weniger zu Halluzinationen neigen, nutzt, um die Decodierung zu steuern und halluzinierte Ausgaben für nicht-semantische Proben zu korrigieren, während die Semantik bedeutungsvoller Proben erhalten bleibt. Um eine rigorose Bewertung zu ermöglichen, führen wir TextHalu-Bench ein, einen Benchmark mit über 1.730 Proben, die sowohl semantische als auch nicht-semantische Fälle abdecken, mit manuell kuratierten Frage-Antwort-Paaren, die darauf ausgelegt sind, Modellhalluzinationen zu untersuchen. Umfangreiche Experimente zeigen, dass unsere Methode nicht nur effektiv semantische Halluzinationen mindert, sondern auch starke Leistungen auf öffentlichen Benchmarks für die Erkennung und das Verständnis von Szenentext erzielt.
Group Relative Policy Optimization (GRPO) verbessert das Policy-Lernen, indem es Gradienten aus relativen Vergleichen zwischen Kandidatenausgaben berechnet, die ein gemeinsames Eingabepräfix teilen. Trotz seiner Effektivität führt GRPO jedoch zu erheblichem Rechenaufwand bei der Verarbeitung langer gemeinsamer Präfixe, die für jedes Gruppenmitglied redundant kodiert werden müssen. Diese Ineffizienz wird zu einem wesentlichen Skalierbarkeitsengpass in Szenarien mit langen Kontexten. Wir schlagen Prefix Grouper vor, einen effizienten GRPO-Trainingsalgorithmus, der redundante Präfixberechnungen durch eine Shared-Prefix Forward-Strategie eliminiert. Insbesondere ermöglicht unsere Methode durch die Umstrukturierung der Selbstaufmerksamkeit in zwei Teile, dass das gemeinsame Präfix nur einmal kodiert wird, während die volle Differenzierbarkeit und Kompatibilität mit dem End-to-End-Training erhalten bleibt. Wir liefern sowohl theoretische als auch empirische Belege dafür, dass Prefix Grouper trainingsäquivalent zum Standard-GRPO ist: Es liefert identische Vorwärtsausgaben und Rückwärtsgradienten, wodurch sichergestellt wird, dass die Optimierungsdynamik und die endgültige Policy-Leistung unverändert bleiben. Empirisch bestätigen unsere Experimente, dass Prefix Grouper konsistente Ergebnisse erzielt und gleichzeitig die Rechenkosten des Trainings erheblich reduziert, insbesondere in Szenarien mit langen Präfixen. Die vorgeschlagene Methode ist vollständig Plug-and-Play: Sie ist kompatibel mit bestehenden GRPO-basierten Architekturen und kann nahtlos in aktuelle Trainingspipelines als Drop-in-Ersatz integriert werden, ohne strukturelle Änderungen und mit nur minimalen Anpassungen an der Eingabekonstruktion und der Aufmerksamkeitsberechnung. Prefix Grouper ermöglicht die Verwendung größerer Gruppengrößen unter dem gleichen Rechenbudget und verbessert so die Skalierbarkeit von GRPO für komplexere Aufgaben und größere Modelle. Der Code ist jetzt verfügbar unter https://github.com/johncaged/PrefixGrouper.
KI für das Lebenszyklusmanagement industrieller Anlagen zielt darauf ab, komplexe operative Arbeitsabläufe – wie Zustandsüberwachung, Wartungsplanung und Interventionsplanung – zu automatisieren, um die menschliche Arbeitsbelastung zu verringern und Systemausfallzeiten zu minimieren. Traditionelle KI/ML-Ansätze haben diese Probleme bisher hauptsächlich isoliert betrachtet und eng definierte Aufgaben innerhalb des umfassenderen operativen Prozesses gelöst. Im Gegensatz dazu eröffnet die Entstehung von KI-Agenten und großen Sprachmodellen (LLMs) eine nächste Generation von Möglichkeiten: die End-to-End-Automatisierung über den gesamten Lebenszyklus einer Anlage hinweg. Dieses Papier skizziert eine Zukunft, in der KI-Agenten Aufgaben autonom verwalten, die bisher spezifisches Fachwissen und manuelle Koordination erforderten. Zu diesem Zweck stellen wir AssetOpsBench vor – ein einheitliches Framework und eine Umgebung, die darauf ausgelegt ist, die Entwicklung, Orchestrierung und Bewertung von domänenspezifischen Agenten für Industrie-4.0-Anwendungen zu unterstützen. Wir skizzieren die wesentlichen Anforderungen für solche ganzheitlichen Systeme und bieten umsetzbare Einblicke in den Aufbau von Agenten, die Wahrnehmung, logisches Denken und Steuerung für reale industrielle Operationen integrieren. Die Software ist unter https://github.com/IBM/AssetOpsBench verfügbar.
Jüngste Fortschritte im Bereich der KI-basierten Argumentation haben erhebliche Verbesserungen bei verschiedenen Aufgaben bewirkt. Eine entscheidende offene Frage ist, ob diese Verbesserungen auch zu einem besseren Wissenstransfer führen: der Fähigkeit von Modellen, Argumentationen so zu kommunizieren, dass Menschen sie verstehen, anwenden und daraus lernen können. Um dies zu untersuchen, führen wir Knowledge Integration and Transfer Evaluation (KITE) ein, ein konzeptionelles und experimentelles Rahmenwerk für die Fähigkeiten des Mensch-KI-Wissenstransfers, und führen die erste groß angelegte Humanstudie (N=118) durch, die explizit darauf ausgelegt ist, diesen zu messen. In unserem zweiphasigen Aufbau entwickeln Menschen zunächst gemeinsam mit einer KI Strategien zur Problemlösung, setzen dann unabhängig Lösungen um und isolieren so den Einfluss von Modellerklärungen auf das menschliche Verständnis. Unsere Ergebnisse zeigen, dass zwar die Benchmark-Leistung des Modells mit den kollaborativen Ergebnissen korreliert, diese Beziehung jedoch bemerkenswert inkonsistent ist und signifikante Ausreißer aufweist, was darauf hindeutet, dass der Wissenstransfer eine gezielte Optimierung erfordert. Unsere Analyse identifiziert verhaltensbezogene und strategische Faktoren, die einen erfolgreichen Wissenstransfer vermitteln. Wir veröffentlichen unseren Code, unseren Datensatz und unser Bewertungsrahmenwerk, um zukünftige Arbeiten an kommunikativ ausgerichteten Modellen zu unterstützen.
Informationsextraktionssysteme (IE) sind traditionell domänenspezifisch und erfordern eine kostspielige Anpassung, die das Design von Experten-Schemata, Datenannotation und Modelltraining umfasst. Während große Sprachmodelle vielversprechende Ergebnisse in der Null-Shot-Informationsextraktion gezeigt haben, verschlechtert sich die Leistung in unbekannten Domänen, in denen sich die Label-Definitionen unterscheiden, erheblich. Dieses Papier stellt GUIDEX vor, eine neuartige Methode, die automatisch domänenspezifische Schemata definiert, Richtlinien ableitet und synthetisch annotierte Instanzen generiert, wodurch eine bessere Generalisierung über Domänen hinweg ermöglicht wird. Die Feinabstimmung von Llama 3.1 mit GUIDEX setzt einen neuen Maßstab in sieben Null-Shot-Named-Entity-Recognition-Benchmarks. Modelle, die mit GUIDEX trainiert wurden, erzielen bis zu 7 F1-Punkte mehr als bisherige Methoden ohne menschlich annotierte Daten und fast 2 F1-Punkte mehr, wenn sie damit kombiniert werden. Modelle, die auf GUIDEX trainiert wurden, zeigen ein verbessertes Verständnis für komplexe, domänenspezifische Annotationsschemata. Code, Modelle und synthetische Datensätze sind unter neilus03.github.io/guidex.com verfügbar.
Zustandsraummodelle (State-Space Models, SSMs) bieten eine vielversprechende Architektur für die Sequenzmodellierung und stellen eine Alternative zu Transformern dar, indem sie den rechenintensiven Selbstaufmerksamkeitsmechanismus durch lineare Rekurrenzen ersetzen. In diesem Artikel schlagen wir einen einfachen, aber effektiven Trick vor, um SSMs innerhalb vorgegebener Rechenbudgets durch Sparsifizierung zu verbessern. Unsere Intuition ist, dass Token in SSMs aufgrund schrittweiser rekursiver Aktualisierungen stark redundant sind und dichte Rekurrenzoperationen die Übermittlung vergangener Informationen blockieren. Insbesondere beobachten wir, dass die oberen Schichten von SSMs tendenziell redundanter sind, da sie globale Informationen kodieren, während die unteren Schichten lokale Informationen kodieren. Motiviert durch diese Beobachtung führen wir Simba vor, eine hierarchische Sparsifizierungsmethode für SSMs basierend auf Token-Pruning. Simba sparsifiziert die oberen Schichten stärker als die unteren Schichten und fördert so, dass die oberen Schichten wie „Highways“ agieren. Um dies zu erreichen, schlagen wir ein neuartiges Token-Pruning-Kriterium für SSMs vor, das den globalen Einfluss von Token auf das endgültige Ergebnis durch die Akkumulation lokaler Rekurrenzen misst. Wir zeigen, dass Simba das Basismodell Mamba bei gleicher Anzahl von FLOPS in verschiedenen Aufgaben der natürlichen Sprachverarbeitung übertrifft. Darüber hinaus veranschaulichen wir die Wirkung der „Highways“ und zeigen, dass Simba nicht nur die Effizienz steigert, sondern auch den Informationsfluss über lange Sequenzen verbessert. Der Code ist verfügbar unter https://github.com/woominsong/Simba.