Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Aufgabe der Problembehebung besteht darin, eine Codebasis so zu modifizieren, dass ein Patch erstellt wird, der ein bestimmtes Problem löst. Bestehende Benchmarks wie SWE-bench konzentrieren sich jedoch fast ausschließlich auf Python, was sie für die Bewertung von Large Language Models (LLMs) in verschiedenen Software-Ökosystemen unzureichend macht. Um dies zu beheben, führen wir einen mehrsprachigen Benchmark für die Problembehebung ein, genannt Multi-SWE-bench, der Java, TypeScript, JavaScript, Go, Rust, C und C++ abdeckt. Er umfasst insgesamt 1.632 hochwertige Instanzen, die von 68 Expert:innen aus 2.456 Kandidaten sorgfältig annotiert wurden, um sicherzustellen, dass der Benchmark eine präzise und zuverlässige Bewertung ermöglicht. Basierend auf Multi-SWE-bench evaluieren wir eine Reihe von state-of-the-art Modellen mit drei repräsentativen Methoden (Agentless, SWE-agent und OpenHands) und präsentieren eine umfassende Analyse mit wichtigen empirischen Erkenntnissen. Zusätzlich starten wir die Multi-SWE-RL Open-Source-Community, die darauf abzielt, groß angelegte Reinforcement Learning (RL)-Trainingsdatensätze für Aufgaben der Problembehebung zu erstellen. Als ersten Beitrag veröffentlichen wir einen Satz von 4.723 gut strukturierten Instanzen, die sieben Programmiersprachen abdecken, und legen damit eine solide Grundlage für die RL-Forschung in diesem Bereich. Noch wichtiger ist, dass wir unsere gesamte Datenproduktionspipeline zusammen mit detaillierten Tutorials open-source bereitstellen, um die Open-Source-Community zu ermutigen, kontinuierlich beizutragen und den Datensatz zu erweitern. Wir sehen unseren Multi-SWE-bench und die stetig wachsende Multi-SWE-RL-Community als Katalysatoren, um RL weiter voranzutreiben und uns damit dem Anbruch der AGI (Artificial General Intelligence) einen Schritt näher zu bringen.
Mathematisches Denken ist ein Eckpfeiler der menschlichen Intelligenz und ein zentraler Maßstab für fortgeschrittene Fähigkeiten in großen Sprachmodellen (LLMs). Dennoch fehlt der Forschungsgemeinschaft noch immer ein offener, groß angelegter und hochwertiger Korpus, der speziell auf die Anforderungen des mathematisch orientierten LLM-Pre-Trainings zugeschnitten ist. Wir stellen MegaMath vor, einen offenen Datensatz, der aus diversen, mathematisch fokussierten Quellen durch folgende Praktiken kuratiert wurde: (1) Neubewertung von Webdaten: Wir haben mathematische Dokumente aus Common Crawl mit mathematisch optimierten HTML-Anpassungen, Fasttext-basiertem Filtern und Deduplizierung neu extrahiert, um qualitativ hochwertigere Daten aus dem Internet zu gewinnen. (2) Wiederverwendung von mathematisch relevanten Code-Daten: Wir haben hochwertigen, mathematisch relevanten Code aus dem großen Code-Trainingskorpus Stack-V2 identifiziert, wodurch die Datenvielfalt weiter gesteigert wurde. (3) Erforschung synthetischer Daten: Wir haben QA-ähnliche Texte, mathematisch relevanten Code sowie verschachtelte Text-Code-Blöcke aus Webdaten oder Code-Daten synthetisiert. Durch die Integration dieser Strategien und die Validierung ihrer Wirksamkeit mittels umfangreicher Ablationen liefert MegaMath 371 Milliarden Tokens und stellt damit sowohl in Bezug auf die Menge als auch die Qualität den besten offenen Datensatz für mathematisches Pre-Training dar.
Große Sprachmodelle (LLMs) haben beachtliche Leistungen bei verschiedenen agentenbasierten Planungsaufgaben erzielt. Traditionelle Ansätze zur Agentenplanung verwenden jedoch eine „Bewässerungsmethode“, die wahllos Goldtrajektorien, externes Feedback und Domänenwissen in Agentenmodelle einfügt. Diese Praxis übersieht das grundlegende menschliche kognitive Prinzip der situativen Selbstwahrnehmung während der Entscheidungsfindung – die Fähigkeit, situative Anforderungen dynamisch zu bewerten und Ressourcen strategisch einzusetzen. Wir schlagen agentenbasierte wissensbewusste Selbstwahrnehmung vor, um diese Lücke zu schließen, ein neuartiges Paradigma, das LLM-basierten Agenten ermöglicht, die Wissensnutzung autonom zu regulieren. Konkret schlagen wir KnowSelf vor, einen datenzentrierten Ansatz, der Agenten mit wissensbewusster Selbstwahrnehmung wie beim Menschen ausstattet. Insbesondere entwickeln wir ein heuristisches Situationsbeurteilungskriterium, um spezielle Tokens auf den selbst erkundeten Trajektorien des Agenten zu markieren, um Trainingsdaten zu sammeln. Durch einen zweistufigen Trainingsprozess kann das Agentenmodell zwischen verschiedenen Situationen wechseln, indem es spezifische spezielle Tokens generiert, und so optimale Planungseffekte mit minimalen Kosten erzielen. Unsere Experimente zeigen, dass KnowSelf verschiedene starke Baselines bei unterschiedlichen Aufgaben und Modellen mit minimalem Einsatz von externem Wissen übertreffen kann. Der Code ist verfügbar unter https://github.com/zjunlp/KnowSelf.
In dieser Arbeit präsentieren wir VARGPT-v1.1, ein fortschrittliches, vereinheitlichtes visuelles autoregressives Modell, das auf unserem bisherigen Framework VARGPT aufbaut. Das Modell bewahrt das duale Paradigma der Next-Token-Vorhersage für das visuelle Verständnis und der Next-Scale-Generierung für die Bildsynthese. Konkret integriert VARGPT-v1.1: (1) eine neuartige Trainingsstrategie, die iteratives visuelles Instruction Tuning mit Reinforcement Learning durch Direct Preference Optimization (DPO) kombiniert, (2) einen erweiterten Trainingskorpus mit 8,3 Millionen visuell-generativen Instruktionspaaren, (3) ein verbessertes Sprachmodell-Backbone auf Basis von Qwen2, (4) eine erhöhte Bildgenerierungsauflösung sowie (5) emergente Bildbearbeitungsfähigkeiten ohne architektonische Modifikationen. Diese Fortschritte ermöglichen es VARGPT-v1.1, Spitzenleistungen in multimodalen Verständnis- und Text-zu-Bild-Instruktionsfolgeaufgaben zu erzielen, wobei signifikante Verbesserungen sowohl in den Verständnis- als auch in den Generierungsmetriken demonstriert werden. Besonders bemerkenswert ist, dass das Modell durch visuelles Instruction Tuning Bildbearbeitungsfunktionalität erwirbt, während es die architektonische Konsistenz mit seinem Vorgänger beibehält, was das Potenzial für vereinheitlichtes visuelles Verständnis, Generierung und Bearbeitung offenbart. Unsere Ergebnisse legen nahe, dass gut konzipierte, vereinheitlichte visuelle autoregressive Modelle effektiv flexible Trainingsstrategien von großen Sprachmodellen (LLMs) übernehmen können und vielversprechende Skalierbarkeit aufweisen. Die Codebasis und die Modellgewichte sind öffentlich unter https://github.com/VARGPT-family/VARGPT-v1.1 verfügbar.
Transformer sind der Eckpfeiler moderner großer Sprachmodelle, doch ihre quadratische Rechenkomplexität schränkt die Effizienz bei der Verarbeitung langer Sequenzen ein. Jüngste Fortschritte bei Mamba, einem Zustandsraummodell (State Space Model, SSM) mit linearer Komplexität, bieten vielversprechende Effizienzgewinne, leiden jedoch unter instabilem kontextuellem Lernen und mangelnder Generalisierung bei Mehrfachaufgaben. In diesem Artikel wird TransMamba vorgeschlagen, ein neuartiges Framework, das Transformer und Mamba durch gemeinsame Parametermatrizen (z. B. QKV und CBx) vereint und somit dynamisch zwischen Aufmerksamkeits- und SSM-Mechanismen bei unterschiedlichen Token-Längen und Schichten wechseln kann. Wir entwickeln den Memory Converter, um Transformer und Mamba zu verbinden, indem Aufmerksamkeitsausgaben in SSM-kompatible Zustände umgewandelt werden, wodurch ein nahtloser Informationsfluss an den TransPoints, an denen die Transformation stattfindet, sichergestellt wird. Die TransPoint-Planung wird ebenfalls umfassend untersucht, um weitere Verbesserungen zu erzielen. Wir führten umfangreiche Experimente durch, die zeigen, dass TransMamba eine überlegene Trainings effizienz und Leistung im Vergleich zu den Baselines erreicht, und bestätigten die tiefere Konsistenz zwischen den Transformer- und Mamba-Paradigmen, was eine skalierbare Lösung für die nächste Generation der Sequenzmodellierung bietet.
In der Interaktion zwischen Agenten und ihrer Umgebung erweitern Agenten ihre Fähigkeiten durch Planung und Ausführung von Aktionen. Allerdings stehen LLM-basierte Agenten vor erheblichen Herausforderungen, wenn sie in neuen Umgebungen eingesetzt werden oder unkonventionelle Aktionsräume navigieren müssen. Um Agenten zu befähigen, Umgebungen autonom zu erkunden, Arbeitsabläufe zu optimieren und ihr Verständnis von Aktionen zu verbessern, schlagen wir SynWorld vor, ein Framework, das es Agenten ermöglicht, mögliche Szenarien mit mehrstufiger Aktionsausführung innerhalb des Aktionsraums zu synthetisieren und eine Monte-Carlo-Baumsuche (MCTS) durchzuführen, um ihr Aktionswissen in der aktuellen Umgebung effektiv zu verfeinern. Unsere Experimente zeigen, dass SynWorld ein effektiver und allgemeiner Ansatz ist, um Aktionswissen in neuen Umgebungen zu erlernen. Der Code ist unter https://github.com/zjunlp/SynWorld verfügbar.
Autonome Agenten, die auf Foundation-Modellen basieren, haben in verschiedenen realen Anwendungen breite Akzeptanz gefunden. Sie bleiben jedoch äußerst anfällig für bösartige Anweisungen und Angriffe, die schwerwiegende Folgen wie Datenschutzverletzungen und finanzielle Verluste nach sich ziehen können. Noch kritischer ist, dass bestehende Sicherheitsvorkehrungen für LLMs aufgrund der komplexen und dynamischen Natur von Agenten nicht anwendbar sind. Um diese Herausforderungen zu bewältigen, schlagen wir ShieldAgent vor, den ersten Sicherheitsagenten, der explizite Einhaltung von Sicherheitsrichtlinien für die Aktionspfade anderer geschützter Agenten durch logisches Schlussfolgern durchsetzt. Konkret konstruiert ShieldAgent zunächst ein Sicherheitsrichtlinienmodell, indem überprüfbare Regeln aus Richtliniendokumenten extrahiert und in eine Reihe von aktionsbasierten probabilistischen Regelkreisen strukturiert werden. Basierend auf dem Aktionspfad des geschützten Agenten ruft ShieldAgent relevante Regelkreise ab und erstellt einen Schutzplan, wobei es seine umfangreiche Werkzeugbibliothek und ausführbaren Code für formale Verifikation nutzt. Zusätzlich führen wir, angesichts des Mangels an Benchmark-Datensätzen für Sicherheitsvorkehrungen bei Agenten, ShieldAgent-Bench ein, einen Datensatz mit 3.000 sicherheitsrelevanten Paaren von Agentenanweisungen und Aktionspfaden, die durch State-of-the-Art-Angriffe in 6 Webumgebungen und 7 Risikokategorien gesammelt wurden. Experimente zeigen, dass ShieldAgent auf ShieldAgent-Bench und drei bestehenden Benchmarks State-of-the-Art-Ergebnisse erzielt und frühere Methoden im Durchschnitt um 11,3 % übertrifft, bei einer hohen Trefferquote von 90,1 %. Darüber hinaus reduziert ShieldAgent API-Abfragen um 64,7 % und die Inferenzzeit um 58,2 %, was seine hohe Präzision und Effizienz beim Schutz von Agenten unterstreicht.
Die Ausbildung effektiver KI-Agenten für Mehrfachinteraktionen erfordert hochwertige Daten, die realistische Mensch-Agenten-Dynamiken erfassen. Solche Daten sind jedoch rar und teuer, manuell zu sammeln. Wir stellen APIGen-MT vor, ein zweiphasiges Framework, das überprüfbare und vielfältige Mehrfachinteraktionsdaten für Agenten generiert. In der ersten Phase erstellt unsere agentenbasierte Pipeline detaillierte Aufgabenentwürfe mit Ground-Truth-Aktionen, wobei ein Komitee von LLM-Gutachtern und iterative Feedback-Schleifen genutzt werden. Diese Entwürfe werden dann durch simuliertes Mensch-Agenten-Zusammenspiel in vollständige Interaktionsverläufe umgewandelt. Wir trainieren eine Familie von Modellen – die xLAM-2-fc-r-Serie mit Größen von 1B bis 70B Parametern. Unsere Modelle übertreffen Spitzenmodelle wie GPT-4o und Claude 3.5 auf den Benchmarks tau-bench und BFCL, wobei die kleineren Modelle ihre größeren Gegenstücke insbesondere in Mehrfachinteraktionsszenarien übertreffen und dabei eine überlegene Konsistenz über mehrere Durchläufe hinweg beibehalten. Umfassende Experimente zeigen, dass unser verifizierter Blueprint-to-Details-Ansatz hochwertige Trainingsdaten liefert, die die Entwicklung zuverlässigerer, effizienterer und leistungsfähigerer Agenten ermöglichen. Wir stellen sowohl die gesammelten synthetischen Daten als auch die trainierten xLAM-2-fc-r-Modelle als Open Source zur Verfügung, um die Forschung an KI-Agenten voranzutreiben. Die Modelle sind auf HuggingFace unter https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 und die Projektwebsite unter https://apigen-mt.github.io verfügbar.
Bestehende MLLM-Benchmarks stehen vor erheblichen Herausforderungen bei der Bewertung von Unified MLLMs (U-MLLMs) aufgrund von: 1) dem Fehlen standardisierter Benchmarks für traditionelle Aufgaben, was zu inkonsistenten Vergleichen führt; 2) der Abwesenheit von Benchmarks für gemischte Modalitätsgenerierung, was die Bewertung multimodaler Denkfähigkeiten verhindert. Wir präsentieren ein umfassendes Evaluationsframework, das darauf abzielt, U-MLLMs systematisch zu bewerten. Unser Benchmark umfasst: Standardisierte Bewertung traditioneller Aufgaben. Wir stichprobenartig aus 12 Datensätzen, die 10 Aufgaben mit 30 Unteraufgaben abdecken, um konsistente und faire Vergleiche zwischen Studien zu gewährleisten. 2. Einheitliche Aufgabenbewertung. Wir führen fünf neuartige Aufgaben ein, die multimodales Denken testen, darunter Bildbearbeitung, Commonsense-QA mit Bildgenerierung und geometrisches Denken. 3. Umfassendes Modell-Benchmarking. Wir bewerten 12 führende U-MLLMs, wie Janus-Pro, EMU3, VILA-U und Gemini2-flash, neben spezialisierten Verständnis- (z.B. Claude-3.5-Sonnet) und Generierungsmodellen (z.B. DALL-E-3). Unsere Ergebnisse zeigen erhebliche Leistungslücken bei bestehenden U-MLLMs auf und unterstreichen die Notwendigkeit robusterer Modelle, die gemischte Modalitätsaufgaben effektiv bewältigen können. Der Code und die Evaluationsdaten sind unter https://mme-unify.github.io/ verfügbar.
Die Rekonstruktion von Menschen aus Einzelbildern ist entscheidend für Anwendungen der digitalen Menschmodellierung, bleibt jedoch eine äußerst anspruchsvolle Aufgabe. Aktuelle Ansätze stützen sich auf generative Modelle, um Multi-View-Bilder für die anschließende 3D-Rekonstruktion und Animation zu synthetisieren. Die direkte Erzeugung mehrerer Ansichten aus einem einzelnen menschlichen Bild führt jedoch zu geometrischen Inkonsistenzen, was Probleme wie fragmentierte oder verschwommene Gliedmaßen in den rekonstruierten Modellen verursacht. Um diese Einschränkungen zu überwinden, stellen wir HumanDreamer-X vor, ein neuartiges Framework, das die Multi-View-Menschengenerierung und -rekonstruktion in eine einheitliche Pipeline integriert und dadurch die geometrische Konsistenz und visuelle Qualität der rekonstruierten 3D-Modelle erheblich verbessert. In diesem Framework dient 3D Gaussian Splatting als explizite 3D-Darstellung, um eine initiale Geometrie und Priorität für das Erscheinungsbild bereitzustellen. Auf dieser Grundlage wird HumanFixer trainiert, um 3DGS-Renderings zu restaurieren, die fotorealistische Ergebnisse gewährleisten. Darüber hinaus untersuchen wir die inhärenten Herausforderungen, die mit Aufmerksamkeitsmechanismen bei der Multi-View-Menschengenerierung verbunden sind, und schlagen eine Aufmerksamkeitsmodulationsstrategie vor, die geometrische Details und Identitätskonsistenz über mehrere Ansichten hinweg effektiv verbessert. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Qualitätsmetriken für Generierung und Rekonstruktion (PSNR) um 16,45 % bzw. 12,65 % deutlich verbessert und einen PSNR von bis zu 25,62 dB erreicht, während er gleichzeitig Generalisierungsfähigkeiten bei realen Daten und Anwendbarkeit auf verschiedene Rückgratmodelle für die menschliche Rekonstruktion aufweist.
Dieses Papier stellt Comprehensive Relighting vor, den ersten All-in-One-Ansatz, der sowohl die Beleuchtung von Bildern oder Videos von Menschen mit beliebigen Körperteilen aus jeder Szene steuern als auch harmonisieren kann. Die Entwicklung eines solchen generalisierbaren Modells ist äußerst anspruchsvoll, da es an geeigneten Datensätzen mangelt, was bestehende bildbasierte Beleuchtungsmodelle auf spezifische Szenarien (z. B. Gesicht oder statische Menschen) beschränkt. Um diese Herausforderung zu bewältigen, nutzen wir ein vortrainiertes Diffusionsmodell als allgemeines Bildprior und modellieren die Beleuchtung des Menschen und die Hintergrundharmonisierung gemeinsam in einem grob-zu-fein-Framework. Um die zeitliche Kohärenz der Beleuchtung weiter zu verbessern, führen wir ein unüberwachtes zeitliches Beleuchtungsmodell ein, das die Beleuchtungszykluskonsistenz aus vielen realen Videos ohne jegliche Ground-Truth-Daten lernt. Zur Inferenzzeit wird unser zeitliches Beleuchtungsmodul durch raumzeitliche Feature-Blending-Algorithmen mit den Diffusionsmodellen kombiniert, ohne zusätzliches Training; und wir wenden eine neue geführte Verfeinerung als Nachbearbeitung an, um die hochfrequenten Details des Eingabebildes zu bewahren. In den Experimenten zeigt Comprehensive Relighting eine starke Generalisierbarkeit und zeitliche Beleuchtungskohärenz und übertrifft damit bestehende bildbasierte Methoden zur Beleuchtung und Harmonisierung von Menschen.
Die Segmentierung von medizinischen Bildern und Videos ist eine entscheidende Aufgabe für die Präzisionsmedizin, die erhebliche Fortschritte bei der Entwicklung von aufgaben- oder modalitätsspezifischen sowie allgemeinen Modellen für 2D-Bilder verzeichnet hat. Es gibt jedoch nur begrenzte Studien zum Aufbau von universellen Modellen für 3D-Bilder und Videos mit umfassenden Benutzerstudien. Hier präsentieren wir MedSAM2, ein promptbasiertes Segmentierungs-Grundmodell für die 3D-Bild- und Videosegmentierung. Das Modell wurde durch Feinabstimmung des Segment Anything Model 2 auf einem umfangreichen medizinischen Datensatz mit über 455.000 3D-Bild-Masken-Paaren und 76.000 Frames entwickelt und übertrifft bisherige Modelle bei einer Vielzahl von Organen, Läsionen und Bildgebungsmodalitäten. Darüber hinaus implementieren wir eine Human-in-the-Loop-Pipeline, um die Erstellung groß angelegter Datensätze zu erleichtern, was nach unserem Wissen die bisher umfangreichste Benutzerstudie zur Folge hat, bei der 5.000 CT-Läsionen, 3.984 Leber-MRT-Läsionen und 251.550 Echokardiogramm-Videoframes annotiert wurden. Dies zeigt, dass MedSAM2 die manuellen Kosten um mehr als 85 % reduzieren kann. MedSAM2 ist auch in weit verbreitete Plattformen mit benutzerfreundlichen Schnittstellen für lokale und Cloud-Bereitstellung integriert, was es zu einem praktischen Werkzeug für die Unterstützung effizienter, skalierbarer und hochwertiger Segmentierung in Forschungs- und Gesundheitsumgebungen macht.
Die Balance zwischen zeitlicher Auflösung und räumlicher Detailgenauigkeit bei begrenztem Rechenbudget bleibt eine zentrale Herausforderung für videobasierte multimodale Large Language Models (MLLMs). Bisherige Methoden komprimieren in der Regel Videodarstellungen nach vordefinierten Regeln, bevor sie in das LLM eingespeist werden, was zu irreversiblen Informationsverlusten führt und oft Eingabeanweisungen ignoriert. Um dies zu adressieren, schlagen wir eine neuartige Slow-Fast-Architektur vor, die diesen Zielkonflikt auf natürliche Weise umgeht und die Verwendung von mehr Eingabeframes bei gleichzeitiger Beibehaltung räumlicher Details ermöglicht. Inspiriert davon, wie Menschen zunächst ein Video überfliegen, bevor sie sich auf relevante Teile konzentrieren, verwendet unser Slow-Fast-Design eine Dual-Token-Strategie: 1) „schnelle“ visuelle Tokens – eine kompakte Menge komprimierter Videomerkmale – werden zusammen mit Text-Embeddings in das LLM eingespeist, um einen schnellen Überblick zu bieten; 2) „langsame“ visuelle Tokens – unkomprimierte Videomerkmale – werden durch speziell entworfene Hybrid-Decoder-Schichten von Text-Embeddings cross-attendiert, was eine anweisungsbewusste Extraktion relevanter visueller Details mit linearer Komplexität ermöglicht. Wir führen eine systematische Exploration durch, um sowohl die Gesamtarchitektur als auch Schlüsselkomponenten zu optimieren. Experimente zeigen, dass unser Modell selbstaufmerksamkeitsbasierte Baselines deutlich übertrifft, die Eingabekapazität von 16 auf 128 Frames bei nur 3 % mehr Rechenaufwand erweitert und eine durchschnittliche Leistungssteigerung von 16 % über fünf Video-Verständnis-Benchmarks erzielt. Unser 7B-Modell erreicht state-of-the-art-Leistung unter Modellen ähnlicher Größe. Darüber hinaus ist unsere Slow-Fast-Architektur ein Plug-and-Play-Design, das in andere Video-MLLMs integriert werden kann, um Effizienz und Skalierbarkeit zu verbessern.
In dieser Forschung stellen wir BEATS vor, ein neuartiges Framework zur Bewertung von Bias, Ethik, Fairness und Faktizität in Large Language Models (LLMs). Aufbauend auf dem BEATS-Framework präsentieren wir einen Bias-Benchmark für LLMs, der die Leistung anhand von 29 verschiedenen Metriken misst. Diese Metriken umfassen ein breites Spektrum an Merkmalen, darunter demografische, kognitive und soziale Verzerrungen sowie Maßstäbe für ethisches Denken, Gruppenfairness und das Risiko von Falschinformationen im Zusammenhang mit Faktizität. Diese Metriken ermöglichen eine quantitative Bewertung des Ausmaßes, in dem von LLMs generierte Antworten gesellschaftliche Vorurteile perpetuieren könnten, die systemische Ungleichheiten verstärken oder ausweiten. Um eine hohe Punktzahl in diesem Benchmark zu erreichen, muss ein LLM in seinen Antworten ein sehr ausgewogenes Verhalten zeigen, was ihn zu einem strengen Standard für die verantwortungsbewusste Bewertung von KI macht. Empirische Ergebnisse auf Basis der Daten unseres Experiments zeigen, dass 37,65 % der von führenden Modellen der Industrie erzeugten Outputs eine Form von Bias enthielten, was ein erhebliches Risiko bei der Verwendung dieser Modelle in kritischen Entscheidungssystemen verdeutlicht. Das BEATS-Framework und der Benchmark bieten eine skalierbare und statistisch fundierte Methodik, um LLMs zu bewerten, Faktoren zu diagnostizieren, die Bias verursachen, und Strategien zur Minderung zu entwickeln. Mit dem BEATS-Framework verfolgen wir das Ziel, die Entwicklung von sozial verantwortungsbewussteren und ethisch ausgerichteten KI-Modellen zu unterstützen.
Wenn Schallwellen auf ein Objekt treffen, induzieren sie Vibrationen, die hochfrequente und subtile visuelle Veränderungen erzeugen, die zur Wiederherstellung des Schalls genutzt werden können. Frühere Studien stoßen stets auf Kompromisse in Bezug auf Abtastrate, Bandbreite, Sichtfeld und die Einfachheit des optischen Pfads. Jüngste Fortschritte in der Event-Kamera-Hardware zeigen ein großes Potenzial für deren Anwendung in der visuellen Schallwiederherstellung, da sie über eine überlegene Fähigkeit zur Erfassung hochfrequenter Signale verfügt. Allerdings sind bestehende, auf Ereignissen basierende Methoden zur Vibrationswiederherstellung für die Schallwiederherstellung noch nicht optimal. In dieser Arbeit schlagen wir eine neuartige Pipeline zur berührungslosen Schallwiederherstellung vor, die räumlich-zeitliche Informationen aus dem Ereignisstrom vollständig nutzt. Zunächst generieren wir einen großen Trainingsdatensatz mithilfe einer neuartigen Simulationspipeline. Dann entwerfen wir ein Netzwerk, das die Sparsity von Ereignissen nutzt, um räumliche Informationen zu erfassen, und Mamba verwendet, um langfristige zeitliche Informationen zu modellieren. Schließlich trainieren wir einen räumlichen Aggregationsblock, um Informationen aus verschiedenen Positionen zu aggregieren und die Signalqualität weiter zu verbessern. Um Ereignissignale, die durch Schallwellen verursacht werden, zu erfassen, haben wir auch ein Bildgebungssystem mit einer Lasermatrix entworfen, um den Gradienten zu verstärken, und mehrere Datensequenzen für Tests gesammelt. Experimentelle Ergebnisse auf synthetischen und realen Daten demonstrieren die Wirksamkeit unserer Methode.
Jüngste Fortschritte im Bereich des Behavior Cloning haben es Robotern ermöglicht, komplexe Manipulationsaufgaben durchzuführen. Die genaue Bewertung des Trainingserfolgs bleibt jedoch eine Herausforderung, insbesondere für reale Anwendungen, da die Verluste beim Behavior Cloning oft nur schlecht mit dem tatsächlichen Aufgaben-Erfolg korrelieren. Folglich greifen Forscher auf Erfolgsraten-Metriken zurück, die aus kostspieligen und zeitaufwändigen realen Bewertungen abgeleitet werden, was die Identifizierung optimaler Strategien und die Erkennung von Über- oder Unteranpassung unpraktikabel macht. Um diese Probleme zu lösen, schlagen wir real-is-sim vor, ein neuartiges Behavior-Cloning-Framework, das einen dynamischen digitalen Zwilling (basierend auf Embodied Gaussians) in den gesamten Entwicklungsprozess der Strategie integriert: Datenerfassung, Training und Einsatz. Durch die kontinuierliche Abstimmung der simulierten Welt mit der physischen Welt können Demonstrationen in der realen Welt gesammelt werden, während die Zustände aus dem Simulator extrahiert werden. Der Simulator ermöglicht flexible Zustandsdarstellungen, indem er Bild-Eingaben aus beliebigen Blickwinkeln rendert oder Low-Level-Zustandsinformationen von Objekten innerhalb der Szene extrahiert. Während des Trainings können Strategien direkt im Simulator auf eine offline und hochgradig parallelisierbare Weise bewertet werden. Schließlich werden die Strategien während des Einsatzes im Simulator ausgeführt, wobei der reale Roboter die Gelenke des simulierten Roboters direkt verfolgt, wodurch die Strategieausführung effektiv von der realen Hardware entkoppelt und traditionelle Herausforderungen des Domänentransfers gemildert werden. Wir validieren real-is-sim anhand der PushT-Manipulationsaufgabe und zeigen eine starke Korrelation zwischen den im Simulator und in realen Bewertungen erzielten Erfolgsraten. Videos unseres Systems finden Sie unter https://realissim.rai-inst.com.
Die präzise Abgrenzung landwirtschaftlicher Feldgrenzen aus Satellitenbildern ist entscheidend für die Landbewirtschaftung und die Überwachung von Nutzpflanzen. Allerdings stehen aktuelle Methoden vor Herausforderungen aufgrund begrenzter Datensatzgrößen, Auflösungsunterschieden und vielfältigen Umweltbedingungen. Wir adressieren dies, indem wir die Aufgabe als Instanzsegmentierung neu formulieren und den Field Boundary Instance Segmentation - 22M Datensatz (FBIS-22M) einführen, einen groß angelegten, multi-auflösenden Datensatz, der 672.909 hochauflösende Satellitenbildausschnitte (von 0,25 m bis 10 m) und 22.926.427 Instanzmasken einzelner Felder umfasst. Damit verringern wir die Lücke zwischen landwirtschaftlichen Datensätzen und denen aus anderen Bereichen der Computer Vision erheblich. Darüber hinaus schlagen wir Delineate Anything vor, ein Instanzsegmentierungsmodell, das auf unserem neuen FBIS-22M Datensatz trainiert wurde. Unser vorgeschlagenes Modell setzt einen neuen Maßstab und erreicht eine deutliche Verbesserung von 88,5 % in [email protected] und 103 % in [email protected]:0.95 gegenüber bestehenden Methoden, während es gleichzeitig eine deutlich schnellere Inferenz und eine starke Zero-Shot-Generalisierung über verschiedene Bildauflösungen und unbekannte geografische Regionen hinweg demonstriert. Code, vortrainierte Modelle und der FBIS-22M Datensatz sind unter https://lavreniuk.github.io/Delineate-Anything verfügbar.
Das Feinabstimmen eines vortrainierten Text-zu-Bild (T2I)-Modells auf einen maßgeschneiderten Porträt-Datensatz ist die gängige Methode für die textgesteuerte Anpassung von Porträtmerkmalen. Aufgrund von semantischer Verschmutzung während des Feinabstimmens haben bestehende Methoden Schwierigkeiten, das ursprüngliche Verhalten des Modells beizubehalten und inkrementelles Lernen bei der Anpassung von Zielmerkmalen zu erreichen. Um dieses Problem zu lösen, schlagen wir SPF-Portrait vor, eine bahnbrechende Arbeit, die darauf abzielt, angepasste Semantik rein zu verstehen und gleichzeitig semantische Verschmutzung bei der textgesteuerten Porträtanpassung zu eliminieren. In unserem SPF-Portrait schlagen wir eine Dual-Path-Pipeline vor, die das ursprüngliche Modell als Referenz für den konventionellen Feinabstimmungspfad einführt. Durch kontrastives Lernen stellen wir sicher, dass eine Anpassung an die Zielmerkmale erfolgt und andere unabhängige Merkmale gezielt mit dem ursprünglichen Porträt abgeglichen werden. Wir führen eine neuartige semantisch bewusste Feinsteuerungskarte ein, die die präzisen Antwortregionen der Zielsemantik darstellt, um den Abgleichprozess zwischen den kontrastiven Pfaden räumlich zu steuern. Dieser Abgleichprozess bewahrt nicht nur effektiv die Leistung des ursprünglichen Modells, sondern vermeidet auch eine Überanpassung. Darüber hinaus schlagen wir einen neuartigen Antwortverstärkungsmechanismus vor, um die Leistung der Zielmerkmale zu verstärken und gleichzeitig die inhärente Darstellungsdiskrepanz bei der direkten cross-modalen Überwachung zu mildern. Umfangreiche Experimente zeigen, dass SPF-Portrait state-of-the-art Leistung erzielt. Projektwebseite: https://spf-portrait.github.io/SPF-Portrait/