Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Visuelles Denken ist eine Kernkomponente der menschlichen Intelligenz und eine entscheidende Fähigkeit für fortgeschrittene multimodale Modelle. Dennoch stützen sich aktuelle Bewertungen des Denkvermögens multimodaler großer Sprachmodelle (MLLMs) oft auf Textbeschreibungen und ermöglichen sprachbasierte Denkabkürzungen, wodurch sie echtes, visuell zentriertes Denken nicht erfassen. Um dies zu beheben, führen wir VisuLogic ein: einen Benchmark mit 1.000 von Menschen verifizierten Problemen aus sechs Kategorien (z. B. quantitative Verschiebungen, räumliche Beziehungen, Attributvergleiche). Diese verschiedenen Fragetypen ermöglichen es, die visuellen Denkfähigkeiten von MLLMs aus mehreren Perspektiven zu bewerten. Wir evaluieren führende MLLMs anhand dieses Benchmarks und analysieren ihre Ergebnisse, um häufige Fehlermuster zu identifizieren. Die meisten Modelle erreichen eine Genauigkeit von unter 30 % – nur knapp über der zufälligen Basisrate von 25 % und weit unter den 51,4 %, die Menschen erreichen – was erhebliche Lücken im visuellen Denken offenbart. Darüber hinaus stellen wir einen ergänzenden Trainingsdatensatz und eine Reinforcement-Learning-Baseline bereit, um weiteren Fortschritt zu unterstützen.
Wie kosteneffizient können starke Fähigkeiten zum logischen Denken in Sprachmodellen erreicht werden? Angetrieben von dieser grundlegenden Frage präsentieren wir Tina, eine Familie von kleinen Denkmodellen, die mit hoher Kosteneffizienz erreicht werden. Bemerkenswerterweise zeigt Tina, dass erhebliche Denkleistungen mit minimalen Ressourcen entwickelt werden können, indem parameter-effiziente Aktualisierungen während des Reinforcement Learning (RL) unter Verwendung von Low-Rank Adaptation (LoRA) auf ein bereits kleines Basismodell mit 1,5 Milliarden Parametern angewendet werden. Dieser minimalistische Ansatz erzeugt Modelle, deren Denkleistung mit den auf demselben Basismodell aufgebauten SOTA-RL-Denkmodellen konkurrieren und diese manchmal sogar übertreffen kann. Entscheidend ist, dass dies zu einem winzigen Bruchteil der rechnerischen Nachschulungskosten erreicht wird, die von bestehenden SOTA-Modellen verwendet werden. Tatsächlich erreicht das beste Tina-Modell eine Steigerung der Denkleistung um >20 % und eine Pass@1-Genauigkeit von 43,33 % auf AIME24 bei nur 9 USD Nachschulungs- und Evaluierungskosten (d. h. eine geschätzte Kostenreduktion um das 260-fache). Unsere Arbeit zeigt die überraschende Effektivität von effizientem RL-Denken durch LoRA. Wir validieren dies über mehrere Open-Source-Denkdatensätze und verschiedene Ablationsszenarien, ausgehend von einem einzigen, festen Satz von Hyperparametern. Darüber hinaus stellen wir die Hypothese auf, dass diese Effektivität und Effizienz darauf zurückzuführen sind, dass LoRA das Modell schnell an das strukturelle Format des durch RL belohnten Denkens anpasst, während das zugrunde liegende Wissen des Basismodells weitgehend erhalten bleibt. Im Dienst der Zugänglichkeit und offenen Forschung stellen wir den gesamten Code, Trainingsprotokolle und Modellgewichte & Checkpoints vollständig Open Source.
In diesem Artikel stellen wir DreamID vor, ein diffusionsbasiertes Gesichtstauschmodell, das ein hohes Maß an ID-Ähnlichkeit, Attributerhaltung, Bildtreue und schneller Inferenzgeschwindigkeit erreicht. Im Gegensatz zum typischen Trainingsprozess für Gesichtstausch, der oft auf impliziter Überwachung beruht und Schwierigkeiten hat, zufriedenstellende Ergebnisse zu erzielen, etabliert DreamID eine explizite Überwachung für den Gesichtstausch durch die Konstruktion von Triplet-ID-Gruppen-Daten, was die Identitätsähnlichkeit und Attributerhaltung erheblich verbessert. Die iterative Natur von Diffusionsmodellen stellt Herausforderungen für die Nutzung effizienter Bildraum-Verlustfunktionen dar, da es unpraktisch ist, zeitaufwändige Mehrschritt-Sampling-Verfahren während des Trainings durchzuführen, um das generierte Bild zu erhalten. Um dieses Problem zu lösen, nutzen wir das beschleunigte Diffusionsmodell SD Turbo, das die Inferenzschritte auf eine einzige Iteration reduziert und so ein effizientes pixelbasiertes End-to-End-Training mit expliziter Triplet-ID-Gruppen-Überwachung ermöglicht. Zusätzlich schlagen wir eine verbesserte diffusionsbasierte Modellarchitektur vor, die aus SwapNet, FaceNet und ID Adapter besteht. Diese robuste Architektur entfaltet das volle Potenzial der expliziten Triplet-ID-Gruppen-Überwachung. Schließlich erweitern wir unsere Methode, indem wir die Triplet-ID-Gruppen-Daten während des Trainings explizit modifizieren, um spezifische Attribute wie Brillen und Gesichtsform zu feinabstimmen und zu erhalten. Umfangreiche Experimente zeigen, dass DreamID state-of-the-art-Methoden in Bezug auf Identitätsähnlichkeit, Pose- und Ausdruckserhaltung sowie Bildtreue übertrifft. Insgesamt erzielt DreamID hochwertige Gesichtstauschergebnisse bei einer Auflösung von 512*512 in nur 0,6 Sekunden und schneidet in anspruchsvollen Szenarien wie komplexer Beleuchtung, großen Winkeln und Verdeckungen besonders gut ab.
Wir stellen PHYBench vor, einen neuartigen, hochwertigen Benchmark, der entwickelt wurde, um die Fähigkeiten großer Sprachmodelle (LLMs) in physikalischen Kontexten zu bewerten. PHYBench besteht aus 500 sorgfältig kuratierten Physikproblemen, die auf realen physikalischen Szenarien basieren und darauf abzielen, die Fähigkeit der Modelle zu bewerten, realistische physikalische Prozesse zu verstehen und darüber zu schlussfolgern. Der Benchmark deckt Mechanik, Elektromagnetismus, Thermodynamik, Optik, moderne Physik und fortgeschrittene Physik ab und umfasst Schwierigkeitsgrade von Schulübungen über universitäre Probleme bis hin zu Herausforderungen der Physik-Olympiade. Zusätzlich schlagen wir den Expression Edit Distance (EED) Score vor, eine neuartige Bewertungsmetrik, die auf der Editierdistanz zwischen mathematischen Ausdrücken basiert und effektiv Unterschiede in den Modellschlussfolgerungsprozessen und -ergebnissen erfasst, die über traditionelle binäre Bewertungsmethoden hinausgehen. Wir bewerten verschiedene LLMs auf PHYBench und vergleichen ihre Leistung mit der von menschlichen Experten. Unsere Ergebnisse zeigen, dass selbst die fortschrittlichsten Reasoning-Modelle deutlich hinter menschlichen Experten zurückbleiben, was ihre Grenzen und den Verbesserungsbedarf in komplexen physikalischen Reasoning-Szenarien verdeutlicht. Unsere Benchmark-Ergebnisse und Datensätze sind öffentlich unter https://phybench-official.github.io/phybench-demo/ verfügbar.
Wir stellen Trillion-7B vor, das token-effizienteste Koreanisch-zentrierte mehrsprachige LLM, das derzeit verfügbar ist. Unser neuartiger Cross-lingual Document Attention (XLDA)-Mechanismus ermöglicht einen hocheffizienten und effektiven Wissenstransfer vom Englischen in Zielsprachen wie Koreanisch und Japanisch. In Kombination mit optimierten Datenmischungen, sprachspezifischer Filterung und maßgeschneiderter Tokenizer-Konstruktion erreicht Trillion-7B eine wettbewerbsfähige Leistung, wobei nur 10\% seiner 2T Trainings-Token für mehrsprachige Daten verwendet werden und lediglich 59,4K H100 GPU-Stunden (\$148K) für das vollständige Training erforderlich sind. Umfassende Bewertungen über 27 Benchmarks in vier Sprachen demonstrieren die robuste mehrsprachige Leistung und die außergewöhnliche cross-linguale Konsistenz von Trillion-7B.
Mit dem Wachstum des Feldes der Repräsentationslernens hat es eine Vielzahl unterschiedlicher Verlustfunktionen gegeben, um verschiedene Problemklassen zu lösen. Wir stellen eine einzige informationstheoretische Gleichung vor, die eine große Sammlung moderner Verlustfunktionen im maschinellen Lernen verallgemeinert. Insbesondere führen wir ein Framework ein, das zeigt, dass mehrere breite Klassen von Methoden des maschinellen Lernens genau eine integrierte KL-Divergenz zwischen zwei bedingten Verteilungen minimieren: den überwachten und den gelernten Repräsentationen. Diese Sichtweise legt eine verborgene Informationsgeometrie zugrunde, die Clustering, spektrale Methoden, Dimensionsreduktion, kontrastives Lernen und überwachtes Lernen umfasst. Dieses Framework ermöglicht die Entwicklung neuer Verlustfunktionen durch die Kombination erfolgreicher Techniken aus der Literatur. Wir präsentieren nicht nur eine Vielzahl von Beweisen, die über 23 verschiedene Ansätze verbinden, sondern nutzen diese theoretischen Ergebnisse auch, um state-of-the-art unüberwachte Bildklassifikatoren zu erstellen, die eine Verbesserung von +8 % gegenüber dem bisherigen Stand der Technik bei der unüberwachten Klassifikation auf ImageNet-1K erreichen. Wir zeigen auch, dass I-Con verwendet werden kann, um prinzipielle Debias-Methoden abzuleiten, die kontrastive Repräsentationslerner verbessern.
In jüngster Zeit zeigt umfangreiche Forschung zur Bildanpassung (z. B. Identität, Motiv, Stil, Hintergrund usw.) starke Anpassungsfähigkeiten in großskaligen generativen Modellen. Die meisten Ansätze sind jedoch für spezifische Aufgaben konzipiert, was ihre Generalisierbarkeit zur Kombination verschiedener Arten von Bedingungen einschränkt. Die Entwicklung eines einheitlichen Frameworks für die Bildanpassung bleibt eine offene Herausforderung. In diesem Artikel stellen wir DreamO vor, ein Framework zur Bildanpassung, das darauf ausgelegt ist, eine breite Palette von Aufgaben zu unterstützen und gleichzeitig die nahtlose Integration mehrerer Bedingungen zu ermöglichen. Insbesondere nutzt DreamO ein Diffusion-Transformer (DiT)-Framework, um Eingaben verschiedener Typen einheitlich zu verarbeiten. Während des Trainings erstellen wir einen großskaligen Trainingsdatensatz, der verschiedene Anpassungsaufgaben umfasst, und führen eine Feature-Routing-Einschränkung ein, um die präzise Abfrage relevanter Informationen aus Referenzbildern zu erleichtern. Zusätzlich entwerfen wir eine Platzhalterstrategie, die spezifische Platzhalter mit Bedingungen an bestimmten Positionen verknüpft, wodurch die Platzierung von Bedingungen in den generierten Ergebnissen gesteuert werden kann. Darüber hinaus verwenden wir eine progressive Trainingsstrategie, die aus drei Phasen besteht: einer Anfangsphase, die sich auf einfache Aufgaben mit begrenzten Daten konzentriert, um eine grundlegende Konsistenz zu schaffen, einer umfassenden Trainingsphase, um die Anpassungsfähigkeiten vollständig zu verbessern, und einer abschließenden Qualitätsausrichtungsphase, um Qualitätsverzerrungen zu korrigieren, die durch Daten von geringer Qualität eingeführt wurden. Umfangreiche Experimente zeigen, dass das vorgeschlagene DreamO effektiv verschiedene Bildanpassungsaufgaben in hoher Qualität ausführen und flexibel unterschiedliche Arten von Steuerungsbedingungen integrieren kann.
Dieses Papier präsentiert unseren siegreichen Beitrag zum AI Mathematical Olympiad - Progress Prize 2 (AIMO-2) Wettbewerb. Unser Ansatz zur Entwicklung von State-of-the-Art-Modellen für mathematisches Denken basiert auf drei zentralen Säulen. Erstens erstellen wir einen umfangreichen Datensatz, der 540K einzigartige, hochwertige mathematische Probleme, einschließlich Olympiade-Problemen, und ihre 3,2M langen Lösungswege umfasst. Zweitens entwickeln wir eine neuartige Methode, um Code-Ausführung mit Modellen für lange Lösungswege durch iteratives Training, Generierung und Qualitätsfilterung zu integrieren, was zu 1,7M hochwertigen Tool-Integrated Reasoning-Lösungen führt. Drittens erstellen wir eine Pipeline, um Modelle so zu trainieren, dass sie die vielversprechendste Lösung aus vielen Kandidaten auswählen. Wir zeigen, dass eine solche generative Lösungsauswahl (GenSelect) den Baseline-Ansatz der Mehrheitsentscheidung signifikant verbessern kann. Durch die Kombination dieser Ideen trainieren wir eine Reihe von Modellen, die State-of-the-Art-Ergebnisse auf Benchmarks für mathematisches Denken erzielen. Um die weitere Forschung zu fördern, veröffentlichen wir unseren Code, die Modelle und den vollständigen OpenMathReasoning-Datensatz unter einer kommerziell freizügigen Lizenz.
Direct Preference Optimization (DPO) vereinfacht das Reinforcement Learning aus menschlichem Feedback (RLHF) für große Sprachmodelle (LLMs), indem es menschliche Präferenzen direkt optimiert, ohne ein explizites Belohnungsmodell zu verwenden. Wir stellen fest, dass das Referenzmodell während des DPO-Trainings die Rolle eines Datengewichtsanpassers einnimmt. Die gängige Praxis, das Policy-Modell und das Referenzmodell in DPO identisch zu initialisieren, kann jedoch zu ineffizienter Datennutzung führen und eine Leistungsgrenze auferlegen. Gleichzeitig reduziert das Fehlen eines Referenzmodells in Simple Preference Optimization (SimPO) die Robustheit des Trainings und erfordert strengere Bedingungen, um katastrophales Vergessen zu verhindern. In dieser Arbeit schlagen wir Pre-DPO vor, ein einfaches, aber effektives, auf DPO basierendes Trainingsparadigma, das die Leistung der Präferenzoptimierung verbessert, indem es ein leitendes Referenzmodell nutzt. Dieses Referenzmodell bietet einen Einblick in den optimalen Policy-Zustand, der durch die Trainingspräferenzdaten erreicht werden kann, und dient als Leitmechanismus, der adaptiv höhere Gewichte für für das Modell geeignetere Proben und niedrigere Gewichte für weniger geeignete Proben zuweist. Umfangreiche Experimente auf den Benchmarks AlpacaEval 2.0 und Arena-Hard v0.1 zeigen, dass Pre-DPO die Leistung von sowohl DPO als auch SimPO konsequent verbessert, ohne auf externe Modelle oder zusätzliche Daten angewiesen zu sein.
Contrastive Language-Image Pre-training (CLIP) hat Erfolge bei mehreren Downstream-Aufgaben erzielt, indem es Bild- und Textmodalitäten ausgerichtet hat. Die Natur des globalen kontrastiven Lernens begrenzt jedoch CLIPs Fähigkeit, kompositionelle Konzepte wie Beziehungen und Attribute zu verstehen. Obwohl aktuelle Studien globale harte negative Beispiele verwenden, um das kompositionelle Verständnis zu verbessern, beeinträchtigen diese Methoden die inhärenten allgemeinen Fähigkeiten des Modells erheblich, indem sie textuelle negative Beispiele zwangsweise von Bildern im Einbettungsraum entfernen. Um diese Einschränkung zu überwinden, führen wir ein Decoupled Global-Local Alignment (DeGLA)-Framework ein, das das kompositionelle Verständnis verbessert und gleichzeitig Verluste bei den allgemeinen Fähigkeiten erheblich reduziert. Um die Beibehaltung der inhärenten Fähigkeiten des Modells zu optimieren, integrieren wir einen Selbst-Distillationsmechanismus in den globalen Ausrichtungsprozess, der den lernbaren Bild-Text-Encoder mit einem eingefrorenen Lehrermodell aus einem exponentiellen gleitenden Durchschnitt ausrichtet. Unter der Beschränkung der Selbst-Distillation mildert es effektiv das katastrophale Vergessen von vortrainiertem Wissen während des Feinabstimmens. Um das kompositionelle Verständnis zu verbessern, nutzen wir zunächst die In-Context-Lernfähigkeit von Large Language Models (LLMs), um etwa 2M hochwertige negative Bildunterschriften über fünf Typen hinweg zu konstruieren. Anschließend schlagen wir den Image-Grounded Contrast (IGC)-Verlust und den Text-Grounded Contrast (TGC)-Verlust vor, um die Vision-Sprache-Kompositionalität zu verbessern. Umfangreiche experimentelle Ergebnisse demonstrieren die Wirksamkeit des DeGLA-Frameworks. Im Vergleich zu früheren State-of-the-Art-Methoden erreicht DeGLA eine durchschnittliche Verbesserung von 3,5 % über die VALSE-, SugarCrepe- und ARO-Benchmarks hinweg. Gleichzeitig erzielt es eine durchschnittliche Leistungssteigerung von 13,0 % bei Zero-Shot-Klassifikationsaufgaben über elf Datensätze hinweg. Unser Code wird unter https://github.com/xiaoxing2001/DeGLA veröffentlicht.
Der bemerkenswerte Erfolg von Large Language Models (LLMs) hat einen vielversprechenden Weg zur Erreichung von Künstlicher Allgemeiner Intelligenz sowohl für die akademische als auch die industrielle Gemeinschaft aufgezeigt, dank ihrer beispiellosen Leistung in verschiedenen Anwendungen. Da LLMs sowohl in der Forschung als auch in kommerziellen Bereichen weiter an Bedeutung gewinnen, sind ihre Sicherheits- und Sicherheitsimplikationen zu einer wachsenden Sorge geworden, nicht nur für Forscher und Unternehmen, sondern auch für jede Nation. Derzeit konzentrieren sich bestehende Übersichten zur Sicherheit von LLMs hauptsächlich auf bestimmte Phasen des LLM-Lebenszyklus, z.B. die Bereitstellungsphase oder die Feinabstimmungsphase, und es fehlt ein umfassendes Verständnis des gesamten "Lebenszyklus" von LLMs. Um diese Lücke zu schließen, führt dieses Papier erstmals das Konzept der "Full-Stack"-Sicherheit ein, um Sicherheitsfragen systematisch im gesamten Prozess des Trainings, der Bereitstellung und der letztendlichen Kommerzialisierung von LLMs zu betrachten. Im Vergleich zu den gängigen Übersichten zur LLM-Sicherheit zeigt unsere Arbeit mehrere deutliche Vorteile: (I) Umfassende Perspektive. Wir definieren den vollständigen LLM-Lebenszyklus als die Phasen der Datenvorbereitung, des Vor-Trainings, des Nach-Trainings, der Bereitstellung und der finalen Kommerzialisierung. Unseres Wissens ist dies die erste Sicherheitsübersicht, die den gesamten Lebenszyklus von LLMs abdeckt. (II) Umfangreiche Literaturunterstützung. Unsere Forschung basiert auf einer umfassenden Überprüfung von über 800+ Papieren, was eine umfassende Abdeckung und systematische Organisation von Sicherheitsfragen innerhalb eines ganzheitlicheren Verständnisses gewährleistet. (III) Einzigartige Einblicke. Durch systematische Literaturanalyse haben wir zuverlässige Roadmaps und Perspektiven für jedes Kapitel entwickelt. Unsere Arbeit identifiziert vielversprechende Forschungsrichtungen, darunter Sicherheit in der Datengenerierung, Alignment-Techniken, Modellbearbeitung und LLM-basierte Agentensysteme. Diese Einblicke bieten wertvolle Leitlinien für Forscher, die zukünftige Arbeiten in diesem Bereich verfolgen.
Kürzlich hat DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) seine hervorragenden Fähigkeiten im Bereich des komplexen Denkens unter Beweis gestellt und seine Methodik öffentlich geteilt. Dies bietet potenziell hochwertige Chain-of-Thought (CoT)-Daten, um die Denkfähigkeiten kleinerer großer Sprachmodelle (LLMs) zu stimulieren. Um hochwertige CoT-Daten für verschiedene LLMs zu generieren, suchen wir nach einer effizienten Methode zur Erstellung hochwertiger CoT-Daten mit LLM-adaptiven Schwierigkeitsgraden der Fragen. Zunächst bewerten wir den Schwierigkeitsgrad der Fragen entsprechend der Denkfähigkeit der LLMs selbst und erstellen eine LLM-adaptive Fragendatenbank. Anschließend entnehmen wir der Problemdatenbank basierend auf einer Verteilung der Schwierigkeitsgrade der Fragen und verwenden DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025), um die entsprechenden hochwertigen CoT-Daten mit korrekten Antworten zu generieren. Dank der Erstellung von CoT-Daten mit LLM-adaptiven Schwierigkeitsgraden konnten wir die Kosten der Datengenerierung erheblich reduzieren und die Effizienz der überwachten Feinabstimmung (SFT) des Modells steigern. Schließlich haben wir die Wirksamkeit und Generalisierbarkeit der vorgeschlagenen Methode in den Bereichen komplexer mathematischer Wettbewerbe und Codegenerierungsaufgaben validiert. Bemerkenswerterweise übertrifft unser ZMath-32B mit nur 2k hochwertigen mathematischen CoT-Daten DeepSeek-Distill-32B in mathematischen Denkaufgaben. Ebenso übertrifft unser ZCode-32B mit nur 2k hochwertigen Code-CoT-Daten DeepSeek-Distill-32B in Code-Denkaufgaben.
Da die Datenannotation kostspielig ist, greifen Benchmark-Datensätze häufig auf Labels aus etablierten Bilddatensätzen zurück. In dieser Arbeit untersuchen wir die Auswirkungen von Label-Fehlern in MSCOCO auf den häufig verwendeten Benchmark für Objekthalluzinationen, POPE. Wir annotieren die Benchmark-Bilder neu und identifizieren ein Ungleichgewicht in den Annotationsfehlern über verschiedene Teilmengen hinweg. Bei der Bewertung mehrerer Modelle anhand der überarbeiteten Labels, die wir als RePOPE bezeichnen, beobachten wir deutliche Verschiebungen in den Modellrankings, was den Einfluss der Label-Qualität unterstreicht. Code und Daten sind unter https://github.com/YanNeu/RePOPE verfügbar.
Die kausale Analyse spielt eine grundlegende Rolle in der wissenschaftlichen Entdeckung und zuverlässigen Entscheidungsfindung, bleibt jedoch aufgrund ihrer konzeptionellen und algorithmischen Komplexität für Fachexperten weitgehend unzugänglich. Diese Kluft zwischen kausaler Methodik und praktischer Anwendbarkeit stellt eine doppelte Herausforderung dar: Fachexperten können die jüngsten Fortschritte im kausalen Lernen nicht nutzen, während kausale Forscher breite, reale Anwendungen vermissen, um ihre Methoden zu testen und zu verfeinern. Um dies zu adressieren, stellen wir Causal-Copilot vor, einen autonomen Agenten, der Experten-Level-kausale Analyse innerhalb eines Large-Language-Model-Frameworks operationalisiert. Causal-Copilot automatisiert die gesamte Pipeline der kausalen Analyse für sowohl tabellarische als auch Zeitreihendaten – einschließlich kausaler Entdeckung, kausaler Inferenz, Algorithmusauswahl, Hyperparameteroptimierung, Ergebnisinterpretation und Generierung von umsetzbaren Erkenntnissen. Es unterstützt interaktive Verfeinerung durch natürliche Sprache, senkt die Barriere für Nicht-Spezialisten und bewahrt gleichzeitig methodische Strenge. Durch die Integration von über 20 modernsten kausalen Analysetechniken fördert unser System einen positiven Kreislauf – erweitert den Zugang zu fortgeschrittenen kausalen Methoden für Fachexperten und generiert gleichzeitig reichhaltige, reale Anwendungen, die die kausale Theorie informieren und vorantreiben. Empirische Auswertungen zeigen, dass Causal-Copilot eine überlegene Leistung im Vergleich zu bestehenden Baselines erzielt und eine zuverlässige, skalierbare und erweiterbare Lösung bietet, die die Lücke zwischen theoretischer Raffinesse und realer Anwendbarkeit in der kausalen Analyse überbrückt. Eine live interaktive Demo von Causal-Copilot ist verfügbar unter https://causalcopilot.com/.
Die C-zu-Rust-Transpilation ist entscheidend, um Legacy-C-Code zu modernisieren und gleichzeitig die Sicherheit und Interoperabilität mit modernen Rust-Ökosystemen zu verbessern. Allerdings existiert derzeit kein Datensatz, um zu bewerten, ob ein System C in sicheres Rust transpilieren kann, das eine Reihe von Testfällen besteht. Wir stellen CRUST-Bench vor, einen Datensatz von 100 C-Repositories, die jeweils mit manuell geschriebenen Schnittstellen in sicherem Rust sowie Testfällen gepaart sind, die zur Validierung der Korrektheit der Transpilation verwendet werden können. Indem ganze Repositories anstelle isolierter Funktionen betrachtet werden, erfasst CRUST-Bench die Herausforderungen der Übersetzung komplexer Projekte mit Abhängigkeiten über mehrere Dateien hinweg. Die bereitgestellten Rust-Schnittstellen bieten explizite Spezifikationen, die die Einhaltung idiomatischer, speichersicherer Rust-Muster gewährleisten, während die begleitenden Testfälle die funktionale Korrektheit sicherstellen. Wir evaluieren state-of-the-art Large Language Models (LLMs) für diese Aufgabe und stellen fest, dass die Erzeugung von sicherem und idiomatischem Rust nach wie vor eine Herausforderung für verschiedene state-of-the-art Methoden und Techniken darstellt. Wir geben auch Einblicke in die Fehler, die LLMs typischerweise bei der Transpilation von Code von C zu sicherem Rust machen. Das beste Modell, OpenAI o1, ist in der Lage, nur 15 Aufgaben in einem Single-Shot-Setting zu lösen. Verbesserungen bei CRUST-Bench würden zu besseren Transpilationssystemen führen, die komplexe Szenarien berücksichtigen und bei der Migration von Legacy-Codebasen von C in Sprachen wie Rust, die Speichersicherheit gewährleisten, helfen können. Den Datensatz und den Code finden Sie unter https://github.com/anirudhkhatry/CRUST-bench.
Checkboxen sind entscheidend in der realen Dokumentenverarbeitung, wo das Vorhandensein oder Fehlen von Häkchen direkt die Datenextraktion und Entscheidungsprozesse beeinflusst. Trotz der starken Leistung von großen Vision- und Sprachmodellen bei einer Vielzahl von Aufgaben, haben sie Schwierigkeiten bei der Interpretation von ankreuzbarem Inhalt. Diese Herausforderung wird besonders dringlich in Branchen, in denen ein einziger übersehener Haken zu kostspieligen regulatorischen oder vertraglichen Fehlern führen kann. Um diese Lücke zu schließen, stellen wir das CheckboxQA-Dataset vor, eine gezielte Ressource, die entwickelt wurde, um die Modellleistung bei checkboxbezogenen Aufgaben zu bewerten und zu verbessern. Es offenbart die Grenzen aktueller Modelle und dient als wertvolles Werkzeug zur Weiterentwicklung von Dokumentenverständnissystemen, mit bedeutenden Auswirkungen auf Anwendungen in Bereichen wie Legal Tech und Finanzen. Das Dataset ist öffentlich verfügbar unter: https://github.com/Snowflake-Labs/CheckboxQA
Multi-Task Visual Grounding (MTVG) umfasst zwei Teilaufgaben: Referring Expression Comprehension (REC) und Referring Expression Segmentation (RES). Die bestehenden repräsentativen Ansätze folgen im Allgemeinen einem Forschungspipeline, die hauptsächlich aus drei Kernprozessen besteht: unabhängige Merkmalsextraktion für die visuellen und linguistischen Modalitäten, ein Cross-Modal-Interaktionsmodul und unabhängige Vorhersageköpfe für verschiedene Teilaufgaben. Obwohl bemerkenswerte Leistungen erzielt werden, weist diese Forschungsrichtung zwei Einschränkungen auf: 1) Der linguistische Inhalt wurde nicht vollständig in das gesamte visuelle Backbone integriert, um eine effektivere visuelle Merkmalsextraktion zu fördern, und es wird ein zusätzliches Cross-Modal-Interaktionsmodul benötigt; 2) Die Beziehung zwischen den REC- und RES-Aufgaben wird nicht effektiv genutzt, um die gemeinsame Vorhersage für genauere Ergebnisse zu unterstützen. Um diese Probleme zu lösen, schlagen wir in diesem Artikel ein Progressive Language-guided Visual Learning Framework für Multi-Task Visual Grounding vor, genannt PLVL, das nicht nur die inhärente Merkmalsdarstellung der visuellen Modalität selbst fein ausnutzt, sondern auch schrittweise Sprachinformationen einfügt, um linguistisch bezogene visuelle Merkmale zu erlernen. Auf diese Weise benötigt unser PLVL kein zusätzliches Cross-Modal-Fusionsmodul, während die Sprachführung vollständig eingeführt wird. Darüber hinaus analysieren wir, dass das Lokalisierungszentrum für REC in gewissem Maße dazu beitragen würde, die zu segmentierende Objektregion für RES zu identifizieren. Inspiriert von dieser Untersuchung entwerfen wir einen Multi-Task-Kopf, um gemeinsame Vorhersagen für diese beiden Teilaufgaben zu ermöglichen. Umfangreiche Experimente, die auf mehreren Benchmark-Datensätzen durchgeführt wurden, bestätigen umfassend, dass unser PLVL die repräsentativen Methoden sowohl in den REC- als auch in den RES-Aufgaben deutlich übertrifft. https://github.com/jcwang0602/PLVL