HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

14 papers found

Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer.
Video models are zero-shot learners and reasoners

Sep 24

ByThaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos

Die bemerkenswerten Zero-Shot-Fähigkeiten von Large Language Models (LLMs) haben die natürliche Sprachverarbeitung von aufgaben-spezifischen Modellen zu einheitlichen, generalistischen Foundation-Modellen vorangetrieben. Diese Transformation entstand aus einfachen Grundprinzipien: großen, generativen Modellen, die mit Web-skaligen Daten trainiert wurden. Interessanterweise gelten dieselben Prinzipien auch für die heutigen generativen Video-Modelle. Könnten Video-Modelle auf einem Weg hin zu einem allgemeinen Verständnis der visuellen Welt sein, ähnlich wie LLMs ein allgemeines Sprachverständnis entwickelt haben? Wir zeigen, dass Veo 3 eine Vielzahl von Aufgaben lösen kann, für die es nicht explizit trainiert wurde: Objekte segmentieren, Kanten erkennen, Bilder bearbeiten, physikalische Eigenschaften verstehen, Objekt-Affordanzen erkennen, Werkzeuggebrauch simulieren und mehr. Diese Fähigkeiten, die visuelle Welt wahrzunehmen, zu modellieren und zu manipulieren, ermöglichen frühe Formen des visuellen Denkens, wie das Lösen von Labyrinthen und Symmetrieaufgaben. Die emergenten Zero-Shot-Fähigkeiten von Veo deuten darauf hin, dass Video-Modelle auf dem Weg sind, einheitliche, generalistische Vision-Foundation-Modelle zu werden.

SIM-CoT: Überwachte implizite Gedankenkette
SIM-CoT: Supervised Implicit Chain-of-Thought

Sep 24

ByXilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin

Implizite Chain-of-Thought (CoT)-Methoden bieten eine vielversprechende, token-effiziente Alternative zur expliziten CoT-Argumentation in Large Language Models (LLMs), doch eine anhaltende Leistungslücke hat die Anwendung impliziter CoT bisher eingeschränkt. Wir identifizieren ein zentrales Problem latenter Instabilität durch die Skalierung des Rechenbudgets von impliziten CoT-Ansätzen: Wenn wir die Anzahl der impliziten Argumentationstokens erhöhen, um die Leistung zu steigern, wird der Trainingsprozess oft instabil und bricht zusammen. Unsere Analyse zeigt, dass diese Instabilität dadurch entsteht, dass die latenten Repräsentationen homogen werden und ihre semantische Vielfalt verlieren – ein Versagen, das auf unzureichende schrittweise Überwachung in bestehenden impliziten CoT-Ansätzen zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir SIM-CoT vor, ein Plug-and-Play-Trainingsmodul, das schrittweise Überwachung einführt, um den latenten Argumentationsraum zu stabilisieren und zu bereichern. Konkret verwendet SIM-CoT während des Trainings einen zusätzlichen Decoder, um jeden impliziten Token mit seinem entsprechenden expliziten Argumentationsschritt abzugleichen und sicherzustellen, dass latente Zustände unterschiedliche und bedeutungsvolle Informationen erfassen. Der vorgeschlagene zusätzliche Decoder wird während der Inferenz entfernt, wodurch die Recheneffizienz impliziter CoT-Methoden ohne zusätzlichen Overhead erhalten bleibt. Darüber hinaus ermöglicht der zusätzliche Decoder die Interpretierbarkeit der impliziten Argumentation, indem jeder latente Token auf ein explizites Argumentationsvokabular projiziert wird, was eine schrittweise Visualisierung semantischer Rollen und Diagnosen ermöglicht. SIM-CoT verbessert sowohl die domäneninterne Genauigkeit als auch die domänenübergreifende Stabilität verschiedener impliziter CoT-Methoden erheblich und steigert Baselines wie Coconut um +8,2 % bei GPT-2 und CODI um +3,0 % bei LLaMA-3.1 8B. Mit starker Skalierbarkeit übertrifft SIM-CoT auch die explizite CoT-Baseline bei GPT-2 um 2,1 % bei einer 2,3-fach höheren Token-Effizienz und schließt die Leistungslücke bei größeren Modellen wie LLaMA-3.1 8B erheblich.

EmbeddingGemma: Leistungsstarke und leichtgewichtige Textrepräsentationen
EmbeddingGemma: Powerful and Lightweight Text Representations

Sep 24

ByHenrique Schechter Vera, Sahil Dua, Biao Zhang, Daniel Salz, Ryan Mullins, Sindhu Raghuram Panyam, Sara Smoot, Iftekhar Naim, Joe Zou, Feiyang Chen, Daniel Cer, Alice Lisak, Min Choi, Lucas Gonzalez, Omar Sanseviero, Glenn Cameron, Ian Ballantyne, Kat Black, Kaifeng Chen, Weiyi Wang, Zhe Li, Gus Martins, Jinhyuk Lee, Mark Sherwood, Juyeong Ji, Renjie Wu, Jingxiao Zheng, Jyotinder Singh, Abheesht Sharma, Divya Sreepat, Aashi Jain, Adham Elarabawy, AJ Co, Andreas Doumanoglou, Babak Samari, Ben Hora, Brian Potetz, Dahun Kim, Enrique Alfonseca, Fedor Moiseev, Feng Han, Frank Palma Gomez, Gustavo Hernández Ábrego, Hesen Zhang, Hui Hui, Jay Han, Karan Gill, Ke Chen, Koert Chen, Madhuri Shanbhogue, Michael Boratko, Paul Suganthan, Sai Meher Karthik Duddu, Sandeep Mariserla, Setareh Ariafar, Shanfeng Zhang, Shijie Zhang, Simon Baumgartner, Sonam Goenka, Steve Qiu, Tanmaya Dabral, Trevor Walker, Vikram Rao, Waleed Khawaja, Wenlei Zhou, Xiaoqi Ren, Ye Xia, Yichang Chen, Yi-Ting Chen, Zhe Dong, Zhongli Ding, Francesco Visin, Gaël Liu, Jiageng Zhang, Kathleen Kenealy, Michelle Casbon, Ravin Kumar, Thomas Mesnard, Zach Gleicher, Cormac Brick, Olivier Lacombe, Adam Roberts, Yunhsuan Sung, Raphael Hoffmann, Tris Warkentin, Armand Joulin, Tom Duerig, Mojtaba Seyedhosseini

Wir stellen EmbeddingGemma vor, ein neues, leichtgewichtiges, offenes Text-Embedding-Modell, das auf der Gemma-3-Sprachmodellfamilie basiert. Unser innovatives Trainingsrezept erfasst strategisch Wissen aus größeren Modellen durch Encoder-Decoder-Initialisierung und geometrische Embedding-Destillation. Wir verbessern die Robustheit und Ausdruckskraft des Modells mit einem Spread-out-Regularisierer und gewährleisten die Generalisierbarkeit durch das Zusammenführen von Checkpoints aus verschiedenen, optimierten Mischungen. Evaluiert auf dem Massive Text Embedding Benchmark (MTEB) über multilinguale, englische und Code-Domänen hinweg, erzielt EmbeddingGemma (300M) state-of-the-art Ergebnisse. Bemerkenswerterweise übertrifft es frühere Top-Modelle, sowohl proprietäre als auch offene, mit weniger als 500M Parametern und bietet eine Leistung, die mit Modellen vergleichbar ist, die doppelt so groß sind, was ein außergewöhnliches Leistungs-Kosten-Verhältnis bietet. Dieser Vorsprung bleibt auch bei der Quantisierung der Modellgewichte oder der Kürzung der Embedding-Ausgaben bestehen. Dies macht EmbeddingGemma besonders gut geeignet für Anwendungsfälle mit niedriger Latenz und hohem Durchsatz, wie On-Device-Anwendungen. Wir bieten Ablationsstudien an, die unsere zentralen Designentscheidungen untersuchen. Wir veröffentlichen EmbeddingGemma für die Gemeinschaft, um weitere Forschungen zu fördern.

EditVerse: Vereinheitlichung von Bild- und Video-Bearbeitung und -Generierung durch In-Context-Learning
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

Sep 24

ByXuan Ju, Tianyu Wang, Yuqian Zhou, He Zhang, Qing Liu, Nanxuan Zhao, Zhifei Zhang, Yijun Li, Yuanhao Cai, Shaoteng Liu, Daniil Pakhomov, Zhe Lin, Soo Ye Kim, Qiang Xu

Jüngste Fortschritte bei Foundation-Modellen verdeutlichen einen klaren Trend hin zu Vereinheitlichung und Skalierung, wobei emergente Fähigkeiten über diverse Domänen hinweg sichtbar werden. Während Bildgenerierung und -bearbeitung sich schnell von aufgabenspezifischen zu vereinheitlichten Frameworks entwickelt haben, bleiben Videogenerierung und -bearbeitung aufgrund architektonischer Einschränkungen und Datenknappheit fragmentiert. In dieser Arbeit stellen wir EditVerse vor, ein vereinheitlichtes Framework für Bild- und Videogenerierung sowie -bearbeitung innerhalb eines einzigen Modells. Indem alle Modalitäten, d.h. Text, Bild und Video, als eine vereinheitlichte Token-Sequenz repräsentiert werden, nutzt EditVerse Self-Attention, um robustes In-Context-Lernen, natürlichen cross-modalen Wissenstransfer und flexible Handhabung von Eingaben und Ausgaben mit beliebigen Auflösungen und Dauer zu erreichen. Um den Mangel an Trainingsdaten für Videobearbeitung zu beheben, entwickeln wir eine skalierbare Datenpipeline, die 232K Videobearbeitungsbeispiele kuratiert und sie mit groß angelegten Bild- und Videodatensätzen für gemeinsames Training kombiniert. Darüber hinaus präsentieren wir EditVerseBench, den ersten Benchmark für instruktionsbasierte Videobearbeitung, der diverse Aufgaben und Auflösungen abdeckt. Umfangreiche Experimente und Nutzerstudien zeigen, dass EditVerse state-of-the-art Leistung erzielt und bestehende Open-Source- und kommerzielle Modelle übertrifft, während es emergente Bearbeitungs- und Generierungsfähigkeiten über Modalitäten hinweg aufweist.

Fortschritte im Sprachverständnis in sprachbewussten Sprachmodellen mit GRPO
Advancing Speech Understanding in Speech-Aware Language Models with GRPO

Sep 21

ByAvishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel

In diesem Artikel stellen wir eine Methode vor, die auf der Group Relative Policy Optimization (GRPO) basiert und für das Training von Speech-Aware Large Language Models (SALLMs) für offene Sprachverständnisaufgaben wie gesprochene Frage-Antwort-Systeme und automatische Sprachübersetzung eingesetzt wird. SALLMs haben sich als äußerst effektiv für Sprachverständnisaufgaben erwiesen. GRPO hat in letzter Zeit aufgrund seiner Effizienz beim Training von LLMs an Bedeutung gewonnen, und frühere Arbeiten haben seine Anwendung auf SALLMs, hauptsächlich in Multiple-Choice-Aufgaben, untersucht. Aufbauend darauf konzentrieren wir uns auf offene Aufgabenformate, die die generativen Fähigkeiten der Modelle besser widerspiegeln. Unser Ansatz nutzt GRPO mit BLEU als Belohnungssignal zur Optimierung von SALLMs, und wir zeigen empirisch, dass dieser Ansatz das Standard-SFT (Supervised Fine-Tuning) in mehreren wichtigen Metriken übertrifft. Abschließend untersuchen wir das Potenzial der Einbindung von Off-Policy-Stichproben innerhalb von GRPO für diese Aufgaben und beleuchten damit Möglichkeiten für weitere Verbesserungen und zukünftige Forschung.

LLMs4All: Ein Überblick über große Sprachmodelle für Forschung und Anwendungen in akademischen Disziplinen
LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines

Sep 23

ByYanfang, Ye, Zheyuan Zhang, Tianyi Ma, Zehong Wang, Yiyang Li, Shifu Hou, Weixiang Sun, Kaiwen Shi, Yijun Ma, Wei Song, Ahmed Abbasi, Ying Cheng, Jane Cleland-Huang, Steven Corcelli, Patricia Culligan, Robert Goulding, Ming Hu, Ting Hua, John Lalor, Fang Liu, Tengfei Luo, Ed Maginn, Nuno Moniz, Jason Rohr, Brett Savoie, Daniel Slate, Tom Stapleford, Matthew Webber, Olaf Wiest, Johnny Zhang, Nitesh Chawla

Moderne Techniken der Künstlichen Intelligenz (KI) verändern kontinuierlich unsere Sicht auf die Welt. Beispielsweise haben Anwendungen, die auf großen Sprachmodellen (Large Language Models, LLMs) wie ChatGPT basieren, die Fähigkeit demonstriert, menschenähnliche Gespräche zu einer Vielzahl von Themen zu generieren. Aufgrund der beeindruckenden Leistung bei verschiedenen sprachbezogenen Aufgaben (z. B. offene Wissensfragen, Übersetzung und Dokumentenzusammenfassung) lassen sich die weitreichenden Auswirkungen erahnen, die LLMs durch breitere Anwendungen in der realen Welt (z. B. Kundenservice, Bildung und Barrierefreiheit sowie wissenschaftliche Entdeckungen) haben können. Inspiriert von diesen Erfolgen bietet dieser Artikel einen Überblick über die modernsten LLMs und ihre Integration in eine Vielzahl von akademischen Disziplinen, darunter: (1) Geisteswissenschaften, Literatur und Recht (z. B. Geschichte, Philosophie, Politikwissenschaft, Kunst und Architektur, Recht), (2) Wirtschaftswissenschaften und Betriebswirtschaft (z. B. Finanzen, Volkswirtschaftslehre, Rechnungswesen, Marketing) und (3) Naturwissenschaften und Ingenieurwesen (z. B. Mathematik, Physik und Maschinenbau, Chemie und Chemieingenieurwesen, Lebenswissenschaften und Bioingenieurwesen, Geowissenschaften und Bauingenieurwesen, Informatik und Elektrotechnik). Indem wir Menschlichkeit und Technologie verbinden, untersuchen wir in diesem Artikel, wie LLMs Forschung und Praxis in diesen Bereichen prägen, und diskutieren gleichzeitig zentrale Grenzen, offene Herausforderungen und zukünftige Richtungen im Zeitalter der generativen KI. Die Übersicht darüber, wie LLMs disziplinübergreifend eingesetzt werden – zusammen mit zentralen Beobachtungen und Erkenntnissen – kann Forschern und Praktikern, die daran interessiert sind, LLMs zur Weiterentwicklung ihrer Arbeit in diversen realen Anwendungen zu nutzen, wertvolle Einblicke bieten.

PhysCtrl: Generative Physik für kontrollierbare und physikalisch fundierte Videogenerierung
PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

Sep 24

ByChen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu

Bestehende Video-Generierungsmodelle sind hervorragend darin, fotorealistische Videos aus Text oder Bildern zu erzeugen, mangeln jedoch oft an physikalischer Plausibilität und 3D-Kontrollierbarkeit. Um diese Einschränkungen zu überwinden, stellen wir PhysCtrl vor, ein neuartiges Framework für physikbasierte Bild-zu-Video-Generierung mit physikalischen Parametern und Kraftsteuerung. Im Kern befindet sich ein generatives Physiknetzwerk, das die Verteilung physikalischer Dynamiken über vier Materialien (elastisch, Sand, Plastilin und starr) mithilfe eines auf Physikparameter und angewendete Kräfte konditionierten Diffusionsmodells lernt. Wir repräsentieren physikalische Dynamiken als 3D-Punkt-Trajektorien und trainieren auf einem groß angelegten synthetischen Datensatz von 550.000 Animationen, die von Physiksimulatoren generiert wurden. Wir erweitern das Diffusionsmodell mit einem neuartigen raumzeitlichen Aufmerksamkeitsblock, der Partikelinteraktionen nachahmt und physikbasierte Einschränkungen während des Trainings einbindet, um physikalische Plausibilität zu gewährleisten. Experimente zeigen, dass PhysCtrl realistische, physikbasierte Bewegungstrajektorien erzeugt, die, wenn sie zur Steuerung von Bild-zu-Video-Modellen verwendet werden, hochwertige, kontrollierbare Videos liefern, die bestehende Methoden sowohl in visueller Qualität als auch in physikalischer Plausibilität übertreffen. Projektseite: https://cwchenwang.github.io/physctrl

Lavida-O: Elastische große maskierte Diffusionsmodelle für einheitliches multimodales Verständnis und Generierung
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

Sep 23

ByShufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen

Wir stellen Lavida-O vor, ein einheitliches Masked Diffusion Model (MDM) für multimodales Verständnis und Generierung. Im Gegensatz zu bestehenden multimodalen MDMs wie MMaDa und Muddit, die lediglich einfache Bildverständnisaufgaben und die Generierung von Bildern mit niedriger Auflösung unterstützen, bietet Lavida-O ein einheitliches Framework, das Bildverständnis, Objektlokalisierung, Bildbearbeitung und die Synthese von hochauflösenden (1024px) Text-zu-Bild-Generierungen ermöglicht. Lavida-O integriert eine neuartige Elastic Mixture-of-Transformers (Elastic-MoT)-Architektur, die einen leichten Generierungszweig mit einem umfangreicheren Verständniszweig kombiniert, unterstützt durch Token-Kompression, universelle Textkonditionierung und geschichtete Stichprobenziehung für effiziente und hochwertige Generierung. Lavida-O integriert zudem Planung und iterative Selbstreflexion in Bildgenerierungs- und Bearbeitungsaufgaben, wodurch die Generierungsqualität nahtlos durch seine Verständnisfähigkeiten gesteigert wird. Lavida-O erzielt state-of-the-art Leistungen in einer Vielzahl von Benchmarks, darunter RefCOCO für Objektlokalisierung, GenEval für Text-zu-Bild-Generierung und ImgEdit für Bildbearbeitung, und übertrifft dabei bestehende autoregressive Modelle und kontinuierliche Diffusionsmodelle wie Qwen2.5-VL und FluxKontext-dev, während es gleichzeitig eine erhebliche Beschleunigung bei der Inferenz bietet. Diese Fortschritte etablieren Lavida-O als ein neues Paradigma für skalierbares multimodales Denken und Generieren.

SimpleFold: Proteinfaltung ist einfacher als man denkt
SimpleFold: Folding Proteins is Simpler than You Think

Sep 23

ByYuyang Wang, Jiarui Lu, Navdeep Jaitly, Josh Susskind, Miguel Angel Bautista

Protein-Folding-Modelle haben bahnbrechende Ergebnisse erzielt, typischerweise durch eine Kombination aus der Integration von Domänenwissen in die Architekturbausteine und die Trainingspipeline. Angesichts des Erfolgs generativer Modelle bei verschiedenen, aber verwandten Problemen stellt sich jedoch die Frage, ob diese architektonischen Entwürfe eine notwendige Voraussetzung für die Entwicklung leistungsstarker Modelle sind. In diesem Artikel stellen wir SimpleFold vor, das erste auf Flow-Matching basierende Protein-Folding-Modell, das ausschließlich allgemeine Transformer-Blöcke verwendet. Protein-Folding-Modelle setzen typischerweise rechenintensive Module ein, die dreieckige Updates, explizite Paardarstellungen oder mehrere, speziell für diese Domäne kuratierte Trainingsziele beinhalten. Stattdessen verwendet SimpleFlow standardmäßige Transformer-Blöcke mit adaptiven Schichten und wird über ein generatives Flow-Matching-Ziel mit einem zusätzlichen strukturellen Term trainiert. Wir skalieren SimpleFold auf 3 Milliarden Parameter und trainieren es auf etwa 9 Millionen destillierten Proteinstrukturen zusammen mit experimentellen PDB-Daten. Bei Standard-Folding-Benchmarks erreicht SimpleFold-3B eine wettbewerbsfähige Leistung im Vergleich zu state-of-the-art Baselines. Darüber hinaus zeigt SimpleFold eine starke Leistung bei der Ensemble-Vorhersage, die typischerweise für Modelle, die über deterministische Rekonstruktionsziele trainiert werden, schwierig ist. Aufgrund seiner allgemeinen Architektur zeigt SimpleFold Effizienz bei der Bereitstellung und Inferenz auf Consumer-Hardware. SimpleFold stellt die Abhängigkeit von komplexen, domänenspezifischen Architekturentwürfen im Protein-Folding in Frage und eröffnet einen alternativen Gestaltungsraum für zukünftige Fortschritte.

Mischung der Gedanken: Lernen, das zu aggregieren, was Experten denken, nicht nur das, was sie sagen
Mixture of Thoughts: Learning to Aggregate What Experts Think, Not Just What They Say

Sep 25

ByJacob Fein-Ashley, Dhruv Parikh, Rajgopal Kannan, Viktor Prasanna

Open-Source Large Language Models (LLMs) spezialisieren sich zunehmend auf bestimmte Domänen (z. B. Mathematik, Code, allgemeines logisches Denken), was Systeme motiviert, die komplementäre Stärken verschiedener Modelle nutzen. Bisherige Multi-LLM-Ansätze (i) leiten eine Anfrage an einen oder wenige Experten weiter und generieren unabhängig, (ii) aggregieren Ausgaben jedes Modells durch kostspielige mehrstufige Austausche oder (iii) fusionieren Gewichte in ein einzelnes Modell, was typischerweise architektonische Homogenität erfordert. Wir stellen Mixture of Thoughts (MoT) vor, eine einfache Methode zur latenten Zusammenarbeit heterogener Experten unter einem globalen Routing-Schema. Für jede Anfrage wählt ein leichtgewichtiger Router die Top-K-Experten aus und bestimmt einen primären Experten; gleichmäßig platzierte Interaktionsschichten projizieren versteckte Zustände in einen gemeinsamen latenten Raum, in dem der primäre Experte Cross-Attention über seine aktiven (ausgewählten) Peers durchführt. Vorgelernte Experten bleiben unverändert; nur der Router und die leichtgewichtigen Interaktionsschichten werden mit einem neuartigen gemeinsamen Trainingsziel trainiert, das sowohl die Expertenauswahl als auch die Zusammenarbeit zwischen den Experten verbessert. Über fünf In-Distribution (ID)- und drei Out-of-Distribution (OOD)-Benchmarks hinweg übertrifft MoT den aktuellen State-of-the-Art basierend auf Routing und Aggregation, Avengers, um +0,38 % bzw. +2,92 %. Darüber hinaus übertrifft MoT das leistungsstärkste Einzelmodell deutlich. Dies wird mit Single-Pass-Inferenz, einer Laufzeit vergleichbar mit Routing-Baselines und ohne den Overhead iterativer Aggregation erreicht. MoT bietet einen einfachen Mechanismus im latenten Raum zur Kombination heterogener LLMs, einen praktischen Schritt hin zu einer breiteren Multi-LLM-Zusammenarbeit. Unser Code ist öffentlich verfügbar unter https://github.com/jacobfa/mot.

Technischer Bericht zur Logik-Parsing
Logics-Parsing Technical Report

Sep 24

ByXiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu

Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (Large Vision-Language Models, LVLM) haben erhebliche Fortschritte bei der Aufgabe der Dokumentenanalyse bewirkt. Im Vergleich zu traditionellen pipeline-basierten Methoden haben End-to-End-Paradigmen ihre Exzellenz bei der Umwandlung von PDF-Bildern in strukturierte Ausgaben durch integrierte optische Zeichenerkennung (OCR), Tabellenerkennung, mathematische Formelerkennung und mehr gezeigt. Das Fehlen expliziter analytischer Stufen für Dokumentlayouts und Lesereihenfolgen begrenzt jedoch die Fähigkeit von LVLM, komplexe Dokumenttypen wie mehrspaltige Zeitungen oder Poster zu verarbeiten. Um diese Einschränkung zu überwinden, schlagen wir in diesem Bericht Logics-Parsing vor: ein End-to-End-Modell auf LVLM-Basis, das durch Reinforcement Learning erweitert wird. Unser Modell integriert sorgfältig entworfene Belohnungsmechanismen, um die Analyse komplexer Layouts und die Inferenz von Lesereihenfolgen zu optimieren. Darüber hinaus erweitern wir die Vielseitigkeit des Modells, indem wir verschiedene Datentypen wie chemische Formeln und handgeschriebene chinesische Zeichen in das überwachte Feinabstimmen einbeziehen. Schließlich führen wir LogicsParsingBench ein, einen kuratierten Satz von 1.078 seitenbasierten PDF-Bildern, die neun Hauptkategorien und über zwanzig Unterkategorien umfassen und später veröffentlicht werden. Umfassende Experimente, die auf LogicsParsingBench durchgeführt wurden, haben die Wirksamkeit und die State-of-the-Art (SOTA)-Leistung unseres vorgeschlagenen Modells in verschiedenen Dokumentanalyseszenarien bestätigt. Projektseite: https://github.com/alibaba/Logics-Parsing

Zur Verwendung von agentenbasiertem Programmieren: Eine empirische Studie zu Pull Requests auf GitHub
On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub

Sep 18

ByMiku Watanabe, Hao Li, Yutaro Kashiwa, Brittany Reid, Hajimu Iida, Ahmed E. Hassan

Große Sprachmodelle (LLMs) werden zunehmend in Softwareentwicklungsprozesse integriert. Die Fähigkeit, Code zu generieren und Pull-Requests mit minimalem menschlichen Eingriff einzureichen, durch den Einsatz autonomer KI-Agenten, wird voraussichtlich zu einer Standardpraxis werden. Es ist jedoch wenig darüber bekannt, wie praktisch nützlich diese Pull-Requests sind und inwieweit ihre Beiträge in realen Projekten akzeptiert werden. In diesem Papier untersuchen wir empirisch 567 GitHub-Pull-Requests (PRs), die mit Claude Code, einem agentenbasierten Codierungstool, in 157 verschiedenen Open-Source-Projekten generiert wurden. Unsere Analyse zeigt, dass Entwickler dazu neigen, sich auf Agenten für Aufgaben wie Refactoring, Dokumentation und Tests zu verlassen. Die Ergebnisse deuten darauf hin, dass 83,8 % dieser agentenunterstützten PRs schließlich von den Projektbetreuern akzeptiert und zusammengeführt werden, wobei 54,9 % der zusammengeführten PRs ohne weitere Änderungen integriert werden. Die verbleibenden 45,1 % erfordern zusätzliche Änderungen und profitieren von menschlichen Überarbeitungen, insbesondere bei Fehlerbehebungen, Dokumentation und der Einhaltung projektspezifischer Standards. Diese Erkenntnisse legen nahe, dass agentenunterstützte PRs zwar weitgehend akzeptabel sind, aber dennoch von menschlicher Aufsicht und Verfeinerung profitieren.

ATLAS: Benchmarking und Anpassung von LLMs für den globalen Handel durch harmonisierte Zolltarifcode-Klassifizierung
ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification

Sep 22

ByPritish Yuvraj, Siva Devarakonda

Die genaue Klassifizierung von Produkten gemäß dem Harmonisierten System (HS) stellt einen kritischen Engpass im globalen Handel dar, hat jedoch bisher nur wenig Aufmerksamkeit von der Machine-Learning-Community erhalten. Fehlklassifizierungen können den Versand vollständig zum Erliegen bringen, wobei große Postbetreiber die Lieferungen in die USA aufgrund unvollständiger Zolldokumentation aussetzen. Wir stellen den ersten Benchmark für die HS-Code-Klassifizierung vor, der aus dem U.S. Customs Rulings Online Search System (CROSS) abgeleitet wurde. Bei der Bewertung führender LLMs zeigt unser feinabgestimmtes Atlas-Modell (LLaMA-3.3-70B) eine Genauigkeit von 40 Prozent bei vollständig korrekten 10-stelligen Klassifizierungen und 57,5 Prozent bei korrekten 6-stelligen Klassifizierungen, was Verbesserungen von 15 Punkten gegenüber GPT-5-Thinking und 27,5 Punkten gegenüber Gemini-2.5-Pro-Thinking darstellt. Neben der Genauigkeit ist Atlas etwa fünfmal günstiger als GPT-5-Thinking und achtmal günstiger als Gemini-2.5-Pro-Thinking und kann selbst gehostet werden, um die Datensicherheit in hochsensiblen Handels- und Compliance-Workflows zu gewährleisten. Obwohl Atlas eine solide Basis setzt, bleibt der Benchmark äußerst anspruchsvoll, mit nur 40 Prozent Genauigkeit bei 10-stelligen Klassifizierungen. Durch die Veröffentlichung von Datensatz und Modell möchten wir die HS-Klassifizierung als neue Benchmark-Aufgabe für die Community etablieren und zukünftige Arbeiten in den Bereichen Retrieval, Reasoning und Alignment anregen.

kh2d-solver: Eine Python-Bibliothek für idealisierte zweidimensionale inkompressible Kelvin-Helmholtz-Instabilität
kh2d-solver: A Python Library for Idealized Two-Dimensional Incompressible Kelvin-Helmholtz Instability

Sep 19

BySandy H. S. Herho, Nurjanna J. Trilaksono, Faiz R. Fajary, Gandhi Napitupulu, Iwan P. Anwar, Faruq Khadami, Dasapta E. Irawan

Wir präsentieren eine Open-Source-Python-Bibliothek zur Simulation zweidimensionaler inkompressibler Kelvin-Helmholtz-Instabilitäten in geschichteten Scherströmungen. Der Löser verwendet ein Fractional-Step-Projektionsverfahren mit spektraler Poisson-Lösung mittels schneller Sinustransformation, wodurch eine räumliche Genauigkeit zweiter Ordnung erreicht wird. Die Implementierung nutzt NumPy, SciPy und Numba-JIT-Kompilierung für effiziente Berechnungen. Vier kanonische Testfälle untersuchen Reynolds-Zahlen von 1000–5000 und Richardson-Zahlen von 0,1–0,3: klassische Scherströmung, Doppelscherkonfiguration, rotierende Strömung und erzwungene Turbulenz. Eine statistische Analyse unter Verwendung von Shannon-Entropie und Komplexitätsindizes zeigt, dass Doppelscherströmungen trotz niedrigerer Reynolds-Zahlen 2,8-mal höhere Mischungsraten als erzwungene Turbulenz erreichen. Der Löser läuft effizient auf Standard-Desktop-Hardware, wobei Simulationen mit einem 384×192-Gitter in etwa 31 Minuten abgeschlossen werden. Die Ergebnisse demonstrieren, dass die Mischungseffizienz von den Instabilitätserzeugungswegen und nicht allein von Intensitätsmaßen abhängt, was Richardson-Zahl-basierte Parametrisierungen in Frage stellt und Verbesserungen für die Subgrid-Skalen-Darstellung in Klimamodellen nahelegt.

EmbeddingGemma: Leistungsstarke und leichtgewichtige Textrepräsentationen
EmbeddingGemma: Powerful and Lightweight Text Representations

Sep 24