papers.title

papers.description

Das optimale Skalieren der Testzeitberechnung von LLM kann effektiver sein als das Skalieren der Modellparameter.
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Aug 6

ByCharlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar

Die Ermöglichung von LLMs, ihre Ausgaben durch eine erhöhte Testzeitberechnung zu verbessern, ist ein entscheidender Schritt hin zur Entwicklung allgemein selbstverbessernder Agenten, die in der Lage sind, in offenen natürlichen Sprachen zu operieren. In diesem Papier untersuchen wir das Skalieren der Inferenzzeitberechnung in LLMs mit dem Schwerpunkt auf der Beantwortung der Frage: Wenn einem LLM erlaubt wird, eine feste, aber nicht triviale Menge an Inferenzzeitberechnung zu nutzen, wie sehr kann es seine Leistung bei einer anspruchsvollen Eingabe verbessern? Die Beantwortung dieser Frage hat Auswirkungen nicht nur auf die erreichbare Leistung von LLMs, sondern auch auf die Zukunft des LLM-Vortrainings und wie man den Kompromiss zwischen Inferenzzeit- und Vor-Trainingsberechnung gestalten sollte. Trotz ihrer Bedeutung hat sich bisher wenig Forschung damit beschäftigt, das Skalierungsverhalten verschiedener Testzeit-Inferenzmethoden zu verstehen. Darüber hinaus liefert die aktuelle Arbeit größtenteils negative Ergebnisse für eine Reihe dieser Strategien. In dieser Arbeit analysieren wir zwei Hauptmechanismen zur Skalierung der Testzeitberechnung: (1) die Suche gegen dichte, prozessbasierte Verifizierungsbelohnungsmodelle; und (2) die Anpassung der Verteilung des Modells über eine Antwort adaptiv, basierend auf der Eingabe zur Testzeit. Wir stellen fest, dass in beiden Fällen die Wirksamkeit verschiedener Ansätze zur Skalierung der Testzeitberechnung entscheidend von der Schwierigkeit der Eingabe abhängt. Diese Beobachtung motiviert die Anwendung einer "rechenoptimalen" Skalierungsstrategie, die am effektivsten die Testzeitberechnung adaptiv pro Eingabe zuweist. Durch die Verwendung dieser rechenoptimalen Strategie können wir die Effizienz der Skalierung der Testzeitberechnung um mehr als das 4-fache im Vergleich zu einem Best-of-N-Baseline verbessern. Darüber hinaus stellen wir in einer FLOPs-angepassten Bewertung fest, dass bei Problemen, bei denen ein kleineres Basismodell etwas nicht triviale Erfolgsraten erreicht, die Testzeitberechnung verwendet werden kann, um ein 14-fach größeres Modell zu übertreffen.

MMIU: Multimodale Multi-Bild-Verständnis zur Bewertung großer Vision-Sprachmodelle
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

Aug 5

ByFanqing Meng, Jin Wang, Chuanhao Li, Quanfeng Lu, Hao Tian, Jiaqi Liao, Xizhou Zhu, Jifeng Dai, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao

Die Fähigkeit, mehrere Bilder zu verarbeiten, ist entscheidend für Large Vision-Language Models (LVLMs), um ein gründlicheres und nuancierteres Verständnis einer Szene zu entwickeln. Kürzlich haben Multi-Image LVLMs begonnen, auf diese Anforderung einzugehen. Allerdings ist ihre Bewertung mit ihrer Entwicklung nicht Schritt gehalten. Um diese Lücke zu schließen, führen wir das Multimodal Multi-image Understanding (MMIU) Benchmark ein, eine umfassende Bewertungssuite, die entwickelt wurde, um LVLMs über eine Vielzahl von Multi-Image-Aufgaben zu bewerten. MMIU umfasst 7 Arten von Multi-Image-Beziehungen, 52 Aufgaben, 77.000 Bilder und 11.000 sorgfältig kuratierte Multiple-Choice-Fragen, was es zum umfangreichsten Benchmark seiner Art macht. Unsere Bewertung von 24 beliebten LVLMs, einschließlich sowohl Open-Source als auch proprietärer Modelle, zeigt signifikante Herausforderungen bei der Multi-Image-Verständnis, insbesondere bei Aufgaben, die räumliches Verständnis erfordern. Selbst die fortschrittlichsten Modelle, wie z.B. GPT-4o, erreichen nur eine Genauigkeit von 55,7% bei MMIU. Durch vielschichtige analytische Experimente identifizieren wir Schlüsselleistungsunterschiede und -beschränkungen und liefern wertvolle Erkenntnisse für zukünftige Modell- und Datenverbesserungen. Wir streben danach, dass MMIU die Grenzen der LVLM-Forschung und -entwicklung vorantreibt und uns auf dem Weg zu anspruchsvollen multimodalen Multi-Image-Benutzerinteraktionen voranbringt.

LLaVA-OneVision: Einfache visuelle Aufgabenübertragung
LLaVA-OneVision: Easy Visual Task Transfer

Aug 6

ByBo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li

Wir präsentieren LLaVA-OneVision, eine Familie offener großer multimodaler Modelle (LMMs), die durch die Konsolidierung unserer Erkenntnisse zu Daten, Modellen und visuellen Darstellungen in der LLaVA-NeXT-Blogserie entwickelt wurden. Unsere experimentellen Ergebnisse zeigen, dass LLaVA-OneVision das erste einzelne Modell ist, das gleichzeitig die Leistungsgrenzen offener LMMs in drei wichtigen Szenarien der Computer Vision erweitern kann: Einzelbild-, Mehrbild- und Videoszenarien. Die Gestaltung von LLaVA-OneVision ermöglicht insbesondere starkes Transferlernen über verschiedene Modalitäten/Szenarien hinweg, was zu neuen aufkommenden Fähigkeiten führt. Insbesondere werden starke Videoverständnis- und Cross-Szenario-Fähigkeiten durch die Aufgabentransfer von Bildern auf Videos demonstriert.

Ein Objekt ist 64x64 Pixel wert: Generierung von 3D-Objekten über Bild-Diffusion
An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion

Aug 6

ByXingguang Yan, Han-Hung Lee, Ziyu Wan, Angel X. Chang

Wir stellen einen neuen Ansatz zur Generierung realistischer 3D-Modelle mit UV-Maps vor, der durch eine Darstellung namens "Objektbilder" realisiert wird. Dieser Ansatz umfasst Oberflächengeometrie, Erscheinungsbild und Patch-Strukturen innerhalb eines 64x64 Pixelbildes und wandelt komplexe 3D-Formen effektiv in ein handlicheres 2D-Format um. Dadurch werden die Herausforderungen sowohl geometrischer als auch semantischer Unregelmäßigkeiten, die in polygonalen Netzen inhärent sind, bewältigt. Diese Methode ermöglicht es uns, Bildgenerierungsmodelle wie Diffusion Transformers direkt für die Generierung von 3D-Formen zu verwenden. Anhand des ABO-Datensatzes erzielen unsere generierten Formen mit Patch-Strukturen eine Punktwolken-FID, die mit aktuellen 3D-generativen Modellen vergleichbar ist, und unterstützen gleichzeitig die natürliche Generierung von PBR-Material.

MedTrinity-25M: Ein umfangreiches multimodales Datenset mit multigranularen Annotationen für die Medizin
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine

Aug 6

ByYunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou

Dieses Papier stellt MedTrinity-25M vor, ein umfassendes, groß angelegtes multimodales Datenset für die Medizin, das über 25 Millionen Bilder in 10 Modalitäten umfasst, mit multigranularen Annotationen für mehr als 65 Krankheiten. Diese angereicherten Annotationen umfassen sowohl globale textuelle Informationen wie Krankheits-/Läsionstyp, Modalität, regionspezifische Beschreibungen und interregionale Beziehungen als auch detaillierte lokale Annotationen für Regionen von Interesse (ROIs), einschließlich Bounding-Boxen und Segmentierungsmasken. Im Gegensatz zu bestehenden Ansätzen, die durch die Verfügbarkeit von Bild-Text-Paaren eingeschränkt sind, haben wir die erste automatisierte Pipeline entwickelt, die multimodale Daten durch die Generierung multigranularer visueller und textueller Annotationen (in Form von Bild-ROI-Beschreibungs-Triplets) ohne die Notwendigkeit von gepaarten Textbeschreibungen skalieren kann. Speziell wurden Daten aus über 90 verschiedenen Quellen gesammelt, vorverarbeitet und mithilfe domänenspezifischer Expertenmodelle verankert, um ROIs in Bezug auf abnormale Regionen zu identifizieren. Anschließend bauen wir eine umfassende Wissensbasis auf und fordern multimodale große Sprachmodelle auf, eine abrufgestützte Generierung mit den identifizierten ROIs als Leitfaden durchzuführen, was zu multigranularen textuellen Beschreibungen führt. Im Vergleich zu bestehenden Datensets bietet MedTrinity-25M die umfangreichsten Annotationen, die eine breite Palette von multimodalen Aufgaben wie Bildunterschriften und Berichterstellung sowie visionäre Aufgaben wie Klassifizierung und Segmentierung unterstützen. Durch das Pretraining auf MedTrinity-25M erreicht unser Modell eine Spitzenleistung bei VQA-RAD und PathVQA, wobei sowohl multimodale große Sprachmodelle als auch andere repräsentative State-of-the-Art-Ansätze übertroffen werden. Dieses Datenset kann auch zur Unterstützung des groß angelegten Pretrainings multimodaler medizinischer KI-Modelle genutzt werden und trägt zur Entwicklung zukünftiger Grundlagenmodelle im medizinischen Bereich bei.

IPAdapter-Instruct: Auflösung von Mehrdeutigkeit bei bildbasiertem Konditionieren unter Verwendung von Instruct-Prompts
IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts

Aug 6

ByCiara Rowles, Shimon Vainer, Dante De Nigris, Slava Elizarov, Konstantin Kutsy, Simon Donné

Diffusionsmodelle stoßen kontinuierlich an die Grenze der modernsten Bildgenerierung, aber der Prozess ist schwer mit Feinheiten zu kontrollieren: Die Praxis zeigt, dass textuelle Hinweise unzureichend sind, um den Bildstil oder feine strukturelle Details (wie Gesichter) genau zu beschreiben. ControlNet und IPAdapter beheben diese Schwäche, indem sie den generativen Prozess stattdessen auf Bildmaterial konditionieren, jedoch ist jedes einzelne Exemplar auf die Modellierung eines einzelnen bedingten Posteriors beschränkt: Für praktische Anwendungsfälle, in denen mehrere verschiedene Posteriors im selben Arbeitsablauf gewünscht sind, ist das Training und die Verwendung mehrerer Adapter umständlich. Wir schlagen IPAdapter-Instruct vor, der die Konditionierung auf natürliche Bilder mit "Instruct"-Hinweisen kombiniert, um zwischen Interpretationen für dasselbe konditionierte Bild zu wechseln: Stiltransfer, Objektauswahl, beides oder etwas anderes noch? IPAdapterInstruct lernt effizient mehrere Aufgaben mit minimalem Qualitätsverlust im Vergleich zu dedizierten pro-Aufgaben-Modellen.

CoverBench: Ein anspruchsvoller Benchmark für die Überprüfung komplexer Behauptungen
CoverBench: A Challenging Benchmark for Complex Claim Verification

Aug 6

ByAlon Jacovi, Moran Ambar, Eyal Ben-David, Uri Shaham, Amir Feder, Mor Geva, Dror Marcus, Avi Caciularu

Es gibt eine wachsende Reihe von Forschungsarbeiten zur Überprüfung der Korrektheit von Sprachmodellen. Gleichzeitig werden Sprachmodelle eingesetzt, um komplexe Anfragen zu bearbeiten, die logisches Denken erfordern. Wir stellen CoverBench vor, einen anspruchsvollen Benchmark, der sich auf die Überprüfung von Sprachmodellausgaben in komplexen Denkszenarien konzentriert. Datensätze, die zu diesem Zweck verwendet werden können, sind oft für andere komplexe Denkaufgaben (z. B. QA) konzipiert, die spezifische Anwendungsfälle (z. B. Finanztabelle) ansprechen. Dies erfordert Transformationen, negatives Sampling und die Auswahl schwieriger Beispiele, um einen solchen Benchmark zu erstellen. CoverBench bietet eine vielfältige Bewertung für die Überprüfung von komplexen Behauptungen in verschiedenen Bereichen, Arten des Denkens, relativ langen Eingaben und verschiedenen Standardisierungen, wie z. B. mehrere Darstellungen für Tabellen, sofern verfügbar, und ein konsistentes Schema. Wir überprüfen die Daten manuell auf Qualität, um niedrige Ebenen von Labelrauschen sicherzustellen. Abschließend präsentieren wir eine Vielzahl von wettbewerbsfähigen Baseline-Ergebnissen, um zu zeigen, dass CoverBench anspruchsvoll ist und über ein sehr signifikantes Verbesserungspotenzial verfügt. Die Daten sind unter https://huggingface.co/datasets/google/coverbench verfügbar.

Diffusionsmodelle als Werkzeuge für das Data Mining.
Diffusion Models as Data Mining Tools

Jul 20

ByIoannis Siglidis, Aleksander Holynski, Alexei A. Efros, Mathieu Aubry, Shiry Ginosar

Dieses Papier zeigt auf, wie generative Modelle, die für die Bildsynthese trainiert wurden, als Werkzeuge für das visuelle Daten-Mining eingesetzt werden können. Unsere Erkenntnis besteht darin, dass zeitgenössische generative Modelle eine genaue Darstellung ihrer Trainingsdaten erlernen, und wir sie daher nutzen können, um die Daten zu summarisieren, indem wir nach visuellen Mustern suchen. Konkret zeigen wir, dass wir nach Feinabstimmung von bedingten Diffusionsmodellen zur Synthese von Bildern aus einem bestimmten Datensatz diese Modelle verwenden können, um ein typisches Maß für diesen Datensatz zu definieren. Dieses Maß bewertet, wie typisch visuelle Elemente für verschiedene Datenetiketten sind, wie z.B. geografischer Standort, Zeitstempel, semantische Etiketten oder sogar das Vorhandensein einer Krankheit. Dieser Analyse-durch-Synthese-Ansatz für das Daten-Mining hat zwei wesentliche Vorteile. Erstens skaliert er viel besser als traditionelle korrespondenzbasierte Ansätze, da er nicht erfordert, explizit alle Paare von visuellen Elementen zu vergleichen. Zweitens, während die meisten früheren Arbeiten zum visuellen Daten-Mining sich auf einen einzigen Datensatz konzentrieren, funktioniert unser Ansatz mit vielfältigen Datensätzen in Bezug auf Inhalt und Umfang, einschließlich eines historischen Autodatensatzes, eines historischen Gesichtsdatensatzes, eines großen weltweiten Straßenansichtdatensatzes und eines noch größeren Szenendatensatzes. Darüber hinaus ermöglicht unser Ansatz die Übersetzung von visuellen Elementen über Klassenetiketten hinweg und die Analyse konsistenter Veränderungen.

ReSyncer: Neuverdrahtung des Style-basierten Generators für einen vereinheitlichten audiovisuell synchronisierten Gesichtsdarsteller.
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

Aug 6

ByJiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu

Das Synchronisieren von Lippenbewegungen in Videos mit vorgegebenem Audio bildet die Grundlage für verschiedene Anwendungen, darunter die Erstellung virtueller Moderatoren oder Künstler. Während aktuelle Studien hochwertige Lippen-Synchronisation mit verschiedenen Techniken untersuchen, erfordern ihre aufgabenorientierten Modelle entweder langfristige Videos für clip-spezifisches Training oder weisen sichtbare Artefakte auf. In diesem Paper schlagen wir ein einheitliches und effektives Framework namens ReSyncer vor, das generalisierte audiovisuelle Gesichtsinformationen synchronisiert. Der Schlüsselansatz besteht darin, den Style-basierten Generator zu überarbeiten und neu zu verknüpfen, um die 3D-Gesichtsdynamik effizient anzunehmen, die von einem fundierten Style-injected Transformer vorhergesagt wird. Durch einfaches Neukonfigurieren der Informations-Einfügungsmechanismen im Rausch- und Style-Raum fusioniert unser Framework Bewegung und Erscheinungsbild mit vereinter Schulung. Umfangreiche Experimente zeigen, dass ReSyncer nicht nur hochwertige lippen-synchrone Videos gemäß Audio produziert, sondern auch mehrere ansprechende Eigenschaften unterstützt, die für die Erstellung virtueller Moderatoren und Künstler geeignet sind, darunter schnelles personalisiertes Feintuning, video-gesteuerte Lippen-Synchronisation, die Übertragung von Sprechstilen und sogar Gesichtsaustausch. Ressourcen sind unter https://guanjz20.github.io/projects/ReSyncer verfügbar.

StructEval: Vertiefung und Erweiterung der Bewertung großer Sprachmodelle durch strukturierte Evaluation
StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation

Aug 6

ByBoxi Cao, Mengjie Ren, Hongyu Lin, Xianpei Han, Feng Zhang, Junfeng Zhan, Le Sun

Die Evaluation ist der Taktstock für die Entwicklung großer Sprachmodelle. Gegenwärtige Bewertungen verwenden in der Regel ein Einzelitem-Bewertungsparadigma für jedes atomare Testziel, das Schwierigkeiten hat zu erkennen, ob ein Modell tatsächlich über die erforderlichen Fähigkeiten verfügt oder einfach nur Antworten auf spezifische Fragen auswendig lernt/rät. Zu diesem Zweck schlagen wir ein neuartiges Bewertungsrahmenwerk namens StructEval vor. Ausgehend von einem atomaren Testziel vertieft und erweitert StructEval die Bewertung durch eine strukturierte Bewertung über mehrere kognitive Ebenen und wichtige Konzepte hinweg und bietet somit eine umfassende, robuste und konsistente Bewertung für große Sprachmodelle. Experimente an drei weit verbreiteten Benchmarks zeigen, dass StructEval als zuverlässiges Werkzeug dient, um das Risiko einer Datenkontamination zu bekämpfen und die Störung potenzieller Voreingenommenheiten zu reduzieren, wodurch zuverlässigere und konsistentere Schlussfolgerungen hinsichtlich der Modellfähigkeiten gezogen werden können. Unser Rahmenwerk wirft auch Licht auf die Gestaltung zukünftiger fundierter und vertrauenswürdiger Bewertungsprotokolle für große Sprachmodelle.

Synthese von Text-zu-SQL-Daten aus schwachen und starken LLMs
Synthesizing Text-to-SQL Data from Weak and Strong LLMs

Aug 6

ByJiaxi Yang, Binyuan Hui, Min Yang, Jian Yang, Junyang Lin, Chang Zhou

Die Fähigkeitslücke zwischen Open-Source- und Closed-Source-großen Sprachmodellen (LLMs) bleibt eine Herausforderung bei Text-zu-SQL-Aufgaben. In diesem Artikel stellen wir einen synthetischen Datenansatz vor, der Daten kombiniert, die von größeren, leistungsstärkeren Modellen (starken Modellen) produziert wurden, mit Fehlerinformationsdaten, die von kleineren, nicht gut ausgerichteten Modellen (schwachen Modellen) generiert wurden. Die Methode verbessert nicht nur die Domänengeneralisierung von Text-zu-SQL-Modellen, sondern erforscht auch das Potenzial der Fehlervorlagedaten durch Präferenzlernen. Darüber hinaus verwenden wir den synthetischen Datenansatz für die Anweisungsabstimmung bei Open-Source-LLMs und erhalten SENSE, ein spezialisiertes Text-zu-SQL-Modell. Die Wirksamkeit von SENSE wird durch erstklassige Ergebnisse auf den SPIDER- und BIRD-Benchmarks demonstriert, wodurch die Leistungslücke zwischen Open-Source-Modellen und Methoden, die durch Closed-Source-Modelle angeregt wurden, überbrückt wird.

AVESFormer: Effizientes Transformer-Design für Echtzeit-Audio-Visuelle Segmentierung
AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation

Aug 3

ByZili Wang, Qi Yang, Linsu Shi, Jiazhong Yu, Qinghua Liang, Fei Li, Shiming Xiang

In letzter Zeit haben transformerbasierte Modelle eine bemerkenswerte Leistung bei Audio-Visual Segmentation (AVS) Aufgaben gezeigt. Ihre hohe Rechenkosten machen jedoch eine Echtzeit-Inferenz unpraktisch. Durch die Charakterisierung der Aufmerksamkeitskarten des Netzwerks identifizieren wir zwei Hauptprobleme bei AVS-Modellen: 1) Aufmerksamkeitsdissipation, die den überkonzentrierten Aufmerksamkeitsgewichten durch Softmax innerhalb begrenzter Rahmen entspricht, und 2) ineffizienter, belastender Transformer-Decoder, verursacht durch enge Fokuspunktmuster in frühen Stadien. In diesem Artikel stellen wir AVESFormer vor, den ersten Echtzeit-Audio-Visuellen Effizienten Segmentierungs-Transformer, der gleichzeitig schnell, effizient und leichtgewichtig ist. Unser Modell nutzt einen effizienten Prompt-Abfragegenerator, um das Verhalten der Kreuz-Aufmerksamkeit zu korrigieren. Darüber hinaus schlagen wir den ELF-Decoder vor, um eine größere Effizienz zu erzielen, indem wir Faltungen vorschlagen, die für lokale Merkmale geeignet sind, um die Rechenlast zu reduzieren. Umfangreiche Experimente zeigen, dass unser AVESFormer die Modellleistung signifikant verbessert und 79,9% auf S4, 57,9% auf MS3 und 31,2% auf AVSS erreicht, wodurch frühere State-of-the-Art-Modelle übertroffen werden und ein ausgezeichnetes Gleichgewicht zwischen Leistung und Geschwindigkeit erzielt wird. Der Code ist unter https://github.com/MarkXCloud/AVESFormer.git verfügbar.

papers.title

papers.description

Das optimale Skalieren der Testzeitberechnung von LLM kann effektiver sein als das Skalieren der Modellparameter.
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Aug 6

ByCharlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar

MMIU: Multimodale Multi-Bild-Verständnis zur Bewertung großer Vision-Sprachmodelle
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

Aug 5

ByFanqing Meng, Jin Wang, Chuanhao Li, Quanfeng Lu, Hao Tian, Jiaqi Liao, Xizhou Zhu, Jifeng Dai, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao

LLaVA-OneVision: Einfache visuelle Aufgabenübertragung
LLaVA-OneVision: Easy Visual Task Transfer

Aug 6

ByBo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li

Ein Objekt ist 64x64 Pixel wert: Generierung von 3D-Objekten über Bild-Diffusion
An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion

Aug 6

ByXingguang Yan, Han-Hung Lee, Ziyu Wan, Angel X. Chang

MedTrinity-25M: Ein umfangreiches multimodales Datenset mit multigranularen Annotationen für die Medizin
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine

Aug 6

ByYunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou

IPAdapter-Instruct: Auflösung von Mehrdeutigkeit bei bildbasiertem Konditionieren unter Verwendung von Instruct-Prompts
IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts

Aug 6

ByCiara Rowles, Shimon Vainer, Dante De Nigris, Slava Elizarov, Konstantin Kutsy, Simon Donné

CoverBench: Ein anspruchsvoller Benchmark für die Überprüfung komplexer Behauptungen
CoverBench: A Challenging Benchmark for Complex Claim Verification

Aug 6

ByAlon Jacovi, Moran Ambar, Eyal Ben-David, Uri Shaham, Amir Feder, Mor Geva, Dror Marcus, Avi Caciularu

Diffusionsmodelle als Werkzeuge für das Data Mining.
Diffusion Models as Data Mining Tools

Jul 20

ByIoannis Siglidis, Aleksander Holynski, Alexei A. Efros, Mathieu Aubry, Shiry Ginosar

ReSyncer: Neuverdrahtung des Style-basierten Generators für einen vereinheitlichten audiovisuell synchronisierten Gesichtsdarsteller.
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

Aug 6

ByJiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu

StructEval: Vertiefung und Erweiterung der Bewertung großer Sprachmodelle durch strukturierte Evaluation
StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation

Aug 6

ByBoxi Cao, Mengjie Ren, Hongyu Lin, Xianpei Han, Feng Zhang, Junfeng Zhan, Le Sun

Synthese von Text-zu-SQL-Daten aus schwachen und starken LLMs
Synthesizing Text-to-SQL Data from Weak and Strong LLMs

Aug 6

ByJiaxi Yang, Binyuan Hui, Min Yang, Jian Yang, Junyang Lin, Chang Zhou

AVESFormer: Effizientes Transformer-Design für Echtzeit-Audio-Visuelle Segmentierung
AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation

Aug 3

ByZili Wang, Qi Yang, Linsu Shi, Jiazhong Yu, Qinghua Liang, Fei Li, Shiming Xiang