HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

14 papers found

Los modelos de video son aprendices y razonadores de cero disparos.
Video models are zero-shot learners and reasoners

Sep 24

ByThaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos

Las notables capacidades zero-shot de los Modelos de Lenguaje a Gran Escala (LLMs) han impulsado el procesamiento del lenguaje natural desde modelos específicos para tareas hacia modelos fundacionales unificados y generalistas. Esta transformación surgió de principios simples: modelos generativos de gran escala entrenados con datos a escala web. Curiosamente, los mismos principios se aplican a los modelos generativos de video actuales. ¿Podrían los modelos de video estar en una trayectoria hacia la comprensión visual de propósito general, de manera similar a como los LLMs desarrollaron la comprensión del lenguaje de propósito general? Demostramos que Veo 3 puede resolver una amplia variedad de tareas para las que no fue entrenado explícitamente: segmentar objetos, detectar bordes, editar imágenes, comprender propiedades físicas, reconocer affordances de objetos, simular el uso de herramientas y más. Estas habilidades para percibir, modelar y manipular el mundo visual permiten formas tempranas de razonamiento visual, como la resolución de laberintos y simetrías. Las capacidades emergentes zero-shot de Veo indican que los modelos de video están en camino a convertirse en modelos fundacionales de visión unificados y generalistas.

SIM-CoT: Cadena de Pensamiento Implícita Supervisada
SIM-CoT: Supervised Implicit Chain-of-Thought

Sep 24

ByXilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin

Los métodos de Cadena de Pensamiento Implícita (CoT) presentan una alternativa prometedora y eficiente en términos de tokens al razonamiento CoT explícito en Modelos de Lenguaje a Gran Escala (LLMs), pero una brecha persistente en el rendimiento ha limitado su aplicación. Identificamos un problema central de inestabilidad latente al escalar el presupuesto computacional de los enfoques CoT implícitos: a medida que aumentamos el número de tokens de razonamiento implícito para mejorar el rendimiento, el proceso de entrenamiento a menudo se vuelve inestable y colapsa. Nuestro análisis revela que esta inestabilidad surge de que las representaciones latentes se vuelven homogéneas y pierden su diversidad semántica, un fallo causado por la supervisión insuficiente a nivel de paso en los enfoques CoT implícitos existentes. Para abordar este problema, proponemos SIM-CoT, un módulo de entrenamiento plug-and-play que introduce supervisión a nivel de paso para estabilizar y enriquecer el espacio de razonamiento latente. Específicamente, SIM-CoT emplea un decodificador auxiliar durante el entrenamiento para alinear cada token implícito con su correspondiente paso de razonamiento explícito, asegurando que los estados latentes capturen información distinta y significativa. El decodificador auxiliar propuesto se elimina durante la inferencia, preservando la eficiencia computacional de los métodos CoT implícitos sin añadir sobrecarga. Además, el decodificador auxiliar proporciona interpretabilidad del razonamiento implícito al proyectar cada token latente en un vocabulario de razonamiento explícito, permitiendo la visualización paso a paso de roles semánticos y diagnóstico. SIM-CoT mejora significativamente tanto la precisión dentro del dominio como la estabilidad fuera del dominio de varios métodos CoT implícitos, aumentando líneas base como Coconut en un +8.2% en GPT-2 y CODI en un +3.0% en LLaMA-3.1 8B. Demostrando una fuerte escalabilidad, SIM-CoT también supera la línea base CoT explícita en GPT-2 en un 2.1% con una eficiencia de tokens 2.3 veces mayor, mientras cierra sustancialmente la brecha de rendimiento en modelos más grandes como LLaMA-3.1 8B.

EmbeddingGemma: Representaciones de Texto Potentes y Ligero
EmbeddingGemma: Powerful and Lightweight Text Representations

Sep 24

ByHenrique Schechter Vera, Sahil Dua, Biao Zhang, Daniel Salz, Ryan Mullins, Sindhu Raghuram Panyam, Sara Smoot, Iftekhar Naim, Joe Zou, Feiyang Chen, Daniel Cer, Alice Lisak, Min Choi, Lucas Gonzalez, Omar Sanseviero, Glenn Cameron, Ian Ballantyne, Kat Black, Kaifeng Chen, Weiyi Wang, Zhe Li, Gus Martins, Jinhyuk Lee, Mark Sherwood, Juyeong Ji, Renjie Wu, Jingxiao Zheng, Jyotinder Singh, Abheesht Sharma, Divya Sreepat, Aashi Jain, Adham Elarabawy, AJ Co, Andreas Doumanoglou, Babak Samari, Ben Hora, Brian Potetz, Dahun Kim, Enrique Alfonseca, Fedor Moiseev, Feng Han, Frank Palma Gomez, Gustavo Hernández Ábrego, Hesen Zhang, Hui Hui, Jay Han, Karan Gill, Ke Chen, Koert Chen, Madhuri Shanbhogue, Michael Boratko, Paul Suganthan, Sai Meher Karthik Duddu, Sandeep Mariserla, Setareh Ariafar, Shanfeng Zhang, Shijie Zhang, Simon Baumgartner, Sonam Goenka, Steve Qiu, Tanmaya Dabral, Trevor Walker, Vikram Rao, Waleed Khawaja, Wenlei Zhou, Xiaoqi Ren, Ye Xia, Yichang Chen, Yi-Ting Chen, Zhe Dong, Zhongli Ding, Francesco Visin, Gaël Liu, Jiageng Zhang, Kathleen Kenealy, Michelle Casbon, Ravin Kumar, Thomas Mesnard, Zach Gleicher, Cormac Brick, Olivier Lacombe, Adam Roberts, Yunhsuan Sung, Raphael Hoffmann, Tris Warkentin, Armand Joulin, Tom Duerig, Mojtaba Seyedhosseini

Presentamos EmbeddingGemma, un nuevo modelo de embeddings de texto ligero y abierto basado en la familia de modelos de lenguaje Gemma 3. Nuestra innovadora receta de entrenamiento captura estratégicamente conocimiento de modelos más grandes mediante inicialización codificador-decodificador y destilación geométrica de embeddings. Mejoramos la robustez y expresividad del modelo con un regularizador de dispersión, y aseguramos generalizabilidad fusionando puntos de control de mezclas optimizadas y variadas. Evaluado en el Massive Text Embedding Benchmark (MTEB) en dominios multilingües, inglés y de código, EmbeddingGemma (300M) logra resultados de vanguardia. Notablemente, supera a los principales modelos anteriores, tanto propietarios como abiertos, con menos de 500M de parámetros, y ofrece un rendimiento comparable a modelos del doble de su tamaño, proporcionando una relación rendimiento-costo excepcional. Este liderazgo se mantiene al cuantizar los pesos del modelo o truncar las salidas de embeddings, lo que hace a EmbeddingGemma especialmente adecuado para casos de uso de baja latencia y alto rendimiento, como aplicaciones en dispositivos. Proporcionamos estudios de ablación que exploran nuestras decisiones clave de diseño. Liberamos EmbeddingGemma a la comunidad para fomentar más investigación.

Avanzando en la comprensión del habla en modelos de lenguaje conscientes del habla con GRPO
Advancing Speech Understanding in Speech-Aware Language Models with GRPO

Sep 21

ByAvishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel

En este artículo, presentamos un método basado en Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés) para entrenar Modelos de Lenguaje de Gran Escala Conscientes del Habla (SALLMs, por sus siglas en inglés) en tareas de comprensión de habla de formato abierto, como Respuesta a Preguntas Habladas y Traducción Automática de Habla. Los SALLMs han demostrado ser altamente efectivos para tareas de comprensión del habla. GRPO ha ganado recientemente popularidad por su eficiencia en el entrenamiento de LLMs, y trabajos previos han explorado su aplicación a SALLMs, principalmente en tareas de opción múltiple. Basándonos en esto, nos enfocamos en tareas de formato abierto que reflejan mejor las habilidades generativas de los modelos. Nuestro enfoque aprovecha GRPO con BLEU como señal de recompensa para optimizar SALLMs, y demostramos empíricamente que supera al Ajuste Superficial Estándar (SFT) en varias métricas clave. Finalmente, exploramos el potencial de incorporar muestras fuera de la política dentro de GRPO para estas tareas, destacando vías para futuras mejoras e investigaciones adicionales.

EditVerse: Unificando la Edición y Generación de Imágenes y Videos con Aprendizaje en Contexto
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

Sep 24

ByXuan Ju, Tianyu Wang, Yuqian Zhou, He Zhang, Qing Liu, Nanxuan Zhao, Zhifei Zhang, Yijun Li, Yuanhao Cai, Shaoteng Liu, Daniil Pakhomov, Zhe Lin, Soo Ye Kim, Qiang Xu

Los recientes avances en modelos fundacionales destacan una clara tendencia hacia la unificación y el escalamiento, mostrando capacidades emergentes en diversos dominios. Mientras que la generación y edición de imágenes han transitado rápidamente de enfoques específicos a marcos unificados, la generación y edición de vídeo siguen fragmentadas debido a limitaciones arquitectónicas y escasez de datos. En este trabajo, presentamos EditVerse, un marco unificado para la generación y edición de imágenes y vídeo dentro de un único modelo. Al representar todas las modalidades, es decir, texto, imagen y vídeo, como una secuencia unificada de tokens, EditVerse aprovecha la autoatención para lograr un aprendizaje robusto en contexto, transferencia natural de conocimiento entre modalidades y manejo flexible de entradas y salidas con resoluciones y duraciones arbitrarias. Para abordar la falta de datos de entrenamiento en edición de vídeo, diseñamos una canalización de datos escalable que selecciona 232K muestras de edición de vídeo y las combina con conjuntos de datos a gran escala de imágenes y vídeo para un entrenamiento conjunto. Además, presentamos EditVerseBench, el primer punto de referencia para la edición de vídeo basada en instrucciones que cubre diversas tareas y resoluciones. Experimentos exhaustivos y estudios de usuario demuestran que EditVerse alcanza un rendimiento de vanguardia, superando a los modelos de código abierto y comerciales existentes, mientras exhibe habilidades emergentes de edición y generación a través de modalidades.

LLMs4All: Una revisión sobre los modelos de lenguaje extenso para la investigación y aplicaciones en disciplinas académicas
LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines

Sep 23

ByYanfang, Ye, Zheyuan Zhang, Tianyi Ma, Zehong Wang, Yiyang Li, Shifu Hou, Weixiang Sun, Kaiwen Shi, Yijun Ma, Wei Song, Ahmed Abbasi, Ying Cheng, Jane Cleland-Huang, Steven Corcelli, Patricia Culligan, Robert Goulding, Ming Hu, Ting Hua, John Lalor, Fang Liu, Tengfei Luo, Ed Maginn, Nuno Moniz, Jason Rohr, Brett Savoie, Daniel Slate, Tom Stapleford, Matthew Webber, Olaf Wiest, Johnny Zhang, Nitesh Chawla

Las técnicas de vanguardia de Inteligencia Artificial (IA) continúan transformando nuestra visión del mundo. Por ejemplo, aplicaciones basadas en Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como ChatGPT, han demostrado la capacidad de generar conversaciones similares a las humanas sobre una amplia gama de temas. Debido a su impresionante rendimiento en diversas tareas relacionadas con el lenguaje (por ejemplo, respuestas a preguntas de dominio abierto, traducción y resumen de documentos), es posible vislumbrar los impactos de gran alcance que los LLMs pueden tener con aplicaciones más amplias en el mundo real (por ejemplo, servicio al cliente, educación y accesibilidad, y descubrimiento científico). Inspirados por su éxito, este artículo ofrece una visión general de los LLMs más avanzados y su integración en una amplia gama de disciplinas académicas, incluyendo: (1) artes, letras y derecho (por ejemplo, historia, filosofía, ciencias políticas, artes y arquitectura, derecho), (2) economía y negocios (por ejemplo, finanzas, economía, contabilidad, marketing), y (3) ciencias e ingeniería (por ejemplo, matemáticas, física e ingeniería mecánica, química e ingeniería química, ciencias de la vida y bioingeniería, ciencias de la tierra e ingeniería civil, ciencias de la computación e ingeniería eléctrica). Integrando humanidad y tecnología, en este artículo exploraremos cómo los LLMs están moldeando la investigación y la práctica en estos campos, al mismo tiempo que discutimos limitaciones clave, desafíos abiertos y direcciones futuras en la era de la IA generativa. La revisión de cómo los LLMs se involucran en diversas disciplinas, junto con observaciones e insights clave, puede ayudar a investigadores y profesionales interesados en aprovechar los LLMs para avanzar en sus trabajos en diversas aplicaciones del mundo real.

PhysCtrl: Física Generativa para la Creación de Videos Controlables y Basados en Física
PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

Sep 24

ByChen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu

Los modelos existentes de generación de videos sobresalen en la producción de videos fotorrealísticos a partir de texto o imágenes, pero a menudo carecen de plausibilidad física y controlabilidad 3D. Para superar estas limitaciones, presentamos PhysCtrl, un marco novedoso para la generación de videos a partir de imágenes basada en física, con parámetros físicos y control de fuerzas. En su núcleo se encuentra una red generativa de física que aprende la distribución de dinámicas físicas en cuatro materiales (elástico, arena, plastilina y rígido) mediante un modelo de difusión condicionado por parámetros físicos y fuerzas aplicadas. Representamos las dinámicas físicas como trayectorias de puntos 3D y entrenamos en un conjunto de datos sintéticos a gran escala de 550K animaciones generadas por simuladores físicos. Mejoramos el modelo de difusión con un nuevo bloque de atención espacio-temporal que emula interacciones de partículas e incorpora restricciones basadas en física durante el entrenamiento para garantizar la plausibilidad física. Los experimentos muestran que PhysCtrl genera trayectorias de movimiento realistas y fundamentadas en la física que, al utilizarse para impulsar modelos de imagen a video, producen videos de alta fidelidad y controlables que superan a los métodos existentes tanto en calidad visual como en plausibilidad física. Página del proyecto: https://cwchenwang.github.io/physctrl

Lavida-O: Modelos de Difusión Enmascarados Elásticos a Gran Escala para la Comprensión y Generación Multimodal Unificada
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

Sep 23

ByShufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen

Proponemos Lavida-O, un Modelo de Difusión Enmascarado (MDM) unificado para comprensión y generación multimodal. A diferencia de los MDM multimodales existentes como MMaDa y Muddit, que solo admiten tareas simples de comprensión a nivel de imagen y generación de imágenes de baja resolución, Lavida-O presenta un marco único que permite comprensión a nivel de imagen, localización de objetos, edición de imágenes y síntesis de texto a imagen de alta resolución (1024px). Lavida-O incorpora una arquitectura novedosa de Mezcla Elástica de Transformers (Elastic-MoT) que combina una rama de generación ligera con una rama de comprensión más grande, respaldada por compresión de tokens, condicionamiento de texto universal y muestreo estratificado para una generación eficiente y de alta calidad. Lavida-O además incorpora planificación y autorreflexión iterativa en tareas de generación y edición de imágenes, mejorando sin problemas la calidad de la generación con sus capacidades de comprensión. Lavida-O logra un rendimiento de vanguardia en una amplia gama de benchmarks, incluyendo localización de objetos en RefCOCO, generación de texto a imagen en GenEval y edición de imágenes en ImgEdit, superando a modelos autoregresivos y modelos de difusión continua como Qwen2.5-VL y FluxKontext-dev, mientras ofrece una aceleración considerable en la inferencia. Estos avances establecen a Lavida-O como un nuevo paradigma para el razonamiento y la generación multimodal escalable.

SimpleFold: Plegar proteínas es más sencillo de lo que piensas
SimpleFold: Folding Proteins is Simpler than You Think

Sep 23

ByYuyang Wang, Jiarui Lu, Navdeep Jaitly, Josh Susskind, Miguel Angel Bautista

Los modelos de plegamiento de proteínas han logrado resultados revolucionarios, generalmente mediante la integración de conocimiento del dominio en los bloques arquitectónicos y los pipelines de entrenamiento. Sin embargo, dado el éxito de los modelos generativos en problemas diferentes pero relacionados, es natural cuestionar si estos diseños arquitectónicos son una condición necesaria para construir modelos de alto rendimiento. En este artículo, presentamos SimpleFold, el primer modelo de plegamiento de proteínas basado en emparejamiento de flujos que utiliza únicamente bloques de transformadores de propósito general. Los modelos de plegamiento de proteínas suelen emplear módulos computacionalmente costosos que incluyen actualizaciones triangulares, representaciones explícitas de pares o múltiples objetivos de entrenamiento diseñados específicamente para este dominio. En cambio, SimpleFold utiliza bloques estándar de transformadores con capas adaptativas y se entrena mediante un objetivo de emparejamiento de flujos generativo con un término estructural adicional. Escalamos SimpleFold a 3 mil millones de parámetros y lo entrenamos con aproximadamente 9 millones de estructuras proteicas destiladas junto con datos experimentales del PDB. En los puntos de referencia estándar de plegamiento, SimpleFold-3B logra un rendimiento competitivo en comparación con los modelos de última generación, además de demostrar un fuerte desempeño en la predicción por ensambles, lo que suele ser difícil para los modelos entrenados mediante objetivos de reconstrucción determinísticos. Debido a su arquitectura de propósito general, SimpleFold muestra eficiencia en la implementación e inferencia en hardware de nivel de consumo. SimpleFold desafía la dependencia de diseños arquitectónicos complejos específicos del dominio en el plegamiento de proteínas, abriendo un espacio de diseño alternativo para futuros avances.

Mezcla de Pensamientos: Aprendiendo a Agregar lo que los Expertos Piensan, No Solo lo que Dicen
Mixture of Thoughts: Learning to Aggregate What Experts Think, Not Just What They Say

Sep 25

ByJacob Fein-Ashley, Dhruv Parikh, Rajgopal Kannan, Viktor Prasanna

Los modelos de lenguaje de gran escala (LLMs) de código abierto se especializan cada vez más por dominio (por ejemplo, matemáticas, código, razonamiento general), lo que motiva sistemas que aprovechan las fortalezas complementarias entre modelos. Los enfoques previos de múltiples LLMs ya sea (i) dirigen una consulta a uno o pocos expertos y generan de forma independiente, (ii) agregan salidas de cada modelo mediante intercambios costosos de múltiples turnos, o (iii) fusionan pesos en un solo modelo, lo que generalmente requiere homogeneidad arquitectónica. Introducimos Mixture of Thoughts (MoT), un método simple para la colaboración a nivel latente entre expertos heterogéneos bajo un esquema de enrutamiento global. Para cada consulta, un enrutador ligero selecciona los K expertos principales y designa un experto primario; capas de interacción colocadas uniformemente proyectan estados ocultos en un espacio latente compartido donde el experto primario realiza atención cruzada sobre sus pares activos (seleccionados). Los expertos preentrenados permanecen congelados; solo el enrutador y las capas de interacción ligeras se entrenan con un nuevo objetivo de entrenamiento conjunto que mejora tanto la selección de expertos como la colaboración inter-expertos. En cinco puntos de referencia dentro de la distribución (ID) y tres fuera de la distribución (OOD), MoT supera al estado del arte actual basado en enrutamiento y agregación, Avengers, en +0.38% y +2.92%, respectivamente. Además, MoT supera significativamente al mejor modelo individual. Logra esto con inferencia de un solo paso, tiempo de ejecución comparable a los baselines de enrutamiento, y sin los sobrecostos de la agregación iterativa. MoT ofrece un mecanismo simple en el espacio latente para combinar LLMs heterogéneos, un paso práctico hacia una colaboración más amplia entre múltiples LLMs. Nuestro código está disponible públicamente en https://github.com/jacobfa/mot.

Informe Técnico sobre Análisis Lógico
Logics-Parsing Technical Report

Sep 24

ByXiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu

Los recientes avances en los modelos de visión y lenguaje a gran escala (LVLM, por sus siglas en inglés) han impulsado un progreso significativo en la tarea de análisis de documentos. En comparación con los métodos tradicionales basados en pipelines, los paradigmas de extremo a extremo han demostrado su excelencia en la conversión de imágenes PDF en salidas estructuradas mediante la integración de reconocimiento óptico de caracteres (OCR), reconocimiento de tablas, reconocimiento de fórmulas matemáticas, entre otros. Sin embargo, la ausencia de etapas analíticas explícitas para los diseños de documentos y los órdenes de lectura limita la capacidad de los LVLM para manejar tipos de documentos complejos, como periódicos de varias columnas o carteles. Para abordar esta limitación, proponemos en este informe Logics-Parsing: un modelo basado en LVLM de extremo a extremo aumentado con aprendizaje por refuerzo. Nuestro modelo incorpora mecanismos de recompensa meticulosamente diseñados para optimizar el análisis de diseños complejos y la inferencia del orden de lectura. Además, ampliamos la versatilidad del modelo al incorporar diversos tipos de datos, como fórmulas químicas y caracteres chinos escritos a mano, en el ajuste fino supervisado. Finalmente, para permitir una evaluación rigurosa de nuestro enfoque, presentamos LogicsParsingBench, un conjunto curado de 1,078 imágenes PDF a nivel de página que abarcan nueve categorías principales y más de veinte subcategorías, que se publicará más adelante. Experimentos exhaustivos realizados en LogicsParsingBench han validado la eficacia y el rendimiento de vanguardia (SOTA) de nuestro modelo propuesto en diversos escenarios de análisis de documentos. Página del proyecto: https://github.com/alibaba/Logics-Parsing

Sobre el Uso de Codificación Agéntica: Un Estudio Empírico de Solicitudes de Extracción en GitHub
On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub

Sep 18

ByMiku Watanabe, Hao Li, Yutaro Kashiwa, Brittany Reid, Hajimu Iida, Ahmed E. Hassan

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están integrando cada vez más en los procesos de desarrollo de software. La capacidad de generar código y enviar solicitudes de extracción (pull requests) con una intervención humana mínima, mediante el uso de agentes de IA autónomos, está en camino de convertirse en una práctica estándar. Sin embargo, se sabe poco sobre la utilidad práctica de estas solicitudes de extracción y el grado en que sus contribuciones son aceptadas en proyectos del mundo real. En este artículo, estudiamos empíricamente 567 solicitudes de extracción (PRs) generadas utilizando Claude Code, una herramienta de codificación basada en agentes, en 157 proyectos de código abierto diversos. Nuestro análisis revela que los desarrolladores tienden a depender de los agentes para tareas como refactorización, documentación y pruebas. Los resultados indican que el 83.8% de estas PRs asistidas por agentes son eventualmente aceptadas y fusionadas por los mantenedores de los proyectos, y que el 54.9% de las PRs fusionadas se integran sin modificaciones adicionales. El 45.1% restante requiere cambios adicionales y se beneficia de revisiones humanas, especialmente para correcciones de errores, documentación y cumplimiento de estándares específicos del proyecto. Estos hallazgos sugieren que, aunque las PRs asistidas por agentes son en gran medida aceptables, aún se benefician de la supervisión y el refinamiento humano.

kh2d-solver: Una biblioteca de Python para la inestabilidad bidimensional idealizada de Kelvin-Helmholtz en flujos incompresibles
kh2d-solver: A Python Library for Idealized Two-Dimensional Incompressible Kelvin-Helmholtz Instability

Sep 19

BySandy H. S. Herho, Nurjanna J. Trilaksono, Faiz R. Fajary, Gandhi Napitupulu, Iwan P. Anwar, Faruq Khadami, Dasapta E. Irawan

Presentamos una biblioteca de código abierto en Python para simular inestabilidades bidimensionales de Kelvin-Helmholtz incompresibles en flujos de cizalla estratificados. El solucionador emplea un método de proyección de pasos fraccionarios con solución espectral de Poisson mediante la Transformada Rápida de Seno, logrando una precisión espacial de segundo orden. La implementación aprovecha NumPy, SciPy y la compilación JIT de Numba para un cálculo eficiente. Cuatro casos de prueba canónicos exploran números de Reynolds entre 1000 y 5000 y números de Richardson entre 0.1 y 0.3: capa de cizalla clásica, configuración de doble cizalla, flujo rotatorio y turbulencia forzada. El análisis estadístico utilizando entropía de Shannon e índices de complejidad revela que las capas de doble cizalla alcanzan tasas de mezcla 2.8 veces mayores que la turbulencia forzada, a pesar de tener números de Reynolds más bajos. El solucionador funciona eficientemente en hardware de escritorio estándar, con simulaciones en mallas de 384x192 completándose en aproximadamente 31 minutos. Los resultados demuestran que la eficiencia de mezcla depende de las vías de generación de inestabilidades en lugar de medidas de intensidad únicamente, desafiando las parametrizaciones basadas en el número de Richardson y sugiriendo refinamientos para la representación de escalas subgrid en modelos climáticos.

ATLAS: Evaluación y Adaptación de Modelos de Lenguaje de Gran Escala para el Comercio Global mediante la Clasificación de Códigos Arancelarios Armonizados
ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification

Sep 22

ByPritish Yuvraj, Siva Devarakonda

La clasificación precisa de productos bajo el Sistema Armonizado de Designación y Codificación de Mercancías (SA) representa un cuello de botella crítico en el comercio global, aunque ha recibido poca atención por parte de la comunidad de aprendizaje automático. La clasificación errónea puede detener por completo los envíos, con operadores postales importantes suspendiendo entregas a los EE. UU. debido a documentación aduanera incompleta. Presentamos el primer punto de referencia para la clasificación de códigos SA, derivado del Sistema de Búsqueda en Línea de Resoluciones Aduaneras de EE. UU. (CROSS). Al evaluar los principales modelos de lenguaje grandes (LLM), encontramos que nuestro modelo Atlas ajustado (LLaMA-3.3-70B) logra un 40 % de clasificaciones correctas a 10 dígitos y un 57.5 % correctas a 6 dígitos, mejoras de 15 puntos sobre GPT-5-Thinking y 27.5 puntos sobre Gemini-2.5-Pro-Thinking. Más allá de la precisión, Atlas es aproximadamente cinco veces más económico que GPT-5-Thinking y ocho veces más económico que Gemini-2.5-Pro-Thinking, y puede ser autoalojado para garantizar la privacidad de los datos en flujos de trabajo críticos de comercio y cumplimiento. Aunque Atlas establece una base sólida, el punto de referencia sigue siendo altamente desafiante, con solo un 40 % de precisión a 10 dígitos. Al liberar tanto el conjunto de datos como el modelo, nuestro objetivo es posicionar la clasificación SA como una nueva tarea de referencia para la comunidad e invitar a trabajos futuros en recuperación, razonamiento y alineación.

EmbeddingGemma: Representaciones de Texto Potentes y Ligero
EmbeddingGemma: Powerful and Lightweight Text Representations

Sep 24