ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

RepText: Renderizado de texto visual mediante replicación
RepText: Rendering Visual Text via Replicating

Apr 28, 2025
Haofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen
314

Aunque los modelos contemporáneos de generación de texto a imagen han logrado avances notables en la producción de imágenes visualmente atractivas, su capacidad para generar elementos tipográficos precisos y flexibles, especialmente en alfabetos no latinos, sigue siendo limitada. Para abordar estas limitaciones, partimos de una suposición ingenua: que la comprensión del texto es solo una condición suficiente para la representación del texto, pero no una condición necesaria. Basándonos en esto, presentamos RepText, cuyo objetivo es dotar a los modelos preentrenados de generación de texto a imagen monolingües con la capacidad de representar, o más precisamente, replicar, texto visual multilingüe en fuentes especificadas por el usuario, sin necesidad de comprenderlo realmente. Específicamente, adoptamos la configuración de ControlNet e integramos adicionalmente glifos y posiciones de texto representado independientes del idioma, lo que permite generar texto visual armonizado, permitiendo a los usuarios personalizar el contenido del texto, la fuente y la posición según sus necesidades. Para mejorar la precisión, se emplea una pérdida perceptual de texto junto con la pérdida de difusión. Además, para estabilizar el proceso de representación, en la fase de inferencia, inicializamos directamente con un glifo latente ruidoso en lugar de una inicialización aleatoria, y adoptamos máscaras de región para restringir la inyección de características solo al área del texto, evitando la distorsión del fondo. Realizamos extensos experimentos para verificar la efectividad de nuestro RepText en comparación con trabajos existentes; nuestro enfoque supera a los métodos de código abierto existentes y logra resultados comparables a los modelos nativos multilingües de código cerrado. Para ser más justos, también discutimos exhaustivamente sus limitaciones al final.

El conocimiento clínico en los LLM no se traduce en interacciones humanas.
Clinical knowledge in LLMs does not translate to human interactions

Apr 26, 2025
Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
265

Los proveedores globales de atención médica están explorando el uso de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para ofrecer asesoramiento médico al público. Actualmente, los LLMs obtienen puntuaciones casi perfectas en los exámenes de licenciatura médica, pero esto no necesariamente se traduce en un desempeño preciso en entornos del mundo real. Evaluamos si los LLMs pueden ayudar a miembros del público a identificar condiciones subyacentes y elegir un curso de acción (disposición) en diez escenarios médicos, en un estudio controlado con 1.298 participantes. Los participantes fueron asignados aleatoriamente para recibir asistencia de un LLM (GPT-4o, Llama 3, Command R+) o de una fuente de su elección (grupo de control). Cuando se probaron de forma independiente, los LLMs completaron los escenarios con precisión, identificando correctamente las condiciones en el 94,9% de los casos y la disposición en el 56,3% en promedio. Sin embargo, los participantes que utilizaron los mismos LLMs identificaron condiciones relevantes en menos del 34,5% de los casos y la disposición en menos del 44,2%, resultados que no superaron al grupo de control. Identificamos las interacciones con los usuarios como un desafío para la implementación de LLMs en el asesoramiento médico. Los puntos de referencia estándar para el conocimiento médico y las interacciones simuladas con pacientes no predicen los fallos que encontramos con participantes humanos. De cara al futuro, recomendamos pruebas sistemáticas con usuarios humanos para evaluar las capacidades interactivas antes de implementaciones públicas en el ámbito de la salud.

Agentes GUI impulsados por LLM en la automatización de teléfonos: Revisión del progreso y perspectivas
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

Apr 28, 2025
Guangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
224

Con el rápido auge de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), la automatización de teléfonos ha experimentado cambios transformadores. Este artículo revisa sistemáticamente los agentes de interfaz gráfica de usuario (GUI) para teléfonos impulsados por LLMs, destacando su evolución desde la automatización basada en scripts hacia sistemas inteligentes y adaptativos. Primero, contextualizamos los desafíos clave: (i) generalidad limitada, (ii) alta sobrecarga de mantenimiento y (iii) comprensión débil de intenciones, y mostramos cómo los LLMs abordan estos problemas mediante una comprensión avanzada del lenguaje, percepción multimodal y toma de decisiones robusta. Luego, proponemos una taxonomía que cubre marcos fundamentales de agentes (agente único, multiagente, planificar-luego-actuar), enfoques de modelado (ingeniería de prompts, basado en entrenamiento) y conjuntos de datos y benchmarks esenciales. Además, detallamos arquitecturas específicas para tareas, ajuste fino supervisado y estrategias de aprendizaje por refuerzo que conectan la intención del usuario con las operaciones de la GUI. Finalmente, discutimos desafíos abiertos como la diversidad de conjuntos de datos, la eficiencia en el despliegue en dispositivos, la adaptación centrada en el usuario y las preocupaciones de seguridad, ofreciendo perspectivas futuristas sobre este campo en rápida evolución. Al proporcionar una visión estructurada e identificar brechas de investigación urgentes, este artículo sirve como una referencia definitiva para investigadores y profesionales que buscan aprovechar los LLMs en el diseño de agentes de GUI para teléfonos escalables y fáciles de usar.

Mem0: Construyendo agentes de IA listos para producción con memoria a largo plazo escalable
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Apr 28, 2025
Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav
182

Los Modelos de Lenguaje de Gran Escala (LLMs) han demostrado una notable capacidad para generar respuestas contextualmente coherentes, sin embargo, sus ventanas de contexto fijas plantean desafíos fundamentales para mantener la consistencia en diálogos prolongados de múltiples sesiones. Presentamos Mem0, una arquitectura centrada en la memoria escalable que aborda este problema mediante la extracción, consolidación y recuperación dinámica de información relevante de conversaciones en curso. Sobre esta base, proponemos además una variante mejorada que aprovecha representaciones de memoria basadas en grafos para capturar estructuras relacionales complejas entre elementos conversacionales. A través de evaluaciones exhaustivas en el benchmark LOCOMO, comparamos sistemáticamente nuestros enfoques con seis categorías de referencia: (i) sistemas establecidos aumentados con memoria, (ii) generación aumentada por recuperación (RAG) con diferentes tamaños de fragmentos y valores de k, (iii) un enfoque de contexto completo que procesa todo el historial de la conversación, (iv) una solución de memoria de código abierto, (v) un sistema de modelo propietario, y (vi) una plataforma dedicada a la gestión de memoria. Los resultados empíricos muestran que nuestros métodos superan consistentemente a todos los sistemas de memoria existentes en cuatro categorías de preguntas: de un solo salto, temporales, de múltiples saltos y de dominio abierto. Notablemente, Mem0 logra mejoras relativas del 26% en la métrica LLM-as-a-Judge sobre OpenAI, mientras que Mem0 con memoria de grafos alcanza un puntaje general aproximadamente un 2% más alto que la configuración base. Más allá de las ganancias en precisión, también reducimos significativamente la sobrecarga computacional en comparación con el método de contexto completo. En particular, Mem0 alcanza una latencia p95 un 91% menor y ahorra más del 90% en costos de tokens, ofreciendo un equilibrio convincente entre capacidades avanzadas de razonamiento y restricciones prácticas de implementación. Nuestros hallazgos resaltan el papel crítico de los mecanismos de memoria estructurada y persistente para la coherencia conversacional a largo plazo, allanando el camino para agentes de IA impulsados por LLMs más confiables y eficientes.

SPC: Evolución del Crítico de Autojuego mediante Juegos Adversariales para el Razonamiento en Modelos de Lenguaje Grande
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

Apr 27, 2025
Jiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong
182

Evaluar la fiabilidad paso a paso del razonamiento de los modelos de lenguaje de gran escala (LLM), como el Chain-of-Thought, sigue siendo un desafío debido a la dificultad y el costo de obtener supervisión de alta calidad a nivel de pasos. En este artículo, presentamos Self-Play Critic (SPC), un enfoque novedoso en el que un modelo crítico evoluciona su capacidad para evaluar los pasos de razonamiento a través de juegos adversarios de auto-juego, eliminando la necesidad de anotaciones manuales a nivel de pasos. SPC implica ajustar dos copias de un modelo base para desempeñar dos roles: un "generador astuto" que produce deliberadamente pasos erróneos diseñados para ser difíciles de detectar, y un "crítico" que analiza la corrección de los pasos de razonamiento. Estos dos modelos participan en un juego adversario en el que el generador busca engañar al crítico, mientras que el modelo crítico intenta identificar los errores del generador. Utilizando aprendizaje por refuerzo basado en los resultados del juego, los modelos mejoran iterativamente; el ganador de cada confrontación recibe una recompensa positiva y el perdedor una recompensa negativa, impulsando una evolución continua. Los experimentos en tres puntos de referencia de procesos de razonamiento (ProcessBench, PRM800K, DeltaBench) demuestran que nuestro SPC mejora progresivamente sus capacidades de detección de errores (por ejemplo, la precisión aumenta del 70.8% al 77.7% en ProcessBench) y supera a líneas de base sólidas, incluido el modelo R1 destilado. Además, aplicar SPC para guiar la búsqueda en tiempo de prueba de diversos LLM mejora significativamente su rendimiento en razonamiento matemático en MATH500 y AIME2024, superando a los modelos de recompensa de procesos más avanzados.

CipherBank: Explorando los límites de las capacidades de razonamiento de los LLM mediante desafíos criptográficos
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

Apr 27, 2025
Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
174

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables, especialmente los avances recientes en razonamiento, como o1 y o3, que han llevado los límites de la inteligencia artificial a nuevos horizontes. A pesar de estos logros impresionantes en matemáticas y programación, las habilidades de razonamiento de los LLMs en dominios que requieren experiencia criptográfica siguen siendo poco exploradas. En este artículo, presentamos CipherBank, un benchmark integral diseñado para evaluar las capacidades de razonamiento de los LLMs en tareas de descifrado criptográfico. CipherBank consta de 2,358 problemas cuidadosamente elaborados, que abarcan 262 textos planos únicos en 5 dominios y 14 subdominios, con un enfoque en escenarios sensibles a la privacidad y del mundo real que requieren cifrado. Desde una perspectiva criptográfica, CipherBank incorpora 3 categorías principales de métodos de cifrado, que abarcan 9 algoritmos distintos, desde cifrados clásicos hasta técnicas criptográficas personalizadas. Evaluamos LLMs de vanguardia en CipherBank, como GPT-4o, DeepSeek-V3, y modelos avanzados centrados en el razonamiento, como o1 y DeepSeek-R1. Nuestros resultados revelan brechas significativas en las habilidades de razonamiento, no solo entre los LLMs de chat de propósito general y los LLMs centrados en el razonamiento, sino también en el rendimiento de los modelos actuales centrados en el razonamiento cuando se aplican a tareas de descifrado criptográfico clásico, destacando los desafíos que estos modelos enfrentan para comprender y manipular datos cifrados. A través de un análisis detallado y la investigación de errores, proporcionamos varias observaciones clave que arrojan luz sobre las limitaciones y áreas potenciales de mejora para los LLMs en el razonamiento criptográfico. Estos hallazgos subrayan la necesidad de avances continuos en las capacidades de razonamiento de los LLMs.

Evaluación Comparativa del Razonamiento Matemático Multimodal con Dependencia Visual Explícita
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Apr 24, 2025
Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
133

Los recientes avances en los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han mejorado significativamente su capacidad para integrar información visual y lingüística, alcanzando una competencia cercana a la humana en tareas como el reconocimiento de objetos, la generación de descripciones y la respuesta a preguntas visuales. Sin embargo, los puntos de referencia actuales suelen centrarse en evaluaciones basadas en el conocimiento que miden la experiencia en dominios específicos, a menudo descuidando la capacidad fundamental de razonar sobre elementos matemáticos básicos y conceptos visuales. Identificamos una brecha en la evaluación de problemas matemáticos de nivel elemental, que dependen explícitamente de relaciones visuales, lo que requiere que los modelos discernan, integren y razonen a través de múltiples imágenes mientras incorporan conocimiento de sentido común, aspectos todos cruciales para avanzar hacia capacidades más amplias de AGI. Para abordar esta brecha, presentamos VCBENCH, un punto de referencia integral para el razonamiento matemático multimodal con dependencias visuales explícitas. VCBENCH incluye 1,720 problemas en seis dominios cognitivos, con 6,697 imágenes (un promedio de 3.9 por pregunta) para garantizar el razonamiento con múltiples imágenes. Evaluamos 26 LVLMs de última generación en VCBENCH, revelando disparidades significativas en el rendimiento, donde incluso los mejores modelos no superan el 50% de precisión. Nuestros hallazgos destacan los desafíos persistentes en la integración visual-matemática y sugieren vías para futuros avances en los LVLMs.

Submuestreo Grupal con Anti-aliasing Equivariante
Group Downsampling with Equivariant Anti-aliasing

Apr 24, 2025
Md Ashiqur Rahman, Raymond A. Yeh
92

Las capas de submuestreo son componentes cruciales en las arquitecturas de CNN, ya que ayudan a aumentar el campo receptivo para aprender características de alto nivel y reducen la cantidad de memoria/cómputo en el modelo. En este trabajo, estudiamos la generalización de la capa de submuestreo uniforme para arquitecturas equivariantes a grupos, por ejemplo, G-CNNs. Es decir, nuestro objetivo es submuestrear señales (mapas de características) en grupos finitos generales con anti-aliasing. Esto implica lo siguiente: (a) Dado un grupo finito y una tasa de submuestreo, presentamos un algoritmo para formar una elección adecuada de subgrupo. (b) Dado un grupo y un subgrupo, estudiamos la noción de limitación de banda y proponemos cómo realizar anti-aliasing. Cabe destacar que nuestro método generaliza la noción de submuestreo basada en la teoría clásica de muestreo. Cuando la señal está en un grupo cíclico, es decir, es periódica, nuestro método recupera el submuestreo estándar de un filtro pasa-bajo ideal seguido de una operación de submuestreo. Finalmente, realizamos experimentos en tareas de clasificación de imágenes que demuestran que la operación de submuestreo propuesta mejora la precisión, preserva mejor la equivariancia y reduce el tamaño del modelo cuando se incorpora en redes G-equivariantes.

MMInference: Aceleración del prellenado para VLMs de contexto largo mediante Atención Dispersa de Permutación Consciente de la Modalidad
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

Apr 22, 2025
Yucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu
92

La integración de capacidades de contexto largo con comprensión visual desbloquea un potencial sin precedentes para los Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés). Sin embargo, la complejidad cuadrática de la atención durante la fase de prellenado sigue siendo un obstáculo significativo para su implementación en el mundo real. Para superar esta limitación, presentamos MMInference (Multimodality Million tokens Inference), un método de atención dispersa dinámica que acelera la etapa de prellenado para entradas multimodales de contexto largo. En primer lugar, nuestro análisis revela que la localidad temporal y espacial de la entrada de video conduce a un patrón disperso único, el patrón de cuadrícula. Simultáneamente, los VLMs exhiben distribuciones dispersas notablemente diferentes entre distintas modalidades. Introducimos un método basado en permutaciones para aprovechar el patrón de cuadrícula único y manejar los problemas en los límites de las modalidades. Al buscar fuera de línea los patrones dispersos óptimos para cada cabeza, MMInference construye la distribución dispersa de manera dinámica en función de la entrada. También proporcionamos núcleos de GPU optimizados para cálculos dispersos eficientes. Cabe destacar que MMInference se integra sin problemas en las canalizaciones existentes de VLMs sin necesidad de modificaciones o ajustes del modelo. Los experimentos en puntos de referencia multimodales, incluyendo Video QA, Subtitulado, VisionNIAH y Mixed-Modality NIAH, con VLMs de contexto largo de última generación (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL), muestran que MMInference acelera la etapa de prellenado hasta 8.3 veces con 1 millón de tokens, manteniendo la precisión. Nuestro código está disponible en https://aka.ms/MMInference.

NORA: Un modelo generalista de visión, lenguaje y acción de código abierto y de pequeño tamaño para tareas de sistemas embebidos
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

Apr 28, 2025
Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria
72

Los modelos existentes de Visión-Lenguaje-Acción (VLA) han mostrado un rendimiento prometedor en escenarios de cero disparos, demostrando capacidades impresionantes de ejecución de tareas y razonamiento. Sin embargo, un desafío significativo surge de las limitaciones de la codificación visual, lo que puede resultar en fallos durante tareas como el agarre de objetos. Además, estos modelos suelen sufrir un alto costo computacional debido a su gran tamaño, que a menudo supera los 7B de parámetros. Aunque estos modelos sobresalen en razonamiento y planificación de tareas, el considerable costo computacional que conllevan los hace poco prácticos para entornos robóticos en tiempo real, donde la velocidad y la eficiencia son primordiales. Para abordar las limitaciones de los modelos VLA existentes, proponemos NORA, un modelo de 3B parámetros diseñado para reducir el costo computacional mientras mantiene un fuerte rendimiento en tareas. NORA adopta el modelo multimodal Qwen-2.5-VL-3B como su columna vertebral, aprovechando su comprensión visual-semántica superior para mejorar el razonamiento visual y la fundamentación de acciones. Además, nuestro modelo se entrena con 970k demostraciones robóticas del mundo real y está equipado con el tokenizador FAST+ para la generación eficiente de secuencias de acciones. Los resultados experimentales demuestran que NORA supera a los modelos VLA de gran escala existentes, logrando un mejor rendimiento en tareas con un costo computacional significativamente reducido, lo que lo convierte en una solución más práctica para la autonomía robótica en tiempo real.

Marco Versátil para la Generación de Canciones con Control Basado en Indicaciones
Versatile Framework for Song Generation with Prompt-based Control

Apr 27, 2025
Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao
62

La generación de canciones se centra en producir canciones de alta calidad y controlables basadas en diversos estímulos. Sin embargo, los métodos existentes tienen dificultades para generar voces y acompañamientos con control basado en estímulos y una alineación adecuada. Además, no logran soportar diversas tareas. Para abordar estos desafíos, presentamos VersBand, un marco de generación de canciones multitarea que sintetiza canciones de alta calidad, alineadas y con control basado en estímulos. VersBand consta de los siguientes modelos principales: 1) VocalBand, un modelo desacoplado, aprovecha el método de emparejamiento de flujo para generar estilos de canto, tonos y mel-espectrogramas, permitiendo una generación vocal rápida y de alta calidad con control de estilo. 2) AccompBand, un modelo transformador basado en flujo, incorpora el Band-MOE, seleccionando expertos adecuados para mejorar la calidad, alineación y control. Este modelo permite generar acompañamientos controlables y de alta calidad alineados con las voces. 3) Dos modelos de generación, LyricBand para letras y MelodyBand para melodías, contribuyen al sistema integral de generación de canciones multitarea, permitiendo un control extenso basado en múltiples estímulos. Los resultados experimentales demuestran que VersBand supera a los modelos de referencia en múltiples tareas de generación de canciones utilizando métricas objetivas y subjetivas. Las muestras de audio están disponibles en https://VersBand.github.io.

TrustGeoGen: Motor de Datos Escalable y Verificado Formalmente para la Resolución Confiable de Problemas Geométricos Multimodales
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Apr 22, 2025
Daocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao
62

La resolución de problemas geométricos matemáticos (GPS, por sus siglas en inglés) a menudo requiere una integración efectiva de información multimodal y coherencia lógica verificable. A pesar del rápido desarrollo de los modelos de lenguaje de gran escala en la resolución general de problemas, sigue sin resolverse tanto en términos metodológicos como de puntos de referencia, especialmente dado que los benchmarks sintéticos de GPS existentes a menudo no están autoverificados y contienen ruido e información contradictoria debido a la ilusión de los LLMs. En este artículo, proponemos un motor de datos escalable llamado TrustGeoGen para la generación de problemas, con verificación formal para proporcionar un benchmark fundamentado, que creemos sienta las bases para el desarrollo futuro de métodos para GPS. El motor sintetiza datos geométricos a través de cuatro innovaciones clave: 1) generación multimodal alineada de diagramas, descripciones textuales y soluciones paso a paso; 2) verificación formal que asegura rutas de razonamiento compatibles con las reglas; 3) un mecanismo de arranque que permite la escalada de complejidad mediante la generación recursiva de estados; y 4) nuestros algoritmos de la serie GeoExplore, que producen simultáneamente variantes de múltiples soluciones y trazas de retroceso autorreflexivas. Mediante la verificación lógica formal, TrustGeoGen produce el conjunto de datos GeoTrust-200K con integridad de modalidad garantizada, junto con el conjunto de pruebas GeoTrust-test. Los experimentos revelan que los modelos de última generación alcanzan solo un 49.17\% de precisión en GeoTrust-test, demostrando su rigurosidad evaluativa. Crucialmente, los modelos entrenados en GeoTrust logran generalización fuera de distribución (OOD) en GeoQA, reduciendo significativamente las inconsistencias lógicas en comparación con las anotaciones de pseudoetiquetas realizadas por OpenAI-o1. Nuestro código está disponible en https://github.com/Alpha-Innovator/TrustGeoGen.

ICL CIPHERS: Cuantificación del "Aprendizaje" en el Aprendizaje en Contexto mediante Cifrados por Sustitución
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

Apr 28, 2025
Zhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi
52

Trabajos recientes han sugerido que el Aprendizaje en Contexto (ICL, por sus siglas en inglés) opera en dos modos: recuperación de tareas (recordar patrones aprendidos durante el preentrenamiento) y aprendizaje de tareas ("aprendizaje" en tiempo de inferencia a partir de demostraciones). Sin embargo, separar estos dos modos sigue siendo un objetivo desafiante. Introducimos ICL CIPHERS, una clase de reformulaciones de tareas basadas en cifrados de sustitución tomados de la criptografía clásica. En este enfoque, un subconjunto de tokens en las entradas en contexto se sustituye por otros tokens (irrelevantes), lo que hace que las oraciones en inglés sean menos comprensibles para el ojo humano. Sin embargo, por diseño, existe un patrón latente y fijo en esta sustitución, lo que la hace reversible. Este cifrado biyectivo (reversible) asegura que la tarea siga siendo una tarea bien definida en un sentido abstracto, a pesar de las transformaciones. Es una pregunta interesante si los Modelos de Lenguaje de Gran Escala (LLMs) pueden resolver ICL CIPHERS con un mapeo BIYECTIVO, lo que requiere descifrar el cifrado latente. Demostramos que los LLMs son mejores resolviendo ICL CIPHERS con mapeos BIYECTIVOS que la línea base NO BIYECTIVA (irreversible), proporcionando un enfoque novedoso para cuantificar el "aprendizaje" en ICL. Aunque esta brecha es pequeña, es consistente en cuatro conjuntos de datos y seis modelos. Finalmente, examinamos las representaciones internas de los LLMs e identificamos evidencia de su capacidad para decodificar las entradas cifradas.

ChiseLLM: Liberando el Poder de los Modelos de Lenguaje de Razonamiento para el Desarrollo Ágil de Hardware con Chisel
ChiseLLM: Unleashing the Power of Reasoning LLMs for Chisel Agile Hardware Development

Apr 27, 2025
Bowei Wang, Jiaran Gao, Yelai Feng, Renzhi Chen, Shanshan Li, Lei Wang
42

La creciente demanda de Arquitecturas Específicas de Dominio (DSA) ha impulsado el desarrollo de la Metodología de Desarrollo de Hardware Ágil (AHDM). Los Lenguajes de Construcción de Hardware (HCL), como Chisel, ofrecen características de abstracción de alto nivel, lo que los convierte en un lenguaje ideal para AHDM basado en HCL. Si bien los Modelos de Lenguaje de Gran Escala (LLMs) sobresalen en tareas de generación de código, aún enfrentan desafíos con la generación de Chisel, particularmente en cuanto a la corrección sintáctica y la variabilidad del diseño. Los modelos de razonamiento recientes han mejorado significativamente las capacidades de generación de código mediante técnicas de escalado en tiempo de prueba. Sin embargo, descubrimos que los modelos de razonamiento sin adaptación de dominio no pueden aportar beneficios sustanciales a las tareas de generación de código en Chisel. Este artículo presenta ChiseLLM, una solución que incluye procesamiento y transformación de datos, síntesis de trazas de razonamiento guiadas por prompts y entrenamiento de modelos adaptados al dominio. Construimos conjuntos de datos de alta calidad a partir de recursos públicos de código RTL y guiamos al modelo para adoptar patrones de pensamiento estructurado mediante métodos de mejora de prompts. Los experimentos demuestran que nuestros modelos ChiseLLM-7B y ChiseLLM-32B mejoraron la corrección sintáctica en un 18.85% y 26.32%, respectivamente, en comparación con los modelos base, mientras que aumentaron la capacidad de diseño de variabilidad en un 47.58% en comparación con los modelos de razonamiento de referencia. Nuestros conjuntos de datos y modelos están disponibles públicamente, proporcionando modelos de alto rendimiento y rentables para AHDM basado en HCL, y ofreciendo una línea base efectiva para futuras investigaciones. Repositorio de Github: https://github.com/observerw/ChiseLLM

Apr 28
Apr 29
Apr 30