ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

Guide-and-Rescale: Mecanismo de Autoguiado para una Edición Efectiva de Imágenes Reales sin Ajustes
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

Sep 2
ByVadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov
96
2

A pesar de los recientes avances en los modelos generativos de texto a imagen a gran escala, la manipulación de imágenes reales con estos modelos sigue siendo un problema desafiante. Las principales limitaciones de los métodos de edición existentes son que o bien no logran mantener una calidad consistente en una amplia gama de ediciones de imágenes, o bien requieren un ajuste tedioso de hiperparámetros o un ajuste fino del modelo de difusión para preservar la apariencia específica de la imagen de entrada. Proponemos un enfoque novedoso que se basa en un proceso de muestreo de difusión modificado mediante un mecanismo de guía. En este trabajo, exploramos la técnica de autoguiado para preservar la estructura general de la imagen de entrada y la apariencia de sus regiones locales que no deben ser editadas. En particular, introducimos explícitamente funciones de energía que preservan el diseño y están destinadas a conservar las estructuras locales y globales de la imagen fuente. Además, proponemos un mecanismo de reescalado de ruido que permite preservar la distribución del ruido equilibrando las normas de la guía sin clasificador y nuestros guías propuestos durante la generación. Este enfoque de guiado no requiere ajustar el modelo de difusión ni un proceso de inversión exacto. Como resultado, el método propuesto ofrece un mecanismo de edición rápido y de alta calidad. En nuestros experimentos, demostramos mediante evaluación humana y análisis cuantitativo que el método propuesto permite producir ediciones deseadas que son más preferidas por los humanos y también logra un mejor equilibrio entre la calidad de la edición y la preservación de la imagen original. Nuestro código está disponible en https://github.com/FusionBrainLab/Guide-and-Rescale.

2

Cabezas de Atención en Modelos de Lenguaje a Gran Escala: Una Revisión
Attention Heads of Large Language Models: A Survey

Sep 5
ByZifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang, Feiyu Xiong, Zhiyu Li
92
5

Desde la aparición de ChatGPT, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han destacado en diversas tareas, pero siguen siendo en gran medida sistemas de caja negra. Como consecuencia, su desarrollo depende en gran medida de enfoques basados en datos, lo que limita la mejora del rendimiento mediante cambios en la arquitectura interna y las vías de razonamiento. Por ello, muchos investigadores han comenzado a explorar los posibles mecanismos internos de los LLMs, con el objetivo de identificar la esencia de sus cuellos de botella en el razonamiento, centrándose la mayoría de los estudios en las cabezas de atención. Nuestra encuesta tiene como objetivo arrojar luz sobre los procesos internos de razonamiento de los LLMs, centrándose en la interpretabilidad y los mecanismos subyacentes de las cabezas de atención. Primero, destilamos el proceso de pensamiento humano en un marco de cuatro etapas: Recuperación de Conocimiento, Identificación en Contexto, Razonamiento Latente y Preparación de la Expresión. Utilizando este marco, revisamos sistemáticamente la investigación existente para identificar y categorizar las funciones de cabezas de atención específicas. Además, resumimos las metodologías experimentales utilizadas para descubrir estas cabezas especiales, dividiéndolas en dos categorías: métodos sin modelado y métodos que requieren modelado. También, delineamos métodos de evaluación y puntos de referencia relevantes. Finalmente, discutimos las limitaciones de la investigación actual y proponemos varias direcciones futuras potenciales. Nuestra lista de referencias es de código abierto en https://github.com/IAAR-Shanghai/Awesome-Attention-Heads.

3

FuzzCoder: Pruebas de fuzzing a nivel de byte mediante modelos de lenguaje grande
FuzzCoder: Byte-level Fuzzing Test via Large Language Model

Sep 3
ByLiqun Yang, Jian Yang, Chaoren Wei, Guanglin Niu, Ge Zhang, Yunli Wang, Linzheng ChaI, Wanxu Xia, Hongcheng Guo, Shun Zhang, Jiaheng Liu, Yuwei Yin, Junran Peng, Jiaxin Ma, Liang Sun, Zhoujun Li
45
3

El fuzzing es una importante técnica de análisis dinámico de programas diseñada para encontrar vulnerabilidades en software complejo. El fuzzing implica presentar a un programa objetivo entradas maliciosas elaboradas para provocar caídas, desbordamientos de búfer, errores de memoria y excepciones. Crear entradas maliciosas de manera eficiente es un problema abierto difícil, y los mejores enfoques suelen aplicar mutaciones aleatorias uniformes a entradas válidas preexistentes. En este trabajo, proponemos adoptar modelos de lenguaje grandes ajustados (FuzzCoder) para aprender patrones en los archivos de entrada a partir de ataques exitosos y guiar futuras exploraciones de fuzzing. Específicamente, desarrollamos un marco para aprovechar los LLM de código y guiar el proceso de mutación de entradas en el fuzzing. El proceso de mutación se formula como un modelado secuencia a secuencia, donde el LLM recibe una secuencia de bytes y luego genera la secuencia de bytes mutada. FuzzCoder se ajusta en el conjunto de datos de instrucciones creado (Fuzz-Instruct), donde se recopila el historial de fuzzing exitoso a partir de una herramienta heurística de fuzzing. FuzzCoder puede predecir ubicaciones de mutación y estrategias en archivos de entrada para desencadenar comportamientos anómalos del programa. Los resultados experimentales muestran que FuzzCoder, basado en AFL (American Fuzzy Lop), obtiene mejoras significativas en términos de la proporción efectiva de mutación (EPM) y el número de caídas (NC) para varios formatos de entrada, incluyendo ELF, JPG, MP3 y XML.

4

De MOOC a MAIC: Reconfigurando la Enseñanza y el Aprendizaje en Línea a través de Agentes Impulsados por Modelos de Lenguaje Grande (LLM)
From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents

Sep 5
ByJifan Yu, Zheyuan Zhang, Daniel Zhang-li, Shangqing Tu, Zhanxin Hao, Rui Miao Li, Haoxuan Li, Yuanchun Wang, Hanming Li, Linlu Gong, Jie Cao, Jiayin Lin, Jinchang Zhou, Fei Qin, Haohua Wang, Jianxiao Jiang, Lijun Deng, Yisi Zhan, Chaojun Xiao, Xusheng Dai, Xuan Yan, Nianyi Lin, Nan Zhang, Ruixin Ni, Yang Dang, Lei Hou, Yu Zhang, Xu Han, Manli Li, Juanzi Li, Zhiyuan Liu, Huiqin Liu, Maosong Sun
29
3

Desde los primeros casos de educación en línea, donde los cursos se subían a plataformas en línea accesibles y compartidas, esta forma de escalar la diseminación del conocimiento humano para llegar a una audiencia más amplia ha generado un extenso debate y una adopción generalizada. Reconociendo que el aprendizaje personalizado aún tiene un potencial significativo de mejora, nuevas tecnologías de IA se han integrado continuamente en este formato de aprendizaje, dando lugar a una variedad de aplicaciones educativas de IA, como la recomendación educativa y la tutoría inteligente. La aparición de la inteligencia en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha permitido que estas mejoras educativas se construyan sobre un modelo base unificado, facilitando una integración más profunda. En este contexto, proponemos MAIC (Massive AI-empowered Course), una nueva forma de educación en línea que aprovecha los sistemas multiagente impulsados por LLMs para construir un aula aumentada por IA, equilibrando la escalabilidad con la adaptabilidad. Más allá de explorar el marco conceptual y las innovaciones técnicas, realizamos experimentos preliminares en la Universidad de Tsinghua, una de las principales universidades de China. A partir de más de 100,000 registros de aprendizaje de más de 500 estudiantes, obtenemos una serie de observaciones valiosas y análisis iniciales. Este proyecto continuará evolucionando, con el objetivo final de establecer una plataforma abierta integral que apoye y unifique la investigación, la tecnología y las aplicaciones en la exploración de las posibilidades de la educación en línea en la era de la IA de modelos grandes. Visualizamos esta plataforma como un centro de colaboración, reuniendo a educadores, investigadores e innovadores para explorar colectivamente el futuro de la educación en línea impulsada por IA.

5

Difusión de Imágenes Geométricas: Generación Rápida y Eficiente en Datos de Texto a 3D con Representación de Superficie Basada en Imágenes
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

Sep 5
BySlava Elizarov, Ciara Rowles, Simon Donné
27
3

La generación de objetos 3D de alta calidad a partir de descripciones textuales sigue siendo un problema desafiante debido al costo computacional, la escasez de datos 3D y las representaciones 3D complejas. Presentamos Geometry Image Diffusion (GIMDiffusion), un modelo novedoso de Texto-a-3D que utiliza imágenes geométricas para representar eficientemente formas 3D mediante imágenes 2D, evitando así la necesidad de arquitecturas complejas conscientes de 3D. Al integrar un mecanismo de Control Colaborativo, aprovechamos los ricos conocimientos previos en 2D de modelos existentes de Texto-a-Imagen, como Stable Diffusion. Esto permite una fuerte generalización incluso con datos de entrenamiento 3D limitados (lo que nos permite utilizar únicamente datos de entrenamiento de alta calidad), además de mantener la compatibilidad con técnicas de guía como IPAdapter. En resumen, GIMDiffusion permite la generación de activos 3D a velocidades comparables a los modelos actuales de Texto-a-Imagen. Los objetos generados consisten en partes semánticamente significativas y separadas, e incluyen estructuras internas, mejorando tanto la usabilidad como la versatilidad.

6

mPLUG-DocOwl2: Compresión de alta resolución para la comprensión de documentos multipágina sin OCR
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

Sep 5
ByAnwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
26
4

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado un rendimiento prometedor en la Comprensión de Documentos sin OCR al aumentar la resolución admitida de las imágenes de documentos. Sin embargo, esto tiene el costo de generar miles de tokens visuales para una sola imagen de documento, lo que resulta en un uso excesivo de memoria GPU y tiempos de inferencia más lentos, especialmente en la comprensión de documentos de múltiples páginas. En este trabajo, para abordar estos desafíos, proponemos un módulo de Compresor de Documentos de Alta Resolución (High-resolution DocCompressor) que comprime cada imagen de documento de alta resolución en 324 tokens, guiado por características visuales globales de baja resolución. Con este módulo de compresión, para fortalecer la capacidad de comprensión de documentos de múltiples páginas y equilibrar tanto la eficiencia de tokens como el rendimiento en tareas de preguntas y respuestas, desarrollamos DocOwl2 bajo un marco de entrenamiento en tres etapas: Pretrenamiento de Imagen Única, Continuación de Pretrenamiento con Múltiples Imágenes y Ajuste Fino Multitarea. DocOwl2 establece un nuevo estado del arte en los puntos de referencia de comprensión de documentos de múltiples páginas y reduce la latencia del primer token en más del 50%, demostrando capacidades avanzadas en la respuesta a preguntas de múltiples páginas, explicación con páginas de evidencia y comprensión de estructuras entre páginas. Además, en comparación con los MLLMs de imagen única entrenados con datos similares, nuestro DocOwl2 logra un rendimiento comparable en la comprensión de páginas individuales con menos del 20% de los tokens visuales. Nuestros códigos, modelos y datos están disponibles públicamente en https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.

7

CDM: Una Métrica Confiable para la Evaluación Justa y Precisa del Reconocimiento de Fórmulas
CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation

Sep 5
ByBin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Bo Zhang, Conghui He
19
3

El reconocimiento de fórmulas presenta desafíos significativos debido a la estructura compleja y la notación variada de las expresiones matemáticas. A pesar de los avances continuos en los modelos de reconocimiento de fórmulas, las métricas de evaluación empleadas por estos modelos, como BLEU y la Distancia de Edición, aún muestran limitaciones notables. Pasan por alto el hecho de que la misma fórmula tiene representaciones diversas y es altamente sensible a la distribución de los datos de entrenamiento, lo que provoca una evaluación injusta en el reconocimiento de fórmulas. Para abordar esto, proponemos una métrica de Coincidencia de Detección de Caracteres (CDM, por sus siglas en inglés), que garantiza la objetividad de la evaluación al diseñar una puntuación a nivel de imagen en lugar de a nivel de LaTeX. Específicamente, CDM convierte tanto el LaTeX predicho por el modelo como el LaTeX de referencia en fórmulas en formato de imagen, luego emplea técnicas de extracción de características visuales y localización para una coincidencia precisa a nivel de caracteres, incorporando información de posición espacial. Este método espacialmente consciente y basado en la coincidencia de caracteres ofrece una evaluación más precisa y equitativa en comparación con las métricas anteriores de BLEU y Distancia de Edición, que dependen únicamente de la coincidencia de caracteres basada en texto. Experimentalmente, evaluamos varios modelos de reconocimiento de fórmulas utilizando CDM, BLEU y la métrica ExpRate. Los resultados demuestran que CDM se alinea más estrechamente con los estándares de evaluación humana y proporciona una comparación más justa entre diferentes modelos al eliminar las discrepancias causadas por las diversas representaciones de fórmulas.

8

WildVis: Visualizador de Código Abierto para Registros de Chat a Escala de Millones en Entornos Reales
WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild

Sep 5
ByYuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi
19
3

La creciente disponibilidad de datos de conversaciones del mundo real ofrece oportunidades emocionantes para que los investigadores estudien las interacciones entre usuarios y chatbots. Sin embargo, el gran volumen de estos datos hace que el examen manual de conversaciones individuales resulte poco práctico. Para superar este desafío, presentamos WildVis, una herramienta interactiva que permite un análisis rápido, versátil y a gran escala de conversaciones. WildVis ofrece capacidades de búsqueda y visualización en los espacios de texto y de embeddings basadas en una lista de criterios. Para manejar conjuntos de datos de escala millonaria, implementamos optimizaciones que incluyen la construcción de índices de búsqueda, el preprocesamiento y compresión de embeddings, y el uso de caché para garantizar interacciones de usuario ágiles en cuestión de segundos. Demostramos la utilidad de WildVis a través de tres estudios de caso: facilitar la investigación sobre el mal uso de chatbots, visualizar y comparar distribuciones de temas entre conjuntos de datos, y caracterizar patrones de conversación específicos de usuarios. WildVis es de código abierto y está diseñado para ser extensible, admitiendo conjuntos de datos adicionales y funcionalidades personalizadas de búsqueda y visualización.

9

Construcción de Agentes Matemáticos con Aprendizaje de Preferencias Iterativo de Múltiples Vueltas
Building Math Agents with Multi-Turn Iterative Preference Learning

Sep 4
ByWei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin, Daniele Calandriello, Misha Khalman, Rishabh Joshi, Bilal Piot, Mohammad Saleh, Chi Jin, Tong Zhang, Tianqi Liu
16
2

Estudios recientes han demostrado que las capacidades de resolución de problemas matemáticos de los modelos de lenguaje grandes (LLMs) pueden mejorarse mediante la integración de herramientas externas, como intérpretes de código, y el empleo de razonamiento en cadena de pensamiento (CoT) de múltiples turnos. Si bien los métodos actuales se centran en la generación de datos sintéticos y el ajuste fino supervisado (SFT), este artículo estudia el enfoque complementario de aprendizaje de preferencias directas para mejorar aún más el rendimiento del modelo. Sin embargo, los algoritmos existentes de aprendizaje de preferencias directas fueron diseñados originalmente para tareas de chat de un solo turno y no abordan completamente las complejidades del razonamiento de múltiples turnos y la integración de herramientas externas requeridas para tareas de razonamiento matemático con herramientas integradas. Para llenar este vacío, introducimos un marco de aprendizaje de preferencias directas de múltiples turnos, adaptado a este contexto, que aprovecha la retroalimentación de intérpretes de código y optimiza las preferencias a nivel de trayectoria. Este marco incluye DPO de múltiples turnos y KTO de múltiples turnos como implementaciones específicas. La efectividad de nuestro marco se valida mediante el entrenamiento de varios modelos de lenguaje utilizando un conjunto de prompts aumentados de los conjuntos de datos GSM8K y MATH. Nuestros resultados demuestran mejoras sustanciales: el rendimiento de un modelo Gemma-1.1-it-7B ajustado fino supervisado aumentó del 77.5% al 83.9% en GSM8K y del 46.1% al 51.2% en MATH. De manera similar, un modelo Gemma-2-it-9B mejoró del 84.1% al 86.3% en GSM8K y del 51.0% al 54.5% en MATH.

10

Boletines de Calificaciones: Evaluación Cualitativa de Modelos de Lenguaje Utilizando Resúmenes en Lenguaje Natural
Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries

Sep 1
ByBlair Yang, Fuyang Cui, Keiran Paster, Jimmy Ba, Pashootan Vaezipoor, Silviu Pitis, Michael R. Zhang
12
2

El rápido desarrollo y la naturaleza dinámica de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) dificultan que los puntos de referencia cuantitativos convencionales evalúen con precisión sus capacidades. Proponemos las "hojas de informe", que son resúmenes en lenguaje natural interpretables por humanos sobre el comportamiento de los modelos para habilidades o temas específicos. Desarrollamos un marco para evaluar las hojas de informe basado en tres criterios: especificidad (capacidad de distinguir entre modelos), fidelidad (representación precisa de las capacidades del modelo) e interpretabilidad (claridad y relevancia para los humanos). También proponemos un algoritmo iterativo para generar hojas de informe sin supervisión humana y exploramos su eficacia mediante la eliminación de diversas opciones de diseño. A través de experimentos con LLMs populares, demostramos que las hojas de informe ofrecen perspectivas más allá de los puntos de referencia tradicionales y pueden ayudar a abordar la necesidad de una evaluación más interpretable y holística de los LLMs.

11

FrozenSeg: Armonización de Modelos Fundacionales Congelados para la Segmentación de Vocabulario Abierto
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

Sep 5
ByXi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao
12
2

La segmentación de vocabulario abierto plantea desafíos significativos, ya que requiere segmentar y reconocer objetos en un conjunto abierto de categorías en entornos no restringidos. Basándose en el éxito de los potentes modelos fundacionales de visión y lenguaje (ViL), como CLIP, esfuerzos recientes han buscado aprovechar sus capacidades de cero disparos para reconocer categorías no vistas. A pesar de las notables mejoras en el rendimiento, estos modelos aún enfrentan el problema crítico de generar propuestas de máscaras precisas para categorías y escenarios no vistos, lo que resulta en un rendimiento de segmentación inferior eventualmente. Para abordar este desafío, presentamos un enfoque novedoso, FrozenSeg, diseñado para integrar el conocimiento espacial de un modelo fundacional de localización (por ejemplo, SAM) y el conocimiento semántico extraído de un modelo ViL (por ejemplo, CLIP), en un marco sinérgico. Tomando el codificador visual del modelo ViL como la columna vertebral de características, inyectamos la característica consciente del espacio en las consultas aprendibles y las características de CLIP dentro del decodificador transformador. Además, diseñamos una estrategia de ensamblaje de propuestas de máscaras para mejorar aún más la tasa de recuperación y la calidad de las máscaras. Para aprovechar al máximo el conocimiento preentrenado mientras minimizamos la sobrecarga de entrenamiento, congelamos ambos modelos fundacionales, enfocando los esfuerzos de optimización únicamente en un decodificador transformador ligero para la generación de propuestas de máscaras, el cuello de botella del rendimiento. Experimentos extensos demuestran que FrozenSeg avanza los resultados de vanguardia en varios puntos de referencia de segmentación, entrenado exclusivamente en datos panópticos de COCO y probado de manera de cero disparos. El código está disponible en https://github.com/chenxi52/FrozenSeg.

12

Contextualización estática de modelos de lenguaje grandes con huecos tipados
Statically Contextualizing Large Language Models with Typed Holes

Sep 2
ByAndrew Blinn, Xiang Li, June Hyung Kim, Cyrus Omar
4
2

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han transformado el panorama de la síntesis de programas. Sin embargo, los sistemas contemporáneos de completado de código basados en LLMs a menudo generan código incorrecto debido a la falta de contexto adecuado, especialmente cuando trabajan con definiciones que no están en los datos de entrenamiento ni cerca del cursor. Este artículo demuestra que una integración estrecha con la estructura de tipos y enlaces de un lenguaje, expuesta por su servidor de lenguaje, puede abordar este problema de contextualización de manera eficiente en términos de tokens. En resumen, sostenemos que las IA también necesitan IDEs. En particular, integramos la generación de código mediante LLMs en el entorno de bosquejo de programas en vivo Hazel. El Servidor de Lenguaje de Hazel identifica el tipo y el contexto de tipado del hueco que se está completando, incluso en presencia de errores, asegurando que siempre esté disponible un bosquejo de programa significativo. Esto permite generar indicaciones con información contextual de todo el código base que no es léxicamente local al cursor, ni necesariamente en el mismo archivo, pero que probablemente sea semánticamente local al objetivo del desarrollador. Las completaciones sintetizadas por el LLM se refinan iterativamente mediante un diálogo adicional con el servidor de lenguaje. Para evaluar estas técnicas, presentamos MVUBench, un conjunto de datos de aplicaciones web de modelo-vista-actualización (MVU). Estas aplicaciones sirven como problemas desafiantes debido a su dependencia de estructuras de datos específicas de la aplicación. Encontramos que la contextualización con definiciones de tipos es particularmente impactante. Después de presentar nuestras ideas en el contexto de Hazel, replicamos nuestras técnicas y portamos MVUBench a TypeScript para validar la aplicabilidad de estos métodos en lenguajes con más recursos. Finalmente, esbozamos ChatLSP, una extensión conservadora del Protocolo de Servidor de Lenguaje (LSP) que los servidores de lenguaje pueden implementar para exponer capacidades que los sistemas de completado de código basados en IA de diversos diseños pueden utilizar para incorporar contexto estático al generar indicaciones para un LLM.

Sep 5
Sep 6
Sep 9