Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de razonamiento extenso (LRMs) como OpenAI-o1 han demostrado impresionantes capacidades de razonamiento a largo plazo a través de un aprendizaje por refuerzo a gran escala. Sin embargo, sus procesos de razonamiento prolongados a menudo sufren de insuficiencia de conocimiento, lo que conduce a incertidumbres frecuentes y posibles errores. Para abordar esta limitación, presentamos Search-o1, un marco que mejora los LRMs con un mecanismo de generación aumentada por recuperación agente (RAG) y un módulo de Razón-en-Documents para refinar los documentos recuperados. Search-o1 integra un flujo de trabajo de búsqueda agente en el proceso de razonamiento, permitiendo la recuperación dinámica de conocimiento externo cuando los LRMs encuentran puntos de conocimiento inciertos. Además, debido a la naturaleza detallada de los documentos recuperados, diseñamos un módulo separado de Razón-en-Documents para analizar profundamente la información recuperada antes de inyectarla en la cadena de razonamiento, minimizando el ruido y preservando un flujo de razonamiento coherente. Experimentos extensos en tareas de razonamiento complejas en ciencia, matemáticas y codificación, así como en seis bancos de pruebas de preguntas y respuestas de dominio abierto, demuestran el sólido rendimiento de Search-o1. Este enfoque mejora la confiabilidad y aplicabilidad de los LRMs en tareas de razonamiento complejas, allanando el camino para sistemas inteligentes más confiables y versátiles. El código está disponible en https://github.com/sunnynexus/Search-o1.
Existe una afirmación ampliamente difundida de que las GAN son difíciles de entrenar, y las arquitecturas de GAN en la literatura están llenas de trucos empíricos. Proporcionamos evidencia en contra de esta afirmación y construimos una línea base moderna de GAN de manera más fundamentada. En primer lugar, derivamos una pérdida de GAN relativista regularizada y bien comportada que aborda problemas de eliminación de modos y falta de convergencia que anteriormente se abordaban mediante un conjunto de trucos ad-hoc. Analizamos nuestra pérdida matemáticamente y demostramos que admite garantías de convergencia local, a diferencia de la mayoría de las pérdidas relativistas existentes. En segundo lugar, nuestra nueva pérdida nos permite desechar todos los trucos ad-hoc y reemplazar las estructuras obsoletas utilizadas en GAN comunes con arquitecturas modernas. Utilizando StyleGAN2 como ejemplo, presentamos una hoja de ruta de simplificación y modernización que resulta en una nueva línea base minimalista: R3GAN. A pesar de ser simple, nuestro enfoque supera a StyleGAN2 en conjuntos de datos como FFHQ, ImageNet, CIFAR y Stacked MNIST, y se compara favorablemente con GANs y modelos de difusión de última generación.
Este documento explora los avances en la creación de modelos de lenguaje grandes (LLMs) más parecidos a los humanos. Nos enfocamos en técnicas que mejoran la comprensión del lenguaje natural, la coherencia conversacional y la inteligencia emocional en sistemas de IA. El estudio evalúa varios enfoques, incluyendo el ajuste fino con conjuntos de datos diversos, la incorporación de principios psicológicos y el diseño de modelos que imitan mejor los patrones de razonamiento humano. Nuestros hallazgos demuestran que estas mejoras no solo mejoran las interacciones con los usuarios, sino que también abren nuevas posibilidades para aplicaciones de IA en diferentes dominios. El trabajo futuro abordará las implicaciones éticas y posibles sesgos introducidos por estas características humanas.
Estudiamos empíricamente el pre-entrenamiento autoregresivo a partir de videos. Para llevar a cabo nuestro estudio, construimos una serie de modelos de video autoregresivos, llamados Toto. Tratamos los videos como secuencias de tokens visuales y entrenamos modelos transformer para predecir autoregresivamente tokens futuros. Nuestros modelos se pre-entrenan en un conjunto de datos diverso de videos e imágenes que comprenden más de 1 billón de tokens visuales. Exploramos diferentes opciones de diseño arquitectónico, entrenamiento e inferencia. Evaluamos las representaciones visuales aprendidas en una variedad de tareas secundarias que incluyen reconocimiento de imágenes, clasificación de videos, seguimiento de objetos y robótica. Nuestros resultados demuestran que, a pesar de los mínimos sesgos inductivos, el pre-entrenamiento autoregresivo conduce a un rendimiento competitivo en todos los benchmarks. Finalmente, encontramos que escalar nuestros modelos de video resulta en curvas de escala similares a las vistas en modelos de lenguaje, aunque con una tasa diferente. Más detalles en https://brjathu.github.io/toto/
Los avances recientes en Modelos de Visión-Lenguaje (VLMs) han despertado interés en su uso para la conducción autónoma, especialmente en la generación de decisiones de conducción interpretables a través del lenguaje natural. Sin embargo, la suposición de que los VLMs proporcionan inherentemente explicaciones visualmente fundamentadas, confiables e interpretables para la conducción sigue siendo en gran medida no examinada. Para abordar esta brecha, presentamos DriveBench, un conjunto de datos de referencia diseñado para evaluar la fiabilidad de los VLMs en 17 configuraciones (entradas limpias, corruptas y solo texto), que abarcan 19,200 fotogramas, 20,498 pares de preguntas y respuestas, tres tipos de preguntas, cuatro tareas de conducción principales y un total de 12 VLMs populares. Nuestros hallazgos revelan que los VLMs a menudo generan respuestas plausibles derivadas de conocimientos generales o pistas textuales en lugar de un verdadero fundamento visual, especialmente bajo entradas visuales degradadas o faltantes. Este comportamiento, oculto por desequilibrios en los conjuntos de datos y métricas de evaluación insuficientes, plantea riesgos significativos en escenarios críticos de seguridad como la conducción autónoma. Además, observamos que los VLMs tienen dificultades con el razonamiento multimodal y muestran una sensibilidad elevada a las corrupciones en las entradas, lo que conduce a inconsistencias en el rendimiento. Para abordar estos desafíos, proponemos métricas de evaluación refinadas que priorizan un fundamento visual robusto y una comprensión multimodal. Además, destacamos el potencial de aprovechar la conciencia de las corrupciones de los VLMs para mejorar su fiabilidad, ofreciendo una hoja de ruta para desarrollar sistemas de toma de decisiones más confiables e interpretables en contextos reales de conducción autónoma. El conjunto de herramientas de referencia está públicamente accesible.
La mayoría de los Modelos de Gran Escala Visión-Lenguaje (LVLMs, por sus siglas en inglés) hasta la fecha se entrenan principalmente con datos en inglés, lo que les dificulta entender entradas en otros idiomas y generar resultados en el idioma deseado. Los esfuerzos existentes para mitigar estos problemas añaden datos de entrenamiento multilingües, pero lo hacen de manera principalmente ad-hoc, careciendo de comprensión sobre cómo diferentes combinaciones de entrenamiento afectan a distintos grupos de idiomas. En este trabajo, presentamos una investigación exhaustiva sobre las estrategias de entrenamiento para LVLMs masivamente multilingües. En primer lugar, realizamos una serie de experimentos en múltiples etapas que abarcan 13 tareas de visión-lenguaje y 43 idiomas, examinando sistemáticamente: (1) el número de idiomas de entrenamiento que se pueden incluir sin degradar el rendimiento en inglés, (2) las distribuciones óptimas de idiomas para el pre-entrenamiento, así como (3) los datos de ajuste de instrucciones. Además, (4) investigamos cómo mejorar la comprensión multilingüe de texto en imágenes e introducimos un nuevo punto de referencia para la tarea. Sorprendentemente, nuestro análisis revela que se pueden (i) incluir hasta 100 idiomas de entrenamiento simultáneamente (ii) con tan solo un 25-50\% de datos no ingleses, para mejorar significativamente el rendimiento multilingüe manteniendo un sólido rendimiento en inglés. También descubrimos que (iii) incluir datos de OCR no ingleses en el pre-entrenamiento y en el ajuste de instrucciones es fundamental para mejorar la comprensión multilingüe de texto en imágenes. Finalmente, unimos todos nuestros hallazgos y entrenamos a Centurio, un LVLM de 100 idiomas, que ofrece un rendimiento de vanguardia en una evaluación que abarca 14 tareas y 56 idiomas.
Los Modelos de Lenguaje Grandes (LLMs) han demostrado una notable eficacia en una variedad de tareas complejas. Una aplicación significativa de los LLMs es abordar desafíos de ingeniería de software, especialmente al resolver tareas del mundo real en GitHub al corregir código basado en los problemas reportados por los usuarios. Sin embargo, muchos enfoques actuales dependen de LLMs propietarios, lo que limita la reproducibilidad, accesibilidad y transparencia. Los componentes críticos de los LLMs para abordar problemas de ingeniería de software y cómo se pueden mejorar efectivamente sus capacidades siguen siendo poco claros. Para hacer frente a estos desafíos, presentamos SWE-Fixer, un LLM de código abierto novedoso diseñado para resolver de manera efectiva y eficiente problemas en GitHub. SWE-Fixer consta de dos módulos esenciales: un módulo de recuperación de archivos de código y un módulo de edición de código. El módulo de recuperación emplea BM25 junto con un modelo LLM ligero para lograr una recuperación de archivos de código de grueso a fino. Posteriormente, el módulo de edición de código utiliza el otro modelo LLM para generar parches para los archivos identificados. Luego, para mitigar la falta de conjuntos de datos públicamente disponibles, compilamos un extenso conjunto de datos que incluye 110K problemas de GitHub junto con sus parches correspondientes, y entrenamos los dos módulos de SWE-Fixer por separado. Evaluamos nuestro enfoque en los benchmarks SWE-Bench Lite y Verified, logrando un rendimiento de vanguardia entre los modelos de código abierto con puntajes del 23.3% y 30.2%, respectivamente. Estos resultados resaltan la eficacia de nuestro enfoque. Pondremos nuestro modelo, conjunto de datos y código a disposición del público en https://github.com/InternLM/SWE-Fixer.
Recientemente, los Modelos Visuales Autoregresivos (VAR) introdujeron un avance revolucionario en el campo de la generación de imágenes, ofreciendo un enfoque escalable a través de un paradigma de "predicción de próxima escala" de grueso a fino. Sin embargo, el algoritmo de vanguardia de los modelos VAR en [Tian, Jiang, Yuan, Peng y Wang, NeurIPS 2024] requiere un tiempo de O(n^4), lo cual es computacionalmente ineficiente. En este trabajo, analizamos los límites computacionales y los criterios de eficiencia de los Modelos VAR a través de una lente de complejidad detallada. Nuestra contribución clave es identificar las condiciones bajo las cuales los cálculos VAR pueden lograr una complejidad temporal subcuadrática. Específicamente, establecemos un umbral crítico para la norma de las matrices de entrada utilizadas en los mecanismos de atención VAR. Por encima de este umbral, asumiendo la Hipótesis del Tiempo Exponencial Fuerte (SETH) de la teoría de complejidad detallada, un algoritmo de tiempo subcuártico para los modelos VAR es imposible. Para respaldar nuestros hallazgos teóricos, presentamos construcciones eficientes que aprovechan aproximaciones de rango bajo que se alinean con los criterios derivados. Este trabajo inicia el estudio de la eficiencia computacional del modelo VAR desde una perspectiva teórica. Nuestra técnica arrojará luz sobre el avance en la generación de imágenes escalables y eficientes en los marcos VAR.
La omnipresencia de modelos de lenguaje propietarios ha suscitado preocupaciones críticas sobre la privacidad, lo que ha hecho necesario avanzar en la inferencia privada (PI), donde los cálculos se realizan directamente en datos encriptados sin revelar la información sensible de los usuarios. Aunque la PI ofrece una solución prometedora, su implementación práctica se ve obstaculizada por importantes sobrecargas de comunicación y latencia, que provienen principalmente de operaciones no lineales. Para abordar esto, introducimos un marco teórico de información para caracterizar el papel de las no linealidades en los modelos de lenguaje de solo decodificador, sentando así las bases para optimizar arquitecturas de transformadores adaptadas a las exigencias de la PI. Al aprovechar la entropía de Shannon como medida cuantitativa, descubrimos el doble significado de las no linealidades, previamente no explorado: más allá de garantizar la estabilidad del entrenamiento, son cruciales para mantener la diversidad de cabezas de atención. Específicamente, encontramos que su eliminación desencadena dos modos críticos de falla: el "colapso de entropía" en capas más profundas que desestabiliza el entrenamiento, y la "sobrecarga entrópica" en capas anteriores que conduce a una subutilización de la capacidad representativa de la Atención Multi-Cabeza (MHA). Proponemos un mecanismo de atención guiado por entropía junto con una novedosa técnica de regularización de entropía para mitigar la sobrecarga entrópica. Además, exploramos alternativas amigables con la PI para la normalización de capas con el fin de prevenir el colapso de entropía y estabilizar el entrenamiento de LLMs con menos no linealidades. Nuestro estudio cierra la brecha entre la teoría de la información y el diseño arquitectónico, estableciendo la dinámica de la entropía como guía fundamentada para el desarrollo de arquitecturas de PI eficientes. El código y la implementación están disponibles en https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
Este documento presenta recursos y modelos fundamentales para el procesamiento del lenguaje natural (PLN) del turco histórico, un ámbito que ha sido poco explorado en lingüística computacional. Introducimos el primer conjunto de datos de reconocimiento de entidades nombradas (NER) para turco histórico, HisTR, y el primer banco de árboles de dependencias de Universal Dependencies, OTA-BOUN, para una forma histórica del idioma turco, junto con modelos basados en transformadores entrenados utilizando estos conjuntos de datos para tareas de reconocimiento de entidades nombradas, análisis de dependencias y etiquetado de partes del discurso. Además, presentamos el Corpus de Textos Otomanos (OTC), un corpus limpio de textos turcos históricos transliterados que abarca una amplia gama de períodos históricos. Nuestros resultados experimentales muestran mejoras significativas en el análisis computacional del turco histórico, logrando resultados prometedores en tareas que requieren comprensión de estructuras lingüísticas históricas. También resaltan desafíos existentes, como la adaptación de dominio y las variaciones del lenguaje a lo largo de los períodos de tiempo. Todos los recursos y modelos presentados están disponibles en https://huggingface.co/bucolin para servir como referencia para futuros avances en el PLN del turco histórico.