Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en modelos generativos multimodales han permitido la generación de imágenes fotorrealistas y alineadas con instrucciones, aunque sistemas líderes como GPT-4o-Image siguen siendo propietarios e inaccesibles. Para democratizar estas capacidades, presentamos ShareGPT-4o-Image, el primer conjunto de datos que incluye 45K datos de texto a imagen y 46K datos de texto e imagen a imagen, todos sintetizados utilizando las capacidades de generación de imágenes de GPT-4o para destilar sus habilidades avanzadas en este ámbito. Aprovechando este conjunto de datos, desarrollamos Janus-4o, un modelo de lenguaje multimodal de gran escala capaz de realizar tanto generación de texto a imagen como de texto e imagen a imagen. Janus-4o no solo mejora significativamente la generación de texto a imagen en comparación con su predecesor, Janus-Pro, sino que también introduce la capacidad de generación de texto e imagen a imagen. Destaca su impresionante rendimiento en la generación de texto e imagen a imagen desde cero, utilizando solo 91K muestras sintéticas y 6 horas de entrenamiento en una máquina con 8 GPU A800. Esperamos que la publicación de ShareGPT-4o-Image y Janus-4o fomente la investigación abierta en la generación de imágenes fotorrealistas y alineadas con instrucciones.
El preentrenamiento de modelos de lenguaje grandes (LLMs) de última generación requiere grandes cantidades de datos de texto limpios y diversos. Si bien el desarrollo abierto de grandes conjuntos de datos de preentrenamiento en inglés de alta calidad ha experimentado un progreso sustancial recientemente, entrenar LLMs multilingües eficientes sigue siendo un desafío, en gran parte debido a la dificultad inherente de adaptar las canalizaciones de filtrado y deduplicación a un gran número de idiomas. En este trabajo, presentamos una nueva canalización de curación de datos de preentrenamiento basada en FineWeb que puede adaptarse automáticamente para soportar cualquier idioma. Realizamos una extensa ablación de las decisiones de diseño de nuestra canalización en un conjunto de nueve idiomas diversos, guiados por un conjunto de tareas de evaluación significativas e informativas que fueron seleccionadas mediante un proceso novedoso basado en criterios medibles. En última instancia, demostramos que nuestra canalización puede utilizarse para crear corpus no ingleses que producen modelos más eficientes que los conjuntos de datos anteriores. Además, introducimos un enfoque sencillo y fundamentado para reequilibrar conjuntos de datos que considera tanto el recuento de duplicados como la calidad, proporcionando una mejora adicional en el rendimiento. Finalmente, escalamos nuestra canalización a más de 1000 idiomas utilizando casi 100 instantáneas de Common Crawl para producir FineWeb2, un nuevo conjunto de datos multilingüe de 20 terabytes (5 mil millones de documentos), que publicamos junto con nuestra canalización, código de entrenamiento y evaluación.
Los valores atípicos extremos en las activaciones de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) degradan críticamente el rendimiento de la cuantización, dificultando el despliegue eficiente en dispositivos. Aunque se reconocen como causas las operaciones por canal y el escalado adaptativo de gradientes, la mitigación práctica sigue siendo un desafío. Introducimos el Entrenamiento Previo a Prueba de Valores Atípicos (Outlier-Safe Pre-Training, OSP), una guía práctica que previene proactivamente la formación de valores atípicos en lugar de depender de mitigaciones posteriores. OSP combina tres innovaciones clave: (1) el optimizador Muon, que elimina bases privilegiadas mientras mantiene la eficiencia del entrenamiento; (2) RMSNorm de Escala Única, que evita la amplificación por canal; y (3) una proyección de incrustación aprendible, que redistribuye las magnitudes de activación originadas en matrices de incrustación. Validamos OSP entrenando un modelo de 1.4 mil millones de parámetros con 1 billón de tokens, siendo el primer LLM a escala de producción entrenado sin tales valores atípicos. Bajo una cuantización agresiva de 4 bits, nuestro modelo OSP alcanza un puntaje promedio de 35.7 en 10 benchmarks (comparado con 26.5 para un modelo entrenado con Adam), con solo un 2% de sobrecarga en el entrenamiento. Notablemente, los modelos OSP exhiben un exceso de curtosis cercano a cero (0.04) en comparación con valores extremos (1818.56) en modelos estándar, alterando fundamentalmente el comportamiento de cuantización de los LLMs. Nuestro trabajo demuestra que los valores atípicos no son inherentes a los LLMs, sino consecuencias de las estrategias de entrenamiento, allanando el camino para un despliegue más eficiente de los LLMs. El código fuente y los puntos de control preentrenados están disponibles en https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
Los avances recientes en la edición de imágenes con modelos de difusión han logrado resultados impresionantes, ofreciendo un control detallado sobre el proceso de generación. Sin embargo, estos métodos son computacionalmente intensivos debido a su naturaleza iterativa. Aunque los modelos de difusión destilados permiten una inferencia más rápida, sus capacidades de edición siguen siendo limitadas, principalmente debido a la baja calidad de la inversión. La inversión y reconstrucción de alta fidelidad son esenciales para una edición precisa de imágenes, ya que preservan la integridad estructural y semántica de la imagen original. En este trabajo, proponemos un marco novedoso que mejora la inversión de imágenes utilizando modelos de consistencia, permitiendo una edición de alta calidad en solo cuatro pasos. Nuestro método introduce una estrategia de optimización de consistencia cíclica que mejora significativamente la precisión de la reconstrucción y permite un equilibrio controlable entre la capacidad de edición y la preservación del contenido. Logramos un rendimiento de vanguardia en diversas tareas y conjuntos de datos de edición de imágenes, demostrando que nuestro método iguala o supera a los modelos de difusión de pasos completos mientras es sustancialmente más eficiente. El código de nuestro método está disponible en GitHub en https://github.com/ControlGenAI/Inverse-and-Edit.
Diferentes familias de modelos de lenguaje base, como Llama y Qwen, exhiben comportamientos divergentes durante el entrenamiento posterior con aprendizaje por refuerzo (RL), especialmente en tareas intensivas en razonamiento. ¿Qué hace que un modelo de lenguaje base sea adecuado para el aprendizaje por refuerzo? Obtener una comprensión más profunda de esta pregunta es esencial para desarrollar modelos fundacionales escalables con RL de próxima generación. En este trabajo, investigamos cómo las estrategias de entrenamiento intermedio moldean la dinámica del RL, centrándonos en dos familias de modelos representativas: Qwen y Llama. Nuestro estudio revela que (1) los corpus matemáticos de alta calidad, como MegaMath-Web-Pro, mejoran significativamente tanto el rendimiento del modelo base como el del RL, mientras que las alternativas existentes (por ejemplo, FineMath-4plus) no logran hacerlo; (2) la adición de datos en formato de preguntas y respuestas (QA), particularmente ejemplos extensos de razonamiento en cadena de pensamiento (CoT), mejora los resultados del RL, y los datos de instrucción potencian aún más este efecto; (3) aunque el CoT extenso mejora la profundidad del razonamiento, también puede inducir verbosidad en las respuestas del modelo e inestabilidad en el entrenamiento del RL, subrayando la importancia del formato de los datos; (4) el escalamiento del entrenamiento intermedio conduce consistentemente a un mejor rendimiento del RL en tareas posteriores. Basándonos en estos hallazgos, introducimos una estrategia de entrenamiento intermedio en dos etapas, Estable-y-luego-Decae, en la que los modelos base se entrenan primero con 200B tokens con una tasa de aprendizaje constante, seguido de 20B tokens en tres ramas centradas en CoT con decaimiento de la tasa de aprendizaje. Esto da lugar a OctoThinker, una familia de modelos que demuestra una fuerte compatibilidad con el RL y reduce la brecha de rendimiento con familias de modelos más amigables al RL, como Qwen. Esperamos que nuestro trabajo ayude a definir estrategias de preentrenamiento para modelos fundacionales en la era del RL. Para apoyar investigaciones futuras, publicamos nuestros modelos de código abierto junto con un corpus curado de razonamiento matemático intensivo de más de 70 mil millones de tokens (es decir, MegaMath-Web-Pro-Max).
El desarrollo de agentes corporizados capaces de realizar tareas interactivas complejas en escenarios del mundo real sigue siendo un desafío fundamental en la inteligencia artificial corporizada. Aunque los avances recientes en plataformas de simulación han mejorado significativamente la diversidad de tareas para entrenar modelos de visión y lenguaje corporizados (VLMs, por sus siglas en inglés), la mayoría de estas plataformas dependen de morfologías robóticas simplificadas y evitan la naturaleza estocástica de la ejecución de bajo nivel, lo que limita su transferibilidad a robots del mundo real. Para abordar estos problemas, presentamos DualTHOR, una plataforma de simulación basada en física para robots humanoides de doble brazo, construida sobre una versión extendida de AI2-THOR. Nuestro simulador incluye activos robóticos del mundo real, un conjunto de tareas para la colaboración de doble brazo y solucionadores de cinemática inversa para robots humanoides. También introducimos un mecanismo de contingencia que incorpora fallos potenciales a través de la ejecución de bajo nivel basada en física, reduciendo la brecha hacia escenarios del mundo real. Nuestro simulador permite una evaluación más completa de la robustez y generalización de los VLMs en entornos domésticos. Evaluaciones extensivas revelan que los VLMs actuales tienen dificultades con la coordinación de doble brazo y muestran una robustez limitada en entornos realistas con contingencias, destacando la importancia de utilizar nuestro simulador para desarrollar VLMs más capaces para tareas corporizadas. El código está disponible en https://github.com/ds199895/DualTHOR.git.
La síntesis de datos basada en simulación ha surgido como un paradigma poderoso para mejorar la manipulación robótica en el mundo real. Sin embargo, los conjuntos de datos sintéticos existentes siguen siendo insuficientes para una manipulación bimanual robusta debido a dos desafíos: (1) la falta de un método eficiente y escalable para la generación de datos en tareas novedosas, y (2) entornos de simulación demasiado simplificados que no logran capturar la complejidad del mundo real. Presentamos RoboTwin 2.0, un marco de simulación escalable que permite la generación automatizada y a gran escala de datos diversos y realistas, junto con protocolos de evaluación unificados para la manipulación de dos brazos. Primero construimos RoboTwin-OD, una biblioteca de objetos a gran escala que comprende 731 instancias en 147 categorías, cada una anotada con etiquetas semánticas y relevantes para la manipulación. Sobre esta base, desarrollamos una canalización de síntesis de datos expertos que combina modelos de lenguaje multimodal (MLLMs) con refinamiento de simulación en bucle para generar automáticamente código de ejecución a nivel de tarea. Para mejorar la transferencia de simulación a realidad, RoboTwin 2.0 incorpora una aleatorización de dominio estructurada en cinco ejes: desorden, iluminación, fondo, altura de la mesa e instrucciones de lenguaje, mejorando así la diversidad de datos y la robustez de las políticas. Instanciamos este marco en 50 tareas de dos brazos que abarcan cinco configuraciones de robots, y pre-colectamos más de 100,000 trayectorias expertas con aleatorización de dominio. Los resultados empíricos muestran una ganancia del 10.9% en el éxito de la generación de código y una mejor generalización a escenarios novedosos del mundo real. Un modelo VLA ajustado en nuestro conjunto de datos logra una mejora relativa del 367% (42.0% vs. 9.0%) en tareas del mundo real en escenas no vistas, mientras que los modelos de cero disparos entrenados únicamente en nuestros datos sintéticos alcanzan una ganancia relativa del 228%, destacando una fuerte generalización sin supervisión del mundo real. Publicamos el generador de datos, el punto de referencia, el conjunto de datos y el código para apoyar la investigación escalable en la manipulación bimanual robusta.
Los modelos de difusión han surgido como el enfoque líder para la síntesis de imágenes, demostrando un fotorrealismo y diversidad excepcionales. Sin embargo, el entrenamiento de modelos de difusión en altas resoluciones sigue siendo computacionalmente prohibitivo, y las técnicas existentes de generación en modo cero para sintetizar imágenes más allá de las resoluciones de entrenamiento a menudo producen artefactos, incluyendo duplicación de objetos e incoherencia espacial. En este artículo, presentamos HiWave, un enfoque en modo cero y sin necesidad de entrenamiento que mejora sustancialmente la fidelidad visual y la coherencia estructural en la síntesis de imágenes de ultra alta resolución utilizando modelos de difusión preentrenados. Nuestro método emplea un pipeline de dos etapas: la generación de una imagen base a partir del modelo preentrenado, seguida de un paso de inversión DDIM por parches y un nuevo módulo potenciador de detalles basado en wavelets. Específicamente, primero utilizamos métodos de inversión para derivar vectores de ruido iniciales que preservan la coherencia global a partir de la imagen base. Posteriormente, durante el muestreo, nuestro potenciador de detalles en el dominio de las wavelets retiene los componentes de baja frecuencia de la imagen base para garantizar la consistencia estructural, mientras guía selectivamente los componentes de alta frecuencia para enriquecer los detalles finos y las texturas. Evaluaciones extensas utilizando Stable Diffusion XL demuestran que HiWave mitiga efectivamente los artefactos visuales comunes observados en métodos anteriores, logrando una calidad perceptual superior. Un estudio de usuario confirmó el rendimiento de HiWave, donde fue preferido sobre la alternativa más avanzada en más del 80% de las comparaciones, destacando su efectividad para la síntesis de imágenes de alta calidad y ultra alta resolución sin requerir reentrenamiento o modificaciones arquitectónicas.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) destacan en la generación de código, pero garantizar que sus resultados sean funcionalmente correctos, especialmente en tareas de programación complejas, sigue siendo un desafío persistente. Aunque el Desarrollo Guiado por Pruebas (TDD, por sus siglas en inglés) tradicional ofrece un camino para el refinamiento del código, su eficacia con los LLMs a menudo se ve socavada por la escasez de casos de prueba de alta calidad o los inconvenientes de la generación automatizada de pruebas, como pruebas sesgadas o predicciones de salida inexactas que pueden desviar el proceso de corrección. Este artículo presenta Property-Generated Solver, un marco novedoso que aprovecha las Pruebas Basadas en Propiedades (PBT, por sus siglas en inglés) para validar propiedades o invariantes de alto nivel del programa, en lugar de depender de ejemplos específicos de entrada-salida. Estas propiedades suelen ser más sencillas de definir y verificar que predecir directamente oráculos de prueba exhaustivos, rompiendo el "ciclo de autoengaño" en el que las pruebas podrían compartir defectos con el código que están destinadas a validar. Property-Generated Solver emplea dos agentes colaborativos basados en LLM: un Generador dedicado a la generación de código y refinamiento iterativo, y un Probador que gestiona el ciclo de vida de las PBT y formula retroalimentación semánticamente rica a partir de violaciones de propiedades. La retroalimentación integral y accionable resultante guía entonces al Generador en sus esfuerzos de refinamiento. Al establecer las PBT como el motor central de validación dentro de este paradigma iterativo y de bucle cerrado, Property-Generated Solver proporciona un mecanismo robusto para dirigir a los LLMs hacia un código más correcto y generalizable. Los resultados experimentales exhaustivos en múltiples benchmarks de generación de código demuestran que Property-Generated Solver logra mejoras sustanciales en pass@1, con ganancias relativas que oscilan entre el 23.1% y el 37.3% en comparación con los métodos TDD establecidos.
Los modelos de lenguaje de razonamiento a gran escala han alcanzado recientemente un rendimiento de vanguardia en muchos campos. Sin embargo, su razonamiento en cadena de pensamiento de larga duración plantea desafíos de interpretabilidad, ya que cada token generado depende de todos los anteriores, lo que dificulta la descomposición del cálculo. Argumentamos que analizar trazas de razonamiento a nivel de oración es un enfoque prometedor para comprender los procesos de razonamiento. Presentamos tres métodos complementarios de atribución: (1) un método de caja negra que mide la importancia contrafactual de cada oración comparando respuestas finales en 100 ejecuciones condicionadas a que el modelo genere esa oración o una con un significado diferente; (2) un método de caja blanca que agrega patrones de atención entre pares de oraciones, identificando oraciones de "difusión" que reciben una atención desproporcionada de todas las oraciones futuras a través de cabezas de atención "receptoras"; (3) un método de atribución causal que mide las conexiones lógicas entre oraciones al suprimir la atención hacia una oración y medir el efecto en los tokens de cada oración futura. Cada método proporciona evidencia de la existencia de anclajes de pensamiento, pasos de razonamiento que tienen una importancia desproporcionada y que influyen de manera significativa en el proceso de razonamiento posterior. Estos anclajes de pensamiento suelen ser oraciones de planificación o retroceso. Ofrecemos una herramienta de código abierto (www.thought-anchors.com) para visualizar los resultados de nuestros métodos y presentamos un estudio de caso que muestra patrones convergentes entre métodos que mapean cómo un modelo realiza un razonamiento de múltiples pasos. La consistencia entre los métodos demuestra el potencial del análisis a nivel de oración para una comprensión más profunda de los modelos de razonamiento.
Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han centrado la atención en escalar el cómputo durante la inferencia, mejorando el rendimiento sin necesidad de reentrenar el modelo. Un enfoque común es muestrear múltiples salidas en paralelo y seleccionar una de ellas como resultado final. Sin embargo, los trabajos hasta la fecha se han centrado en el inglés y en unos pocos dominios, como las matemáticas y el código. En contraste, estamos más interesados en técnicas que generalicen en tareas abiertas, tareas formalmente verificables y en múltiples idiomas. En este trabajo, estudiamos cómo escalar de manera robusta el cómputo durante la inferencia para tareas generativas abiertas en un entorno multilingüe y multitarea. Nuestros hallazgos muestran que tanto la estrategia de muestreo basada en la variación de temperatura como la estrategia de selección deben adaptarse para tener en cuenta diversos dominios y configuraciones lingüísticas. Evaluamos métodos de selección existentes, revelando que las estrategias efectivas en inglés a menudo no logran generalizarse en otros idiomas. Proponemos nuevas estrategias de muestreo y selección específicamente adaptadas para escenarios de inferencia multilingüe y multitarea, y demostramos que producen mejoras notables en diferentes idiomas y tareas. En particular, nuestros métodos combinados de muestreo y selección generan un aumento promedio de +6.8 en las tasas de victoria para nuestros modelos de 8B en las indicaciones de m-ArenaHard-v2.0, frente a modelos propietarios como Gemini. A mayor escala, Command-A (modelo de 111B) equipado con nuestros métodos, muestra una mejora de +9.0 en las tasas de victoria en el mismo punto de referencia con solo cinco muestras frente a la decodificación de una sola muestra, un aumento sustancial con un costo mínimo. Nuestros resultados subrayan la necesidad de enfoques conscientes del idioma y la tarea para el cómputo durante la inferencia, con el objetivo de democratizar las mejoras de rendimiento en idiomas subrepresentados.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en la comprensión y generación de lenguaje. Sin embargo, esta impresionante capacidad suele venir acompañada de un tamaño de modelo sustancial, lo que presenta desafíos significativos en su implementación e inferencia. Si bien la poda estructurada de los parámetros del modelo ofrece una forma prometedora de reducir los costos computacionales durante la implementación, los métodos actuales se centran principalmente en la poda de un solo modelo. En este trabajo, desarrollamos una estrategia novedosa para comprimir modelos mediante la combinación o fusión estratégica de capas de variantes de modelos ajustados, lo que preserva las capacidades del modelo original al agregar habilidades destacadas en diferentes ajustes. Planteamos la optimización óptima de estos LLMs como un problema de optimización de orden cero, adoptando un espacio de búsqueda que admite tres operaciones diferentes: (1) Eliminación de capas, (2) Selección de capas de diferentes modelos candidatos, y (3) Fusión de capas. Nuestros experimentos demuestran que este enfoque conduce a una poda competitiva de modelos. Por ejemplo, para las familias de modelos Llama2-13B, nuestros modelos comprimidos mantienen aproximadamente el 97.3% del rendimiento original mientras eliminan alrededor del 25% de los parámetros, superando significativamente los métodos anteriores más avanzados. El código está disponible en https://github.com/Guinan-Su/auto-merge-llm.
Los costos computacionales y energéticos de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han aumentado exponencialmente debido al creciente tamaño de los modelos y la adopción masiva de LLMs por cientos de millones de usuarios. El costo unitario de un LLM es el cálculo de un token. Por lo tanto, el tokenizador desempeña un papel importante en la eficiencia de un modelo, y estos se optimizan cuidadosamente para minimizar el número de tokens en el texto de su corpus de entrenamiento. Una de las aplicaciones más populares de los LLMs son los chatbots que interactúan con los usuarios. Una observación clave es que, para esos chatbots, lo importante es el rendimiento del tokenizador en el texto de entrada del usuario y en las respuestas del chatbot. Estos textos probablemente difieren del texto en el corpus de entrenamiento. Así, surge inmediatamente la pregunta de si existe un beneficio potencial en optimizar los tokenizadores para conversaciones de chatbots. En este artículo, se explora esta idea para diferentes tokenizadores utilizando un corpus de conversaciones de chatbots disponible públicamente para rediseñar sus vocabularios y evaluar su rendimiento en este dominio. Los resultados muestran que los tokenizadores optimizados para conversaciones reducen consistentemente el número de tokens en los diálogos de chatbots, lo que puede generar ahorros energéticos significativos, en el rango del 5% al 10%, mientras tienen un impacto mínimo o incluso ligeramente positivo en la eficiencia de la tokenización para el corpus de entrenamiento original.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) exhiben capacidades notables para la generación de código, pero presentan dificultades al adaptarse a actualizaciones frecuentes en las APIs de bibliotecas externas. Esta limitación crítica, derivada de la dependencia de conocimientos obsoletos sobre APIs en sus datos de entrenamiento, incluso con acceso a documentación actualizada, obstaculiza la generación confiable de código en entornos dinámicos. Para abordar este problema, proponemos ReCode (Aprendizaje por Refuerzo basado en Reglas para la Actualización de Código), un marco novedoso que imita la adaptación de los programadores humanos a los cambios en las APIs. Específicamente, construimos un conjunto de datos de aproximadamente 2,000 entradas para entrenar a los LLMs a realizar migraciones de versiones basadas en información actualizada. Luego, introducimos una métrica de similitud de cadenas modificada para la evaluación de código como recompensa en el aprendizaje por refuerzo. Nuestros experimentos demuestran que ReCode mejora sustancialmente el rendimiento de los LLMs en la generación de código en escenarios dinámicos de APIs, especialmente en la tarea no vista CodeUpdateArena. De manera crucial, en comparación con el ajuste fino supervisado, ReCode tiene un menor impacto en las capacidades generales de generación de código de los LLMs. Aplicamos ReCode en varios LLMs y algoritmos de aprendizaje por refuerzo (GRPO y DAPO), logrando mejoras consistentes en todos los casos. Notablemente, después del entrenamiento, Qwen2.5-Coder-7B supera al modelo de 32B parámetros ajustado para instrucciones de código y al modelo de razonamiento con la misma arquitectura. El código está disponible en https://github.com/zjunlp/ReCode.
La accesibilidad sigue siendo una preocupación crítica en la sociedad actual, ya que muchas tecnologías no están desarrolladas para cubrir la gama completa de necesidades de los usuarios. Los sistemas multiagente (MAS) existentes a menudo no pueden ofrecer asistencia integral a los usuarios que la necesitan debido a la falta de personalización derivada de diseños de código cerrado. Como consecuencia, las personas con discapacidades frecuentemente encuentran barreras significativas al intentar interactuar con entornos digitales. Presentamos MATE, un sistema multiagente de accesibilidad multimodal, que realiza conversiones de modalidad según las necesidades del usuario. El sistema es útil para asistir a personas con discapacidades al garantizar que los datos se conviertan a un formato comprensible. Por ejemplo, si el usuario tiene dificultades visuales y recibe una imagen, el sistema convierte esta imagen en su descripción auditiva. MATE puede aplicarse en una amplia variedad de dominios, industrias y áreas, como la atención médica, y puede convertirse en un asistente útil para diversos grupos de usuarios. El sistema admite múltiples tipos de modelos, desde llamadas a API de LLM hasta el uso de clasificadores personalizados de aprendizaje automático (ML). Esta flexibilidad asegura que el sistema pueda adaptarse a diversas necesidades y sea compatible con una amplia variedad de hardware. Dado que se espera que el sistema funcione localmente, garantiza la privacidad y seguridad de la información sensible. Además, el marco puede integrarse eficazmente con tecnologías institucionales (por ejemplo, servicios de atención médica digital) para brindar asistencia en tiempo real a los usuarios. Asimismo, presentamos ModCon-Task-Identifier, un modelo capaz de extraer la tarea precisa de conversión de modalidad a partir de la entrada del usuario. Numerosos experimentos muestran que ModCon-Task-Identifier supera consistentemente a otros LLM y modelos estadísticos en nuestros datos personalizados. Nuestro código y datos están disponibles públicamente en https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
La creación de contenido impulsada por IA ha demostrado potencial en la producción cinematográfica. Sin embargo, los sistemas existentes de generación de películas tienen dificultades para implementar principios cinematográficos y, por lo tanto, no logran generar películas de calidad profesional, careciendo especialmente de un lenguaje de cámara diverso y un ritmo cinematográfico adecuado. Esto resulta en visuales estereotipados y narrativas poco atractivas. Para abordar este problema, presentamos FilMaster, un sistema de IA de extremo a extremo que integra principios cinematográficos del mundo real para la generación de películas de grado profesional, produciendo resultados editables y acordes a los estándares de la industria. FilMaster se basa en dos principios clave: (1) aprender cinematografía a partir de extensos datos de películas del mundo real y (2) emular flujos de trabajo de postproducción profesionales centrados en la audiencia. Inspirado por estos principios, FilMaster incorpora dos etapas: una Etapa de Generación Guiada por Referencias, que transforma la entrada del usuario en clips de video, y una Etapa de Postproducción Generativa, que convierte el material en bruto en resultados audiovisuales orquestando elementos visuales y auditivos para lograr un ritmo cinematográfico. Nuestra etapa de generación destaca un módulo de Diseño de Lenguaje de Cámara RAG Multi-toma Sincronizado, que guía a la IA en la generación de un lenguaje de cámara profesional al recuperar clips de referencia de un vasto corpus de 440,000 clips de películas. Nuestra etapa de postproducción emula flujos de trabajo profesionales mediante el diseño de un módulo de Control de Ritmo Cinematográfico Centrado en la Audiencia, que incluye procesos de Corte Preliminar y Corte Final informados por comentarios simulados de la audiencia, para una integración efectiva de elementos audiovisuales que logren contenido atractivo. El sistema está potenciado por modelos generativos de IA como (M)LLMs y modelos de generación de video. Además, presentamos FilmEval, un punto de referencia integral para evaluar películas generadas por IA. Experimentos extensos muestran el rendimiento superior de FilMaster en el diseño de lenguaje de cámara y el control del ritmo cinematográfico, avanzando en la IA generativa para la realización de películas profesionales.
Presentamos Biomed-Enriched, un conjunto de datos de texto biomédico construido a partir de PubMed mediante un proceso de anotación en dos etapas. En la primera etapa, un modelo de lenguaje de gran escala anota 400,000 párrafos de artículos científicos de PubMed, asignando puntuaciones para su tipo (revisión, estudio, caso clínico, otro), dominio (clínico, biomédico, otro) y calidad educativa. La puntuación de calidad educativa (calificada de 1 a 5) estima cuán útil es un párrafo para el aprendizaje a nivel universitario. Estas anotaciones se utilizan luego para ajustar un modelo de lenguaje pequeño, que propaga las etiquetas a través del corpus completo de PMC-OA. Los metadatos resultantes nos permiten extraer subconjuntos refinados, incluyendo 2 millones de párrafos de casos clínicos con más de 450,000 de alta calidad provenientes de artículos con licencias de uso comercial, y construir varias variantes mediante filtrado de calidad y sobremuestreo de dominio. El texto clínico suele ser difícil de acceder debido a restricciones de privacidad, ya que los registros hospitalarios no pueden compartirse públicamente. Por lo tanto, nuestro conjunto de datos proporciona una alternativa de gran escala y abiertamente disponible de casos clínicos de PubMed, convirtiéndolo en un recurso valioso para el procesamiento de lenguaje natural (PLN) biomédico y clínico. Experimentos preliminares de preentrenamiento continuo con OLMo2 sugieren que estos subconjuntos curados permiten mejoras específicas, con el sobremuestreo clínico aumentando el rendimiento en ~5% en MMLU ProfMed y el filtrado de calidad educativa mejorando MedQA y MedMCQA en ~1%. Las combinaciones de estas técnicas condujeron a una convergencia más rápida, alcanzando el mismo rendimiento con un tercio de los tokens de entrenamiento, lo que indica un potencial para estrategias de preentrenamiento biomédico más eficientes y efectivas.
La efectividad de la depuración en IA sigue un patrón predecible de decaimiento exponencial; la mayoría de los modelos pierden entre el 60% y el 80% de su capacidad de depuración en apenas 2 o 3 intentos, a pesar de que la depuración iterativa es una capacidad crítica para los sistemas prácticos de generación de código. Introducimos el Índice de Decaimiento de Depuración (DDI, por sus siglas en inglés), un marco matemático que cuantifica cuándo la depuración se vuelve inefectiva y predice puntos de intervención. Nuestro enfoque estratégico de "nuevo comienzo" cambia de la explotación a la exploración en puntos estratégicos del proceso de depuración, demostrando que intervenciones bien sincronizadas pueden rescatar la efectividad de la depuración. El DDI revela una limitación fundamental en la depuración actual de la IA y proporciona el primer marco cuantitativo para optimizar estrategias iterativas de generación de código.