Artigos de pesquisa em IA selecionados diariamente com traduções
Avanços recentes em modelos generativos multimodais possibilitaram a geração de imagens realistas e alinhadas a instruções, porém sistemas líderes como o GPT-4o-Image permanecem proprietários e inacessíveis. Para democratizar essas capacidades, apresentamos o ShareGPT-4o-Image, o primeiro conjunto de dados composto por 45K dados de texto-para-imagem e 46K de texto-e-imagem-para-imagem, todos sintetizados usando as capacidades de geração de imagens do GPT-4o para destilar suas habilidades avançadas de geração de imagens. Utilizando esse conjunto de dados, desenvolvemos o Janus-4o, um modelo de linguagem multimodal de grande escala capaz de realizar tanto geração de texto-para-imagem quanto texto-e-imagem-para-imagem. O Janus-4o não apenas melhora significativamente a geração de texto-para-imagem em relação ao seu predecessor, o Janus-Pro, mas também passa a suportar a geração de texto-e-imagem-para-imagem. Notavelmente, ele alcança um desempenho impressionante na geração de texto-e-imagem-para-imagem a partir do zero, utilizando apenas 91K amostras sintéticas e 6 horas de treinamento em uma máquina com 8 GPUs A800. Esperamos que o lançamento do ShareGPT-4o-Image e do Janus-4o promova pesquisas abertas na geração de imagens realistas e alinhadas a instruções.
O pré-treinamento de modelos de linguagem de última geração (LLMs) requer grandes quantidades de dados textuais limpos e diversificados. Embora o desenvolvimento aberto de grandes conjuntos de dados de pré-treinamento em inglês de alta qualidade tenha registrado progressos substanciais recentemente, o treinamento de LLMs multilíngues eficientes continua sendo um desafio, em grande parte devido à dificuldade inerente de adaptar pipelines de filtragem e deduplicação para um grande número de idiomas. Neste trabalho, introduzimos um novo pipeline de curadoria de dados de pré-treinamento baseado no FineWeb que pode ser automaticamente adaptado para suportar qualquer idioma. Realizamos extensas análises de nossas escolhas de design do pipeline em um conjunto de nove idiomas diversos, guiados por um conjunto de tarefas de avaliação significativas e informativas que foram selecionadas por meio de um processo de seleção inovador baseado em critérios mensuráveis. Por fim, demonstramos que nosso pipeline pode ser usado para criar corpora em idiomas não ingleses que produzem modelos mais eficientes do que conjuntos de dados anteriores. Além disso, introduzimos uma abordagem direta e fundamentada para reequilibrar conjuntos de dados que leva em consideração tanto a contagem de duplicação quanto a qualidade, proporcionando um aumento adicional de desempenho. Por fim, escalamos nosso pipeline para mais de 1000 idiomas usando quase 100 snapshots do Common Crawl para produzir o FineWeb2, um novo conjunto de dados multilíngue de 20 terabytes (5 bilhões de documentos), que disponibilizamos juntamente com nosso pipeline, código de treinamento e avaliação.
Diferentes famílias de modelos de linguagem base, como Llama e Qwen, exibem comportamentos divergentes durante o pós-treinamento com aprendizado por reforço (RL), especialmente em tarefas que exigem raciocínio intensivo. O que torna um modelo de linguagem base adequado para o aprendizado por reforço? Obter uma compreensão mais profunda dessa questão é essencial para o desenvolvimento de modelos de base escaláveis para RL da próxima geração. Neste trabalho, investigamos como estratégias de treinamento intermediário moldam a dinâmica do RL, com foco em duas famílias de modelos representativas: Qwen e Llama. Nosso estudo revela que (1) corpora matemáticos de alta qualidade, como o MegaMath-Web-Pro, melhoram significativamente tanto o desempenho do modelo base quanto o RL, enquanto alternativas existentes (por exemplo, FineMath-4plus) não conseguem fazer o mesmo; (2) a adição de dados no formato de perguntas e respostas (QA), particularmente exemplos longos de raciocínio em cadeia (chain-of-thought, CoT), aprimora os resultados do RL, e dados de instrução potencializam ainda mais esse efeito; (3) embora o CoT longo melhore a profundidade do raciocínio, ele também pode induzir verbosidade nas respostas do modelo e instabilidade no treinamento de RL, destacando a importância da formatação dos dados; (4) o escalonamento do treinamento intermediário consistentemente leva a um desempenho de RL mais robusto a jusante. Com base nessas descobertas, introduzimos uma estratégia de treinamento intermediário em duas etapas, Stable-then-Decay, na qual os modelos base são primeiro treinados em 200 bilhões de tokens com uma taxa de aprendizado constante, seguidos por 20 bilhões de tokens em três ramos focados em CoT com decaimento da taxa de aprendizado. Isso resulta no OctoThinker, uma família de modelos que demonstra forte compatibilidade com RL e reduz a lacuna de desempenho em relação a famílias de modelos mais amigáveis ao RL, como o Qwen. Esperamos que nosso trabalho ajude a moldar estratégias de pré-treinamento para modelos de base na era do RL. Para apoiar pesquisas futuras, disponibilizamos nossos modelos de código aberto, juntamente com um corpus curado de raciocínio matemático intensivo com mais de 70 bilhões de tokens (ou seja, MegaMath-Web-Pro-Max).
Outliers extremos de ativação em Modelos de Linguagem de Grande Escala (LLMs) degradam criticamente o desempenho da quantização, dificultando a implantação eficiente em dispositivos. Embora operações por canal e escalonamento adaptativo de gradiente sejam causas reconhecidas, a mitigação prática permanece desafiadora. Introduzimos o Pré-Treinamento Seguro contra Outliers (Outlier-Safe Pre-Training, OSP), uma diretriz prática que previne proativamente a formação de outliers, em vez de depender de mitigação pós-treinamento. O OSP combina três inovações principais: (1) o otimizador Muon, que elimina bases privilegiadas enquanto mantém a eficiência do treinamento; (2) o RMSNorm de Escala Única, que previne a amplificação por canal; e (3) uma projeção de embeddings aprendível, que redistribui as magnitudes de ativação originadas de matrizes de embeddings. Validamos o OSP treinando um modelo de 1,4 bilhão de parâmetros em 1 trilhão de tokens, que é o primeiro LLM em escala de produção treinado sem tais outliers. Sob uma quantização agressiva de 4 bits, nosso modelo OSP alcança uma pontuação média de 35,7 em 10 benchmarks (comparado a 26,5 para um modelo treinado com Adam), com apenas 2% de sobrecarga no treinamento. Notavelmente, os modelos OSP exibem curtose excessiva próxima de zero (0,04) em comparação com valores extremos (1818,56) em modelos padrão, alterando fundamentalmente o comportamento de quantização de LLMs. Nosso trabalho demonstra que os outliers não são inerentes aos LLMs, mas consequências de estratégias de treinamento, abrindo caminho para uma implantação mais eficiente de LLMs. O código-fonte e os checkpoints pré-treinados estão disponíveis em https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
Os avanços recentes na edição de imagens com modelos de difusão têm alcançado resultados impressionantes, oferecendo controle refinado sobre o processo de geração. No entanto, esses métodos são computacionalmente intensivos devido à sua natureza iterativa. Embora os modelos de difusão destilados permitam inferência mais rápida, suas capacidades de edição permanecem limitadas, principalmente devido à baixa qualidade de inversão. Inversão e reconstrução de alta fidelidade são essenciais para a edição precisa de imagens, pois preservam a integridade estrutural e semântica da imagem original. Neste trabalho, propomos uma nova estrutura que aprimora a inversão de imagens utilizando modelos de consistência, permitindo edição de alta qualidade em apenas quatro passos. Nosso método introduz uma estratégia de otimização de consistência cíclica que melhora significativamente a precisão da reconstrução e permite uma troca controlável entre editabilidade e preservação de conteúdo. Alcançamos desempenho de ponta em várias tarefas e conjuntos de dados de edição de imagens, demonstrando que nosso método iguala ou supera modelos de difusão de passos completos, sendo substancialmente mais eficiente. O código do nosso método está disponível no GitHub em https://github.com/ControlGenAI/Inverse-and-Edit.
O desenvolvimento de agentes corporificados capazes de realizar tarefas interativas complexas em cenários do mundo real continua sendo um desafio fundamental na IA corporificada. Embora avanços recentes em plataformas de simulação tenham ampliado significativamente a diversidade de tarefas para treinar Modelos de Visão e Linguagem Corporificados (VLMs), a maioria das plataformas depende de morfologias robóticas simplificadas e ignora a natureza estocástica da execução em baixo nível, o que limita sua transferibilidade para robôs do mundo real. Para abordar essas questões, apresentamos uma plataforma de simulação baseada em física, DualTHOR, para robôs humanoides de braços duplos, construída sobre uma versão estendida do AI2-THOR. Nosso simulador inclui ativos de robôs do mundo real, um conjunto de tarefas para colaboração de braços duplos e solucionadores de cinemática inversa para robôs humanoides. Também introduzimos um mecanismo de contingência que incorpora possíveis falhas por meio da execução em baixo nível baseada em física, reduzindo a lacuna para cenários do mundo real. Nosso simulador permite uma avaliação mais abrangente da robustez e generalização de VLMs em ambientes domésticos. Avaliações extensivas revelam que os VLMs atuais têm dificuldades com a coordenação de braços duplos e exibem robustez limitada em ambientes realistas com contingências, destacando a importância de usar nosso simulador para desenvolver VLMs mais capazes para tarefas corporificadas. O código está disponível em https://github.com/ds199895/DualTHOR.git.
Modelos de difusão emergiram como a principal abordagem para síntese de imagens, demonstrando excepcional fotorrealismo e diversidade. No entanto, o treinamento de modelos de difusão em altas resoluções permanece computacionalmente proibitivo, e as técnicas existentes de geração zero-shot para sintetizar imagens além das resoluções de treinamento frequentemente produzem artefatos, incluindo duplicação de objetos e incoerência espacial. Neste artigo, introduzimos o HiWave, uma abordagem zero-shot e livre de treinamento que aprimora substancialmente a fidelidade visual e a coerência estrutural na síntese de imagens em ultra-alta resolução utilizando modelos de difusão pré-treinados. Nosso método emprega um pipeline de dois estágios: geração de uma imagem base a partir do modelo pré-treinado, seguida por uma etapa de inversão DDIM baseada em patches e um novo módulo de aprimoramento de detalhes baseado em wavelets. Especificamente, primeiro utilizamos métodos de inversão para derivar vetores de ruído iniciais que preservam a coerência global da imagem base. Posteriormente, durante a amostragem, nosso aprimorador de detalhes no domínio wavelet retém componentes de baixa frequência da imagem base para garantir consistência estrutural, enquanto guia seletivamente componentes de alta frequência para enriquecer detalhes finos e texturas. Avaliações extensivas utilizando o Stable Diffusion XL demonstram que o HiWave mitiga efetivamente os artefatos visuais comuns observados em métodos anteriores, alcançando qualidade perceptual superior. Um estudo com usuários confirmou o desempenho do HiWave, que foi preferido em mais de 80% das comparações em relação à alternativa state-of-the-art, destacando sua eficácia para síntese de imagens de alta qualidade em ultra-alta resolução sem a necessidade de retreinamento ou modificações arquiteturais.
A síntese de dados baseada em simulação emergiu como um paradigma poderoso para aprimorar a manipulação robótica no mundo real. No entanto, os conjuntos de dados sintéticos existentes permanecem insuficientes para uma manipulação bimanual robusta devido a dois desafios: (1) a falta de um método eficiente e escalável de geração de dados para novas tarefas, e (2) ambientes de simulação excessivamente simplificados que não capturam a complexidade do mundo real. Apresentamos o RoboTwin 2.0, um framework de simulação escalável que permite a geração automatizada e em larga escala de dados diversos e realistas, juntamente com protocolos de avaliação unificados para manipulação com dois braços. Primeiro, construímos o RoboTwin-OD, uma biblioteca de objetos em larga escala composta por 731 instâncias em 147 categorias, cada uma anotada com rótulos semânticos e relevantes para manipulação. Com base nessa fundação, desenvolvemos um pipeline de síntese de dados especializados que combina modelos de linguagem multimodal (MLLMs) com refinamento de simulação em loop para gerar automaticamente códigos de execução em nível de tarefa. Para melhorar a transferência de simulação para o mundo real, o RoboTwin 2.0 incorpora randomização estruturada de domínio em cinco eixos: desordem, iluminação, fundo, altura da mesa e instruções de linguagem, aumentando assim a diversidade dos dados e a robustez das políticas. Instanciamos esse framework em 50 tarefas bimanuais abrangendo cinco configurações de robôs, e pré-coletamos mais de 100.000 trajetórias especializadas com randomização de domínio. Resultados empíricos mostram um ganho de 10,9% na taxa de sucesso da geração de código e uma melhoria na generalização para novos cenários do mundo real. Um modelo VLA ajustado em nosso conjunto de dados alcança uma melhoria relativa de 367% (42,0% vs. 9,0%) em tarefas do mundo real em cenas não vistas, enquanto modelos zero-shot treinados exclusivamente em nossos dados sintéticos alcançam um ganho relativo de 228%, destacando uma forte generalização sem supervisão do mundo real. Disponibilizamos o gerador de dados, o benchmark, o conjunto de dados e o código para apoiar pesquisas escaláveis em manipulação bimanual robusta.
Modelos de linguagem de grande escala com capacidades de raciocínio recentemente alcançaram desempenho de ponta em diversos campos. No entanto, seu raciocínio em cadeia de pensamento de longa duração cria desafios de interpretabilidade, já que cada token gerado depende de todos os anteriores, tornando a computação mais difícil de decompor. Argumentamos que a análise de traços de raciocínio no nível da frase é uma abordagem promissora para compreender os processos de raciocínio. Apresentamos três métodos complementares de atribuição: (1) um método de caixa preta que mede a importância contrafactual de cada frase comparando respostas finais em 100 execuções condicionadas ao modelo gerar essa frase ou uma com significado diferente; (2) um método de caixa branca que agrega padrões de atenção entre pares de frases, identificando frases de "transmissão" que recebem atenção desproporcional de todas as frases futuras por meio de cabeças de atenção "receptoras"; (3) um método de atribuição causal que mede conexões lógicas entre frases ao suprimir a atenção em direção a uma frase e medir o efeito nos tokens de cada frase futura. Cada método fornece evidências da existência de âncoras de pensamento, etapas de raciocínio que têm importância excepcional e influenciam desproporcionalmente o processo de raciocínio subsequente. Essas âncoras de pensamento são tipicamente frases de planejamento ou retrocesso. Disponibilizamos uma ferramenta de código aberto (www.thought-anchors.com) para visualizar as saídas de nossos métodos e apresentamos um estudo de caso mostrando padrões convergentes entre os métodos que mapeiam como um modelo realiza raciocínio em múltiplas etapas. A consistência entre os métodos demonstra o potencial da análise no nível da frase para uma compreensão mais profunda dos modelos de raciocínio.
Avanços recentes em modelos de linguagem de grande escala (LLMs) têm direcionado o foco para a escalabilidade da computação durante a inferência, melhorando o desempenho sem a necessidade de retreinar o modelo. Uma abordagem comum é amostrar múltiplas saídas em paralelo e selecionar uma delas como a saída final. No entanto, os trabalhos até o momento concentraram-se no inglês e em alguns domínios específicos, como matemática e código. Em contraste, estamos mais interessados em técnicas que se generalizam para tarefas de natureza aberta, tarefas formalmente verificáveis e em diversos idiomas. Neste trabalho, estudamos como escalar robustamente a computação durante a inferência para tarefas generativas de natureza aberta em um cenário multilíngue e multitarefa. Nossas descobertas mostram que tanto a estratégia de amostragem baseada na variação de temperatura quanto a estratégia de seleção devem ser adaptadas para considerar domínios diversos e diferentes configurações linguísticas. Avaliamos métodos de seleção existentes, revelando que estratégias eficazes em inglês frequentemente falham em se generalizar para outros idiomas. Propomos novas estratégias de amostragem e seleção especificamente adaptadas para cenários de inferência multilíngue e multitarefa, e demonstramos que elas geram ganhos significativos em diversos idiomas e tarefas. Em particular, nossos métodos combinados de amostragem e seleção resultam em um aumento médio de +6,8 nas taxas de vitória para nossos modelos de 8B em prompts do m-ArenaHard-v2.0, em comparação com modelos proprietários como o Gemini. Em escala maior, o Command-A (modelo de 111B) equipado com nossos métodos mostra uma melhoria de +9,0 nas taxas de vitória no mesmo benchmark com apenas cinco amostras em comparação com a decodificação de amostra única, um aumento substancial com custo mínimo. Nossos resultados destacam a necessidade de abordagens conscientes do idioma e da tarefa para a computação durante a inferência, visando democratizar melhorias de desempenho em idiomas sub-representados.
Os Modelos de Linguagem de Grande Escala (LLMs) se destacam na geração de código, mas garantir que suas saídas sejam funcionalmente corretas, especialmente em tarefas de programação complexas, é um desafio persistente. Embora o Desenvolvimento Orientado a Testes (TDD) tradicional ofereça um caminho para o refinamento de código, sua eficácia com LLMs é frequentemente prejudicada pela escassez de casos de teste de alta qualidade ou pelas armadilhas da geração automatizada de testes, incluindo testes tendenciosos ou previsões de saída imprecisas que podem desviar o processo de correção. Este artigo apresenta o Property-Generated Solver, uma nova estrutura que aproveita o Teste Baseado em Propriedades (PBT) para validar propriedades ou invariantes de alto nível do programa, em vez de depender de exemplos específicos de entrada-saída. Essas propriedades são frequentemente mais simples de definir e verificar do que prever diretamente oráculos de teste exaustivos, rompendo o "ciclo de autoengano" onde os testes podem compartilhar falhas com o código que devem validar. O Property-Generated Solver emprega dois agentes colaborativos baseados em LLM: um Gerador dedicado à geração de código e refinamento iterativo, e um Testador que gerencia o ciclo de vida do PBT e formula feedback semanticamente rico a partir de violações de propriedades. O feedback abrangente e acionável resultante então orienta o Gerador em seus esforços de refinamento. Ao estabelecer o PBT como o mecanismo central de validação dentro desse paradigma iterativo e de ciclo fechado, o Property-Generated Solver fornece um mecanismo robusto para direcionar LLMs em direção a códigos mais corretos e generalizáveis. Resultados experimentais extensivos em vários benchmarks de geração de código demonstram que o Property-Generated Solver alcança melhorias substanciais no pass@1, com ganhos relativos variando de 23,1% a 37,3% em relação aos métodos TDD estabelecidos.
Os Modelos de Linguagem de Grande Escala (LLMs) exibem capacidades impressionantes de geração de código, mas enfrentam dificuldades ao se adaptar a atualizações frequentes em APIs de bibliotecas externas. Essa limitação crítica, decorrente da dependência de conhecimentos desatualizados de APIs presentes em seus dados de treinamento, mesmo com acesso à documentação atual, prejudica a geração confiável de código em ambientes dinâmicos. Para abordar esse problema, propomos o ReCode (Reinforcement Learning Baseado em Regras para Atualização de Código), uma estrutura inovadora que imita a adaptação de programadores humanos a mudanças em APIs. Especificamente, construímos um conjunto de dados com aproximadamente 2.000 entradas para treinar os LLMs a realizar migrações de versão com base em informações atualizadas. Em seguida, introduzimos uma métrica de similaridade de strings modificada para avaliação de código como recompensa para o aprendizado por reforço. Nossos experimentos demonstram que o ReCode melhora substancialmente o desempenho de geração de código dos LLMs em cenários de APIs dinâmicas, especialmente na tarefa inédita CodeUpdateArena. Crucialmente, em comparação com o ajuste fino supervisionado, o ReCode tem menos impacto nas habilidades gerais de geração de código dos LLMs. Aplicamos o ReCode em vários LLMs e algoritmos de aprendizado por reforço (GRPO e DAPO), todos alcançando melhorias consistentes. Notavelmente, após o treinamento, o Qwen2.5-Coder-7B supera o modelo de 32B parâmetros ajustado para instruções de código e o modelo de raciocínio com a mesma arquitetura. O código está disponível em https://github.com/zjunlp/ReCode.
Os custos computacionais e energéticos dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) aumentaram exponencialmente, impulsionados pelo crescimento no tamanho dos modelos e pela adoção massiva de LLMs por centenas de milhões de usuários. O custo unitário de um LLM é o cálculo de um token. Portanto, o tokenizador desempenha um papel importante na eficiência de um modelo, e eles são cuidadosamente otimizados para minimizar o número de tokens para o texto em seu corpus de treinamento. Uma das aplicações mais populares dos LLMs são os chatbots que interagem com os usuários. Uma observação crucial é que, para esses chatbots, o que importa é o desempenho do tokenizador no texto de entrada do usuário e nas respostas do chatbot. Esses textos provavelmente diferem do texto presente no corpus de treinamento. Assim, surge imediatamente a questão de saber se há um benefício potencial em otimizar tokenizadores para conversas de chatbot. Neste artigo, essa ideia é explorada para diferentes tokenizadores, utilizando um corpus publicamente disponível de conversas de chatbot para redesenhar seus vocabulários e avaliar seu desempenho nesse domínio. Os resultados mostram que tokenizadores otimizados para conversas reduzem consistentemente o número de tokens em diálogos de chatbot, o que pode levar a economias significativas de energia, na faixa de 5% a 10%, enquanto têm um impacto mínimo ou até ligeiramente positivo na eficiência de tokenização para o corpus de treinamento original.
Modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em compreensão e geração de linguagem. No entanto, essa capacidade impressionante geralmente vem acompanhada de um tamanho substancial do modelo, o que apresenta desafios significativos na implantação e inferência. Embora o pruning estruturado de parâmetros do modelo ofereça uma maneira promissora de reduzir os custos computacionais no momento da implantação, os métodos atuais se concentram principalmente no pruning de um único modelo. Neste trabalho, desenvolvemos uma estratégia inovadora para comprimir modelos combinando ou mesclando estrategicamente camadas de variantes de modelos ajustados, o que preserva as habilidades do modelo original ao agregar capacidades destacadas em diferentes ajustes finos. Formulamos a otimização ideal desses LLMs como um problema de otimização de ordem zero, adotando um espaço de busca que suporta três operações diferentes: (1) Remoção de camadas, (2) Seleção de camadas de diferentes modelos candidatos e (3) Fusão de camadas. Nossos experimentos demonstram que essa abordagem resulta em um pruning competitivo de modelos. Por exemplo, para as famílias de modelos Llama2-13B, nossos modelos comprimidos mantêm aproximadamente 97,3% do desempenho original enquanto removem cerca de 25% dos parâmetros, superando significativamente os métodos state-of-the-art anteriores. O código está disponível em https://github.com/Guinan-Su/auto-merge-llm.
A acessibilidade continua sendo uma preocupação crítica na sociedade atual, pois muitas tecnologias não são desenvolvidas para atender à ampla gama de necessidades dos usuários. Os sistemas multiagentes (MAS) existentes frequentemente não conseguem fornecer assistência abrangente para usuários necessitados devido à falta de personalização decorrente de designs de código fechado. Consequentemente, indivíduos com deficiências frequentemente enfrentam barreiras significativas ao tentar interagir com ambientes digitais. Apresentamos o MATE, um sistema multiagente de acessibilidade multimodal, que realiza conversões de modalidade com base nas necessidades do usuário. O sistema é útil para auxiliar pessoas com deficiências, garantindo que os dados sejam convertidos para um formato compreensível. Por exemplo, se o usuário não enxerga bem e recebe uma imagem, o sistema converte essa imagem em sua descrição em áudio. O MATE pode ser aplicado em uma ampla gama de domínios, indústrias e áreas, como saúde, e pode se tornar um assistente útil para diversos grupos de usuários. O sistema suporta múltiplos tipos de modelos, desde chamadas de API de LLM até o uso de classificadores personalizados de aprendizado de máquina (ML). Essa flexibilidade garante que o sistema possa ser adaptado a diversas necessidades e seja compatível com uma grande variedade de hardwares. Como o sistema é projetado para rodar localmente, ele garante a privacidade e a segurança das informações sensíveis. Além disso, o framework pode ser efetivamente integrado com tecnologias institucionais (por exemplo, serviços digitais de saúde) para fornecer assistência em tempo real ao usuário. Adicionalmente, apresentamos o ModCon-Task-Identifier, um modelo capaz de extrair a tarefa precisa de conversão de modalidade a partir da entrada do usuário. Numerosos experimentos mostram que o ModCon-Task-Identifier consistentemente supera outros LLMs e modelos estatísticos em nossos dados personalizados. Nosso código e dados estão publicamente disponíveis em https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
A criação de conteúdo impulsionada por IA tem demonstrado potencial na produção cinematográfica. No entanto, os sistemas existentes de geração de filmes lutam para implementar princípios cinematográficos e, assim, falham em gerar filmes de qualidade profissional, especialmente devido à falta de diversidade na linguagem de câmera e no ritmo cinematográfico. Isso resulta em visuais padronizados e narrativas pouco envolventes. Para resolver isso, apresentamos o FilMaster, um sistema de IA de ponta a ponta que integra princípios cinematográficos do mundo real para a geração de filmes de nível profissional, produzindo resultados editáveis e compatíveis com padrões da indústria. O FilMaster é construído sobre dois princípios fundamentais: (1) aprender cinematografia a partir de extensos dados de filmes do mundo real e (2) emular fluxos de trabalho de pós-produção profissionais e centrados no público. Inspirado por esses princípios, o FilMaster incorpora duas etapas: uma Etapa de Geração Guiada por Referência, que transforma a entrada do usuário em clipes de vídeo, e uma Etapa de Pós-Produção Generativa, que transforma filmagens brutas em resultados audiovisuais, orquestrando elementos visuais e auditivos para criar ritmo cinematográfico. Nossa etapa de geração destaca um módulo de Design de Linguagem de Câmera RAG Sinergizado Multi-tomadas, que orienta a IA na geração de linguagem de câmera profissional ao recuperar clipes de referência de um vasto corpus de 440.000 clipes de filmes. Nossa etapa de pós-produção emula fluxos de trabalho profissionais ao projetar um módulo de Controle de Ritmo Cinematográfico Centrado no Público, incluindo processos de Rough Cut e Fine Cut informados por feedback simulado do público, para a integração eficaz de elementos audiovisuais e a criação de conteúdo envolvente. O sistema é impulsionado por modelos generativos de IA, como (M)LLMs e modelos de geração de vídeo. Além disso, introduzimos o FilmEval, um benchmark abrangente para avaliar filmes gerados por IA. Experimentos extensivos mostram o desempenho superior do FilMaster no design de linguagem de câmera e no controle de ritmo cinematográfico, avançando a IA generativa na produção cinematográfica profissional.
Apresentamos o Biomed-Enriched, um conjunto de dados de textos biomédicos construído a partir do PubMed por meio de um processo de anotação em duas etapas. Na primeira etapa, um modelo de linguagem de grande escala anota 400 mil parágrafos de artigos científicos do PubMed, atribuindo pontuações para seu tipo (revisão, estudo, caso clínico, outros), domínio (clínico, biomédico, outros) e qualidade educacional. A pontuação de qualidade educacional (classificada de 1 a 5) estima o quão útil um parágrafo é para o aprendizado em nível universitário. Essas anotações são então usadas para ajustar um modelo de linguagem menor, que propaga os rótulos em todo o corpus PMC-OA. Os metadados resultantes nos permitem extrair subconjuntos refinados, incluindo 2 milhões de parágrafos de casos clínicos com mais de 450 mil de alta qualidade provenientes de artigos com licenças de uso comercial, e construir várias variantes por meio de filtragem de qualidade e amostragem aumentada por domínio. Textos clínicos são tipicamente difíceis de acessar devido a restrições de privacidade, já que registros hospitalares não podem ser compartilhados publicamente. Portanto, nosso conjunto de dados oferece uma alternativa em grande escala e abertamente disponível de casos clínicos do PubMed, tornando-o um recurso valioso para PLN biomédico e clínico. Experimentos preliminares de pré-treinamento contínuo com o OLMo2 sugerem que esses subconjuntos curados permitem melhorias direcionadas, com a amostragem aumentada de textos clínicos impulsionando o desempenho em ~5% no MMLU ProfMed e a filtragem por qualidade educacional melhorando o MedQA e o MedMCQA em ~1%. Combinações dessas técnicas levaram a uma convergência mais rápida, alcançando o mesmo desempenho com um terço dos tokens de treinamento, indicando potencial para estratégias de pré-treinamento biomédico mais eficientes e eficazes.
A eficácia da depuração por IA segue um padrão previsível de decaimento exponencial; a maioria dos modelos perde 60-80% de sua capacidade de depuração em apenas 2-3 tentativas, apesar da depuração iterativa ser uma capacidade crítica para sistemas práticos de geração de código. Introduzimos o Índice de Decaimento de Depuração (IDD), uma estrutura matemática que quantifica quando a depuração se torna ineficaz e prevê pontos de intervenção. Nossa abordagem estratégica de reinício muda da exploração para a exploração em pontos estratégicos do processo de depuração, demonstrando que intervenções bem-temporizadas podem resgatar a eficácia da depuração. O IDD revela uma limitação fundamental na depuração atual por IA e fornece a primeira estrutura quantitativa para otimizar estratégias iterativas de geração de código.