Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos uma nova abordagem para mapear sistematicamente as características descobertas por autoencoders esparsos em camadas consecutivas de grandes modelos de linguagem, ampliando trabalhos anteriores que examinaram links de características entre camadas. Ao utilizar uma técnica de similaridade cosseno livre de dados, rastreamos como características específicas persistem, se transformam ou surgem pela primeira vez em cada estágio. Este método gera gráficos detalhados da evolução das características, permitindo interpretabilidade refinada e insights mecanicistas sobre as computações do modelo. De forma crucial, demonstramos como esses mapas de características entre camadas facilitam o direcionamento direto do comportamento do modelo ao amplificar ou suprimir características escolhidas, alcançando controle temático direcionado na geração de texto. Em conjunto, nossas descobertas destacam a utilidade de um framework de interpretabilidade causal entre camadas que não apenas esclarece como as características se desenvolvem por meio de passagens diretas, mas também fornece novos meios para manipulação transparente de grandes modelos de linguagem.
Apresentamos o AlphaGeometry2, uma versão significativamente aprimorada do AlphaGeometry introduzido por Trinh et al. (2024), que agora superou a média de um medalhista de ouro na resolução de problemas de geometria olímpica. Para alcançar isso, primeiro estendemos a linguagem original do AlphaGeometry para lidar com problemas mais difíceis envolvendo movimentos de objetos e problemas contendo equações lineares de ângulos, razões e distâncias. Isso, juntamente com outras adições, melhorou consideravelmente a taxa de cobertura da linguagem AlphaGeometry nos problemas de geometria das Olimpíadas Internacionais de Matemática (IMO) de 2000 a 2024, de 66% para 88%. O processo de busca do AlphaGeometry2 também foi grandemente aprimorado por meio do uso da arquitetura Gemini para um melhor modelamento de linguagem, e um mecanismo inovador de compartilhamento de conhecimento que combina múltiplas árvores de busca. Juntamente com melhorias adicionais no mecanismo simbólico e na geração de dados sintéticos, aumentamos significativamente a taxa geral de resolução do AlphaGeometry2 para 84% para todos os problemas de geometria nos últimos 25 anos, em comparação com os 54% anteriores. O AlphaGeometry2 também fez parte do sistema que alcançou o padrão de medalha de prata na IMO 2024 https://dpmd.ai/imo-silver. Por último, relatamos o progresso em direção ao uso do AlphaGeometry2 como parte de um sistema totalmente automatizado que resolve de forma confiável problemas de geometria diretamente a partir de entradas em linguagem natural.
As representações ricas dos transformadores de difusão multi-modal (DiTs) apresentam propriedades únicas que aprimoram sua interpretabilidade? Introduzimos o ConceptAttention, um método inovador que aproveita o poder expressivo das camadas de atenção do DiT para gerar mapas de saliência de alta qualidade que localizam precisamente conceitos textuais dentro de imagens. Sem exigir treinamento adicional, o ConceptAttention reutiliza os parâmetros das camadas de atenção do DiT para produzir incorporações de conceitos altamente contextualizadas, contribuindo com a grande descoberta de que realizar projeções lineares no espaço de saída das camadas de atenção do DiT resulta em mapas de saliência significativamente mais nítidos em comparação com mecanismos de atenção cruzada comumente usados. Notavelmente, o ConceptAttention alcança até mesmo desempenho de ponta em benchmarks de segmentação de imagens sem supervisão, superando outros 11 métodos de interpretabilidade sem supervisão no conjunto de dados ImageNet-Segmentation e em um subconjunto de uma única classe do PascalVOC. Nosso trabalho apresenta as primeiras evidências de que as representações de modelos DiT multi-modais, como o Flux, são altamente transferíveis para tarefas de visão, como segmentação, superando até mesmo modelos de fundação multi-modais como o CLIP.
À medida que as capacidades do Modelo de Linguagem (LM) avançam, avaliar e supervisioná-los em grande escala está se tornando mais difícil para os humanos. Há esperança de que outros modelos de linguagem possam automatizar essas tarefas, o que chamamos de "Supervisão de IA". Estudamos como a similaridade entre modelos afeta ambos os aspectos da supervisão de IA, propondo uma métrica probabilística para a similaridade de LM com base na sobreposição de erros do modelo. Usando essa métrica, mostramos inicialmente que as pontuações de LLM-como-juiz favorecem modelos similares ao juiz, generalizando resultados recentes de auto-preferência. Em seguida, estudamos o treinamento em anotações de LM e encontramos que o conhecimento complementar entre o supervisor fraco e o modelo de aluno forte desempenha um papel crucial nos ganhos da "generalização de fraco para forte". À medida que as capacidades do modelo aumentam, torna-se mais difícil identificar seus erros, e podemos depender mais da supervisão de IA. No entanto, observamos uma tendência preocupante - os erros do modelo estão se tornando mais semelhantes com o aumento das capacidades, apontando para riscos de falhas correlacionadas. Nosso trabalho destaca a importância de relatar e corrigir a similaridade de modelos, especialmente no paradigma emergente de supervisão de IA.
Os avanços recentes em grandes modelos de linguagem, particularmente após o GPT-4o, têm despertado um interesse crescente no desenvolvimento de modelos omni-modais capazes de compreender mais modalidades. Embora algumas alternativas de código aberto tenham surgido, ainda há uma diferença significativa em relação ao desempenho dos modelos especializados de uma única modalidade. Neste artigo, apresentamos o Ola, um modelo de linguagem omni-modal que alcança desempenho competitivo em compreensão de imagem, vídeo e áudio em comparação com modelos especializados. O design central do Ola está em sua estratégia progressiva de alinhamento de modalidades, que estende progressivamente a modalidade de suporte do modelo de linguagem. Nosso pipeline de treinamento começa com as modalidades mais distintas: imagem e texto, expandindo gradualmente as habilidades do modelo utilizando dados de fala que conectam o conhecimento de linguagem e áudio, e dados de vídeo que conectam todas as modalidades. O pipeline de aprendizado progressivo também nos permite manter um tamanho relativamente pequeno dos dados de alinhamento cruzado de modalidades, facilitando o desenvolvimento de modelos omni-modais a partir de modelos existentes de visão-linguagem de forma mais fácil e econômica. Além disso, para desbloquear uma experiência interativa avançada como o GPT-4o, projetamos uma solução de decodificação por frase para geração de fala em tempo real. Experimentos extensivos demonstram que o Ola supera os LLMs omni-modais abertos existentes em todas as modalidades, alcançando um desempenho altamente competitivo em comparação com modelos especializados de tamanho similar de última geração. Nosso objetivo é tornar o Ola uma solução de compreensão omni-modal totalmente aberta para avançar a pesquisa futura nesse campo emergente. Os pesos do modelo, o código e os dados estão disponíveis em código aberto em https://github.com/Ola-Omni/Ola.
Apresentamos um método para aumentar vídeos do mundo real com conteúdo dinâmico recém-gerado. Dado um vídeo de entrada e uma simples instrução de texto fornecida pelo usuário descrevendo o conteúdo desejado, nosso método sintetiza objetos dinâmicos ou efeitos de cena complexos que interagem naturalmente com a cena existente ao longo do tempo. A posição, aparência e movimento do novo conteúdo são integrados de forma contínua na filmagem original, levando em consideração o movimento da câmera, oclusões e interações com outros objetos dinâmicos na cena, resultando em um vídeo de saída coeso e realista. Conseguimos isso por meio de um framework de treinamento zero-shot que utiliza um transformador de difusão texto-vídeo pré-treinado para sintetizar o novo conteúdo e um Modelo de Linguagem Visual pré-treinado para visualizar a cena aumentada em detalhes. Especificamente, introduzimos um método baseado em inferência que manipula características dentro do mecanismo de atenção, permitindo uma localização precisa e integração contínua do novo conteúdo, preservando a integridade da cena original. Nosso método é totalmente automatizado, exigindo apenas uma instrução simples do usuário. Demonstramos sua eficácia em uma ampla gama de edições aplicadas a vídeos do mundo real, abrangendo objetos diversos e cenários envolvendo tanto movimento de câmera quanto de objetos.
Os avanços recentes em modelos de linguagem grandes baseados em texto (LLMs), particularmente na série GPT e no modelo o1, têm demonstrado a eficácia do escalonamento tanto do tempo de treinamento quanto do tempo de inferência computacional. No entanto, os atuais sistemas TTS de ponta que utilizam LLMs são frequentemente multiestágio, exigindo modelos separados (por exemplo, modelos de difusão após LLM), o que complica a decisão de escalar um modelo específico durante o treinamento ou teste. Este trabalho apresenta as seguintes contribuições: Primeiramente, exploramos o escalonamento do tempo de treinamento e inferência computacional para síntese de fala. Em segundo lugar, propomos um framework simples chamado Llasa para síntese de fala que emprega um codec de quantificador vetorial (VQ) de camada única e uma arquitetura Transformer única para se alinhar completamente com LLMs padrão, como Llama. Nossos experimentos revelam que o escalonamento do tempo de treinamento para Llasa melhora consistentemente a naturalidade da fala sintetizada e permite a geração de padrões de prosódia mais complexos e precisos. Além disso, do ponto de vista do escalonamento do tempo de inferência computacional, empregamos modelos de compreensão de fala como verificadores durante a busca, descobrindo que o escalonamento do tempo de inferência computacional desloca os modos de amostragem em direção às preferências de verificadores específicos, melhorando assim a expressividade emocional, a consistência de timbre e a precisão de conteúdo. Adicionalmente, disponibilizamos publicamente o checkpoint e o código de treinamento para nosso modelo TTS (1B, 3B, 8B) e modelo de codec.
A capacidade dos modelos de linguagem de grande escala (LLMs) modernos de seguir instruções tornou-os assistentes úteis. No entanto, a chave para controlar os LLMs em relação a instruções complexas ainda é misteriosa, devido às grandes lacunas entre os modelos treinados pela comunidade de código aberto e aqueles treinados pelas principais empresas. Para reduzir essa diferença, propomos uma abordagem simples e escalável chamada UltraIF para construir LLMs que possam seguir instruções complexas com dados de código aberto. O UltraIF primeiro decompõe as solicitações de usuários do mundo real em consultas mais simples, restrições e questões de avaliação correspondentes para as restrições. Em seguida, treinamos um UltraComposer para compor solicitações associadas a restrições com questões de avaliação. Esse compositor de solicitações nos permite sintetizar instruções complicadas e filtrar respostas com questões de avaliação. Em nosso experimento, pela primeira vez, alinhamos com sucesso o LLaMA-3.1-8B-Base com sua versão instruída em 5 benchmarks de seguimento de instruções sem qualquer informação de benchmark, utilizando apenas o modelo 8B como gerador e avaliador de respostas. O modelo alinhado também obteve pontuações competitivas em outros benchmarks. Além disso, demonstramos que o UltraIF poderia melhorar ainda mais o LLaMA-3.1-8B-Instruct por meio de autoalinhamento, motivando casos de uso mais amplos para o método. Nosso código estará disponível em https://github.com/kkk-an/UltraIF.
Grandes modelos de linguagem (LLMs), como o1 da OpenAI, têm demonstrado notáveis capacidades de raciocínio. O o1 gera uma longa cadeia de pensamento (LongCoT) antes de responder a uma pergunta. O LongCoT permite que os LLMs analisem problemas, elaborem planos, reflitam e retrocedam de forma eficaz. Essas ações capacitam os LLMs a resolver problemas complexos. Após o lançamento do o1, muitas equipes tentaram replicar seu LongCoT e capacidades de raciocínio. Em termos de métodos, eles dependem principalmente da destilação de conhecimento com dados de modelos existentes com capacidades de LongCoT (por exemplo, OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), deixando significativas incertezas sobre o desenvolvimento sistemático de tais habilidades de raciocínio. Em relação aos domínios de dados, esses trabalhos se concentram estreitamente em matemática, enquanto alguns poucos incluem programação, limitando sua generalizabilidade. Este artigo apresenta uma abordagem inovadora para capacitar a capacidade de LongCoT dos LLMs sem destilação de modelos semelhantes ao o1 ou anotações humanas caras, onde nós inicializamos o LongCoT (BOLT) a partir de um modelo instrutivo padrão. BOLT envolve três etapas: 1) inicialização de dados de LongCoT com aprendizado em contexto em um modelo instrutivo padrão; 2) ajuste fino supervisionado de LongCoT; 3) treinamento online para refinar ainda mais as capacidades de LongCoT. No BOLT, apenas alguns exemplos em contexto precisam ser construídos durante a etapa de inicialização; em nossos experimentos, criamos 10 exemplos, demonstrando a viabilidade dessa abordagem. Utilizamos o Llama-3.1-70B-Instruct para inicializar o LongCoT e aplicamos nosso método a várias escalas de modelos (7B, 8B, 70B). Alcançamos um desempenho impressionante em uma variedade de benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, que avaliam diversas capacidades de resolução de tarefas e raciocínio.
O objetivo dos modelos generativos de difusão é alinhar a distribuição aprendida com a distribuição real dos dados por meio do casamento de escores de gradiente. No entanto, limitações inerentes na qualidade dos dados de treinamento, estratégias de modelagem e design arquitetônico levam a uma lacuna inevitável entre as saídas geradas e os dados reais. Para reduzir essa lacuna, propomos a Difusão de Fraco para Forte (W2SD), um novo framework que utiliza a diferença estimada entre modelos fracos e fortes existentes (ou seja, diferença de fraco para forte) para aproximar a lacuna entre um modelo ideal e um modelo forte. Ao empregar uma operação reflexiva que alterna entre remoção de ruído e inversão com a diferença de fraco para forte, entendemos teoricamente que o W2SD direciona as variáveis latentes ao longo de trajetórias de amostragem em direção às regiões da distribuição real dos dados. O W2SD é altamente flexível e amplamente aplicável, permitindo diversas melhorias por meio da seleção estratégica de pares de modelos fraco-forte (por exemplo, DreamShaper vs. SD1.5, bons especialistas vs. maus especialistas em MoE). Experimentos extensos demonstram que o W2SD melhora significativamente a preferência humana, a qualidade estética e a adesão à solicitação, alcançando desempenho de última geração em várias modalidades (por exemplo, imagem, vídeo), arquiteturas (por exemplo, baseadas em UNet, baseadas em DiT, MoE) e benchmarks. Por exemplo, o Juggernaut-XL com W2SD pode melhorar a taxa de vitória do HPSv2 em até 90% em relação aos resultados originais. Além disso, os ganhos de desempenho alcançados pelo W2SD superam significativamente seus custos computacionais adicionais, enquanto as melhorias cumulativas advindas das diferentes diferenças de fraco para forte solidificam ainda mais sua utilidade prática e implementabilidade.
Apesar das notáveis capacidades dos grandes modelos de linguagem em várias tarefas, seu contínuo escalonamento enfrenta um desafio crítico: a escassez de dados de pré-treinamento de alta qualidade. Enquanto as arquiteturas de modelos continuam a evoluir, os dados de linguagem natural lutam para aumentar em escala. Para enfrentar esse gargalo, propomos o método de reformulação MAssive Genre-Audience (MAGA), que sintetiza sistematicamente dados de pré-treinamento diversos e ricos em contexto a partir de um corpus existente. Este trabalho apresenta três principais contribuições: (1) Propomos o método de reformulação MAGA, uma abordagem leve e escalável para expansão de corpus de pré-treinamento, e construímos um MAGACorpus com 770 bilhões de tokens. (2) Avaliamos o MAGACorpus com diferentes estratégias de escalonamento de orçamento de dados, demonstrando melhorias consistentes em vários tamanhos de modelo (de 134 milhões a 13 bilhões de parâmetros), estabelecendo a necessidade de modelos de linguagem de pré-treinamento sintéticos em larga escala de próxima geração. (3) Por meio de uma análise abrangente, investigamos o impacto da engenharia de prompts no colapso do treinamento sintético e revelamos limitações nas métricas convencionais de detecção de colapso usando perdas de validação. Nosso trabalho mostra que o MAGA pode expandir substancialmente conjuntos de dados de treinamento mantendo a qualidade, oferecendo um caminho confiável para escalonar modelos além das limitações de dados.
Pesquisas recentes têm aproveitado sistemas multiagentes de grandes modelos de linguagem para resolver problemas complexos, ao mesmo tempo que tentam reduzir o esforço manual necessário para construí-los, impulsionando o desenvolvimento de métodos de otimização de fluxo de trabalho de agentes automatizados. No entanto, os métodos existentes permanecem inflexíveis devido a limitações de representação, falta de adaptabilidade e baixa escalabilidade ao depender de técnicas de otimização discreta. Abordamos esses desafios com o ScoreFlow, um framework simples, porém de alto desempenho, que aproveita a otimização eficiente baseada em gradientes em um espaço contínuo. O ScoreFlow incorpora o Score-DPO, uma nova variante do método de otimização de preferência direta que considera feedback quantitativo. Através de seis benchmarks abrangendo resposta a perguntas, codificação e raciocínio matemático, o ScoreFlow alcança uma melhoria de 8,2% em relação às baselines existentes. Além disso, capacita modelos menores a superar os maiores com custos de inferência mais baixos. Projeto: https://github.com/Gen-Verse/ScoreFlow
A geração e edição de movimento humano são componentes-chave de gráficos por computador e visão. No entanto, as abordagens atuais nesse campo tendem a oferecer soluções isoladas adaptadas a tarefas específicas, o que pode ser ineficiente e impraticável para aplicações do mundo real. Embora alguns esforços tenham visado unificar tarefas relacionadas ao movimento, esses métodos simplesmente utilizam diferentes modalidades como condições para orientar a geração de movimento. Consequentemente, eles carecem de capacidades de edição, controle refinado e falham em facilitar o compartilhamento de conhecimento entre tarefas. Para lidar com essas limitações e fornecer um framework versátil e unificado capaz de lidar tanto com a geração quanto com a edição de movimento humano, introduzimos um novo paradigma: Movimento-Condição-Movimento, que permite a formulação unificada de diversas tarefas com três conceitos: movimento de origem, condição e movimento alvo. Com base nesse paradigma, propomos um framework unificado, MotionLab, que incorpora fluxos retificados para aprender o mapeamento do movimento de origem para o movimento alvo, guiado pelas condições especificadas. No MotionLab, introduzimos o 1) Transformador de Fluxo de Movimento para aprimorar a geração condicional e edição sem módulos específicos da tarefa; 2) Codificação de Posição Rotacional Alinhada para garantir a sincronização temporal entre o movimento de origem e o movimento alvo; 3) Modulação de Instrução Específica da Tarefa; e 4) Aprendizado de Currículo de Movimento para aprendizado multi-tarefa eficaz e compartilhamento de conhecimento entre tarefas. Notavelmente, nosso MotionLab demonstra promissoras capacidades de generalização e eficiência de inferência em diversos benchmarks para movimento humano. Nosso código e resultados de vídeo adicionais estão disponíveis em: https://diouo.github.io/motionlab.github.io/.
Este artigo apresenta um método que permite aos usuários projetar planos de vídeo cinematográfico no contexto da geração de imagem para vídeo. O design de plano, um aspecto crítico da produção cinematográfica, envolve o planejamento meticuloso dos movimentos da câmera e dos objetos em uma cena. No entanto, possibilitar um design de plano intuitivo em sistemas modernos de geração de imagem para vídeo apresenta dois desafios principais: primeiro, capturar efetivamente as intenções do usuário no design de movimento, onde tanto os movimentos da câmera quanto os movimentos dos objetos no espaço da cena devem ser especificados em conjunto; e segundo, representar informações de movimento que possam ser utilizadas de forma eficaz por um modelo de difusão de vídeo para sintetizar as animações de imagem. Para enfrentar esses desafios, introduzimos o MotionCanvas, um método que integra controles orientados pelo usuário em modelos de geração de imagem para vídeo, permitindo aos usuários controlar os movimentos tanto dos objetos quanto da câmera de maneira consciente da cena. Ao conectar insights da computação gráfica clássica e técnicas contemporâneas de geração de vídeo, demonstramos a capacidade de alcançar controle de movimento consciente do 3D na síntese de imagem para vídeo sem a necessidade de dados de treinamento 3D custosos. O MotionCanvas permite aos usuários representar intuitivamente as intenções de movimento no espaço da cena e traduzi-las em sinais de condicionamento de movimento espaço-temporal para modelos de difusão de vídeo. Demonstramos a eficácia de nosso método em uma ampla gama de conteúdos de imagem do mundo real e cenários de design de plano, destacando seu potencial para aprimorar os fluxos de trabalho criativos na criação de conteúdo digital e se adaptar a várias aplicações de edição de imagem e vídeo.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado uma capacidade significativa em várias tarefas, sendo a sua eficácia no mundo real frequentemente impulsionada pelo design do prompt. Enquanto pesquisas recentes têm se concentrado na otimização do conteúdo do prompt, o papel da formatação do prompt, uma dimensão crítica, mas frequentemente negligenciada, tem recebido investigação sistemática limitada. Neste artigo, apresentamos a Otimização Integrada de Conteúdo e Formato do Prompt (CFPO), uma metodologia inovadora que otimiza em conjunto tanto o conteúdo quanto a formatação do prompt por meio de um processo de refinamento iterativo. O CFPO utiliza mutações de linguagem natural para explorar variações de conteúdo e emprega uma estratégia dinâmica de exploração de formatos que avalia sistematicamente diversas opções de formato. Nossas extensas avaliações em várias tarefas e LLMs de código aberto demonstram que o CFPO apresenta melhorias mensuráveis de desempenho em comparação com métodos de otimização apenas de conteúdo. Isso destaca a importância da otimização integrada de conteúdo e formato e oferece uma abordagem prática e independente de modelo para aprimorar o desempenho dos LLMs. O código estará disponível em https://github.com/HenryLau7/CFPO.
À medida que os grandes modelos de linguagem impulsionam cada vez mais aplicações do mundo real, alinhá-los com os valores humanos torna-se fundamental. O Aprendizado por Reforço a partir de Feedback Humano (RLHF) surgiu como uma técnica-chave, traduzindo dados de preferência em modelos de recompensa quando os valores humanos do oráculo permanecem inacessíveis. Na prática, o RLHF geralmente depende de modelos de recompensa aproximados, que podem não guiar consistentemente a política para maximizar os valores humanos subjacentes. Propomos o Aprendizado Interpolado de Política para Feedback Alinhado (PILAF), uma nova estratégia de amostragem de respostas para rotulagem de preferência que alinha explicitamente a aprendizagem de preferência com a maximização da recompensa do oráculo subjacente. O PILAF é fundamentado teoricamente, demonstrando a optimalidade tanto de uma perspectiva de otimização quanto estatística. O método é simples de implementar e demonstra um desempenho sólido em configurações iterativas e online de RLHF, onde a curadoria do feedback é crítica.
Apresentamos um novo framework de geração de vídeos que integra geometria tridimensional e consciência dinâmica. Para alcançar isso, nós aumentamos vídeos 2D com trajetórias de pontos 3D e os alinhamos no espaço de pixels. O conjunto de dados de vídeo 3D-aware resultante, PointVid, é então utilizado para ajustar finamente um modelo de difusão latente, permitindo rastrear objetos 2D com coordenadas cartesianas 3D. Com base nisso, regularizamos a forma e o movimento dos objetos no vídeo para eliminar artefatos indesejados, como deformações não físicas. Consequentemente, aprimoramos a qualidade dos vídeos RGB gerados e aliviamos problemas comuns como a morfagem de objetos, que são prevalentes nos modelos de vídeo atuais devido à falta de consciência de forma. Com nossa ampliação e regularização 3D, nosso modelo é capaz de lidar com cenários ricos em contato, como vídeos orientados por tarefas. Esses vídeos envolvem interações complexas de sólidos, onde a informação 3D é essencial para perceber deformações e contato. Além disso, nosso modelo melhora a qualidade geral da geração de vídeo ao promover a consistência 3D de objetos em movimento e reduzir mudanças abruptas na forma e no movimento.
Grandes Modelos de Linguagem (LLMs) podem realizar tarefas de questionamento de gráficos, mas frequentemente geram respostas alucinadas não verificadas. Métodos de atribuição de respostas existentes têm dificuldade em fundamentar as respostas nos gráficos de origem devido ao contexto visual-semântico limitado, requisitos complexos de alinhamento visual-texto e dificuldades na previsão de caixas delimitadoras em layouts complexos. Apresentamos o ChartCitor, um framework multiagente que fornece citações de caixas delimitadoras detalhadas, identificando evidências de suporte dentro de imagens de gráficos. O sistema orquestra agentes LLM para realizar extração de gráfico-para-tabela, reformulação de respostas, aumento de tabelas, recuperação de evidências por meio de pré-filtragem e reclassificação, e mapeamento de tabela-para-gráfico. O ChartCitor supera as linhas de base existentes em diferentes tipos de gráficos. Estudos qualitativos com usuários mostram que o ChartCitor ajuda a aumentar a confiança do usuário em IA Generativa, fornecendo uma explicabilidade aprimorada para questionamento de gráficos assistido por LLM e permite que profissionais sejam mais produtivos.
Propomos a Autoregressão Mascarada Heterogênea (HMA) para modelar a dinâmica de vídeos de ação a fim de gerar dados de alta qualidade e avaliação na escalabilidade do aprendizado de robôs. Construir modelos de mundo de vídeo interativos e políticas para robótica é difícil devido ao desafio de lidar com configurações diversas, mantendo a eficiência computacional para funcionar em tempo real. O HMA utiliza pré-treinamento heterogêneo a partir de observações e sequências de ação em diferentes encarnações robóticas, domínios e tarefas. O HMA utiliza autoregressão mascarada para gerar tokens quantizados ou suaves para previsões de vídeo. O HMA alcança melhor fidelidade visual e controlabilidade do que os modelos anteriores de geração de vídeo robótico, com uma velocidade 15 vezes mais rápida no mundo real. Após o pós-treinamento, este modelo pode ser usado como um simulador de vídeo a partir de entradas de ação de baixo nível para avaliar políticas e gerar dados sintéticos. Consulte este link https://liruiw.github.io/hma para mais informações.
A visualização científica de dados é fundamental para transformar dados brutos em representações visuais compreensíveis, possibilitando o reconhecimento de padrões, previsões e a apresentação de insights baseados em dados. No entanto, usuários iniciantes frequentemente enfrentam dificuldades devido à complexidade na seleção de ferramentas apropriadas e no domínio das técnicas de visualização. Modelos de Linguagem de Grande Escala (LLMs) demonstraram recentemente potencial em auxiliar na geração de código, embora enfrentem desafios de precisão e exijam depuração iterativa. Neste artigo, propomos o PlotGen, um novo framework multiagente destinado a automatizar a criação de visualizações científicas precisas. O PlotGen orquestra múltiplos agentes baseados em LLMs, incluindo um Agente de Planejamento de Consultas que divide solicitações complexas dos usuários em etapas executáveis, um Agente de Geração de Código que converte pseudocódigo em código Python executável, e três agentes de feedback de recuperação - um Agente de Feedback Numérico, um Agente de Feedback Lexical e um Agente de Feedback Visual - que utilizam LLMs multimodais para refinar iterativamente a precisão dos dados, rótulos textuais e correção visual dos gráficos gerados por meio de autorreflexão. Experimentos extensivos mostram que o PlotGen supera baselines fortes, alcançando uma melhoria de 4-6 por cento no conjunto de dados MatPlotBench, resultando em uma maior confiança dos usuários em visualizações geradas por LLMs e uma maior produtividade de usuários iniciantes devido à redução do tempo de depuração necessário para erros nos gráficos.
O surgimento de Modelos de Linguagem Grandes (LLMs) avançou significativamente o campo da geração automatizada de código. Os LLMs dependem de conjuntos de dados extensos e diversos para aprender a sintaxe, semântica e padrões de uso de linguagens de programação. Para línguas de baixos recursos (ou seja, linguagens de programação de nicho caracterizadas pela escassez de dados de treinamento), a disponibilidade limitada desses dados prejudica a capacidade dos modelos de generalizar de forma eficaz, resultando em um desempenho de geração de código inferior em comparação com línguas de alto recurso. Por esse motivo, há uma busca por técnicas capazes de reduzir essa diferença de desempenho. Apresentamos um estudo empírico investigando a eficácia de várias abordagens para impulsionar o desempenho dos LLMs em línguas de baixos recursos, a saber: (i) um ajuste fino clássico, no entanto limitado em tamanho pela escassez de dados de treinamento; (ii) três variantes de aprendizado em contexto, com prompts elaborados para fornecer ao LLM informações adicionais sobre a língua de baixos recursos (por exemplo, exemplos de poucas amostras que demonstram características da língua-alvo); e (iii) um objetivo de pré-treinamento ensinando ao modelo como traduzir entre línguas de alto e baixo recurso. O contexto de nosso estudo são duas línguas de baixos recursos (R e Racket) e seis LLMs com arquiteturas e tamanhos diferentes. Nossas descobertas revelam que um ajuste fino geralmente é a melhor escolha para LLMs menores, possivelmente devido ao fato de que mesmo um pequeno conjunto de dados é suficiente para treinar seu número limitado de parâmetros. Com o aumento do tamanho dos modelos, o aprendizado em contexto se torna cada vez mais eficaz, representando uma aposta segura e econômica (ou seja, sempre ajuda, mas com magnitudes diferentes). Por outro lado, LLMs muito grandes podem deteriorar seu desempenho em línguas de baixos recursos quando o ajuste fino é realizado, possivelmente devido à falta de dados suficientes necessários para atualizar efetivamente seus pesos.
Apesar dos extensos esforços de alinhamento de segurança, os grandes modelos de linguagem (LLMs) continuam vulneráveis a ataques de jailbreak que provocam comportamentos prejudiciais. Enquanto os estudos existentes predominantemente se concentram em métodos de ataque que exigem expertise técnica, duas questões críticas permanecem pouco exploradas: (1) As respostas de jailbreak são verdadeiramente úteis para permitir que usuários comuns realizem ações prejudiciais? (2) Existem vulnerabilidades de segurança em interações humanos-LLM mais comuns e simples? Neste artigo, demonstramos que as respostas do LLM facilitam de forma mais eficaz ações prejudiciais quando são tanto acionáveis quanto informativas - duas características facilmente obtidas em interações multilíngues de vários passos. Com base nessa percepção, propomos o HarmScore, uma métrica de jailbreak que mede quão efetivamente uma resposta do LLM permite ações prejudiciais, e o Speak Easy, um framework de ataque multilíngue de vários passos simples. Notavelmente, ao incorporar o Speak Easy em baselines de solicitação direta e jailbreak, observamos um aumento absoluto médio de 0.319 na Taxa de Sucesso do Ataque e 0.426 no HarmScore em LLMs de código aberto e proprietários em quatro benchmarks de segurança. Nosso trabalho revela uma vulnerabilidade crítica, porém frequentemente negligenciada: usuários maliciosos podem facilmente explorar padrões de interação comuns para intenções prejudiciais.