Artigos de pesquisa em IA selecionados diariamente com traduções
Transformadores de difusão têm demonstrado qualidade notável na geração, embora exijam iterações de treinamento mais longas e numerosos passos de inferência. Em cada etapa de remoção de ruído, os transformadores de difusão codificam as entradas ruidosas para extrair o componente semântico de baixa frequência e, em seguida, decodificam a alta frequência com módulos idênticos. Esse esquema cria um dilema de otimização inerente: a codificação de semântica de baixa frequência exige a redução de componentes de alta frequência, gerando uma tensão entre a codificação semântica e a decodificação de alta frequência. Para resolver esse desafio, propomos um novo \color{ddtD}Transformador de Difusão Desacoplado~(\color{ddtDDT}), com um design desacoplado que inclui um codificador de condição dedicado para extração semântica, juntamente com um decodificador de velocidade especializado. Nossos experimentos revelam que um codificador mais robusto resulta em melhorias de desempenho à medida que o tamanho do modelo aumenta. Para ImageNet 256×256, nosso DDT-XL/2 alcança um novo estado da arte com um FID de 1,31 (quase 4 vezes mais rápido na convergência do treinamento em comparação com transformadores de difusão anteriores). Para ImageNet 512×512, nosso DDT-XL/2 atinge um novo recorde de FID de 1,28. Além disso, como um subproduto benéfico, nossa arquitetura desacoplada melhora a velocidade de inferência ao permitir o compartilhamento de auto-condição entre etapas adjacentes de remoção de ruído. Para minimizar a degradação de desempenho, propomos uma nova abordagem de programação dinâmica estatística para identificar estratégias ótimas de compartilhamento.
Apresentamos o OLMoTrace, o primeiro sistema que rastreia as saídas de modelos de linguagem de volta aos seus dados de treinamento completos, compostos por múltiplos trilhões de tokens, em tempo real. O OLMoTrace identifica e exibe correspondências textuais entre segmentos das saídas do modelo de linguagem e documentos nos corpora de texto de treinamento. Impulsionado por uma versão estendida do infini-gram (Liu et al., 2024), nosso sistema retorna os resultados de rastreamento em poucos segundos. O OLMoTrace pode ajudar os usuários a compreender o comportamento dos modelos de linguagem através da lente de seus dados de treinamento. Demonstramos como ele pode ser usado para explorar a verificação de fatos, alucinações e a criatividade dos modelos de linguagem. O OLMoTrace está publicamente disponível e é totalmente de código aberto.
Descobrimos que o comprimento da resposta de LLMs de raciocínio, sejam treinados por aprendizado por reforço ou aprendizado supervisionado, aumenta drasticamente para perguntas mal formuladas com premissas ausentes (MiP), resultando em pensamentos redundantes e ineficazes. Esse cenário recém-introduzido exacerba em grande medida o problema geral de superpensamento, que denominamos como MiP-Superpensamento. Tais falhas vão contra a "lei de escalonamento em tempo de teste", mas foram amplamente observadas em múltiplos conjuntos de dados que curamos com MiP, indicando o prejuízo do superpensamento barato e a falta de pensamento crítico. Surpreendentemente, LLMs não especificamente treinados para raciocínio exibem um desempenho muito melhor no cenário MiP, produzindo respostas muito mais curtas que identificam rapidamente consultas mal formuladas. Isso implica uma falha crítica na receita de treinamento atual para LLMs de raciocínio, que não incentiva adequadamente o pensamento eficiente, levando ao abuso de padrões de pensamento. Para investigar mais a fundo as razões por trás dessas falhas, conduzimos análises detalhadas do comprimento do raciocínio, padrões de superpensamento e localização do pensamento crítico em diferentes tipos de LLMs. Além disso, nosso estudo de ablação estendido revela que o superpensamento é contagioso através da destilação das respostas dos modelos de raciocínio. Esses resultados melhoram a compreensão do superpensamento e oferecem novas perspectivas para mitigar o problema.
Criar um avatar animado realista a partir de um único retrato estático continua sendo um desafio. As abordagens existentes frequentemente têm dificuldade em capturar expressões faciais sutis, os movimentos corporais globais associados e o fundo dinâmico. Para superar essas limitações, propomos uma nova estrutura que aproveita um modelo de transformador de difusão de vídeo pré-treinado para gerar retratos falantes de alta fidelidade e coerentes, com dinâmicas de movimento controláveis. No cerne do nosso trabalho está uma estratégia de alinhamento áudio-visual em duas etapas. Na primeira etapa, empregamos um esquema de treinamento em nível de clipe para estabelecer movimento global coerente, alinhando as dinâmicas impulsionadas pelo áudio em toda a cena, incluindo o retrato de referência, objetos contextuais e o fundo. Na segunda etapa, refinamos os movimentos labiais em nível de quadro usando uma máscara de rastreamento labial, garantindo sincronização precisa com os sinais de áudio. Para preservar a identidade sem comprometer a flexibilidade de movimento, substituímos a rede de referência comumente usada por um módulo de atenção cruzada focado no rosto, que mantém efetivamente a consistência facial ao longo do vídeo. Além disso, integramos um módulo de modulação de intensidade de movimento que controla explicitamente a intensidade das expressões e dos movimentos corporais, permitindo a manipulação controlada dos movimentos do retrato além do mero movimento labial. Resultados experimentais extensivos mostram que nossa abordagem proposta alcança maior qualidade com melhor realismo, coerência, intensidade de movimento e preservação de identidade. Nossa página do projeto: https://fantasy-amap.github.io/fantasy-talking/.
A geração condicional de imagens tem ganhado atenção significativa por sua capacidade de personalizar conteúdo. No entanto, o campo enfrenta desafios no desenvolvimento de métricas de avaliação independentes de tarefa, confiáveis e explicáveis. Este artigo apresenta o CIGEval, uma estrutura agencial unificada para avaliação abrangente de tarefas de geração condicional de imagens. O CIGEval utiliza modelos multimodais de grande escala (LMMs) como núcleo, integrando uma caixa de ferramentas multifuncional e estabelecendo uma estrutura de avaliação detalhada. Além disso, sintetizamos trajetórias de avaliação para ajuste fino, capacitando LMMs menores a selecionar autonomamente ferramentas apropriadas e conduzir análises refinadas com base nos resultados das ferramentas. Experimentos em sete tarefas proeminentes de geração condicional de imagens demonstram que o CIGEval (versão GPT-4o) alcança uma alta correlação de 0,4625 com avaliações humanas, aproximando-se da correlação inter-avaliadores de 0,47. Além disso, quando implementado com LMMs de código aberto de 7B usando apenas 2,3K trajetórias de treinamento, o CIGEval supera o método anterior baseado em GPT-4o, que era o estado da arte. Estudos de caso sobre a geração de imagens com GPT-4o destacam a capacidade do CIGEval em identificar questões sutis relacionadas à consistência do assunto e à adesão à orientação de controle, indicando seu grande potencial para automatizar a avaliação de tarefas de geração de imagens com confiabilidade em nível humano.
O design da trajetória da câmera desempenha um papel crucial na produção de vídeo, servindo como uma ferramenta fundamental para transmitir a intenção do diretor e aprimorar a narrativa visual. Na cinematografia, os Diretores de Fotografia elaboram meticulosamente os movimentos da câmera para alcançar enquadramentos expressivos e intencionais. No entanto, os métodos existentes para geração de trajetórias de câmera permanecem limitados: as abordagens tradicionais dependem de otimização geométrica ou sistemas procedurais manuais, enquanto os métodos recentes baseados em aprendizado frequentemente herdam vieses estruturais ou carecem de alinhamento textual, restringindo a síntese criativa. Neste trabalho, introduzimos um modelo auto-regressivo inspirado na expertise dos Diretores de Fotografia para gerar trajetórias de câmera artísticas e expressivas. Primeiramente, apresentamos o DataDoP, um conjunto de dados multimodal em larga escala contendo 29K tomadas do mundo real com trajetórias de câmera em movimento livre, mapas de profundidade e legendas detalhadas sobre movimentos específicos, interação com a cena e intenção do diretor. Graças ao banco de dados abrangente e diversificado, treinamos ainda um Transformer auto-regressivo, apenas com decodificador, para geração de movimentos de câmera de alta qualidade e conscientes do contexto, baseados em orientação textual e entradas RGBD, denominado GenDoP. Experimentos extensivos demonstram que, em comparação com os métodos existentes, o GenDoP oferece melhor controlabilidade, ajustes de trajetória mais refinados e maior estabilidade de movimento. Acreditamos que nossa abordagem estabelece um novo padrão para a cinematografia baseada em aprendizado, abrindo caminho para avanços futuros no controle de câmera e na produção cinematográfica. Nosso site do projeto: https://kszpxxzmc.github.io/GenDoP/.
O raciocínio emergiu como a próxima grande fronteira para modelos de linguagem (LMs), com avanços rápidos tanto em laboratórios acadêmicos quanto industriais. No entanto, esse progresso frequentemente supera o rigor metodológico, com muitas avaliações dependendo de práticas de benchmarking que carecem de transparência, robustez ou fundamentação estatística. Neste trabalho, realizamos um estudo empírico abrangente e descobrimos que os benchmarks atuais de raciocínio matemático são altamente sensíveis a escolhas sutis de implementação — incluindo parâmetros de decodificação, sementes aleatórias, formatação de prompts e até mesmo configurações de hardware e frameworks de software. Os ganhos de desempenho relatados em estudos recentes frequentemente dependem de comparações pouco claras ou fontes de variância não relatadas. Para abordar essas questões, propomos um framework de avaliação padronizado com práticas recomendadas e padrões de relatório claramente definidos. Usando esse framework, reavaliamos métodos recentes e descobrimos que abordagens de aprendizado por reforço (RL) produzem apenas melhorias modestas — muito abaixo das afirmações anteriores — e são propensas a overfitting, especialmente em benchmarks de pequena escala como o AIME24. Em contraste, métodos de ajuste fino supervisionado (SFT) mostram generalização consistentemente mais forte. Para promover a reprodutibilidade, disponibilizamos todo o código, prompts e saídas dos modelos para benchmarks de raciocínio, estabelecendo bases mais rigorosas para trabalhos futuros.
Propomos o OmniCaptioner, uma estrutura versátil de legendagem visual para gerar descrições textuais detalhadas em uma ampla variedade de domínios visuais. Diferente de métodos anteriores limitados a tipos específicos de imagens (por exemplo, imagens naturais ou visuais geométricas), nossa estrutura oferece uma solução unificada para legendagem de imagens naturais, textos visuais (por exemplo, cartazes, interfaces de usuário, livros didáticos) e visuais estruturados (por exemplo, documentos, tabelas, gráficos). Ao converter informações de pixels de baixo nível em representações textuais semanticamente ricas, nossa estrutura preenche a lacuna entre as modalidades visual e textual. Nossos resultados destacam três vantagens principais: (i) Raciocínio Visual Aprimorado com LLMs, onde legendas de contexto longo de modalidades visuais capacitam LLMs, particularmente a série DeepSeek-R1, a raciocinar efetivamente em cenários multimodais; (ii) Geração de Imagens Melhorada, onde legendas detalhadas aprimoram tarefas como geração de texto para imagem e transformação de imagens; e (iii) Ajuste Fino Supervisionado (SFT) Eficiente, que permite convergência mais rápida com menos dados. Acreditamos que a versatilidade e adaptabilidade do OmniCaptioner podem oferecer uma nova perspectiva para preencher a lacuna entre as modalidades de linguagem e visual.
Embora o raciocínio em tempo de teste permita que modelos de linguagem enfrentem tarefas complexas, a busca ou planejamento em linguagem natural pode ser lento, custoso e propenso a erros. No entanto, mesmo quando os modelos de linguagem (LMs) têm dificuldade em emular os passos precisos de raciocínio necessários para resolver um problema, eles frequentemente se destacam em descrever sua estrutura abstrata—tanto como verificar soluções quanto como buscá-las. Este artigo apresenta o DisCIPL, um método para "autodirecionar" LMs, onde um modelo Planejador gera um programa de inferência específico para a tarefa que é executado por uma população de modelos Seguidores. Nossa abordagem capacita os LMs com a habilidade de escrever procedimentos de busca recursiva que guiam a inferência do LM, permitindo novas formas de raciocínio verificável e eficiente. Quando instanciado com um Seguidor pequeno (por exemplo, Llama-3.2-1B), o DisCIPL iguala (e às vezes supera) modelos muito maiores, incluindo GPT-4o e o1, em tarefas desafiadoras de geração com restrições. Ao desacoplar o planejamento da execução, nosso trabalho abre um espaço de design para estratégias de inferência de Monte Carlo altamente paralelizadas que superam a amostragem padrão best-of-N, não requerem ajuste fino e podem ser implementadas automaticamente por LMs existentes.
Apresentamos o CAT-V (Caption AnyThing in Video), uma estrutura livre de treinamento para legendagem de vídeo centrada em objetos com granularidade fina, que permite descrições detalhadas de objetos selecionados pelo usuário ao longo do tempo. O CAT-V integra três componentes principais: um Segmentador baseado no SAMURAI para segmentação precisa de objetos entre quadros, um Analisador Temporal alimentado pelo TRACE-Uni para detecção precisa de limites de eventos e análise temporal, e um Gerador de Legendas utilizando o InternVL-2.5 para criar descrições detalhadas centradas em objetos. Por meio de prompts visuais espaço-temporais e raciocínio em cadeia de pensamento, nossa estrutura gera descrições detalhadas e temporalmente conscientes dos atributos, ações, estados, interações e contextos ambientais dos objetos, sem a necessidade de dados adicionais de treinamento. O CAT-V suporta interações flexíveis do usuário por meio de diversos prompts visuais (pontos, caixas delimitadoras e regiões irregulares) e mantém a sensibilidade temporal ao rastrear os estados e interações dos objetos em diferentes segmentos de tempo. Nossa abordagem aborda as limitações dos métodos existentes de legendagem de vídeo, que produzem descrições excessivamente abstratas ou carecem de precisão em nível de objeto, permitindo descrições específicas e detalhadas de objetos enquanto mantêm coerência temporal e precisão espacial. O repositório GitHub deste projeto está disponível em https://github.com/yunlong10/CAT-V.
Os recentes avanços no aprendizado por reforço têm impulsionado significativamente as capacidades de raciocínio dos modelos de linguagem multimodal de grande escala (MLLMs). Embora abordagens como a Otimização de Política Relativa de Grupo (GRPO) e mecanismos de recompensa baseados em regras demonstrem potencial nos domínios de texto e imagem, sua aplicação na compreensão de vídeo ainda é limitada. Este artigo apresenta uma exploração sistemática do Ajuste Fino por Reforço (RFT) com GRPO para MLLMs de vídeo, visando aprimorar a percepção espaço-temporal enquanto mantém as capacidades gerais. Nossos experimentos revelam que o RFT é altamente eficiente em termos de dados para melhorias específicas de tarefas. Por meio do RFT multitarefa em objetivos de percepção espaço-temporal com amostras limitadas, desenvolvemos o VideoChat-R1, um poderoso MLLM de vídeo que alcança desempenho de ponta em tarefas de percepção espaço-temporal sem sacrificar a capacidade de chat, ao mesmo tempo que exibe habilidades emergentes de raciocínio espaço-temporal. Comparado ao Qwen2.5-VL-7B, o VideoChat-R1 aumenta o desempenho várias vezes em tarefas como localização temporal (+31,8) e rastreamento de objetos (+31,2). Além disso, ele melhora significativamente em benchmarks gerais de QA, como VideoMME (+0,9), MVBench (+1,0) e Perception Test (+0,9). Nossas descobertas destacam o potencial do RFT para o aprimoramento de tarefas especializadas em MLLMs de vídeo. Esperamos que nosso trabalho ofereça insights valiosos para futuras pesquisas em RL em MLLMs de vídeo.
Apresentamos o WildGS-SLAM, um sistema robusto e eficiente de SLAM monocromático RGB projetado para lidar com ambientes dinâmicos, aproveitando o mapeamento geométrico consciente da incerteza. Diferente dos sistemas tradicionais de SLAM, que assumem cenas estáticas, nossa abordagem integra informações de profundidade e incerteza para melhorar o desempenho de rastreamento, mapeamento e renderização na presença de objetos em movimento. Introduzimos um mapa de incerteza, previsto por um perceptron multicamadas raso e características do DINOv2, para orientar a remoção de objetos dinâmicos durante o rastreamento e o mapeamento. Esse mapa de incerteza aprimora o ajuste de feixe denso e a otimização do mapa Gaussiano, melhorando a precisão da reconstrução. Nosso sistema é avaliado em múltiplos conjuntos de dados e demonstra síntese de visão livre de artefatos. Os resultados destacam o desempenho superior do WildGS-SLAM em ambientes dinâmicos em comparação com os métodos mais avançados atualmente.
A geração de movimentos naturalistas e sutis de ouvintes para interações prolongadas continua sendo um problema em aberto. Os métodos existentes frequentemente dependem de códigos de movimento de baixa dimensão para a geração de comportamentos faciais, seguidos por renderização fotorrealista, limitando tanto a fidelidade visual quanto a riqueza expressiva. Para enfrentar esses desafios, introduzimos o DiTaiListener, impulsionado por um modelo de difusão de vídeo com condições multimodais. Nossa abordagem primeiro gera segmentos curtos de respostas do ouvinte condicionados à fala e aos movimentos faciais do falante com o DiTaiListener-Gen. Em seguida, refina os quadros de transição via DiTaiListener-Edit para uma transição suave. Especificamente, o DiTaiListener-Gen adapta um Transformer de Difusão (DiT) para a tarefa de geração de retratos de cabeça do ouvinte, introduzindo um Adaptador Multimodal Temporal Causal (CTM-Adapter) para processar os sinais auditivos e visuais do falante. O CTM-Adapter integra a entrada do falante de maneira causal no processo de geração de vídeo para garantir respostas do ouvinte temporalmente coerentes. Para a geração de vídeos de longa duração, introduzimos o DiTaiListener-Edit, um modelo de difusão de vídeo para refinamento de transição. O modelo funde segmentos de vídeo em vídeos suaves e contínuos, garantindo consistência temporal nas expressões faciais e na qualidade da imagem ao unir segmentos curtos de vídeo produzidos pelo DiTaiListener-Gen. Quantitativamente, o DiTaiListener alcança o desempenho de ponta em conjuntos de dados de referência tanto no espaço de fotorrealismo (+73,8% no FID no RealTalk) quanto no espaço de representação de movimento (+6,1% na métrica FD no VICO). Estudos com usuários confirmam o desempenho superior do DiTaiListener, com o modelo sendo a clara preferência em termos de feedback, diversidade e suavidade, superando os concorrentes por uma margem significativa.
O aprendizado auto-supervisionado transformou a visão computacional 2D ao permitir que modelos treinados em grandes conjuntos de dados não anotados fornecessem recursos versáteis prontos para uso, com desempenho semelhante ao de modelos treinados com rótulos. No entanto, na compreensão de cenas 3D, os métodos auto-supervisionados são tipicamente usados apenas como uma etapa de inicialização de pesos para ajuste fino específico da tarefa, limitando sua utilidade para extração de recursos de propósito geral. Este artigo aborda essa limitação ao propor um protocolo de avaliação robusto especificamente projetado para avaliar a qualidade de recursos auto-supervisionados para compreensão de cenas 3D. Nosso protocolo utiliza amostragem de recursos multi-resolução de modelos hierárquicos para criar representações ricas em nível de ponto que capturam as capacidades semânticas do modelo e, portanto, são adequadas para avaliação com métodos de sondagem linear e vizinho mais próximo. Além disso, introduzimos o primeiro modelo auto-supervisionado que apresenta desempenho semelhante aos modelos supervisionados quando apenas recursos prontos para uso são empregados em uma configuração de sondagem linear. Em particular, nosso modelo é treinado nativamente em 3D com uma nova abordagem auto-supervisionada baseada em um objetivo de Modelagem de Cena Mascarada (Masked Scene Modeling), que reconstrói recursos profundos de patches mascarados de maneira bottom-up e é especificamente adaptada para modelos hierárquicos 3D. Nossos experimentos não apenas demonstram que nosso método alcança desempenho competitivo em relação aos modelos supervisionados, mas também supera as abordagens auto-supervisionadas existentes por uma grande margem. O modelo e o código de treinamento podem ser encontrados em nosso repositório no Github (https://github.com/phermosilla/msm).
A aprendizagem centrada em objetos (Object-Centric Learning, OCL) busca aprender representações que codificam apenas um objeto, isolado de outros objetos ou pistas de fundo em uma cena. Essa abordagem sustenta diversos objetivos, incluindo generalização fora da distribuição (out-of-distribution, OOD), composição eficiente em termos de amostras e modelagem de ambientes estruturados. A maior parte da pesquisa tem se concentrado no desenvolvimento de mecanismos não supervisionados que separam objetos em espaços discretos no espaço de representação, avaliados por meio da descoberta não supervisionada de objetos. No entanto, com modelos recentes de segmentação eficientes em termos de amostras, podemos separar objetos no espaço de pixels e codificá-los de forma independente. Isso alcança um desempenho notável em benchmarks de descoberta de objetos OOD em zero-shot, é escalável para modelos de base (foundation models) e pode lidar com um número variável de espaços de forma imediata. Assim, o objetivo dos métodos OCL de obter representações centradas em objetos foi amplamente alcançado. Apesar desse progresso, uma questão fundamental permanece: Como a capacidade de separar objetos dentro de uma cena contribui para objetivos mais amplos da OCL, como a generalização OOD? Abordamos essa questão investigando o desafio de generalização OOD causado por pistas de fundo espúrias através da lente da OCL. Propomos uma nova sonda livre de treinamento chamada Classificação Centrada em Objetos com Máscaras Aplicadas (Object-Centric Classification with Applied Masks, OCCAM), demonstrando que a codificação baseada em segmentação de objetos individuais supera significativamente os métodos OCL baseados em espaços discretos. No entanto, desafios em aplicações do mundo real permanecem. Fornecemos uma caixa de ferramentas para a comunidade OCL usar representações centradas em objetos escaláveis, e focamos em aplicações práticas e questões fundamentais, como entender a percepção de objetos na cognição humana. Nosso código está disponível {aqui}(https://github.com/AlexanderRubinstein/OCCAM).
Agarramento robusto de diversos objetos a partir de percepção de visão única é fundamental para robôs habilidosos. Trabalhos anteriores frequentemente dependem de objetos totalmente observáveis, demonstrações de especialistas ou poses de agarramento estáticas, o que limita sua capacidade de generalização e adaptabilidade a distúrbios externos. Neste artigo, apresentamos uma estrutura baseada em aprendizado por reforço que permite o agarramento dinâmico e habilidoso de uma ampla gama de objetos não vistos a partir de percepção de visão única, enquanto realiza movimentos adaptativos a distúrbios externos. Utilizamos uma representação de objeto centrada na mão para extração de características de forma que enfatiza formas locais relevantes para a interação, aumentando a robustez à variação e incerteza de forma. Para permitir uma adaptação eficaz da mão a distúrbios com observações limitadas, propomos uma estratégia mista de aprendizado curricular, que primeiro utiliza aprendizado por imitação para destilar uma política treinada com feedback visual-tátil em tempo real privilegiado, e gradualmente transfere para o aprendizado por reforço para aprender movimentos adaptativos sob distúrbios causados por ruídos de observação e randomização dinâmica. Nossos experimentos demonstram forte generalização no agarramento de objetos não vistos com poses aleatórias, alcançando taxas de sucesso de 97,0% em 247.786 objetos simulados e 94,6% em 512 objetos reais. Também demonstramos a robustez de nosso método a vários distúrbios, incluindo movimento de objetos não observados e forças externas, por meio de avaliações quantitativas e qualitativas. Página do Projeto: https://zdchan.github.io/Robust_DexGrasp/
Modelos de linguagem de grande escala (LLMs) têm demonstrado potencial como ferramentas para descoberta científica. Isso tem gerado um interesse crescente em seu uso em disciplinas humanísticas, como linguística histórica e estudos literários. Essas áreas frequentemente constroem argumentos com base em delimitações como gênero ou, de forma mais rígida, período temporal. Embora esforços tenham sido feitos para restringir a inferência a domínios específicos por meio de ajuste fino ou edição de modelos, propomos que a única garantia verdadeira é o pré-treinamento restrito ao domínio — tipicamente, uma proposta que demanda grande quantidade de dados e recursos computacionais. Demonstramos que técnicas eficientes de pré-treinamento podem produzir modelos úteis sobre corpora grandes demais para inspeção manual fácil, mas pequenos demais para abordagens "típicas" de LLMs. Empregamos um pipeline inovador de atribuição de datas para obter um conjunto de dados temporalmente segmentado em cinco fatias de 10 milhões de palavras cada. Treinamos duas baterias correspondentes de cinco modelos sobre esses segmentos de corpus: um com pré-treinamento eficiente e outro com ajuste fino eficiente do Llama3-8B. Descobrimos que os modelos pré-treinados são mais rápidos de treinar do que as linhas de base ajustadas e que respeitam melhor as divisões históricas de nosso corpus. Priorizar velocidade e precisão em vez de abrangência a-histórica permite diversas abordagens inovadoras para descoberta e teste de hipóteses em nossos campos de interesse. Utilizando a linguística diacrônica como campo de testes, mostramos que nosso método permite a detecção de um conjunto diversificado de fenômenos, incluindo mudanças lexicais em massa, mudanças não lexicais (gramaticais e morfológicas) e introdução/obsolescência de sentidos de palavras. Fornecemos um pipeline pronto para uso que permite a extensão de nossa abordagem para outros campos de interesse com apenas adaptações mínimas.
Neste artigo, apresentamos a tarefa compartilhada de Avaliação de Diálogo sobre a extração de opiniões estruturadas de textos jornalísticos em russo. A tarefa do concurso consiste em extrair tuplas de opinião para uma determinada frase; as tuplas são compostas por um detentor de sentimento, seu alvo, uma expressão e o sentimento do detentor em relação ao alvo. No total, a tarefa recebeu mais de 100 submissões. Os participantes experimentaram principalmente com grandes modelos de linguagem em formatos zero-shot, few-shot e fine-tuning. O melhor resultado no conjunto de testes foi obtido com o fine-tuning de um grande modelo de linguagem. Também comparamos 30 prompts e 11 modelos de linguagem de código aberto com 3 a 32 bilhões de parâmetros nas configurações 1-shot e 10-shot, e identificamos os melhores modelos e prompts.
A abordagem dominante para geração a partir de modelos de linguagem sujeitos a alguma restrição é a decodificação localmente restrita (LCD, do inglês Locally Constrained Decoding), que amostra tokens incrementalmente em cada passo de tempo de forma que a restrição nunca seja violada. Normalmente, isso é alcançado por meio de mascaramento de tokens: iterando sobre o vocabulário e excluindo tokens que não se conformam à restrição. Há dois problemas importantes nessa abordagem. (i) Avaliar a restrição em cada token pode ser proibitivamente caro — os vocabulários dos modelos de linguagem frequentemente excedem 100.000 tokens. (ii) A LCD pode distorcer a distribuição global sobre as sequências, amostrando tokens com base apenas em informações locais, mesmo que eles levem a caminhos sem saída. Este trabalho introduz um novo algoritmo que aborda ambos os problemas. Primeiro, para evitar avaliar a restrição em todo o vocabulário a cada passo da geração, propomos um algoritmo de rejeição adaptativa que tipicamente requer ordens de magnitude menos avaliações de restrição. Segundo, mostramos como esse algoritmo pode ser estendido para produzir estimativas de baixa variância e não enviesadas de pesos de importância a um custo adicional muito pequeno — estimativas que podem ser usadas de forma sólida dentro de algoritmos de Monte Carlo sequencial previamente propostos para corrigir o comportamento míope da aplicação local de restrições. Por meio de uma extensa avaliação empírica em domínios como texto-para-SQL, síntese molecular, inferência de objetivos, correspondência de padrões e JSON, mostramos que nossa abordagem é superior às baselines de última geração, suportando uma classe mais ampla de restrições e melhorando tanto o tempo de execução quanto o desempenho. Análises teóricas e empíricas adicionais mostram que a eficiência de tempo de execução do nosso método é impulsionada pelo uso dinâmico de computação, escalando com a divergência entre o modelo de linguagem não restrito e o restrito, e, como consequência, as melhorias no tempo de execução são maiores para modelos melhores.