VEJA Comprova

Por Tulio Kruse

Jornalismo contra a desinformação

Política

Áudio falso de Bonner chamando Lula de bandido usou ferramenta de deepfake

Vídeo de 14 segundos, que mostra o âncora do JN falando em 'encontro de dois bandidos' e imagem de Lula e Alckmin, manipulou voz do jornalista

Por Redação Atualizado em 2 ago 2022, 17h28 - Publicado em 2 ago 2022, 11h45

Áudio utilizou ferramenta de deepfake para simular voz do âncora William Bonner (- Projeto Comprova/Reprodução)

É falso o vídeo publicado no TikTok que mostra o âncora do Jornal Nacional William Bonner chamando de ladrão Luiz Inácio Lula da Silva (PT) e Geraldo Alckmin (PSB), candidatos a presidente e vice, respectivamente, na mesma chapa nas eleições deste ano. Ao Comprova, o jornalista e produtor de deepfakes Bruno Sartori explicou que a voz atribuída a Bonner na verdade foi produzida sinteticamente a partir de um conteúdo em texto.

Conteúdo investigado: Vídeo de 14 segundos mostra o âncora do Jornal Nacional William Bonner dizendo: “O encontro de dois bandidos”. A gravação corta para imagens de Lula e Alckmin se abraçando, com a narração do jornalista: “Perdão, imagem errada. A imagem seria de outro ladrão, digo, de um ladrão de verdade”.

Onde foi publicado: TikTok.

Conclusão do Comprova: Vídeo publicado no TikTok em que William Bonner supostamente chama Lula (PT) e Geraldo Alckmin (PSB) de bandidos é um deepfake, conteúdo manipulado com ferramentas de inteligência artificial em que pessoas aparecem dizendo ou fazendo coisas que nunca fizeram.

Ao comparar a voz com os movimentos da boca do jornalista, é possível perceber que há uma dissincronia. Através de busca reversa da imagem de Bonner no vídeo foi possível identificar que o post utilizou trecho da edição do Jornal Nacional do dia 12 de julho de 2021. A reportagem diz respeito ao arquivamento pela Justiça Eleitoral de São Paulo de uma das ações da Lava-Jato contra Delúbio Soares, ex-tesoureiro do PT. Em nenhum momento do trecho utilizado pelo vídeo aqui investigado o apresentador fala sobre Lula ou Alckmin.

Procurado pelo Comprova para analisar o vídeo verificado, o jornalista e produtor de deepfakes na internet Bruno Sartori explicou que a voz atribuída a Bonner foi produzida a partir da técnica Text to Speech (TTS), que gera áudios sinteticamente a partir de um conteúdo em texto. Sartori se popularizou pela produção de vídeos de humor que utilizam a técnica, e frequentemente publica conteúdos para alertar sobre as possibilidades de criação e edição de vídeos por meio de deepfakes.

No conteúdo aqui verificado, a maioria dos comentários são risadas. No entanto, parte dos usuários não entendeu se o vídeo era de fato uma montagem. Por ser um conteúdo que sofreu edições para mudar o seu significado original, o Comprova o classificou como falso.

Continua após a publicidade

Alcance da publicação: O Comprova investiga os conteúdos suspeitos de maior alcance nas redes sociais. Até o dia 1º de agosto, o vídeo teve 2,3 milhões de visualizações, 48,6 mil curtidas, 1,8 mil comentários e 37,6 mil compartilhamentos.

O que diz o autor da publicação: Não foi possível entrar em contato com o autor do post pois o TikTok não permite o envio de mensagens. Diante disso, o Comprova pesquisou pelo perfil do autor em outras redes sociais e fez buscas reversas de imagem, utilizando fotos do homem, mas não encontrou resultados.

Como verificamos: Para verificar o conteúdo, o Comprova entrou em contato com Bruno Sartori, jornalista e produtor de deepfakes na internet, e solicitou que ele analisasse o vídeo investigado. A equipe conversou também com Anderson de Rezende Rocha, cientista da computação, estudioso dos deepfakes e diretor do Instituto de Computação da Universidade Estadual de Campinas (Unicamp).

Também foram feitas buscas reversas das imagens de William Bonner e de Lula e Alckmin presentes no vídeo aqui analisado.

Para tentar localizar o autor da postagem, foram feitas buscas pelo nome do seu perfil em outras redes sociais e no Google. Por fim, a equipe também assistiu aos outros vídeos postados pelo usuário no TikTok.

Continua após a publicidade

Vídeos originais usados na postagem

O vídeo tem 14 segundos e se inicia com uma tela preta com a inscrição “O encontro de dois bandidos” e emojis de risadas. Segue para a abertura do Jornal Nacional com a narração de William Bonner: “O encontro de dois bandidos”. O vídeo corta para imagens de Lula e Alckmin se abraçando, enquanto o jornalista diz: “Perdão, imagem errada. A imagem seria de outro ladrão, digo, de um ladrão de verdade”.

É perceptível que a voz não está sincronizada com os movimentos da boca de Bonner. Com base na leitura labial, também é possível ver que, no primeiro trecho da fala de Bonner (em que o áudio diz: “O encontro de dois bandidos”), o jornalista na verdade está falando: “A Justiça Eleitoral”.

Por meio de busca reversa da imagem de William Bonner no vídeo foi possível identificar que a postagem utilizou trecho da edição do Jornal Nacional do dia 12 de julho de 2021. Bonner está com a mesma gravata verde do vídeo do TikTok e, a partir de 10 minutos e 49 segundos do link da transmissão, ele diz: “A Justiça Eleitoral de São Paulo arquivou por prescrição uma das ações da Lava-Jato contra o ex-tesoureiro do PT, Delúbio Soares”. Pelos movimentos do lábio do apresentador, é possível verificar que o primeiro trecho usado no vídeo do TikTok corresponde à fala “A Justiça Eleitoral”. O segundo trecho usado na postagem corresponde a “Por prescrição uma das ações da Lava-Jato contra o ex-tesoureiro”.

Áudio falso de Bonner chamando Lula de bandido usou ferramenta de deepfake — Captura de tela do vídeo investigado ()

Já as imagens de Lula e Alckmin se abraçando utilizadas no vídeo investigado foram gravadas em 14 de abril de 2022, durante evento com centrais sindicais em São Paulo. A publicação no TikTok usou vídeo da reportagem do UOL Notícias sobre o evento.

Continua após a publicidade

Ferramenta de criação de voz

De acordo com o jornalista e produtor de deepfakes na internet Bruno Sartori, a voz atribuída a William Bonner no vídeo aqui analisado foi feita a partir de uma técnica chamada Text to Speech (TTS), que é capaz de gerar áudios sinteticamente a partir de um conteúdo em texto. Na análise, Sartori reconheceu semelhanças entre o áudio do vídeo aqui analisado e um conteúdo criado por ele mesmo, em que ele também “criou” uma voz idêntica a de William Bonner a partir de deepfakes. Assim, segundo Sartori, o vídeo que é objeto dessa verificação também é um deepfake, tecnologia que manipula áudio e vídeos por meio de ferramentas de inteligência artificial.

Como o conteúdo adulterado é apenas de áudio, Sartori explica que não é possível fazer uma espécie de “contraprova”, ou seja, um vídeo comparando o material original com o modificado apontando as falhas e as provas de que o material passou por alterações. Ele costuma produzir esse tipo de conteúdo em casos como o do vídeo de deepfake envolvendo a cantora Anitta, que viralizou na última semana. “A produção dessa contraprova é possível apenas em materiais que envolvem adulteração de imagens”, comenta.

Ele exemplificou ainda que a técnica utilizada pelo autor do vídeo aqui analisado foi similar a que ele utilizou em um conteúdo com a voz da ex-presidente Dilma Rousseff. “A partir de um banco com dezenas de áudios do William Bonner falando, o computador gera um novo áudio, do zero, baseado no que foi escrito em texto”, acrescenta.

Sartori ainda afirmou que hoje já existem sites disponíveis ao público capazes de produzir áudios sintéticos de pessoas famosas a partir de conteúdos em texto.

Continua após a publicidade

De acordo com Anderson de Rezende Rocha, cientista da computação, estudioso dos deepfakes e diretor do Instituto de Computação da Unicamp, as falsificações já existem há bastante tempo, o que muda em relação aos deepfakes é que agora esses conteúdos são criados por inteligência artificial, e não por um ser humano.

“A inteligência artificial permite que você consiga criar falsificações sem precisar da supervisão de um humano, que é substituído por uma técnica chamada ‘generative adversarial network’ (rede adversarial regenerativa, uma rede de inteligência artificial). Essa rede normalmente tem muitas camadas e parâmetros, e justamente daí sai o nome ‘deep’ [profundo, em inglês]. ‘Deepfake’ então vem da criação de conteúdo a partir de redes desse tipo, tanto para áudio quanto para vídeo e imagem”, explica.

Segundo Rocha, como os algoritmos utilizados pelos primeiros deepfakes não eram muito avançados, havia pistas que podiam ser procuradas para identificar se aquele conteúdo era uma falsificação. Por exemplo, no caso de imagens e vídeos, era feita análise de movimento dos olhos (ver se a pessoa estava piscando ou não) e próximo aos lábios, e se a iluminação na cena casava com a próxima ao rosto. Isso porque, conforme o pesquisador, normalmente nessas regiões os algoritmos geravam algumas inconsistências.

No caso de conteúdos em áudio, Rocha diz que, no geral, eram analisados o pitch, a modulação da voz e as transições entre fonemas.

“O problema é que como esses algoritmos de inteligência artificial vão melhorando cada vez mais com o tempo, à medida que eles veem mais dados e mais exemplos, esse tipo de pista já não é mais trivial. Hoje não é necessariamente fácil identificar se um vídeo é um deepfake ou não. Se você ouve um áudio, a não ser que você seja uma pessoa que entenda bastante de áudio, você não vai encontrar essas inconsistências facilmente. Então hoje em dia a gente tem que utilizar a própria inteligência artificial para nos ajudar a identificar esse tipo de falsificação.”

Continua após a publicidade

Em relação ao Text to Speech (TTS), Rocha afirma que existem pelo menos duas modalidades. Há o TTS que utiliza um algoritmo capaz de receber um texto de entrada e verbalizar aquele conteúdo para que as pessoas possam ouvir, como os audiobooks, por exemplo. Esse tipo de TTS, conforme Rocha, é normalmente usado com fins de assistência pessoal.

E há também uma técnica de TTS chamada “puppeting”, que é quando um algoritmo gera um texto e faz uma voz falá-lo. “Puppeting” vem da palavra puppet em inglês, que significa fantoche. “É como se você estivesse colocando palavras na boca de uma pessoa. Aí você vai imitar toda a questão do tom e formato da voz, o rosto vai ter que se mexer de acordo. Essa técnica de falsificação tem sido bastante utilizada muitas vezes com fins humorísticos ainda, mas também já há casos em que isso é utilizado justamente para fazer pessoas falarem o que elas não querem e isso é divulgado depois como se fosse um vídeo real.”

Outros vídeos postados pela mesma conta

O perfil do TikTok responsável pelo post aqui investigado se descreve na rede como “locutor e radialista” e “pregador da palavra de Deus”. Além de vídeos com teor religioso, há outros três vídeos semelhantes ao que foi aqui analisado. São montagens com a voz de William Bonner, sempre fazendo referência a Lula ou ao atual presidente, Jair Bolsonaro (PL), em tom de sátira e brincadeira, o que reforça a ideia de que a postagem aqui analisada era originalmente uma peça de humor, que não foi compreendida assim por alguns usuários.

No conteúdo aqui investigado, a maior parte dos comentários são risadas. Apesar de diversas pessoas comentarem, em tom de ironia, que Bonner e a Globo “falaram a verdade ao menos uma vez” e elogiarem a montagem, algumas pessoas ficaram em dúvida se o conteúdo havia sido editado ou não, como mostram as imagens abaixo:

Em outro vídeo postado pela mesma conta, Bonner aparece na bancada do Jornal Nacional dizendo que “a rede Globo reconhece o presidente Jair Messias Bolsonaro o melhor presidente da história desse país”, o que nunca ocorreu. É possível novamente observar a falta de sincronia entre a voz e o movimento da boca do apresentador. Em outro vídeo, a voz de William Bonner é sobreposta a imagens de uma multidão vestida de verde e amarelo comemorando e a frase “Em outubro receberemos essa notícia”. A voz diz: “2 de outubro de 2022 às sete e trinta e dois. Acabamos de receber a notícia que todos esperavam. Jair Messias Bolsonaro é reeleito presidente do Brasil”.

Por que investigamos: O Comprova investiga conteúdos suspeitos sobre a pandemia, eleições presidenciais e políticas públicas do governo federal que viralizaram nas redes sociais. O vídeo aqui verificado cita o ex-presidente e candidato à presidência pelo PT, Lula, e seu vice, Geraldo Alckmin. Conteúdos falsos e enganosos são prejudiciais ao processo democrático porque atingem o direito do eleitor de fazer sua escolha baseada em fatos, não em boatos e desinformação.

Outras checagens sobre o tema: Em verificações anteriores envolvendo adulteração de áudio e montagens, o Comprova mostrou que com áudio falso, vídeo engana ao sugerir que ex-governador da Paraíba “humilhou” Lula e elogiou Bolsonaro, que vídeo falso faz montagem de Lula declarando voto em Bolsonaro e que post adultera áudio e mente ao afirmar que Lula foi xingado em Caruaru.

A investigação deste conteúdo foi feita por piauí e Plural Curitiba, e a verificação por Folha de S. Paulo, Metrópoles, SBT, Correio Braziliense e O Estado de S. Paulo.