O plágio encoberto em textos do ChatGPT

Leandro Rocha 20 de março de 2023 Acontece, Associados, Todas as Notícias 1,645 Visualizações

Artigos Relacionados

Pesquisadores da Universidade do Estado da Pensilvânia (Penn State), nos Estados Unidos, investigaram até que ponto modelos de linguagem natural como o ChatGPT, que usam inteligência artificial para formular uma prosa realista e articulada em resposta a perguntas de usuários, conseguem gerar conteúdo que não se caracterize como plágio. Isso porque esses sistemas processam, memorizam e reproduzem informações preexistentes, baseadas em gigantescos volumes de dados disponíveis na internet, tais como livros, artigos científicos, páginas da Wikipédia e notícias.

O grupo analisou 210 mil textos gerados pelo programa GPT-2, da startup OpenAI, criadora do ChatGPT, em busca de indícios de três diferentes tipos de plágio: a transcrição literal, obtida copiando e colando trechos; a paráfrase, que troca palavras por sinônimos a fim de obter resultados ligeiramente diferentes; e o uso de uma ideia elaborada por outra pessoa sem mencionar sua autoria, mesmo que formulada de maneira diferente.

A conclusão do estudo foi de que todos os três tipos de cópia estão presentes. E, quanto maior é o conjunto de parâmetros usados para treinar os modelos, mais frequentemente a má conduta foi registrada. A análise utilizou dois tipos de modelos – os pré-treinados, baseados em um amplo espectro de dados, e os de ajuste fino, aprimorados pela equipe da PennState a fim de concentrar e refinar a análise em um conjunto menor de documentos científicos e jurídicos, artigos acadêmicos relacionados à Covid-19 e solicitações de patentes. A escolha desse tipo de conteúdo não foi ocasional – nesses textos, a prática de plágio é considerada muito problemática e não costuma ser tolerada.

No material gerado pelos pré-treinados, a ocorrência mais prevalente foi de transcrições literais, enquanto nos de ajuste fino eram mais comuns paráfrases e apropriação de ideias sem referência à fonte. “Constatamos que o plágio aparece com diferentes sabores”, disse um dos autores do trabalho, Dongwon Lee, cientista da computação da Faculdade de Tecnologia e Ciências da Informação da Penn State, de acordo com o serviço de notícias Eurekalert. Os achados serão divulgados com mais detalhes na Web Conference, um evento da ACM que acontece entre 30 de abril e 4 de maio na cidade de Austin, nos Estados Unidos.

O ChatGPT é um entre vários sistemas baseados em inteligência artificial e ganhou grande notoriedade porque foi disponibilizado para uso público. Desde novembro, já foi testado por mais de 100 milhões de pessoas e impressionou por sua capacidade de gerar textos coerentes que mimetizam a escrita dos seres humanos (ver Pesquisa FAPESP n° 325). Uma das polêmicas que levantou envolveu justamente a originalidade de suas respostas e o receio de que se transforme em uma fonte de má conduta acadêmica.

“As pessoas perseguem grandes modelos de linguagem porque, quanto maior um modelo fica, mais suas habilidades aumentam”, disse o autor principal do trabalho, Jooyoung Lee, estudante de doutorado na Faculdade de Ciências e Tecnologia da Informação da Penn State. Ferramentas de escrita de inteligência artificial conseguem criar respostas únicas e individualizadas a perguntas apresentadas por usuários, mesmo extraindo as informações de um banco de dados. Essa habilidade, contudo, não livra a ferramenta de ser uma fonte de plágio, mesmo em formatos mais difíceis de detectar. “Ensinamos os modelos a imitar a escrita humana, mas não os ensinamos a não plagiar”, afirmou Lee.

Várias ferramentas estão sendo desenvolvidas para detectar conteúdo gerado por softwares de inteligência artificial. A própria OpenAI desenvolveu um programa capaz de apontar textos feitos por robôs, (disponível em openai-openai-detector.hf.space/). Há outras do gênero na internet, como o Writer AI Content Detector (writer.com/ai-content-detector/) e o Content at Scale (contentatscale.ai/ai-content-detector/). Como os sistemas de linguagem natural estão em desenvolvimento, também será necessário atualizar continuamente a tecnologia para rastrear sua produção.

Associação Brasileira de Editores Científicos – ABEC Site oficial da ABEC Brasil

O plágio encoberto em textos do ChatGPT

Artigos Relacionados

Sobre Leandro Rocha

Veja também

Parecer ABEC Brasil 2023

Um comentário

ABEC lança livro como tema “Ciência aberta para editores científicos”

ABEC inicia participação no Consórcio Brasileiro ORCID

ABEC adquire nova sala comercial para ampliação da sua sede

ABEC e CSE publicam obra sobre “Integridade em publicações de periódicos científicos”

Inauguração da Sede Própria da ABEC Brasil

Solenidade de Posse da Diretoria e Conselhos Deliberativo e Fiscal

Elsevier Publishing Campus

Collaborative Institucional Training Iniciative (CITI) Program

Estabelecido o Memorando de Entendimento entre a ABEC e o CSE para criação do Programa para Capacitação em Publicação Científica (ProCPC)

Acordo com o iThenticate

Acordo com o Crossref

ABEC adquire sede própria

Novo estatuto

ABEC ganha site com domínio próprio

Fundação da ABEC

Estudo mostra como o desmatamento e queimadas influenciam no clima do Centro-Sul do Brasil

ABEC Brasil apoia ajustes em Chamada CNPq/CAPES para apoio aos periódicos nacionais