Privacidade: Como proteger contra modelos mal intencionados

Os pesquisadores da OpenAI colaboraram com o Centro de Segurança e Tecnologia Emergente da Universidade Georgetown e com o Observatório da Internet da Stanford para investigar como os grandes modelos de linguagem podem ser mal utilizados para fins de desinformação.

A colaboração incluiu um workshop em outubro de 2021, que reuniu 30 pesquisadores de desinformação, especialistas em aprendizado de máquina e analistas de políticas e culminou em um relatório co-autorado baseado em mais de um ano de pesquisa.

Este relatório apresenta as ameaças que os modelos de linguagem representam para o ambiente informacional se utilizados para reforçar campanhas de desinformação e introduz um quadro para analisar as possíveis mitigações. Leia o relatório completo aqui.

À medida que os modelos de linguagem gerativos melhoram, eles abrem novas possibilidades em campos tão diversos quanto saúde, direito, educação e ciência.

Mas, como acontece com qualquer nova tecnologia, vale a pena considerar como eles podem ser mal utilizados.

Contra o pano de fundo das operações de influência online recorrentes – esforços ocultos ou enganosos para influenciar as opiniões de uma audiência-alvo – o artigo pergunta:

Como os modelos de linguagem podem mudar as operações de influência e quais medidas podem ser tomadas para mitigar essa ameaça?

O trabalho reuniu diferentes backgrounds e especialidades – pesquisadores com base nas táticas, técnicas e procedimentos das campanhas de desinformação online, bem como especialistas em aprendizado de máquina na área de inteligência artificial gerativa – para basear nossa análise nas tendências dos dois domínios.

Acreditamos que é fundamental analisar a ameaça das operações de influência habilitadas por IA e esboçar passos que podem ser tomados antes que os modelos de linguagem sejam usados para operações de influência em larga escala.

Esperamos que nossa pesquisa informe os formuladores de políticas que são novos nos campos de IA ou desinformação e estimule pesquisas aprofundadas em estratégias de mitigação potenciais para desenvolvedores de IA, formuladores de políticas e pesquisadores de desinformação.

Como a IA pode afetar as operações de influência?

Quando os pesquisadores avaliam as operações de influência, eles consideram os atores, comportamentos e conteúdo. A disponibilidade generalizada de tecnologia alimentada por modelos de linguagem tem o potencial de impactar todas as três facetas:

Atores: os modelos de linguagem podem ser usados para automatizar a criação de conteúdo, permitindo que os atores da desinformação criem conteúdo mais rápido e em maior quantidade.
Comportamentos: os modelos de linguagem podem ser usados para automatizar a segmentação de público-alvo e a personalização do conteúdo, tornando as campanhas de desinformação mais eficazes.
Conteúdo: os modelos de linguagem podem ser usados para gerar conteúdo falso que é difícil de detectar, tornando as campanhas de desinformação mais sofisticadas.

Privacidade: Desconhecidos Críticos

Muitos fatores impactam se e em que medida os modelos de linguagem serão usados em operações de influência. Nosso relatório mergulha em muitas dessas considerações. Por exemplo:

Quais novas capacidades de influência surgirão como efeito colateral de pesquisas ou investimentos comerciais bem-intencionados?
Quais atores farão investimentos significativos em modelos de linguagem?
Quando ferramentas fáceis de usar para gerar texto se tornarão disponíveis publicamente?
Será mais eficaz projetar modelos de linguagem específicos para operações de influência, em vez de aplicar modelos genéricos?
Desenvolverão normas que desincentivam os atores que lutam com operações de influência habilitadas por IA?
Como se desenvolverão as intenções dos atores?

Embora esperemos ver a difusão da tecnologia, bem como melhorias na usabilidade, confiabilidade e eficiência dos modelos de linguagem, muitas questões sobre o futuro permanecem sem resposta. Porque essas são possibilidades críticas que podem mudar como os modelos de linguagem podem impactar as operações de influência, a pesquisa adicional para reduzir a incerteza é altamente valiosa.

Se uma Mitigação Existe, é Desejável?

Apenas porque uma mitigação poderia reduzir a ameaça das operações de influência habilitadas por IA, não significa que deve ser implementada. Algumas mitigações carregam seus próprios riscos negativos. Outros podem não ser viáveis. Embora não endossemos ou classifiquemos explicitamente as mitigações, o artigo fornece um conjunto de perguntas orientadoras para os formuladores de políticas e outros considerarem:

Viabilidade Técnica: A mitigação proposta é viável tecnicamente? Ela exige mudanças significativas na infraestrutura técnica?

Viabilidade Social: A mitigação é viável do ponto de vista político, legal e institucional? Ela exige coordenação cara, os principais atores estão incentivados a implementá-la e é aplicável às leis, regulamentos e padrões da indústria existentes?

Riscos Negativos: Quais são os possíveis impactos negativos da mitigação e quão significativos eles são?

Impacto: Quão eficaz seria uma mitigação proposta em reduzir a ameaça?

Esperamos que este quadro estimule ideias para outras estratégias de mitigação e que as perguntas orientadoras ajudem as instituições relevantes a começar a considerar se as várias mitigações valem a pena serem perseguidas.

Este relatório está longe de ser a última palavra sobre IA e o futuro das operações de influência. Nosso objetivo é definir o ambiente atual e ajudar a estabelecer uma agenda para futuras pesquisas. Para mais, leia o relatório completo aqui.