O Governo do Piauí deu um passo inédito na história da tecnologia brasileira: lançou, em 25 de junho de 2025, no Palácio de Karnak, o SoberanIA, o primeiro modelo de linguagem de inteligência artificial desenvolvido por um estado brasileiro, com dados públicos e estrutura 100% nacional.
Criado para compreender e dialogar com a diversidade linguística, cultural e social do Brasil, o SoberanIA foi projetado para auxiliar o poder público, melhorar o atendimento ao cidadão e apoiar a formulação de políticas públicas com mais eficiência, inclusão e transparência.

O que é o SoberanIA
O SoberanIA é um sistema de inteligência artificial baseado em um modelo de linguagem — tecnologia capaz de compreender e gerar textos de forma similar ao ser humano. A diferença deste projeto é que ele está sendo treinado com dados do Brasil, em português, respeitando a realidade e os valores da população.
O modelo é alimentado com bases de dados públicas, éticas, representativas e auditáveis. Todo o processamento é feito em infraestrutura brasileira, garantindo segurança, autonomia e soberania digital.
O nome SoberanIA une os conceitos de soberania tecnológica e inteligência artificial pública, sendo um projeto pioneiro que pode servir de modelo para outros estados e para o Governo Federal.
Por que é importante
Hoje, a maioria dos grandes modelos de inteligência artificial no mundo é treinada em inglês, com pouquíssima representatividade de outras línguas. Apenas 0,09% dos dados usados para treinar IAs globais estão em português. Isso gera barreiras para o uso da tecnologia no Brasil e reduz a capacidade de atender às nossas especificidades.
O SoberanIA foi criado para quebrar essa lógica. Ele entende o idioma, reconhece o jeito de falar, as expressões regionais, a cultura e os desafios do Brasil.
Fases de implementação
O projeto do SoberanIA está sendo implementado em três etapas, entre fevereiro de 2025 e dezembro de 2026:
Soberano I Preview (junho de 2025)
- Dataset com 150 bilhões de tokens
- Dados públicos
- 50 pesquisadores envolvidos
- Acesso via API de uso interno
Soberano I (até dezembro de 2025)
- Dataset com 500 bilhões de tokens
- Dados públicos, de governo e parceiros
- 100 pesquisadores
- Acesso via API para órgãos de governo
- Aplicações:
- Piauí Oportunidades: chat para orientação profissional
- Auxiliar de Redação Oficial: apoio na produção de documentos públicos
- Assistente Gov.Pi Cidadão: atendimento digital ao cidadão
- Assistente Gov.Pi Empresas: suporte a empreendedores
Soberano II (até dezembro de 2026)
- Dataset com 1 trilhão de tokens
- Inclusão de dados de países lusófonos
- 200 pesquisadores
- Acesso público via API
- Modelos especializados para as áreas de:
- Saúde
- Educação
- Segurança e Justiça
- Gestão Pública
- Capacidade multimodal (texto, imagem e som)
A base de dados Jabuticaba
O SoberanIA se destaca também por ser o primeiro modelo treinado com o dataset Jabuticaba, uma coleção extensa e única de conteúdos em português, com mais de 130 bilhões de palavras (ou tokens). Essa base inclui jornalismo, literatura, música, poesia, Wikipedia, conteúdos jurídicos e muito mais.
O diferencial da Jabuticaba está em ser um corpus consistido de palavras limpas e desduplicadas, ou seja, sem repetições desnecessárias e prontas para uso, inclusive comercial. Isso garante mais precisão, ética e eficiência no treinamento da inteligência artificial.
Pioneirismo do Piauí
O SoberanIA é uma iniciativa inédita entre os estados brasileiros e insere o Piauí na vanguarda da transformação digital. O projeto foi idealizado pela Secretaria de Inteligência Artificial, Economia Digital, Ciência, Tecnologia e Inovação (SIA), com execução do Piauí Instituto de Tecnologia (PIT) e apoio da Empresa de Tecnologia da Informação do Piauí (ETIPI).
Conta ainda com parceria do Ministério da Ciência, Tecnologia e Inovação (MCTI) e articulação com instituições nacionais que integram o ecossistema de inovação e ciência de dados.
O SoberanIA também se insere no Plano Brasileiro de Inteligência Artificial, ao promover valores fundamentais como:
- Inclusão: compreende os sotaques, expressões e culturas diversas do Brasil
- Transparência e ética: respeita os direitos fundamentais e pode ser auditado pela sociedade
- Utilidade pública: serve para melhorar políticas públicas e serviços ao cidadão
- Soberania tecnológica: funciona em servidores nacionais e com dados brasileiros
- Abertura: é construído com base em modelos abertos, que podem ser adaptados, auditados e compartilhados
Glossário
Inteligência Artificial (IA) – Tecnologia que simula capacidades humanas como aprender, compreender e tomar decisões.
Modelo de Linguagem (LLM) – Um tipo de IA treinado para processar e gerar texto, como se fosse uma pessoa escrevendo.
Token – Unidade mínima de texto usada no treinamento de IA. Pode ser uma palavra ou parte dela.
Dataset – Conjunto estruturado de dados usado para treinar e melhorar modelos de IA.
Corpus – Coletânea de textos organizados e utilizados como base para pesquisas ou treinamentos linguísticos.
API (Interface de Programação de Aplicações) – Ferramenta que permite que diferentes sistemas se conectem, como uma ponte entre a IA e outros aplicativos.
Acesse: www.soberania.ai
Saiba mais:
- Em encontro com Lula, Rafael Fonteles assegura investimentos e apresenta soluções tecnológicas implantadas no Piauí
- Rafael Fonteles destaca importância da economia digital para o desenvolvimento do Piauí
- SoberanIA: Rafael Fonteles anuncia lançamento da primeira IA com base de dados em português para fevereiro
- Piauí anuncia data de lançamento do SoberanIA, 1º modelo de IA treinado com base de dados em português e desenvolvido no estado
- Piauí lança SoberanIA, inteligência artificial treinada para entender sotaques, cultura e dados públicos