Secretaria de Inteligência Artificial, Economia Digital, Ciência, Tecnologia e Inovação – SIA

Sobre o projeto

O Governo do Piauí deu um passo inédito na história da tecnologia brasileira: lançou, em 25 de junho de 2025, no Palácio de Karnak, o SoberanIA, o primeiro modelo de linguagem de inteligência artificial desenvolvido por um estado brasileiro, com dados públicos e estrutura 100% nacional.

Criado para compreender e dialogar com a diversidade linguística, cultural e social do Brasil, o SoberanIA foi projetado para auxiliar o poder público, melhorar o atendimento ao cidadão e apoiar a formulação de políticas públicas com mais eficiência, inclusão e transparência.

 

 

O que é o SoberanIA

O SoberanIA é um sistema de inteligência artificial baseado em um modelo de linguagem — tecnologia capaz de compreender e gerar textos de forma similar ao ser humano. A diferença deste projeto é que ele está sendo treinado com dados do Brasil, em português, respeitando a realidade e os valores da população.

O modelo é alimentado com bases de dados públicas, éticas, representativas e auditáveis. Todo o processamento é feito em infraestrutura brasileira, garantindo segurança, autonomia e soberania digital.

O nome SoberanIA une os conceitos de soberania tecnológica e inteligência artificial pública, sendo um projeto pioneiro que pode servir de modelo para outros estados e para o Governo Federal.

Por que é importante

Hoje, a maioria dos grandes modelos de inteligência artificial no mundo é treinada em inglês, com pouquíssima representatividade de outras línguas. Apenas 0,09% dos dados usados para treinar IAs globais estão em português. Isso gera barreiras para o uso da tecnologia no Brasil e reduz a capacidade de atender às nossas especificidades.

O SoberanIA foi criado para quebrar essa lógica. Ele entende o idioma, reconhece o jeito de falar, as expressões regionais, a cultura e os desafios do Brasil.

Fases de implementação

O projeto do SoberanIA está sendo implementado em três etapas, entre fevereiro de 2025 e dezembro de 2026:

Soberano I Preview (junho de 2025)

  • Dataset com 150 bilhões de tokens
  • Dados públicos
  • 50 pesquisadores envolvidos
  • Acesso via API de uso interno

Soberano I (até dezembro de 2025)

  • Dataset com 500 bilhões de tokens
  • Dados públicos, de governo e parceiros
  • 100 pesquisadores
  • Acesso via API para órgãos de governo
  • Aplicações:
    • Piauí Oportunidades: chat para orientação profissional
    • Auxiliar de Redação Oficial: apoio na produção de documentos públicos
    • Assistente Gov.Pi Cidadão: atendimento digital ao cidadão
    • Assistente Gov.Pi Empresas: suporte a empreendedores

Soberano II (até dezembro de 2026)

  • Dataset com 1 trilhão de tokens
  • Inclusão de dados de países lusófonos
  • 200 pesquisadores
  • Acesso público via API
  • Modelos especializados para as áreas de:
    • Saúde
    • Educação
    • Segurança e Justiça
    • Gestão Pública
  • Capacidade multimodal (texto, imagem e som)

A base de dados Jabuticaba

O SoberanIA se destaca também por ser o primeiro modelo treinado com o dataset Jabuticaba, uma coleção extensa e única de conteúdos em português, com mais de 130 bilhões de palavras (ou tokens). Essa base inclui jornalismo, literatura, música, poesia, Wikipedia, conteúdos jurídicos e muito mais.

O diferencial da Jabuticaba está em ser um corpus consistido de palavras limpas e desduplicadas, ou seja, sem repetições desnecessárias e prontas para uso, inclusive comercial. Isso garante mais precisão, ética e eficiência no treinamento da inteligência artificial.

Pioneirismo do Piauí

O SoberanIA é uma iniciativa inédita entre os estados brasileiros e insere o Piauí na vanguarda da transformação digital. O projeto foi idealizado pela Secretaria de Inteligência Artificial, Economia Digital, Ciência, Tecnologia e Inovação (SIA), com execução do Piauí Instituto de Tecnologia (PIT) e apoio da Empresa de Tecnologia da Informação do Piauí (ETIPI).

Conta ainda com parceria do Ministério da Ciência, Tecnologia e Inovação (MCTI) e articulação com instituições nacionais que integram o ecossistema de inovação e ciência de dados.

O SoberanIA também se insere no Plano Brasileiro de Inteligência Artificial, ao promover valores fundamentais como:

  • Inclusão: compreende os sotaques, expressões e culturas diversas do Brasil
  • Transparência e ética: respeita os direitos fundamentais e pode ser auditado pela sociedade
  • Utilidade pública: serve para melhorar políticas públicas e serviços ao cidadão
  • Soberania tecnológica: funciona em servidores nacionais e com dados brasileiros
  • Abertura: é construído com base em modelos abertos, que podem ser adaptados, auditados e compartilhados

 


Glossário

Inteligência Artificial (IA) – Tecnologia que simula capacidades humanas como aprender, compreender e tomar decisões.

Modelo de Linguagem (LLM) – Um tipo de IA treinado para processar e gerar texto, como se fosse uma pessoa escrevendo.

Token – Unidade mínima de texto usada no treinamento de IA. Pode ser uma palavra ou parte dela.

Dataset – Conjunto estruturado de dados usado para treinar e melhorar modelos de IA.

Corpus – Coletânea de textos organizados e utilizados como base para pesquisas ou treinamentos linguísticos.

API (Interface de Programação de Aplicações) – Ferramenta que permite que diferentes sistemas se conectem, como uma ponte entre a IA e outros aplicativos.

 


 

Acesse: www.soberania.ai

 


 


 

Saiba mais:

 

 

 

Relacionados

[show-relacionados]

Documentos

[show-anexos]
[show-historicos]

Notícias e Fotos