Os desafios técnicos do primeiro Datalake municipal do mundo

Caio Jacintho, Gabriel Gazola, Judite Cypreste

14

de

July

de

2022

Neste momento, você já deve ter ouvido falar do nosso Datalake, dos projetos que o utilizam e, possivelmente, já tenha acessado o sistema para conferir os dados existentes.

No entanto, para chegar na sua publicação, um grande processo de planejamento, prototipagens e validações foi realizado. 

Neste primeiro texto, nossa equipe técnica compartilha alguns dos desafios técnicos que foram encontrados nesta jornada. Nas próximas publicações, o Escritório de Dados (ED) contará como estes obstáculos foram superados.  

A privacidade e segurança dos dados

Quando falamos de computação em nuvem, uma das maiores preocupações diz respeito à tutela e proteção dos dados armazenados.

Isso torna-se ainda mais delicado quando pensamos na quantidade de dados sensíveis que uma entidade governamental possui de seus cidadãos.

E essa foi uma das questões avaliadas, incansavelmente, pelo ED na decisão de disponibilizar tantas informações, antes inacessíveis, para o público. Além do filtro daquilo que deveria estar exposto, muitas reuniões foram feitas para discutir qual empresa seria a escolhida para hospedar nosso datalake.

Escolhendo componentes

Quanto maior o número de componentes de um sistema, mais tempo será consumido em integrações e manutenções. 

Desta forma, uma de nossas prioridades era manter nosso sistema o mais enxuto possível, na lógica do “menos é mais”. Com menos tempo investido em manutenções, a atenção da equipe pode ser direcionada a outros assuntos, aumentando a produtividade do time.

A escolha destes componentes não foi uma tarefa fácil, e o caminho para chegar nas escolhas que fizemos também foi árduo. Um assunto que será abordado em um próximo texto.

Gestão centralizada, custos distribuídos

Para facilitar a governança dos dados, é preciso manter esse gerenciamento centralizado, garantindo um bom monitoramento das informações.

Por outro lado, a concentração de todos os custos em um único órgão governamental não é uma tarefa fácil. Seja para futura divisão ou não dos gastos, a ideia de centralização pode não ser uma boa saída (todos já tivemos essa experiência dividindo uma conta de bar e sabemos que isso pode não funcionar tão bem…). 

Nesse sentido, a melhor opção é a distribuição de custos, mesmo que isto não seja de fácil implementação. Afinal, como contabilizar quanto cada órgão consumiu e separar esses valores para faturamentos diferentes? 

Garantir o legado

Criar novos projetos, seja na esfera pública ou privada, é um movimento arriscado. Sempre há a possibilidade de que, em algum momento, por qualquer motivo que seja, esses projetos possam ser descontinuados. Dado isso, tudo foi pensado, inclusive a escolha dos componentes. 

Como fazer com que o projeto “não se apague” mesmo que seja descontinuado? Como garantir que cada órgão possa administrar seus dados caso alguém decida interromper o Datalake?

Com grandes iniciativas, vêm grandes responsabilidades…