Ir para o conteúdo

Documentação do Projeto de Engenharia de Dados UniSATC

Bem-vindo à documentação oficial do projeto Engenharia de Dados UniSATC! Este projeto foi desenvolvido para demonstrar as funcionalidades e práticas de Data Engineering por meio da integração eficiente de infraestrutura, ingestão, processamento e análise de dados em larga escala. Aqui você encontrará uma visão completa do pipeline, da estrutura de arquivos a componentes detalhados.


Estrutura da Documentação

Infraestrutura como Código (IaC)

A infraestrutura do nosso projeto foi provisionada usando Terraform no Azure, destacando: * Azure Data Lake Storage Gen2 (ADLS): Configurações para provisionar o Data Lake utilizado no pipeline. * Azure Databricks Workspace: Detalhes sobre a criação de um ambiente Databricks empresarial, incluindo VNet Injection para segurança.

Acesse a documentação de IaC aqui.


Projeto Principal (projeto_ed_satc)

O núcleo do nosso projeto é o pacote Python projeto_ed_satc. Ele encapsula a lógica para integrar MongoDB com ADLS e também contém os Notebooks Databricks que implementam as camadas do pipeline Lakehouse (Bronze, Silver, Gold).

Acesse a documentação do pacote principal aqui.