Skip to content

Blog

Seja bem vindo ao nosso blog, a seguir confira nossas últimas postagens.

Proteção de dados no Databricks

Databricks e segurança de dados

Databricks é uma plataforma de unificada para construir, implementar, compartilhar e manter soluções de IA, análise e engenharia de dados a nível empresarial. A plataforma integra-se com o seu provedor de serviço de nuvem, gerenciando infraestrutura em seu nome. Para que isso ocorra em conformidade com as leis de proteção de dados, como a LGPD e a GDPR, a Databricks opera com base em seis princípios de segurança, privacidade e conformidade:

  1. Gerenciamento de identidade e acesso usando o menor privilégio, incluindo provisionamento, governança de identidade, autenticação, controle de acesso e federação de identidade.
  2. Proteção aos dados em trânsito e em repouso (in transit and at rest), através da classificação dos dados em níveis de sensibilidade, usando criptografia, tokenização e controle de acesso.
  3. Segurança e monitoramento da rede através de serviços dos provedores de nuvem, por exemplo.
  4. Modelo de responsabilidade compartilhada entre a Databricks, o usuário e a plataforma de nuvem utilizada, de modo que cada um é responsável por manter a segurança onde compete.
  5. Observância da privacidade de dados e das necessidades dos setores de compliance, favorecendo a automação ante a multiplicidade de marcos regulatórios.
  6. Monitoramento constante da segurança do sistema em busca de vulnerabilidades e incidentes, o que pode ser feito automaticamente com ferramentas de CI/CD.

Cada princípio pode ser associado a um conjunto de medidas. O gerenciamento de identidade e acesso usando o menor privilégio, por exemplo, pode ser concretizado através: a) do uso de service principals para executar jobs em produção; b) da limitação dos direitos de criação de clusters; c) do armazenamento e uso de segredos etc. Todas essas práticas são recomendadas pela própria Databricks, e podem ser mais bem analisadas nos manuais publicados sobre a plataforma, como, por exemplo, este para AWS.

Classificação dos dados

Para os fins deste artigo, devemos relembrar que a Lei Geral de Proteção de Dados conceitua dado pessoal como sendo a informação relacionada a pessoa natural identificada ou identificável (artigo 5º, inciso I). O dado pessoal sensível representa uma proteção adicional da intimidade garantida pelo artigo 5º, inciso II, da mesma lei. Para mais detalhes, remetemos o leitor a outro artigo.

Proteção de Dados Sensíveis

Escolher a estratégia ideal para proteção de dados é essencial para minimizar riscos. Após identificar e marcar os dados sensíveis no Unity Catalog, é possível adotar diferentes estratégias conforme sua classificação e importância para os negócios. Pode atuar das seguintes formas:

  1. Descarte: removendo a coluna com dados sensíveis que não são usados e não agregam valores.
  2. Hash: aplicação do hash em dados sensíveis para anonimizar e manter a integridade.
  3. Tokenização: substituir os dados sensíveis por tokens para casos em que a recuperação dos dados reais seja necessária.
  4. Criptografia de preservação do formato: protege os dados mantendo seu formato original quando necessário.

O Databricks fornece um recurso de classificação de dados chamado Lakehouse Monitoring, que detecta e marca automaticamente os dados confidenciais. Com base nas tags criadas, os usuários podem definir as políticas mais adequadas de proteção. No entanto, se ainda houver o risco de que dados sensíveis passem pelos filtros criados, os usuários devem considerar outras técnicas de proteção, como hashing.

O Databricks oferece funções integradas de criptografia, hash e mascaramento para simplificar o processo. O rastreio de linhagem de dados pelo unity catalog permite acompanhar tabelas e colunas sensíveis. No vídeo abaixo, temos um exemplo de como hash pode ser aplicado.

A criação de um processo para proteger dados envolve a criptografia. Uma solução possível é a utilização da biblioteca Fernet (from cryptography.fernet import Fernet), em Python. Essa biblioteca possibilita o uso de funções definidas pelo usuário que possibilitam a encriptação de qualquer coluna em um dataframe. Então, a chave criptográfica é armazenada como um segredo (secret) cujo acesso é permitido apenas aos processos de ingestão de dados. Assim, o acesso a dados sensíveis escritos numa delta table fica impossibilitado a usuário não autorizados.

Outro desafio muito comum para quem trabalha com dados está na identificação dos dados sensíveis em milhares de tabelas e, até mesmo, bilhões de registros. Sem uma estrutura adequada para a busca ativa de dados sensíveis naqueles que estão sendo ingeridos, o tamanho do risco permanece oculto.

Conclusão

O Databricks oferece um leque variado de alternativas para a proteção de dados, o que pode gerar confusão. Logo, percebemos que, para gerenciar dados sensíveis de forma eficaz e com agilidade, as organizações devem contar com equipes de dados treinadas e que conhecem as plataformas com as quais estão trabalhando.

Referências

CRIPTOGRAPHY. Fernet (symmetric encryption). Disponível em https://cryptography.io/en/latest/fernet/. Acesso em 20 jan. 2025.

DATABRICKS. Best practices for security, compliance & privacy. Disponível em https://docs.databricks.com/en/lakehouse-architecture/security-compliance-and-privacy/best-practices.html. Acesso em 21 jan. 2025.

DATABRICKS. Introduction to Databricks Lakehouse Monitoring. Disponível em https://docs.databricks.com/en/lakehouse-monitoring/index.html. Acesso em 19 jan. 2025.

DATABRICKS. Security, compliance, and privacy for the data lakehouse. Disponível em https://docs.databricks.com/en/lakehouse-architecture/security-compliance-and-privacy/index.html. Acesso em 22 jan. 2025.

FONSECA, Edson Pires. Lei geral de proteção de dados pessoais - LGPD. 2 ed. Editora JusPODIVM. 2022.

OLIVEIRA, Everson Elias Gonçalves. Classificação dos dados na LGPD. Disponível em https://blogs.datasource.expert/blog/2024/06/21/lgpd-brasil-classificacao-dados.html. Acesso em 21 jan. 2025.

Microsoft Fabric: Onelake

Aconteceu o Microsoft Ignite e um dos destaques foi a evolução do protagonismo dado ao Onelake, que mesmo com diversas funcionalidades pré-existentes, ficou claro que ele terá um papel ainda maior no futuro da solução.

Para isto, de imediato a Microsoft disponibilizou o Onelake Catalog, que permitirá a governança centralizada de todos os seus ativos de dados:

Onelake

Ficou espectacular a interface do produto, permitindo navegar em todos os detalhes, inclusive permissionamento!

Onelake

Sem contar a clássica necessidade de linhagem de dados, que agora, sem dúvidas será de ponta a ponta: Onelake

Outro ponto alto é o protagonismo em trazer diversos players para dentro do seu ecossitema, assumindo assim um papel de fusão de diversas plataformas:

Onelake

Materiais complementares

Muita coisa está por vir, portanto vou compilar diversos artigos e links da Microsoft que abordarem sobre o SQL Database do Microsoft Fabric aqui:

Microsoft Fabric: SQL Databases

Está acontecendo o Microsoft Ignite e ontem a sensação do dia ao meu ver foi o SQL Database agora dentro do Microsoft Fabric! O termo translytical é perfeito para descrever o que vai acontecer a partir de agora, aplicações transacionais com alto potencial e capacidade de processamento analítico.

Preparei um vídeo curto, onde destaco minhas primeiras impressões, confira:

PowerBI Dashboards

Materiais complementares

Muita coisa está por vir, portanto vou compilar diversos artigos e links da Microsoft que abordarem sobre o SQL Database do Microsoft Fabric aqui:

Databricks: AI/BI Dashboards

Recentemente realizamos um webinar abordando sobre o Databricks AI/BI Dashboards em detalhe, confira:

O que é?

Desde junho/2024 a Databricks fez um rebrand da sua solução conhecida como Lakeview e a nomeoou como Databricks AI/BI Dashboards, tornando uma solução muito mais interessante e totalmente alimentada por Inteligência Artificial, através do que chamam de Compound AI System, vide: Compound AI System

Assim sendo, AI/BI Dashboards é mais uma funciondalidade do Databricks e que busca ser uma solução de painel de baixo código e com tecnologia de IA que inclui todos os recursos convencionais de BI que você esperaria prontos para uso, para responder a um conjunto fixo de perguntas de negócios.

Databricks | AI/BI Dashboard

É uma bela ferramenta e que atende ao propósito, quando você necessita apenas de dashboards! Precisamos lembrar que dashboards é diferente de relatórios, até a Microsoft com o Power BI faz a distinção entre dashboards, relatórios e relatórios paginados.

E neste sentido, comparando Dashboards entre soluções a da Databricks me parece muito promissora, vide:

Solução Exemplo dashboard
Microsoft PowerBI PowerBI Dashboards
Tableau Tableau Dashboards
Databricks PowerBI Dashboards

Quando colocamos ela comparada com os concorrentes, podemos ver que visualmente a ferramenta está competindo de igual para igual.

Achou interessante? Você pode agendar um momento com nosso time comercial clicando aqui.

Vantagens

  • Visão unificada de seus dados: O Lakehouse Federation oferece uma visão unificada de todos os seus dados, independentemente de onde eles estejam armazenados;
  • Análise em tempo real: Acesse e analise seus dados em tempo real, sem a necessidade de mover ou copiar dados;
  • Simplicidade e flexibilidade: É fácil configurar e usar, e oferece suporte a uma ampla variedade de fontes de dados;
  • Redução de custos e aumento da eficiência: Elimine a necessidade de integrações complexas e redundantes;

Camada semântica

Considero como um dos pontos fortes para utilização de dashboards através do Databricks é que a visualização dos dados estará diretamente conectado aos dados no lakehouse, eliminando uma camada semântica que o forçaria a ter que muitas vezes que importar os dados novamente para esta outra camada (vide modo import do PowerBI) ou mesmo que utilizasse um método diretamente conectado aos dados (directquery ou directlake), você ainda teria mais uma camada para gerenciar o desempenho do seu dashboard.

Databricks - Caso de uso: análise de BI e SQL

Leia mais

Como reduzir custos com nuvem no cenário atual

Sua empresa provavelmente utiliza ou ainda utilizará algum serviço em nuvem pública como Azure, Google Cloud ou Amazon. Até o momento, nenhum desses operadores trabalha com a comercialização da sua nuvem diretamente em moeda local (Reais), o que temos é um de-para, onde o serviço que custa $1 será convertido em reais, adicionado inúmeros impostos e a depender da sua forma de pagamento, pode lhe configurar ainda mais encargos!

No vídeo abaixo, compartilho dicas valiosas para empresas que enfrentam o aumento do dólar e buscam otimizar seus custos com serviços de nuvem, como o Microsoft Azure, Google Cloud e AWS. Destaco como a alta do dólar impacta diretamente os custos, especialmente para empresas que pagam esses serviços com cartão de crédito.

A transição para um Cloud Solution Provider (CSP), como a Datasource Expert, oferece condições fiscais mais vantajosas, permitindo que as empresas paguem seus serviços de nuvem em reais, evitando encargos adicionais como IOF e taxas de importação. Além disso, o vídeo explora como o uso de instâncias reservadas pode gerar uma economia significativa, com descontos de até 40% em comparação ao modelo "pay as you go".

Com a assistência de um CSP, as empresas também podem obter monitoramento de consumo de nuvem, ajudando a identificar desperdícios e a otimizar a utilização de recursos, proporcionando maior controle e redução de custos.

Para saber mais sobre como otimizar os gastos com nuvem e transformar o pagamento de seus serviços em uma vantagem financeira, assista ao vídeo completo.

Data Saturday 2024

Como foi?

No dia 26/10/2024 estivemos no Data Saturday 2024 que aconteceu Unisales e que teve mais de 1000 inscritos:

Data Saturday

Este é um evento tradicional em Vitória que em outros anos tinhamos menos de 50 pessoas e agora entrou de vez para o calendário de milhares de pessoas, algo que muito me orgulha de participar e organizar.

Neste ano, estive palestrando somente sobre temas relacionados ao Databricks como Genie e Data Sharing.

Data Saturday

O time da DEX esteve em peso participando e apoiando como voluntário no evento:

Data Saturday

E fortalecemos nosso apoio mais uma vez

Data Saturday

Recentemente realizamos um webinar abordando sobre o Databricks AI/BI Dashboards em detalhe, confira:

O que é?

Desde junho/2024 a Databricks fez um rebrand da sua solução conhecida como Lakeview e a nomeoou como Databricks AI/BI Dashboards, tornando uma solução muito mais interessante e totalmente alimentada por Inteligência Artificial, através do que chamam de Compound AI System, vide: Compound AI System

Assim sendo, AI/BI Dashboards é mais uma funciondalidade do Databricks e que busca ser uma solução de painel de baixo código e com tecnologia de IA que inclui todos os recursos convencionais de BI que você esperaria prontos para uso, para responder a um conjunto fixo de perguntas de negócios.

Databricks | AI/BI Dashboard

É uma bela ferramenta e que atende ao propósito, quando você necessita apenas de dashboards! Precisamos lembrar que dashboards é diferente de relatórios, até a Microsoft com o Power BI faz a distinção entre dashboards, relatórios e relatórios paginados.

E neste sentido, comparando Dashboards entre soluções a da Databricks me parece muito promissora, vide:

Solução Exemplo dashboard
Microsoft PowerBI PowerBI Dashboards
Tableau Tableau Dashboards
Databricks PowerBI Dashboards

Quando colocamos ela comparada com os concorrentes, podemos ver que visualmente a ferramenta está competindo de igual para igual.

Achou interessante? Você pode agendar um momento com nosso time comercial clicando aqui.

Vantagens

  • Visão unificada de seus dados: O Lakehouse Federation oferece uma visão unificada de todos os seus dados, independentemente de onde eles estejam armazenados;
  • Análise em tempo real: Acesse e analise seus dados em tempo real, sem a necessidade de mover ou copiar dados;
  • Simplicidade e flexibilidade: É fácil configurar e usar, e oferece suporte a uma ampla variedade de fontes de dados;
  • Redução de custos e aumento da eficiência: Elimine a necessidade de integrações complexas e redundantes;

Camada semântica

Considero como um dos pontos fortes para utilização de dashboards através do Databricks é que a visualização dos dados estará diretamente conectado aos dados no lakehouse, eliminando uma camada semântica que o forçaria a ter que muitas vezes que importar os dados novamente para esta outra camada (vide modo import do PowerBI) ou mesmo que utilizasse um método diretamente conectado aos dados (directquery ou directlake), você ainda teria mais uma camada para gerenciar o desempenho do seu dashboard.

Databricks - Caso de uso: análise de BI e SQL

Leia mais

BandNews ES | Coluna Evandro Milet

Prêmio Parceiro do Ano da Microsoft das Américas de 2024

No dia 06/08, estive na Band News em Vila Velha para minha primeira entrevista no rádio, uma experiência inesquecível! Por muitos anos, ouvindo a voz do Kaká e da Letícia Cardoso no ônibus ou dirigindo, acompanhava as notícias do cotidiano. Agora, eles estavam ao meu lado, parecendo amigos de longa data. 😍

Estudios BandNews

Nesta oportunidade, fui convidado pelo grande Evandro Milet para falar sobre as inovações em que estamos trabalhando na Datasource Expert, com nosso produto DEXBoard e nossa assistente de IA Generativa disponível na plataforma.

Confira minha entrevista agora mesmo:

Posso dizer: Foi uma experiência incrível e muito empolgante falar sobre nossa inovação e o mercado de tecnologia.

Estudios BandNews

Quer saber mais sobre o DEXBoard? Acesse nosso site https://dexboard.datasource.expert/.

Assista também nosso último webinar sobre a IA Generativa disponível em nosso produto:

Leva já inovação para sua empresa com quem a Microsoft, parceiros e clientes reconhecem!

Outros links:

Databricks | Finalmente e totalmente serverless!

Infraestrutura disponível instantaneamente

Constantemente, implementamos o Databricks em nossos clientes. Porém, mesmo a solução sendo incrível, ela demandava algum tempo (horas) para realmente colocá-la no ar, uma vez que era necessário fazer a configuração dos clusters, além de se ter todo um preparo para entendimento e estimativa das máquinas necessárias para atender às futuras cargas de trabalho.

Porém, se depender do fabricante e de nós, esse esforço já acabou em julho de 2024 com o lançamento em todas as regiões do Databricks totalmente serverless, conforme podemos conferir neste anúncio: Announcing the General Availability of Serverless Compute for Notebooks, Workflows and Delta Live Tables.

Preparamos um vídeo, no qual abordo como isso ficou prático e com as nossas primeiras opiniões e impressões sobre o futuro uso em ambientes. Veja:

Ficou legal demais: você simplesmente codifica e manda executar o Databricks, e toda a infraestrutura fica totalmente disponível instantaneamente. Databricks é serverless

Se você deseja monitorar seu ambiente e entender como utilizar a infraestrutura serverless, até para identificar quem mais está fazendo sua empresa pagar caro, ou seja, reconhecer algum usuário ou job, há documentações sobre como implementar o monitoramento. Confira:

Account Usage

Classificação dos Dados na LGPD

Num cenário de multiplicidade normativa, a LGPD (lei n. 13.709 de 2018) reuniu conceitos e princípios básicos da gestão de dados pessoais, o que facilita a adequação das empresas e conscientização das pessoas sobre seus direitos. O domínio dos conceitos e dos princípios contidos na LGPD não cabe apenas aos setores jurídicos das empresas. As equipes de tecnologia também devem conhecê-los, ainda que superficialmente, de modo a mitigar riscos, agilizar o trabalho e gerar valor para a empresa. Logo, vamos explorar um dos pontos essenciais da LGPD: os tipos de dados.

Dados pessoais

A LGPD conceitua dado pessoal como sendo a informação relacionada a pessoa natural identificada ou identificável (artigo 5º, inciso I). O que torna possível qualificar determinado dado como pessoal, atraindo a regulação da LGPD? Ao redor do mundo, as leis que protegem os dados pessoais adotam uma de duas estratégias para essa qualificação: a expansionista ou a reducionista.

A estratégia reducionista submete uma menor quantidade de dados ao escopo da lei de proteção. Consideram-se dados pessoais somente aquelas informações diretamente relacionadas a uma pessoa natural identificada. Essa abordagem exige que o dado esteja vinculado direta, precisa, imediata e exatamente a uma pessoa específica, não havendo dúvidas quanto à titularidade. São exemplos de dados pessoais, para a estratégia reducionista, o RG, o CPF e a biometria. Contudo, a nossa lei de proteção adotou a estratégia expansionista ao definir dado pessoal como a informação relacionada a uma pessoa natural identificada ou identificável. Assim, uma quantidade maior de dados pode ser qualificada como pessoal, por exemplo, a profissão, os interesses pessoais, o endereço de IP e o e-mail corporativo.

Então, no Brasil, aquela informação que possa, ou que tem o potencial de, tornar a pessoa identificável também está protegida. Edson Pires da Fonseca apresenta o seguinte exemplo: "A cor azul de uma camisa, por exemplo, em um estádio de futebol no qual a cor do time da casa é azul, não representa um dado pessoal, pois não é suficiente para identificar o titular; contudo, dentro de um banco de dados específico, como uma sala de aula, na qual apenas Joana veste camisa azul, a cor da camisa será um dado pessoal, pois pode identificar uma pessoa natural".

E quais são as repercussões práticas da adoção de uma ou de outra estratégia? A abordagem expansionista adquire relevância a partir do momento em que os negócios passam a incorporar tecnologias que redimensionam a forma como produzimos, agregamos, analisamos e extraímos valor de grandes conjuntos de informação, como Big Data, Machine Learning e Inteligência Artificial.

Um dado isolado pode não ter muito valor, mas várias informações reunidas podem formar um mosaico que vai nos levar a uma pessoa específica. Em 2016, por exemplo, pesquisadores britânicos utilizaram técnicas de perfilamento geográfico para tentar identificar o artista anônimo conhecido como Banksy. Todas as informações utilizadas na pesquisa não têm nome e nem rosto, não estando relacionadas a uma pessoa identificada. No entanto, uma vez agregadas, combinadas, ordenadas e analisadas, elas podem tornar uma pessoa identificável.

Para determinar se um dado é pessoal, devemos, ainda, fazer uma análise do contexto em que o dado está sendo tratado. Em 2016, a Corte Europeia de Justiça entendeu que um número de IP era dado pessoal, porque, sendo tratado por um provedor de conexão em conjunto com outras informações, permitia a identificação de uma pessoa.

Então, ao tratar um dado, devemos nos perguntar: esse dado, se agregado a outros que tenho, tornam determinada pessoa identificável? Se sim, estamos lidando com um dado pessoal.

Dados pessoais sensíveis

O dado pessoal sensível representa uma proteção adicional da intimidade. De acordo com o artigo 5º, inciso II, da LGPD, o dado pessoal sensível é o "dado pessoal sobre origem racial ou étnica, convicção religiosa, opinião política, filiação a sindicato ou a organização de caráter religioso, filosófico ou político, dado referente à saúde ou à vida sexual, dado genético ou biométrico, quando vinculado a uma pessoa natural". Inicialmente, nenhuma empresa ou indivíduo pode fazer uso desse tipo de informação, porém há situações legais que permitem exceções (artigo 11 da LGPD).

Dados anonimizados

Qual é o oposto de um dado pessoal? Um dado anônimo. A LGPD conceitua dado anonimizado como aquele relativo a titular que não possa ser identificado, considerando a utilização de meios técnicos razoáveis e disponíveis na ocasião do seu tratamento (artigo 5º, inciso III). De acordo com Bruno Ricardo Bioni, dados anônimos podem ser entendidos como dados que não são capazes de revelar a identidade de uma pessoa após passarem por um processo de quebra do vínculo entre o dado e o seu titular.

Bruno Ricardo Bioni ainda fala que, teoricamente, essa definição é perfeita, mas, tecnologicamente, ela é problemática, sobretudo num contexto de crescente avanço das tecnologias que processam dados. Não existe, hoje, uma divisória evidente e rígida entre dados pessoais e dados anonimizados. Aliás, encontramos estudos que evidenciam como reverter o processo de anonimização pode ser mais simples do que se imagina. Arvind Narayanan, professor de Ciência da Computação em Princeton, demonstrou como a reversão da anonimização foi possível por meio do uso de outro dado de 33 bits.

A LGPD define o que é anonimização como “utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo” (artigo 5º, inciso XI). A anonimização é um processo que conta com várias técnicas, como, por exemplo, supressão, generalização, randomização e pseudoanonimização. Por meio dessas técnicas, o dado deixa de ser pessoal ou sensível e passa a ser anônimo.

Um CPF pode ser suprimido para não constar numa base de dados. Um nome pode ser generalizado para conter apenas o prenome (primeiro nome), o que ainda possibilitaria a personalização em e-mail marketing. Um CEP pode ser generalizado com a disponibilização apenas dos 5 primeiros números. Uma idade pode ser generalizada para ser enquadrada numa faixa etária, de modo a evitar a individualização. Essas simples medidas são o suficiente para garantir segurança aos titulares dos dados e às entidades que estão tratando os dados.

Alguns parágrafos acima, destacamos que a LGPD, ao conceituar dado anonimizado, fala em “utilização de meios técnicos razoáveis e disponíveis na ocasião do seu tratamento”. O artigo 12 da LGPD prescreve que “dados anonimizados não serão considerados dados pessoais para os fins desta Lei, salvo quando o processo de anonimização ao qual foram submetidos for revertido, utilizando exclusivamente meios próprios, ou quando, com esforços razoáveis, puder ser revertido”.

Portanto, podemos entender que, se for necessário empregar um esforço fora do razoável para associar um dado anonimizado a uma pessoa, esse dado não será considerado um dado pessoal. Mas o que seriam, efetivamente, esforços razoáveis? Esta noção, em si, é bastante ampla, e foi por esta razão que a lei previu alguns parâmetros objetivos para a compreensão do que seriam esforços razoáveis: 1) custo, 2) tempo; e 3) estado da arte.

Se a reversão de determinado processo de anonimização demandar altos custos financeiros, isso foge da ideia de um esforço razoável. Igualmente, se for necessário empregar um grande conjunto de computadores e processadores para tratar, descriptografar, cruzar aquelas informações por um período de um ano ou dois anos, será que isso está no escopo de um esforço razoável? Evidentemente que não.

Por fim, deve-se analisar o estado da arte das tecnologias disponíveis para a reversão de determinado processo. Talvez, em 2 anos, a depender dos avanços da computação, alguns esforços que hoje são irrazoáveis passem a ser bastante factíveis.

Essa noção de razoabilidade, portanto, é circunstancial, dependendo do estágio de desenvolvimento no qual se encontra a tecnologia.

Dados pseudoanonimizados

A pseudoanonimização substitui o valor original do dado por um outro valor, mantendo uma relação com o valor original, a fim de possibilitar a reversão com token ou hash. Ao contrário da utilização de dados anonimizados, o que afasta a aplicação direta da LGPD, não há previsão legal específica para os dados pseudonimizados. Ainda assim, é possível imaginar vantagens na sua utilização pelas empresas.

De um ponto de vista da segurança da informação, a pseudonimização garante mais segurança ao tratamento dos dados, podendo mitigar os danos causados por eventuais vazamentos, especialmente se os dados afetados forem somente aqueles não identificáveis.

O quadro abaixo, elaborado por Jessica Sombrio, exemplifica a distinção entre anonimização e pseudoanonimização. Nas palavras da autora, “(…) aplicando a pseudoanonimização os nomes originais dos compradores são escondidos, porém, é possível realizar uma relação entre eles, pois os mesmos valores originais terão os mesmos pseudônimos, portanto apesar de você não saber quem é KLAJFB, você sabe que esse cliente realizou duas compras no mesmo dia”.

Tabela de danos pseudoanonimizados

Conclusão

Após a classificação dos dados com quais estamos lidando, podemos começar a tratá-los da melhor maneira possível. Logo, podemos dizer que essa é a etapa essencial para o adequado tratamento dos dados. Para isso, precisamos ter em mente os princípios que norteiam e legitimam o tratamento de dados pessoais (artigo 6º da LGPD) e as bases legais para o tratamento de dados pessoais (artigo 7º da LGPD). Ademais, precisamos ter rígidos mecanismos de controle e segurança da informação de ponta a ponta, desde o consentimento do usuário até o destino final do dado.

Agende uma reunião com a Datasource Expert e prepare-se para o futuro estando em conformidade com a LGPD: Clique aqui para agendar.

Referências

BIONI, Bruno Ricardo. Compreendendo o conceito de anonimização e dado anonimizado. Disponível em: https://aplicacao.aasp.org.br/aasp/servicos/revista_advogado/paginaveis/144/20/index.html. Acesso em: 15 de janeiro de 2023.

FAHEL, Ariel. A LGPD entrou em vigor! E agora? — Uma breve introdução ao tema. Disponível em: https://blog.dp6.com.br/a-lgpd-entrou-em-vigor-e-agora-uma-breve-introdu%C3%A7%C3%A3o-ao-tema-facec764d33b. Acesso em: 18 de janeiro de 2023.

FONSECA, Edson Pires. Lei geral de proteção de dados pessoais - LGPD. 2 ed. Editora JusPODIVM. 2022.

HAUGE et al. Tagging Banksy: using geographic profiling to investigate a modern art mystery. Taylor & Francis, 2016. Link: https://core.ac.uk/download/pdf/77040608.pdf

Banksy unmasked? Scientists use maths and criminology to map artist’s identity. The Guardian, 05 mar. 2016. Disponível em: https://www.theguardian.com/artanddesign/2016/mar/05/banksy-unmasked-scientists-use-maths-and-criminology-to-map-artists-identity. Acesso em: 15 de janeiro de 2023.

KELLEHER, Denis. In Breyer decision today, Europe’s highest court rules on definition of personal data. Disponível em: https://iapp.org/news/a/in-breyer-decision-today-europes-highest-court-rules-on-definition-of-personal-data/. Acesso em: 17 de janeiro de 2023.

NARAYANAN, Arvind. One more re-identification demonstration, and then I’m out. Disponível em: https://33bits.wordpress.com/. Acesso em 17 de janeiro de 2023.

NETO, Joaquim. Segurança da informação e proteção de dados — Parte 1. Disponível em: https://blog.dp6.com.br/seguran%C3%A7a-da-informa%C3%A7%C3%A3o-e-prote%C3%A7%C3%A3o-de-dados-parte-1-3e87be468b56. Acesso em: 17 de janeiro de 2023.

RIBEIRO, Lucas. Boas práticas do uso do consentimento na LGPD. Disponível em: https://medium.com/dp6-blog/boas-pr%C3%A1ticas-do-uso-do-consentimento-na-lgpd-71c07e21ae01. Acesso em 17 de janeiro de 2023.

SOMBRIO, Jessica. Anonimização ou Pseudoanonimização? Qual a diferença? Disponível em: https://kondado.com.br/blog/blog/2020/10/13/anonimizacao-ou-pseudoanonimizacao-qual-a-diferenca/. Acesso em 17 de janeiro de 2023.

Microsoft Fabric: O que são os Fluxo de Tarefas?

Assista a um vídeo e conheça um pouco mais sobre esta funcionalidade:

O Fluxo de Tarefas do Microsoft Fabric é um novo recurso disponível nos workspaces premium e que permite construir uma visualização do fluxo de trabalho. Ele te ajudará a entender como os itens estão relacionados e trabalham juntos em seu workspace, facilitando a navegação, mesmo quando o workspace se torna mais complexo ao longo do tempo.

O fluxo de tarefas pode ajudar a padronizar o trabalho da equipe e manter o design e o desenvolvimento sincronizados para aumentar a colaboração e eficiência da equipe, foi uma grande ideia da Microsoft e que vai ajudar muito os times de dados!

Fluxo de Tarefas

O Microsoft Fabric já fornece uma variedade de fluxos de tarefas pré-definidos, baseados nas melhores práticas da indústria, destinados a facilitar o início de seu projeto, porém, você pode personalizar os fluxos de tarefas para atender às suas necessidades e requisitos específicos.

Fluxo de Tarefas - Interagindo

Experimente, é muito legal!

Agende uma reunião com a Datasource Expert e prepare-se para o futuro com o Microsoft Fabric: Clique aqui para agendar.