Power BI Data Profiling e Table.Profile

Esse artigo foi escrito porque há relatos de que esse item em específico cai no Exame DA-100: Analyzing Data with Microsoft Power BI, conforme relatos.

Data Profiling

Pessoal, Data Profiling é algo que eu tenho percebido ser extremamente importante para o Exame e, além disso, muito importante também para nosso dia a dia como analista de dados.

Data Profiling ajuda você a detectar rapidamente se uma coluna precisa de ser tratada, transformada, ajustada, limpada, antes de ser carregada no seu modelo de dados.

Eu não vou me alongar muito aqui no post, simplesmente porque já existem milhares de artigos e vídeos excelentes falando sobre isso, então ao invés deu explicar pra vocês, vou deixar alguns links, mas, antes de mandar vocês direto para os links, deixa eu dar um overview.

Data Profiling é realizado no Power Query, ou dentro do Edit Queries, dá no mesmo. Daí você vai em View > Data Preview > e aí tem 3 checkbox pra você marcar, “”Column Quality”, “Column Distribution” e “”Column Profile.

A primeira parte, com as 3 bolinhas é o Column Quality, nele você vai ver a qualidade dos dados que você tem na coluna, nesse meu exemplo tem 16% de NULL.

Depois, na segunda parte, você vai ver o Column Distribution, que indica a CARDINALIDADE da sua coluna. Essa informação é mega importante, principalmente quando você está falando de performance de data model, relacionamentos, tamanho do dataset, questão de filter context, etc.

Por fim você tem a parte de Column Profile, onde você encontra informações estatísticas sobre aquela coluna.

Outro detalhe importante é que, por padrão, o Power BI aplica esse “data profiling” nas primeiras 1 mil linhas, porém você pode alterar esse comportamento pra que ele passe a aplicar isso em TODAS as linhas da sua tabela.

Table.Profile

Assim como vimos Text.Trim e Text.Clean o nosso Table.Profile é mais uma função do código M e que, no manual diz:
https://docs.microsoft.com/en-us/powerquery-m/table-profile

Retorna um profile para as colunas numa tabela.
As seguintes informações são retornadas para cada coluna (quando aplicáveis):

  • minimum
  • maximum
  • average
  • standard deviation
  • count
  • null count
  • distinct count

Nada mais é do que as mesmas estatísticas que o “column profile”, PORÉM retornado como TABELA, ou seja, é aplicado na tabela como um todo dando maior visibilidade e o resultado fica assim:

A vantagem é que você tem agora todas essas informações como uma tabela no Power Query e pode usar isso inclusive pra montar visuais no Power BI.

Sobre especificamente Table.Profile, links:
https://radacad.com/create-a-profiling-report-in-power-bi-give-the-end-user-information-about-the-data
https://blog.crossjoin.co.uk/2016/01/12/descriptive-statistics-in-power-bim-with-table-profile/
https://insightsquest.com/2018/08/11/data-profiling-with-power-query/
https://www.youtube.com/watch?v=ET5ICufd-aI – Power BI: ETL – Estatística descritiva (Table.Profile)
https://www.youtube.com/watch?v=T8TfJZZwSb8 – Why data profiling is useful in Power BI – Power Bi desktop update October 2019

Sobre Data Profiling no Power Query:
https://www.youtube.com/watch?v=WN1cvJGutT8 – Column Profiling in Power BI Desktop
https://docs.microsoft.com/en-us/learn/modules/clean-data-power-bi/6-profile-data
https://www.poweredsolutions.co/2019/08/13/data-profiling-quality-distribution-in-power-bi-power-query/

Publicado por Pedro Carvalho

Apaixonado por anlise de dados e Power BI

Deixe uma resposta

× Como posso te ajudar?
%d blogueiros gostam disto: