Agrupando dados com Python

Fui contratado por uma empresa para analisar o que cada cliente está comprando. A ideia é conseguir agrupar os clientes por gostos iguais. Dessa forma, serão feitas newsletters, promoções e campanhas de marketing direcionadas para clientes com algo em comum.

Para isso, precisamos pegar dados de clientes, como a categoria dos produtos que cada um costuma comprar e com que frequência isso ocorre. Bem, já temos os dados definidos, mas como podemos criar grupos com os clientes? Quantos grupos devemos criar?

O aprendizado não supervisionado

Quando estamos trabalhando com análise de dados, é muito comum utilizar o aprendizado de máquinas, ou machine learning, para criar um modelo que classifique os dados para gente. Existem algoritmos que podemos utilizar para ensinar a máquina como trabalhar, mas qual deles utilizar?

Podemos classificar os nossos dados, mas não temos um rótulo para ensinar o classificador. Podemos definir esses rótulos na mão, isto é, ir analisando o perfil um por um e criar os grupos de clientes, mas isso levaria muito tempo e seria muito trabalhoso. O que nós podemos fazer para obter esses rótulos, isso é, o grupo que cada cliente pertence?

Vamos imaginar que temos dois tipos de frutas diferentes, maçãs e maracujás. Como faríamos para agrupá-las? Bem, nesse caso, temos dois grupos, maçãs e maracujás. Assim, utilizamos algumas das características das frutas para agrupá-las: cor, formato, tamanho,gosto, entre outras.

A partir dessas características, criamos os rótulos dos nossos dados. Podemos pegar as características que extraímos dos clientes, sua frequência de compra e a qual categoria pertencem os produtos que mais compram e utilizar essas informações para agrupá-los.

Podemos criar os grupos de acordo com a necessidade de segmentação, dois, três, oito, grupos, segmentar bem o conjunto de dados ou não segmentar tanto.

Para agrupar os dados podemos pegar um cliente que compra dez vezes no mês e compra muitos livros de ficção científica. Outra cliente também compra livros de ficção, mas com uma frequência de oito vezes no mês.

Apesar de não terem as mesmas frequências de compra, elas são parecidas. Também são os gostos. Logo, se fizer sentido, podemos colocá-los em um mesmo grupo. Isso nos mostra que, se criarmos um gráfico de número de compras por categorias, os valores que estão próximos podem pertencer ao mesmo grupo.

Existem diversos algoritmos que podemos utilizar para agrupar os dados, um desses é o K-médias, ou K-means. Esse algoritmos pega cada um dos nossos dados (observações), para cada grupo (k). Cada dado pertencerá ao grupo mais próximo da média.

No Python, existe a biblioteca scikit-learn. Essa biblioteca é muito utilizada pelas pessoas que trabalham com análise de dados e com machine learning. Ela já tem implementado diversos algoritmos que usamos no dia a dia, sendo um deles o K-means.

Conhecendo a sklearn

Queremos utilizar a scikit no nosso código, então o primeiro passo é importá-la (import):


import sklearn

Legal! Mas qual função da biblioteca nós queremos utilizar? Queremos utilizar o K-means, então nós podemos, em vez de importar todos os módulos da biblioteca, importar somente o K-means.

Para isso, falamos que da biblioteca (from) sklearn, do módulo de agrupamento (cluster), queremos importar o KMeans:


from sklearn.cluster import KMeans

Já temos a classe que implementa o algoritmo, o que precisamos agora? Criar um objeto a partir dessa classe:


from sklearn.cluster import KMeans

modelo = KMeans()

Com o modelo instanciado, podemos pedir para treiná-lo e para ele predizer os dados dos usuários:


usuarios = pega_usuarios()

from sklearn.cluster import KMeans

modelo = KMeans()
modelo.fit_predict(usuarios)

Esse método nos retorna uma série de números que são os rótulos dos nossos dados, a predição. Ou seja, conseguimos atribuir esse retorno a uma variável e utilizá-la em outra partes do código:


from sklearn.cluster import KMeans

modelo = KMeans()
rotulos = modelo.fit_predict(usuarios)

Agrupamos nossos dados, mas como podemos ver esses grupos?

Visualizando os grupos

Uma das formas que temos para visualizar os dados é a criação de gráficos. Uma biblioteca muito utilizada para isso é a matplotlib. Como a outra biblioteca, precisamos importá-la para começar a utilizar suas funções.

Nessa biblioteca, queremos utilizar o módulo de criação de gráficos com o Python (pyplot):


import matplotlib.pyplot

Por convenção, muitos desenvolvedores colocam um apelido (alias) nessa importação, chamando de plt:


import matplotlib.pyplot as plt

Antes de mostrar os grupos, vamos ver como estão nossos dados. Para isso, podemos pedir para o Matplot plotar um gráfico com os pontos dos nossos dados. Esses gráficos tem dois pontos, um para o eixo X e um para o eixo Y

Como estamos querendo mostrar um gráfico do número de compras por categorias de produtos, esses serão nossos valores de X e Y, respectivamente. No meu caso, os dados dos usuários estão em um Array do Numpy, onde a primeira coluna são a frequência das compras e o segunda coluna são as categorias:


# codigo omitido

plt.scatter(usuarios[:, 0], usuarios[:, 1])

Agora só precisamos mostrar (show) o gráfico:


# codigo omitido

plt.scatter(usuarios[:, 0], usuarios[:, 1])
plt.show()

Esse é o nosso gráfico sem grupos. Agora, temos que ver os grupos. Mas como podemos ver os grupos em um gráfico? Bem, cada grupo pode ser representado por uma cor diferente.

No Matplot, podemos dizer quais cores queremos para os itens no gráfico. Existem diversos meios de escolher as cores, um deles é por meio de valores inteiros, que é justamente o tipo dos nossos rótulos. Portanto, podemos utilizar esse valores para mostrar os grupos no gráfico:


# codigo omitido

plt.scatter(usuarios[:, 0], usuarios[:, 1], c=rotulos)
plt.show()

Com as cores no gráfico, podemos ver os grupos que foram formados.

Para saber mais

Nesse nosso caso foram formados oito grupos, que é o padrão do KMeans. Podemos ajustar o número de grupos passando um parâmetro nomeado no construtor da classe. Por exemplo, podemos falar que queremos, ao invés de oito, formar quatro grupos. Para isso, basta falar que o número de clusters (n_clusters) vale quatro:


# codigo omitido

modelo = KMeans(n_clusters=3)

Plotando o gráfico agora, veremos que temos apenas três grupos formados:

Além do K-médias, existem outros algoritmos que a SciKit implementa. Cada um deles tem seu próprio meio de agrupar os dados.

O aprendizado não supervisionado é uma das áreas no aprendizado de máquinas. Com ele, conseguimos rotular nossos dados e agrupá-los. Aqui na Alura, temos uma formação em aprendizado de máquina.

Nela você verá desde estatística, até o aprendizado de máquinas supervisionados com classificação.

Agrupando dados com Python

O aprendizado não supervisionado

Conhecendo a sklearn

Visualizando os grupos

Para saber mais

Leia também:

Cursos