Sign in

Data Scientist with a civil engineering background. Water polo player. Loves ML/AI, data, decision science, gaming, manga.

How to use GANs to improve your data

Photo by Siti Rahmanah Mat Daud on Unsplash

Sooner or later in your data science career you will come across a problem where one event, usually the one that you are trying to predict, is less frequent than the other or others.

After all, reality is like that — car crashes or people with diseases are more scarce (thankfully!) than trajectories completed by car or healthy people.

This type of problem is classified as imbalanced data. And, while there isn’t a number that defines it, you know that your data is imbalanced when your class distribution is skewed.

At this point you might be thinking, if my data…


Understanding what is an implicit JOIN, an explicit JOIN and its differences

Photo by Tobias Fischer on Unsplash

As a data scientist querying the database is part of my daily life.

So, bringing the information in a precise manner and building the queries so that they are easily revisitable is essential, as not only diminishes the possible errors but also saves a lot of time in the maintenance process.

However, to achieve this ideal query level it is necessary to understand the small nuances in their behavior.

Yet as no one is born a specialist, we try to understand those nuances one at a time, be that out of need, or out of curiosity, at least that is…


Using ETL to save the day

Photo by Sven Kucinic on Unsplash

Surely you have heard of pipelines or ETL (Extract Transform Load), or seen some method in a library, or even heard of any tool to create pipelines. However, you aren’t using it yet. So, let me introduce you to the fantastic world of pipelines.

Before understanding how to use them, we have to understand what it is.

A pipeline is a way to wrap and automatize a process, which means that the process will always be executed in the same way, with the same functions and parameters and the outcome will always be in the predetermined standard.

So, as you…


The simplicity of Neural Network and Keras’ tools

Photo by Uriel SC on Unsplash

Recently, I was challenged to do this task which basically asked to use neural networks to predict the image orientation (upright, upside down, left or right) and with that prediction rotate the image to the correct position (upright), all of this in 24 hours!

My experience with neural networks up to this point was using the Multi-layer Perceptron inside Scikit-learn, and I had never tackled image processing. Which meant it was time to bang my head against the wall!

The training set was composed of approximately 50 thousand images with their label stored in a csv that looked like this:


Como a Toro Data Labs aplicou os princípios SRE da Google na Uber

“Yea when can you have that delivered by? We wanna do the science part soon.”

Introdução

Está ficando cada vez mais fácil e rápido usar infra-estruturas de dados e colocar esses dados em produção em casos como: self-service business intelligence, machine learning, e teste A/B. As barreiras para escrever e lançar pipelines de dados continuam a cair, e analistas (ou engenheiros de análise) são capazes de lidar com mais quota do processo de modelagem, com menos dependência nos seus companheiros engenheiros de dados.

À medida que os analistas se empoderam para serem os próprios autores e atualizarem as suas próprias pipelines de dados, a sua responsabilidade sobre a confiabilidade e qualidade dos dados que saem do…


Como usar GANs para melhorar os seus dados

Foto por Siti Rahmanah Mat Daud no Unsplash

Em algum momento na sua carreira de ciência de dados você vai se deparar com um problema onde um evento, geralmente aquele que está tentando prever, é menos frequente que os demais.

Afinal, a realidade é assim — acidentes de carro ou pessoas doentes são mais escassos (ainda bem!) do que trajectórias de carro completadas com sucesso ou pessoas saudáveis.

Este tipo de problema é classificado como dados desbalanceados. E embora não exista um número que defina isso, você sabe que os seus dados são desbalanceados quando a distribuição de classes é enviesada.

Você pode estar pensando, se os meus…


Entendendo o que é um JOIN implícito, um JOIN explícito e as suas diferenças

Foto por Tobias Fischer no Unsplash

Como cientista de dados consultas em bancos de dados fazem parte do meu dia-a-dia.

Para tal, trazer a informação de uma forma precisa e construir as consultas de modo a que sejam facilmente revisitadas é essencial, pois não só diminuem os possíveis erros como é economizado muito tempo em todo o processo de manutenção.

No entanto, para chegar nesse nível ideal de consultas é necessário entender as pequenas variações do comportamento destas.

Contudo como ninguém nasce especialista, vamos entendendo uma por vez, seja por necessidade, seja por curiosidade, essa pelo menos é a minha filosofia.

Feita a introdução vamos ao…


A simplicidade das redes neurais e as ferramentas do Keras

Foto por Uriel SC no Unsplash

Recentemente, me foi lançado um desafio que basicamente pedia para usar redes neurais para prever qual era a orientação da imagem (cima, baixo, esquerda ou direita) e de acordo com essa predição rodar a imagem para a posição corrigida (cima), tudo isto em 24 horas!

A minha experiência em redes neurais podia se resumir ao uso do Multi-layer Perceptron do Scikit-learn, e nunca tinha mexido com processamento de imagem. Então, lá vou eu quebrar a cabeça!

O conjunto de treino era composto por um conjunto de aproximadamente 50 mil imagens com a respetiva posição num csv com o seguinte aspeto:


Usando ETL para salvar o dia

Foto por Sven Kucinic no Unsplash

Com certeza você já ouviu falar de pipelines ou ETL (Extract Transform Load), ou viu alguma função em alguma biblioteca, ou até já ouviu falar em alguma ferramenta para criar pipelines. Mas apesar disso tudo ainda não está usando. Então deixa-me introduzir-te ao fantástico mundo dos pipelines.

Antes de entender como usá-lo, temos que entender o que de fato é um pipeline.

Um pipeline, duto em português, é uma forma de amarrar e automatizar um processo, isto é, o processo vai sempre ser executado da mesma forma, com as mesmas funções e parâmetros e a saída será sempre no padrão…


Um guia com tudo que precisa saber sobre a matriz confusão

Foto por Emily Morter no Unsplash

Sempre que tinha que recorrer à matriz confusão acabava tendo que pesquisar o que é o quê e como está organizado, até que me cansei de o fazer e fiz a minha própria “fila”.

Além disso, considerando que nunca encontrei conteúdo similar em português porque não partilhar essa “fila” com a comunidade?

Então o objetivo é que, com a ajuda da comunidade, este artigo se torne o guia mais completo sobre a matriz confusão, para consulta rápida e eficaz.

Matriz confusão

De forma sumária, a matriz confusão é apenas a compilação dos valores previstos vs os valores verdadeiros num modelo supervisionado de…

Ricardo Pinto

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store