Esta é a primeira documentação extensa em português.
No final do post há uma lista completa de fontes sobre este assunto.
Device fingerprint, ou impressão digital do dispositivo, é um conjunto de técnicas que permite a um site identificar unicamente seu computador.
browserleaks.com - Nesse site, é possível ver todos os dados que um site pode coletar quando você acessa. Navegando nas abas à esquerda, confira desde o user-agent do navegador até a lista de fontes e detalhes específicos da sua placa de vídeo.
Ao pesquisar sobre fingerprint o exemplo mais badalado é o CANVAS Fingerprint. Um algoritmo que instrui os navegadores a desenhar uma imagem secreta, sendo cada computador capaz de produzir uma imagem diferente, única, como uma impressão digital.
Mas esse não é o único. Existem inúmeras maneiras de identificar informações via navegador: Plugins, fontes, user agent, HTTP ACCEPT, resolução da tela (incrivelmente), Supercookies, inclinação do Clock, TCP stack, WebRTC, WebGL, etc.
Fonte: https://wiki.mozilla.org/Fingerprinting
.
Organizações reguladoras da internet, como W3C e EFF, fizeram diversos artigos sobre o assunto:
w3.org/2001/tag/doc/unsanctioned-tracking
eff.org/deeplinks/2010/05/every-browser-unique-results-fom-panopticlick
(mais fontes ao final do post)
Vamos supor que Joana está grávida. Ela pesquisa no Google e no Youtube sobre o assunto e decide fazer um aborto.
2 meses depois, Joana acessa um site especializado para procurar emprego. Neste site, há algum tipo de AdSense ou outro serviço fornecido pelo Google para a exibição de anúncios ou conteúdo personalizado de acordo com o site e o usuário. O algoritmo vai selecionar ou retirar vagas de emprego de acordo com o histórico de buscas de Joana no Google e Youtube. Em última instância, o empregador de Joana pode decidir com base em um aspecto da sua vida particular – um aborto – se deve contratá-la ou não.
De acordo com a dinâmica promíscua de coleta e distribuição de dados de usuários, seus valores pessoais, crenças religiosas, orientação e fetiches sexuais, gostos musicais, hobbies, opiniões políticas, integração com outras pessoas e culturas, etc serão disponibilizados direta ou indiretamente para:
- Empregadores
- Universidades, no momento de definir se uma bolsa deve ser concedida ou não
- Escolas
- Planos de saúde, que podem disponibilizar ou cancelar seu plano com base nos dados recebidos
- Bancos e instituições financeiras em geral
- Políticos, incluindo os da sua vizinhança
- Criminosos
Teste feito pela EFF:
Exemplo de acompanhamento de terceiros: quando observamos CareerBuilder.com, que é o maior site de empregos on-line nos Estados Unidos, e procuramos um emprego, CareerBuilder inclui código JavaScript de 10 (!) diferentes domínios de rastreamento: Rubicon Project, AdSonar, Advertising.com, Tacoda.net (os 3 são divisões de publicidade da AOL), Quantcast, Pulse 360, Undertone, AdBureau (parte da Microsoft Advertising), Traffic Marketplace e DoubleClick (propriedade da Google). Em outras visitas, também vimos o CareerBuilder incluir scripts de rastreamento e non-JavaScript web bugs de vários outros domínios.
Neste screenshot, NoScript identifica rastreadores de terceiros cujo código é incorporado na página
Cada uma dessas empresas de rastreamento pode rastreá-lo em vários sites diferentes, efetivamente seguindo você ao navegar na web. Eles usam cookies, "super cookies" e outros meios, para vincular seus registros de cada nova página visitada aos registros de todas as páginas que você visitou nos minutos, meses e anos anteriores. A presença generalizada de web bugs de terceiros e scripts de rastreamento em uma grande parte dos sites significa que essas empresas podem construir um perfil de longo prazo com a maioria das coisas que fazemos na web.
Fonte: https://www.eff.org/deeplinks/2009/09/online-trackers-and-social-networks
Apesar do excelente artigo disponibilizado pela EFF, eles só esqueceram de mencionar um caso: quando o domínio do rastreador é sempre o mesmo. Por exemplo, o Google possui dezenas de domínios (Youtube, Maps, etc). Quando o rastreamento cruzado acontece entre sites diferentes de um mesmo domínio, fica praticamente impossível bloquear (NoScript só bloqueia JS por domínio, por exemplo).
Versões do navegador carregam, em média, 10,5 bits de identificação de informações.
Outro experimento da EFF mostrou que a sequência de User Agent do usuário geralmente carrega 5-15 bits de informações de identificação (10,5 bits em média). Isso significa que, em média, apenas uma pessoa em cerca de 1.500 (2 10,5 ) terá o mesmo agente de usuário que você. Em combinação com outros detalhes como geolocalização, plug-ins e supercookies, a sequência User Agent se torna um problema de privacidade real.
Fonte: https://www.eff.org/deeplinks/2010/01/tracking-by-user-agent
Relatório do Panopticlick Experiment, um projeto da EFF:
Os resultados mostram que a esmagadora maioria dos usuários da Internet podem ser unicamente identificados digitalmente e rastreadas usando apenas as informações de configuração e versão que seus navegadores disponibilizam aos sites. Esses tipos de informações do sistema devem ser considerados como identificação, da mesma forma que os cookies, endereços IP e supercookies.
Na análise de dados anônimos feita por Panopticlick, com cerca de meio milhão de navegadores distintos, 84% tinham configurações únicas. Entre navegadores que tinham Flash ou Java instalado, 94% eram únicos, e apenas 1% tinha impressões digitais que foram vistas mais de duas vezes. No entanto, este experimento apenas estudou um número limitado de variáveis, e as empresas que oferecem serviços de fingerprinting especializados são capazes de utilizar uma gama mais ampla e, portanto, mais poderosa de medições.
Fonte: https://www.eff.org/deeplinks/2010/05/every-browser-unique-results-fom-panopticlick
O maior problema da coleta de dados anônima está no que se pode extrair de tal material e, principalmente, em sua destinação. Eles falam em pesquisa de mercado para comércio e industrial em geral, contudo com tamanha base de dados é possível traçar todo um perfil comportamental de determinada comunidade em relação não somente quanto a opção por marcas e produtos, mas em relação também a crenças, valores e opiniões (sejam estas políticas ou socioculturais). E ainda que dito anônimo, ao menos de forma indireta, que fim pode ser dado a essa informação? – Mateus E Julia.
Comentário extraído de: https://www.tecmundo.com.br/antivirus/86641-avg-muda-termos-vender-dados-navegacao-buscas.htm
"Isso não é algo que realmente me preocupa, porque eu não tenho nada a esconder."
Teste simples para ver se esse raciocínio é válido ou não:
Eu chego para você e peço que me envie identidades e senhas de todas as suas contas de e-mail, não apenas uma de suas contas profissionais, mas também contas pessoais e particulares que você tem.
"Por que eu deveria fazer isso?" Você me pergunta corretamente.
Simplesmente para eu poder ler os seus e-mails e ver o que você faz na Internet. Por que não compartilhar o conteúdo interessante de seus e-mails? Afinal, se você não tem más intenções, se você não faz nada de errado, e se você não tem nada horrível para se esconder, você não deve ter nada a esconder e temer.
Naturalmente, ninguém responde afirmativamente a este tipo de pedido. Isso é apenas para demonstrar que o argumento "não tenho nada a esconder" é totalmente falso.
Fonte: https://www.startpage.com/blog/our-latest-developments/is-privacy-on-the-internet-possible
Veja também: https://en.wikipedia.org/wiki/Nothing_to_hide_argument
Google e Yahoo não são polícia. Não têm poder de polícia. Muito pelo contrário, há vários relatos de dados sendo disponibilizados à governos e anunciantes sem consentimento do usuário e para fins controversos.
Outro problema grave referente ao device fingerprint é a quase absoluta falta de informações dos usuários comuns, e até de alguns especialistas. Vejamos o que diz nesta reportagem:
“Uma das sugestões feitas aos usuários que não querem ser afetados pelas mudanças é entrar na parte de históricos de pesquisa de cada um dos sites, e ficar constantemente apagando tudo o que estiver ali.”
http://tecnologia.terra.com.br/internet/nova-politica-de-privacidade-poe-google-e-ue-em-rota-de-colisao,8499fe32cdbda310VgnCLD200000bbcceb0aRCRD.html
Ao ler uma indicação como essa em um site que alega ser especializado, o usuário acha que excluir cookies do navegador é suficiente. Isso é coisa do passado, o rastreamento e personalização de conteúdo são técnicas muito mais complexas e combinadas nos dias de hoje.
Há casos de especialistas que dizem: “é impossível colher dados da sua placa de vídeo via navegador e js”. Bom, é uma afirmação em partes certa. Realmente é impossível ter acesso direto ao hardware. Mas, com técnicas combinadas de exibição de desenhos e fontes na tela, é possível criar uma hash única identificável do funcionamento da sua placa de vídeo no contexto do seu software e hardware.
Informações inexistentes e erradas fazem com que pessoas subestimem e não se interessem pelo assunto.
Não existem informações claras sobre coleta de dados a partir de device fingerprint na política de privacidade dos sites.
Fingerprint – técnicas de identificação:
https://wiki.mozilla.org/Fingerprinting
http://www.chromium.org/Home/chromium-security/client-identification-mechanisms
https://securehomes.esat.kuleuven.be/~gacar/persistent/index.html
http://jcarlosnorte.com/security/2016/03/06/advanced-tor-browser-fingerprinting.html
Fingerprint – contexto, utilização e proteção:
http://akademie.dw.de/digitalsafety/your-browsers-fingerprints-and-how-to-reduce-them
https://www.eff.org/deeplinks/2010/05/every-browser-unique-results-fom-panopticlick
https://www.eff.org/deeplinks/2009/09/online-trackers-and-social-networks
https://www.eff.org/deeplinks/2010/01/tracking-by-user-agent
https://www.w3.org/2001/tag/doc/unsanctioned-tracking
https://www.freehaven.net/anonbib/#ccs2014-critical
Canvas Fingerprint (algoritmo badalado):
http://meiobit.com/293222/canvas-fingerprinting-monitora-sua-atividade-online-mais-um-e-nao-pode-ser-bloqueado
http://gizmodo.uol.com.br/canvas-fingerprinting
https://canaltech.com.br/materia/internet/canvas-fingerprinting-nova-tecnologia-que-pode-substituir-os-cookies-56567
http://g1.globo.com/tecnologia/noticia/2014/07/tecnica-de-rastreamento-na-web-faz-computador-desenhar-uma-digital.html
https://www.ghacks.net/2014/07/21/companies-use-canvas-fingerprinting-track-online
Coleta de dados – conceitos e contextualização:
O que são informações "pessoalmente identificáveis"?
Um Guia sobre Teoria da Informação e Privacidade
Notícias sobre fingerprint e privacidade:
Fingerprinting está sendo usado para seguir visitantes em milhares de sites
Processadores Intel x86 implementam mecanismo de controle secreto
Rastreamento do Facebook está sob escrutínio
Notícias sobre privacidade e coleta de dados em geral:
Google admite rastrear redes WiFi e endereços MAC usando carro do Street View
Google usa "não rastrear" para coletar mais dados de usuários
Vazamento de dados do AOL (públicos até hoje)
Preocupações com a privacidade do Google
Notícias sobre privacidade, coleta de dados e conflito com leis europeias:
Nova política de privacidade põe Google e UE em rota de colisão
Europa investigará novas normas de privacidade do Google
Facebook pode ser punido na Europa por vender dados pessoais
Segundo estudo europeu, Facebook rastreia até quem não tem conta na rede
Etc:
Filtro-Bolha
Argumento “Nada para esconder”
A EFF indica este artigo bastante abrangente sobre conhecimento e ferramentas para proteger a privacidade:
https://privacytoolsio.github.io/privacytools.io
Eu penso que este artigo ainda deixa a desejar, afinal este assunto ainda é novo e existem muitas lacunas, mas é um dos mais completos atualmente.
Testes. Verifique quais dados seu navegador informa aos sites:
https://browserleaks.com
https://panopticlick.eff.org
http://noc.to
http://ip-check.info
http://browserspy.dk/screen.php
https://fingerprint.pet-portal.eu
https://amiunique.org/fp (acho que está bugado)
Quais são os motivos para utilização de Proxys e VPNs atualmente e no futuro?
Como deve ser o esclarecimento na política de privacidade dos sites? Se dados coletados são questões privadas e de segurança das empresas, então pra que elas têm políticas de privacidade?
Por que ainda excluímos cookies? Qual vai ser a utilidade disso no futuro?
Por que temos bloqueadores de anúncios e de rastreadores e add-ons de privacidade em geral se a maioria é ineficiente contra devices fingerprints? Por que não há ações para desenvolver aplicativos mais eficientes contra isso?