Tecnologias como a Internet, computadores, smartphones, tablets e sensores estão a mudar o mundo em que vivemos. Por um lado a massificação destas tecnologias potencia a digitalização dos consumidores e das máquinas, por outro disponibiliza um maior volume de informação para análise, levando a uma melhor compreensão de hábitos, padrões e anomalias. Esta é a base do Big Data.
Na digitalização dos consumidores observamos que 2 em cada 3 pessoas com idades inferiores a 45 anos estão constantemente ligadas e a desenvolver interações digitais, através de múltiplos dispositivos e em múltiplos locais. O que implica uma alteração de hábitos de consumo de media, com os canais digitais (2.3 horas/dia) a ultrapassarem os antigos canais de media, nomeadamente televisão (2,2 horas/dia) e jornais/revistas (0,1 horas/dia), e um incremento da pegada digital (rasto de informação voluntária e involuntária) nos diversos sistemas que suportam todos estes serviços.
Em 2014 registaram-se valores, ao minuto, de 6 novos artigos no Wikipedia, 1.300 novos utilizadores móveis, 100 novas contas no LinkedIn, 20 milhões de fotos vistas no Flickr, 100 mil novos tweets, 2 milhões de pesquisas no Google, 6 milhões de consultas no Facebook e 1,3 milhões de vídeos colocados no YouTube.
A permanência dos consumidores no mundo digital obriga as organizações a estarem sempre presentes. Neste mundo digital onde os consumidores são bombardeados com inúmeras ações é preciso criar sistemas analíticos que analisem o contexto e personalizem as mensagens para os utilizadores com o objetivo de construir uma relação mais emocional.
O conceito de Big Data reúne as tecnologias, frameworks e infraestruturas necessárias para guardar, processar e analisar toda a informação existente no mundo digital (pegada digital). É na Google que surge este conceito que mais tarde evoluiu para várias definições (ver Wikipedia ou Gartner). Para a Accenture, o Big Data consiste na capacidade e no conjunto de competências que utilizamos para mobilizar e gerir um ecossistema com volumes grandes de dados, internos e externos, de forma a extrair informação e criar valor diferenciado.
Com o Big Data pretendemos gerar valor através do incremento de produtividade e eficiência, aumento de conhecimento baseado em dados, melhores retornos de investimento (ROI), e criação de novos e inovadores serviços de negócio. Observamos seis tendências para atingir estes objetivos: Explosão de Dados, Agregação de Dados, Tecnologia, Monetização de Dados, Redes Sociais e Mobilidade.
Na tendência “incremento de produtividade e eficiência” procuramos melhorar a inteligência operacional dos sistemas com grandes volumes de dados, conseguir responder em tempo real e potenciar a transparência através de uma melhor partilha de dados.
Relativamente ao “aumento de conhecimento” potenciamos uma visão abrangente das organizações através da análise de dados estruturados e não estruturados, construímos pontes entre silos e aumentamos as capacidades analíticas através de novos modelos que não são assentes apenas em amostras de dados.
Na vertente de “investimento”, e para o otimizar, procuramos uma abordagem open source ao storage e processamento de forma a torná-los facilmente escaláveis, e pretendemos eliminar infraestrutura redundante e trabalho duplicado.
Por último, apoiamos a criação de novos e inovadores serviços de negócio assentes na recente capacidade de exploração, análise e visualização de dados.
Para suportar a execução destes objetivos, o ecossistema Big Data tem uma proliferação de tecnologias / frameworks que dividimos em grupos consoante os desafios que endereçam, nomeadamente processamento e storage distribuída, base de dados não relacionais com baixa latência, streaming e processamento de eventos complexos, processamento de múltiplos tipos de dados, processamento e base de dados em memória, base de dados analíticas e aplicativos.
No “processamento e storage distribuída” englobamos por exemplo fornecedores como Hadoop, Map Reduce, Cloudera, Hortonworks, IBM BigInsight e Amazon Elastic MapReduce Cloud. Promovemos escalabilidade horizontal de processamento e storage sobre uma variedade de diferentes infraestruturas, processamento de larga escala muito eficiente com uma arquitetura “share nothing” e TCO baixo devido ao hardware de baixo custo e software open source.
Recorremos a estas tecnologias para armazenar volumes grandes de dados no seu estágio original, evitando os custos de aquisição de licenças comerciais, implementar sandboxes de Business Intelligence de baixo custo, e construir sistemas de processamento de dados antes do Data Warehouse.
No segundo grupo que apelidamos de “base de dados não relacionais” contemplamos produtos como Key-Value, Column-Oriented, Document Databases, Cassandra, Riak, MongoDB e Redis. Conseguimos com estas tecnologias o processamento de grandes volumes a velocidades altas, ultrapassando os constrangimentos dos sistemas de gestão de base de dados relacionais, a construção de arquiteturas de alta resiliência e a modelação dinâmica de perfis de dados.
Temos utilizado este tipo de tecnologias para construir aplicações dinâmicas de baixa latência que utilizam dados semiestruturados e aplicações web com personalização através de análise e atualizações em tempo real.
No terceiro grupo de tecnologias que apelidamos de “streaming e processamento de eventos complexos” enquadramos os fornecedores GemFire, Espertech, SenseiDB, Sensage, Zoie, IBM InfoStreams, uCIRRUS, Flume, Splunk e Sumologic. Estas tecnologias permitem a ingestão de dados em grande escala para storage e análise, consumo contínuo de grandes volumes de dados com pesquisas em tempo real, e consolidação de eventos em tempo real e a sua disseminação para um grande número de sistemas cliente.
Este tipo de tecnologia permite-nos implementar sistemas de criação de anúncios e promoções em tempo real para portais online e mobile, e desenvolver sistemas de resposta em tempo real a eventos com capacidade de adaptação a alterações de tipo e formato de dados.
No grupo a que chamamos “processamento de múltiplos tipos de dados” identificamos como produtos a MarkLogic, Neo4j e FlockDB. Este grupo é composto por tecnologias que se caracterizam por base de dados Graph para processamento de grandes volumes de dados em Extensible Markup Language (XML). Tecnologias que servem para implementar sistemas de otimização de caminhos e para a pesquisa e análise de relacionamentos complexos como graph sociais.
No conjunto de tecnologias de “processamento e de bases de dados em memória” contemplamos fornecedores como VoltDB, Applications and Products in Data Processing – High Performance Analytic Appliance Systems, Applications and Products (SAP HANA), QlikView, SolidDB, Membase, DRUID (Metamarkets), Statistical Analysis System (SAS HPA), and GemFire. Estas tecnologias diferenciam-se por processamento de grandes volumes com velocidade, Online Analytical Processing (OLAP) distribuído e em memória, e processamento analítico distribuído em memória para Message Passing Interface (MPI).
Utilizamos este tipo de tecnologia para implementar sistemas de ingestão e analítica de feeds em tempo real, sistema de trocas comerciais em tempo real, e processamento em tempo real de informação de máquinas e sensores.
Por último, no grupo das “bases de dados analíticas e aplicativos” contemplamos fornecedores como Greenplum DB, Teradata Aster, Kognitio, Vertica, ParAccel, Sybase IQ, Netezza, Teradata, Greemplum e Exadata Appliance. Estas tecnologias destacam-se por serem soluções “in-a-box” com baixo esforço de manutenção e interfaces para a escrita de queries complexas de Structured Query Language (SQL).
Este tipo de tecnologias são usadas para analisar de forma eficiente enormes volumes de dados estruturados, construção de aplicações complexas para análise de dados estruturados e implementação de grandes Data Warehousing paralelos.
Em conclusão, as tecnologias Big Data permitem às organizações receber, processar, guardar e analisar toda a informação disponibilizada por sistemas e sensores. Esta informação detalha todas as interações entre máquinas e pessoas e é necessária para compreender quem, quando, porquê e para quê, perceber o contexto e personalizar a interação de forma a construir uma relação emocional com cada uma das pessoas. Adicionalmente, no contexto de interações de máquinas permite-nos perceber situações anómalas e prever essas mesmas situações.
Sabendo que a explosão de dados já começou e que tem tendência para aumentar exponencialmente com a criação de mais serviços no mundo digital (abertura dos sistemas das organizações através de API), com a penetração de dispositivos e com os novos dispositivos ligados (Internet of Things), é fácil antever cada vez mais necessidades de processamento, storage e análise de dados.
Este é o futuro do IT e são necessárias pessoas com as competências certas para compreenderem este cenário, conhecerem as tecnologias e que queiram ajudar a resolver os desafios que o futuro apresentará…