LexisNexis código fonte aberto para Hadoop alternativa

11/09/2011 11:55

 

HPCC Sistemas , a divisão de Soluções de Risco LexisNexis dedicada aos dados grande, lançou o código fonte aberto de seu software de processamento de dados e entrega-lo de posicionamento como a melhor versão do Hadoop. A High Performance Computing Cluster código édisponível no Github , e marca o início da busca HPCC Systems para construir uma comunidade de desenvolvedores debaixo da sombra do Hadoop expansiva.

"Estamos agora realmente fonte aberta", LexisNexis CTO Armando Escalante me disse, respondendo à crítica inicial que a empresa estava arrastando os pés em liberar o código. Ele disse que está animado, mas nervoso, porque o código está agora exposto a opiniões e comentários, depois de anos de operação privada em Soluções de Risco LexisNexis.

A arquitetura inclui o HPCC Thor Cluster Refinaria de dados e os Roxy rápida Cluster de entrega de dados. Como eu expliquei quando cobrindo o lançamento HPCC Sistemas em junho, "Thor - assim chamado por sua abordagem martelo-like para resolver o problema - crunches, as análises e os índices de enormes quantidades de dados de um Hadoop la. Roxie, por outro lado, é mais como um banco de dados relacional tradicional ou armazém banco de dados que ainda pode servir transações para um front-end web. "Ambos alavancar Ferramentas de Idioma da empresa de controle da empresa, que Escalante descreve como mais fácil, mais rápido e mais eficiente do Hadoop MapReduce.

Além da versão open source Comunidade, HPCC Systems também oferece uma versão Enterprise paga do produto HPCC. O código do núcleo é o mesmo, explicou Escalante, com as principais diferenças sendo adicional de nível empresarial recursos como ferramentas de gestão e suporte e serviços.

Será uma tarefa difícil para deslocar Hadoop - que tem cada vez maior fornecedor , projeto de ecossistemas e desenvolvedor - mas Escalante está confiante HPCC pode fazê-lo. De acordo com Escalante, Hadoop precisa de uma grande comunidade, porque é um projeto de crescimento, enquanto HPCC já está madura, pois tem vindo a servir os grandes clientes para uma década. É como tentar evoluir um micróbio em um ser humano em vez de apenas começando com um ser humano fora do bastão. O desafio, segundo ele, será espalhar a mensagem para startups web já vendidos e experiente com Hadoop.

No entanto, Escalante não acha que a maioria das empresas estão trancados em Hadoop, neste ponto, se eles mesmo usado em tudo. E com seu histórico e as características Enterprise Edition, HPCC é sem dúvida mais voltado para empresas de qualquer maneira.Para as empresas que gastam muito dinheiro em sistemas de hardware tradicional, Escalante diz HPCC tem que olhar ainda melhor.

"Nós não matamos Hadoop [ainda] ... mas temos que matou mainframes", explicou. Por mainframes, ele quer dizer todos os centros de legado remanescente de dados, como grandes sistemas de armazenamento caro, armazéns de dados e sistemas OLAP. Por causa das capacidades de Roxie rodando em hardware commodity, disse Escalante LexisNexis foi capaz de livrar-se de milhões de dólares em equipamento legado. Como volumes de dados de grandes empresas continuam a crescer, ele disse, eles terão de pagar através do nariz para comprar sistemas tradicionais grande o suficiente para lidar com a carga.

Com Hadoop, as empresas devem manter separados ambientes de data warehouse, embora startups Hadapt , e até certo ponto,  Platfora , pretendem mudar isso.

HPCC Systems, bem como a Microsoft com seu projeto Dryad , tem uma chance fora para roubar algum do trovão Hadoop com os desenvolvedores, mas como Escalante reconhecido, a sua melhor chance é provavelmente com grandes clientes que serão movidos por sua empresa-readiness. HPCC Systems é touting Sandia National Laboratories e da Georgia Tech Research Institute como dois grandes data-savvy usuários já vendido no HPCC, e Escalante promete alguns clientes de grandes nomes vitórias no próximos meses.