做最具实战的
数据科学职业社区

标签:Hadoop

数据分析

从底层到应用,那些数据人的必备技

数据科学网阅读(721)评论(0)

前言: 谨以此文献给对数据有热情,想长期从事此行业的年轻人,希望对你们有所启发,并快速调整思路和方向,让自己的职业生涯有更好的发展。 根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。 1、大数据平台 目前很火,...

Hadoop

Hadoop 集群搭建

wuxue阅读(1180)评论(0)

在图书馆看到关于 Hadoop 的书,刚好有空,就借回来了看看。然后在寝室尝试搭建环境,用了一天才弄好。 Hadoop 的运行模式有 单机模式、伪分布式模式、完全分布式模式。我选择的时完全分布式模式安装。 因此需要多台机器。但哪来的多台机器...

分析与挖掘

数据湖的四个最佳实践案例

wuhou阅读(653)评论(0)

数据湖听起来很简单:把数据或信息汇集到一个结合处理速度和存储空间的大数据系统――Hadoop集群或内存解决方案,那样业务部门就能访问数据,获取新的洞察力。不过,与IT行业的许多技术一样,现实比梦想困难得多。 Pentaho公司的创始人兼首席...

Hadoop

想要从大数据中获益?请先做好Hadoop管理

populus阅读(439)评论(0)

Hadoop管理正在成为大数据用户和供应商首先考虑的分部署处理框架,它在企业的业务运营中中扮演着越来越重要角色。 Comcast公司的IT团队在对Hadoop数据湖泊进行性能管理时,考虑的十分周全。 数据湖泊是一个大量信息的集合体,此外还包...

大数据

大数据领域动最新动态

Sampson977阅读(514)评论(0)

最近这几周大数据领域可谓动作频频,初创公司和老牌企业都纷纷发布新品,更新或改进现有的产品系列,以及达成战略性关系。 行业观察人士表示,许多企业拿来试点阶段的大数据系统(尤其是那些整合Hadoop平台的系统)后,将它们部署到更广泛的生产环境。...

Hadoop

实现R与Hadoop联合作业的三种方法

数据科学网阅读(713)评论(0)

实现R与Hadoop的联合作业,R就拥有了在分布式文件系统(HDFS)上处理大数据的能力。本文的目的就是阐述实现二者联合作业的不同技术。但同时,这几种方法也各有利弊。 为了满足用R语言处理pb量级数据的需求,我们需要把它和Hadoop联合起...

Hadoop

大数据问题?别忘了搜索!

pjycool阅读(481)评论(0)

导读:虽然Hadoop、Spark和NoSQL等数据库在市场上掀起更大的动静,搜索却是最初也是最有用的大数据技术之一。 面对每一种酷毙的新技术,人们很容易过于迷恋其中,开始把它用在不当的地方。比如说:从头到尾浏览数百亿条记录,从中找出几百万...

Hadoop

大数据工具,在数据科学家眼中是怎样的存在?

数据科学网阅读(646)评论(0)

随着大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道。 数据科学工具的功能通常围绕着预测建模,机器学习和数据可视化。但这些工具还应该包括后端数据管道技术,因为...

Hadoop

盘点丨最受欢迎的十个开源大数据技术

数据科学网阅读(637)评论(0)

大数据已然成为当今最热门的技术之一,正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术。  1.Hadoop——高效、可靠、可伸缩,能够为你...

Hadoop

R语言与Hadoop和Hbase的联合使用

数据科学网阅读(1117)评论(0)

HBase和rhbase的安装与使用,分为3个章节。 1. 环境准备及HBase安装 2. rhbase安装 3. rhbase程序用例 每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明与代码的连贯性。 注:Hadoop环境及...