`
chakey
  • 浏览: 359987 次
  • 性别: Icon_minigender_1
  • 来自: 水星
社区版块
存档分类
最新评论
文章列表
Step1)   必须先安装好分布文件系统hadoop dfs .每台机上面都有相同的用户。为了方便katta集群的配置和管理必须要在各个服务器之间建立“无密码公钥认证 ”的ssh。   Step2) 下载最新的katta,每台服务器都解压到相同目录下。   Step3)
  本文以Cassandra 0.8中的hadoop_word_count为例: https://svn.apache.org/repos/asf/cassandra/branches/cassandra-0.8/examples/hadoop_word_count/   需要安装插件:mapreducetools 下载地址:http://www.alphaworks.ibm.com/tech/mapreducetools 解压缩后将这个插件放入到eclipse安装目录下的plugins目录下。 需要重启eclipse。   将编译Cassandra所生 ...
Svn地址:https://svn.apache.org/repos/asf/cassandra/branches/cassandra-0.8/   过程: File-New-Other-                 
Windows下安装配置Cassandra 下载:apache-cassandra-0.7.4-bin.tar.gz 解压到D盘并重命名为D:\cassandra-0.7.4 注意:0.7版本前配置文件为conf/storage-conf.xml;0.70版本之后变化为conf/cassandra.yaml 需要修改conf/log4j-server.properties 修改 # Edit the next line to point to your logs directory log4j.appender.R.File=D:\cassandra-0.7.4\log   ...
  hosts中 192.168.27.27  localhost bin/cassandra-cli    cassandra> connect localhost/9160 正常 cassandra> connect 192.168.27.27/9160 出现异常: java.net.ConnectException: Connection refused  而且无法进行远程连接。   需要修改 conf/ cassandra.yaml 将里面的 listen_address: 192.168.27.164(本地的静态IP地址,改为IP的目的是可以远程连接 ...
mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。SequenceFile是hadoop中的一个类,允许我们向文件中写入二进制的键值对,具体介绍请看eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&ampmahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。(You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents t ...
把当前目录下所有文件打包,并且移除打包前文件 #!/bin/bash for i in `ls ./`; do         tar -jcvf $i.tar.bz2 $i --remove-files done
  reduce的运行是分成三个阶段的。分别为copy->sort->reduce。 由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition, 所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。 所以,为了优化reduce的执行时间,hadoop中是等job的第一个map结束后, 所有的reduce就开始尝试从完成的map中下载该reduce对应的partition部分数据。 这个过程就是通常所说的shuffle,也就是copy过程。 参数:mapred.reduce.parallel.cop ...
参数:io.sort.mb(default 100) 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。 而是会利用到了内存buffer来进行已经产生的部分结果的缓存, 并在内存buffer中进行一些预排序来优化整个map的性能。 每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该buffer中, 这个buffer默认是100MB大小, 但是这个大小是可以根据job提交时的参数设定来调整的, 当map的产生数据非常大时,并且把io.sort.mb调大, 那么map在整个计算过程中spill的次数就势必会降低, ...
K-means聚类方法 就是把空间内点,分成K类。同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 用均值来代表类中心,并用于衡量与新点的距离。 初始值: 根据先验知识找到K个均值,做迭代初始值。 迭代公式: 1:从n个数据对象中选择k个对象作为初始聚类中心 2:将剩下的n-k个数据对象,按照他们和初始的k个值之间的距离大小,分配给与其最近的聚类。 3:计算形成的k个新聚类的聚类中心(该聚类中所有对象的均值) 4:重复2 5:类中心不再摆动,或者摆动幅度很小,趋于稳定,则终止。 测准函数一般使用均方差。 bin/mahout kmeans ...
我使用的是hive。 所有的数据也是在hive中 load data inpath 导入的 导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse 以一个表一个文件夹的形式 两天来一直面对着一个困惑 从hive中load进去的数据只有600G但是页面显示的DFS Use ...
之前dfs.replication值为3,运行一段时间之后我使用完了磁盘空间, 所以呢,现在我想通过降低备份的个数来释放空间。 那么对于之前存储的文件会自动把备份数改为1吗? 还是需要手动执行命令来执行呢? dfs.replication这个参数其实只在文件被写入dfs时起作用,虽然更改了配置文件,但是不会改变之前写入的文件的备份数。 但是可以通过如下命令更改备份数: bin/hadoop fs -setrep -R 1 /
Hbase的数据模型 row 行 column 列 row keys 行键 column keys 列键 column families 列族     Hbase的数据模型和Bigtable的数据模型是一致的,非常适用于数据密集型的系统. 简单的说,Hbase可以简化描述为一个Map<byte[], Map<byte[], Map<byte[], Map<Long, byte[]>>>>. 一个Map建立行键和它们的列族的映射关系;第二个Map建立列族和列键的映射关系;第三个Map建立列键和时间戳的映射关系; 最后一个M ...
TimeTunnel是一个高效的、可靠的、可扩展的实时数据传输平台,广泛应用于实时日志收集、数据实时监控、广告效果实时反馈、数据库实时同步等领域。TimeTunnel基于发布\订阅的消息模型开发,支持消息多用户订阅 。 开源地址: http://code.taobao.org/project/view/411/
  [hadoopuser@master  hbase-0.20.3]$ bin/hbase shell HBase Shell; enter 'help<RETURN>' for list of supported commands. Version: 0.20.3, rUnknown, Fri Apr  9 11:15:50 CST 2010 hbase(main):001:0> list (显示所有的表) scores xuser 2 row(s) in 0.1600 seconds hbase(main):002:0> create 'xuse ...
Global site tag (gtag.js) - Google Analytics