Hive动态分区导致的Jobtracker Hang问题_强力恢复手机_数据恢复微信数据恢复硬盘开盘硬盘数据恢复手机数据恢复服务器数据恢复数据库数据恢复

Hive动态分区导致的Jobtracker Hang问题_强力恢复手机

日期：2014-12-27 / 人气： / 来源：网络

熟悉Jobtracker的都知道，在进行Job初始化时EagerTaskInitializationListener会锁住 JobInProgress然后进行InitTask,细节请各位查看代码，这里有一步就是需要向hdfs写入初始数据并flush，而 Fairscheduler的Update Thread在更新资源池的资源时是在持有JobTracker和Fairscheduler的独占锁然后再去计算每个资源池的资源情况，而计算 running_map/running_reduce的时候要去获取相应的JobInProgress锁，各位读者可能不明白，我为啥要讲这块呢，问题就出现在这里.

Hive在处理动态分区的时候，主要经历这么几个步骤tablescan->filesink->movetask

在进行filesink的时候是根据记录来处理的，会起N(part)个record writer然后开始处理动态分区字段，即这里的dt，如果dt是连续的那么打开一个block开始写，否则关闭当前block，打开新dir的 block继续写，这里如果dt是不连续的出现并且记录数量巨大的情况下会产生大量的文件，导致hdfs的负载标高，和当时的hdfs的监控是匹配的：

当时的集群负载：

当时产生的文件数：

进而导致JobInProgress被锁住，从而JobTracker被锁住，导致JobTracker Hang住了!

那怎么解决呢?利用distributeby dt把相同的dt排列到一起再进行filesink就不会造成大量的小文件产生了。

Hadoop生态上hive、pig、hbase 关系与区别
Pig可以非常方便的处理HDFS和HBase的数据，和Hive一样,Pig可以非常高效的处理其需要做的，通过直接操作Pig查询可以节省大量的劳动和时间。当你想在你的数据上做一些转换，并且不想编写MapReduce jobs就可以用Pig.
Hadoop部署,hive,hbase

作者：管理员

江苏飞浩信息科技有限公司

Hive动态分区导致的Jobtracker Hang问题_强力恢复手机

推荐内容 Recommended

相关内容 Related

我们的服务 Our Services

我们的成功案例 Our Successful Cases

现在致电4006-2991-90 OR 查看更多联系方式 →

现在致电4006-2991-90 OR 查看更多联系方式 →