• <fieldset id="2mqau"></fieldset>
    <tbody id="2mqau"><tfoot id="2mqau"></tfoot></tbody>
    <option id="2mqau"><noframes id="2mqau"></noframes></option>
  • <input id="2mqau"></input>
  • 第九周 深圳市模具廠應用 大數(shù)據(jù) hadoop spark

    2019-10-27 17:00:03

    帶著很對疑問,到了書城18樓,


    1、centos 如何開啟  8888|888|88|8080|80|22|21等等端口

    2、建立一個能使用的大數(shù)據(jù)集群最好需要多少臺服務器, 而且都是 centos 7.5 的嗎?

    3、區(qū)塊鏈 和 我們學習的大數(shù)據(jù)中的 BlocK 有無聯(lián)系, 64MB 一個 塊, 還是128M一個塊。


    復習上周


    image.png


    發(fā)送心跳, 告訴 ZooKeeper ,  這個是有問題才動手的軟件,  再由ZooKeePer 分配KafKA

    producr 生產(chǎn)者產(chǎn)生數(shù)據(jù), 記錄放入 Kafka .   Topic 的創(chuàng)建, 寫入多少條, 都由 ZooKeeper 管理。

     消費者, 也是有

    KAFKA作為一個集群,  宕機后, 主節(jié)點宕機后無法消費, 由ZooKeeper負責重新選舉。


    zookeeper  安裝  三種模式


    image.png


    /bin  目錄下有很多腳本 , 

    image.png


    Myid 是不一樣的, 每臺機都要安裝   ZooKEEPER ,  不同的 ID 

    2888   仲裁通訊

    3888   群首選舉


    每臺服務器上都要啟動一下,  每臺機都需要啟動

    image.png


    再看看  偽集群模式,    如果只有一臺機器, 也可以配置  zoo1.cfg  ........    僅僅是端口改為不一樣了  2181   3181   4181


    image.png


    啟動, 一臺機器, 也要啟動三次  

    image.png


    不同端口模擬不同集群

    image.png



    image.png


    image.png


    image.png

    image.png

    一個領導者和多個跟隨者的。



    image.png

    image.png

    image.png

    image.png


    image.png


    image.png


    image.png


    image.png


    image.png


    image.png



    fluke   和 spark 都差不多, 原理還是結(jié)構(gòu)spark ,   rdd  dij  


    image.png


    image.png

    image.png



    復習完成,  繼續(xù)SPARK 的學習。


    SPARK核心編程模型


    Spark 數(shù)據(jù)運算核心機制:


    image.png



    RDD概述:


    RDD: 彈性分布式數(shù)據(jù)集


    RDD是 SPARK中重要的數(shù)據(jù)結(jié)構(gòu)。

    image.png

    image.png

    什么是  RDD  ,


    顧名思義,從字面理解RDD就是 Resillient Distributed Dataset,即彈性分布式數(shù)據(jù)集。

    它是Spark提供的核心抽象。

    RDD在抽象上來講是一種抽象的分布式的數(shù)據(jù)集。它是被分區(qū)的,每個分區(qū)分布在集群中的不同的節(jié)點上。從而可以讓數(shù)據(jù)進行并行的計算

    它主要特點就是彈性和容錯性。

    彈性:RDD的數(shù)據(jù)默認情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時,Spark會自動將RDD數(shù)據(jù)寫入磁盤

    容錯性:RDD可以自動從節(jié)點失敗中恢復過來。即如果某個節(jié)點上的RDD partition,因為節(jié)點故障,導致數(shù)據(jù)丟了,那么RDD會自動通過自己的數(shù)據(jù)來源重新計算該partition。

    RDD來源:通常是Hadoop的HDFS,Hive 表等等;也可以通過Linux的本地文件;應用程序中的數(shù)組;jdbc(mysql 等);也可以是kafka、flume數(shù)據(jù)采集工具、中間件等轉(zhuǎn)化而來的RDD。


    image.png

    image.png

    image.png


    總體都在RAM中運行的, 現(xiàn)在看看 CACHE ,  


    image.png

    image.png


    image.png


    image.png


    image.png


    不斷的轉(zhuǎn)化, 就是得到  DMG圖,  TSK 何在一起就是   TSK site    ,  最終得到   TSK  scuhle 


    image.png

    image.png





    image.png

    image.png

    image.png

    image.png


    image.png

    image.png

    image.png



    image.png




    下節(jié)課, 講解  spark  讀取  kafka 數(shù)據(jù)進行講解














    首頁
    產(chǎn)品
    新聞
    聯(lián)系
    国产精品美女久久久久AV爽,俺去俺来也在线WWW色官网,成年美女黄的视频网站,正在播放无套少妇出租屋 嘉黎县| 千阳县| 藁城市| 白水县| 江孜县| 长泰县| 盐亭县| 江源县| 环江| 太康县| 黔西| 武安市| 海安县| 成安县| 崇阳县| 吴江市| 桦南县| 阿拉善左旗| 太仓市| 水城县| 沽源县| 遂溪县| 河源市| 安徽省| 犍为县| 莒南县| 科尔| 景宁| 华阴市| 大足县| 安图县| 揭东县| 都昌县| 仁布县| 汉寿县| 滦平县| 山西省| 衡山县| 阳春市| 盐城市| 横山县|