• <dd id="3gzlp"></dd>

    <li id="3gzlp"><acronym id="3gzlp"></acronym></li>

    <span id="3gzlp"></span>

    高手問答第 247 期 —— 面對海量數據,你能否從容應對?

    xplanet 發布于 前天 08:38
    閱讀 2K+
    收藏 4

    面對海量數據,你能否從容應對?>>>

    數智時代,數據量呈現爆炸式增長,根據 IDC 預測,到 2025 年,全球數據將增長 61%,達到 175ZB。海量數據不僅帶來了數據紅利,也讓企業的數據系統不堪重負,沒有一款性能強大的數據庫引擎傍身,何以洞悉數據背后的價值?

    面對海量數據,您常用的數據庫系統或查詢引擎有哪些?它們有哪些優勢?在日常工作中遇到過哪些難題?希望社區能提供哪些幫助?有沒有想親自上陣來完善某個開源數據引擎?

    OSCHINA 本期高手問答(2020 年 6 月 17 日——2020 年 6 月 23 日),邀請到來自百度的資深研發工程師陳明雨老師,他將與大家一起,圍繞「海量數據的處理」,尤其是「海量數據的報表和多維分析」這一方面展開討論,定是知無不言言無不盡,歡迎大家提問。

    嘉賓簡介

    陳明雨百度資深研發工程師,Apache Doris(Incubating) PPMC,主要從事 Doris 項目的核心研發工作。

    為了鼓勵大家踴躍提問與學習,本期高手問答將抽取 3 名參與者分別贈予 Doris 聯名 T 恤 一件

    OSCHINA 高手問答一貫的風格,不歡迎任何與主題無關的討論和噴子。

    下面歡迎大家向陳明雨老師 @morningman  & @ApacheDoris 積極提問,直接回帖提問即可。

    加載中
    0
    大盤
    大盤

    @ApacheDoris   海量數據要怎么存儲 ?數據庫方面有推薦嗎?TiDB嗎 ?

    0
    青春天
    青春天

    @ApacheDoris 什么樣的數據可以定義為海量的數據?需要達到多少的量級?這些數據是怎么產生的,大概依據什么樣的頻次產生?其價值可以維持多久?

    0
    Li_Peng
    Li_Peng

    @ApacheDoris 您好,請教2個問題:

    1、 Doris后續會支持HTAP嗎?如果想支持HTAP,Doris結合哪些分布式存儲會比較好呢?

    2、對于高并發的訪問場景,Doris有哪些優化思路?

    0
    A
    ApacheDoris

    引用來自“Li_Peng”的評論

    @ApacheDoris 您好,請教2個問題:

    1、 Doris后續會支持HTAP嗎?如果想支持HTAP,Doris結合哪些分布式存儲會比較好呢?

    2、對于高并發的訪問場景,Doris有哪些優化思路?

    1. Doris 目前沒有支持HTAP的計劃,Doris里目前有多版本并發控制的能力,可以支持寫入事務在100qps以內的并發。

    2. 目前Doris可以支持高并發的讀取,實際測試中可以達到10000qps以上,通過擴展FE可以支持10w以上的qps。

    m
    morningman
    回復 @Li_Peng : 可以的,Doris不負責管理ES的數據,所以其實你本身擁有es的全部功能。Doris只是提供一個MPP的SQL查詢層。 另外,Doris社區已經著手開始支持實時的增刪改功能,這個無關事務,但是也可以滿足大部分更新需求場景。
    Li_Peng
    Li_Peng
    感謝回復,想再請教一下,如果采用Doris on ES的模式,能否間接實現HTAP?例如,數據通過ES進行逐條寫入或刪除,通過Doris進行批量查詢。
    0
    A
    ApacheDoris

    引用來自“大盤”的評論

    @ApacheDoris   海量數據要怎么存儲 ?數據庫方面有推薦嗎?TiDB嗎 ?

    海量數據存儲的選型要看上層的業務,如果是分析型的業務,那么Doris最合適不過了。Doris目前既支持大批量的數據處理,也支持高并發的小查詢,所以我們建議只要是分析型的業務都可以使用Doris。

    0
    A
    ApacheDoris

    引用來自“青春天”的評論

    @ApacheDoris 什么樣的數據可以定義為海量的數據?需要達到多少的量級?這些數據是怎么產生的,大概依據什么樣的頻次產生?其價值可以維持多久?

    在一些傳統企業中TB級就是海量了,在互聯網公司一般認為PB級吧。 數據的產生是多種多樣的,比如可以來自于關系型數據庫【像企業中的ERP,CRM系統】,可以是IoT數據,也可以是應用產生的日志數據,這些數據產生的頻次都不同,價值維持的時間也不一樣,比如ERP的數據是長期有用的,但是一些IoT的數據可能就1個月。

    0
    m
    morningman

    歡迎大家關注 Apache Doris(Incubating)

    Doris 是一款支持對海量大數據進行快速分析的MPP數據倉庫。

    1. 現代化MPP架構
    2. 秒級查詢返回延時
    3. 支持標準SQL語言,兼容MySQL協議
    4. 向量化執行器
    5. 新型聚合表技術
    6. 高效預聚合技術Rollup
    7. 高性能、高可用、高可靠
    8. 極簡運維,彈性伸縮

    主頁:http://doris.incubator.apache.org/master/zh-CN/

    Github:https://github.com/apache/incubator-doris

    0
    鬼面書生灬
    鬼面書生灬

    @ApacheDoris 請問動態大文本文件如何進行增量讀取?比如一個大文件有上億條記錄,并且記錄還在持續不斷增加,第一次讀到第100萬行,第二次想從第101萬行開始讀取,有什么辦法能快速跳過之前已經讀取的100萬行?

    0
    吐槽的達達仔
    吐槽的達達仔

    @ApacheDoris 對比Kudu+Impala有什么優勢?Doris對比其他大數據平臺的定位是怎么樣的??

    0
    y
    yooh_o

    @ApacheDoris  
    請教下
    1.單用mysql innodb出多維分析報表,能支持的數量級能到多少?大概到什么數量級不得不遷移到Doris上去?

    2.目前使用批量腳本出各種聚合數據,批量腳本非常多,Doris能解決這個問題嗎

    3.從mysql innodb到Doris有合適的etl方案嗎,公司大部分開發使用php,老板對報表數據實時性要求比較高

    4.數據遷移后的完整性校驗有什么比較成熟的方案嗎

    冷靜sadlll
    冷靜sadlll
    回復 @duodo : 關聯是指Doris創建一個MySQL外聯表,這樣在Doris就能直接訪問MySQL的數據了,Doris里執行help create table查看說明。 分表合成一張大表,數據量看起來很大而已,實際使用只會使用那幾個字段,內存占用不會很多,10G左右就了不得了,如果占用內存超過30G,那可能是統計邏輯有問題,考慮先分天統計到中間表,再二次統計。
    d
    duodo
    回復 @冷靜sadlll : 請問關聯功能指的join?如果分表數據要整合成一張大表,如果分表數據量大的話,直接join有可能會導致內存占用很高吧
    冷靜sadlll
    冷靜sadlll
    針對問題3舉個實際例子,很多人都會遇到。我之前做過一個活動統計需求,每個用戶每天十幾個指標,用戶量級也是千萬級的,如果使用腳本統計基本實現不了,統計復雜、執行耗時爆炸(對,沒錯,我們的主力語言PHP。。),但是我把所有依賴的數據搬到Doris,統計邏輯也使用SQL來寫,每天產出的數據千萬量級,但是整個SQL任務執行耗時僅僅幾十秒。我的體驗就是,沒有一條SQL解決不了的統計,如果有,那就兩條。
    冷靜sadlll
    冷靜sadlll
    3. 分表使用binlog方案,數據先導入到hdfs,再從hdfs導入Doris,可以做到分鐘級延遲,但是維護成本很高,一般小時比較合適;單表小表的話直接使用Doris的關聯功能即可。 4. 基本沒遇到過丟數據的情況,直接對比MySQL的數據量級和Doris的數據量級即可。
    冷靜sadlll
    冷靜sadlll
    1. mysql性能和機器有關,一般單表5千萬以上的量級就可以考量使用Doris來進行統計分析了; 2. 可以。我的解決思路是將MySQL各個分表數據導入Doris,小表直接使用Doris的關聯功能,然后提交統計SQL(insert select from),將統計結果寫入Doris中間結果表即可。統計腳本是非常難以維護的,但是所有統計邏輯使用SQL統計就非常簡單了,維護也很簡單;
    返回頂部
    頂部
    聚看影院