數(shù)據(jù)處理方案實現(xiàn)對采集的數(shù)據(jù)進行大數(shù)據(jù)環(huán)境下的非結構化數(shù)據(jù)寬表存儲服務。包含對原始數(shù)據(jù)庫的管理功能,有效管理源數(shù)據(jù),提供源數(shù)據(jù)的清洗服務,可動態(tài)配置不同數(shù)據(jù)的不同清洗規(guī)則,提供去重、去殘、格式轉換等清洗功能。對清洗后的數(shù)據(jù)進行分層存儲達到最大利用價值,對數(shù)據(jù)提供非結構化的分析服務,包含對關鍵詞提取、自動摘要提取服務、提供相似性、聚類等大數(shù)據(jù)算法服務,最終將數(shù)據(jù)整理為高質(zhì)量數(shù)據(jù),提供數(shù)據(jù)的多格式導出。
《數(shù)據(jù)處理》解決方案主要包含原始數(shù)據(jù)庫管理、清洗規(guī)則管理、清洗庫管理、數(shù)據(jù)服務管理、數(shù)據(jù)轉換管理五部分內(nèi)容。以大數(shù)據(jù)架構體系為核心,涵蓋源數(shù)據(jù)的全量存儲,對于源數(shù)據(jù)提供自定義多種清洗流程自由搭配設定,對于清洗后的數(shù)據(jù)分層存儲,達到數(shù)據(jù)逐步處理提純的目的,系統(tǒng)提供結構化與非結構化數(shù)據(jù)大批量處理服務,包含文檔解析,關鍵詞自動摘要提取、相似性計算等,有效提升數(shù)據(jù)質(zhì)量,達到數(shù)據(jù)加工的目的。