大數據是什么?
維基百科對大數據的定義,即無法在一定時間內用常規軟件工具對其內容進行抓取,管理和處理的數據集合。
大數據呈現出四大特征,即4V:
數據大(Volume),例如Facebook每天在30萬臺服務器上處理25Tb數據。
時效性要求高(Velocity),例如搜索引擎要求在幾分鐘內為用戶查詢新聞。
種類和來源多樣化(Variety),除了結構化的數據、半結構化、非結構化的數據大量產生。
價值密度低(Value),以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
駕馭大數據能夠改變什么?
2011年3月11日日本大地震發生后僅9分鐘,美國國家海洋和大氣管理局(NOAA)就發布了詳細的海嘯預警。NOAA通過對海洋傳感器獲得的實時數據進行計算機模擬,制作的海嘯影響模型出現在各大網站。
電信行業借助社交網絡分析,對客戶的通話數據進行分析,能夠識別出這部分“影響者”。社交分析并不是分析單一用戶的通話記錄,而是分析各用戶所處的社交網絡。
全球金融危機帶給我們的最大教訓就是加強風險的監管力度,如何更好的進行風險管理已經成為銀行等金融機構重要的課題。
聯想大數據處理解決方案集業界領先的軟硬件產品、開源軟件,提供穩定、可靠和安全的 海量數據存儲、處理和分析平臺,幫助用戶在數量眾多的結構化、非結構化、半結構化數據中挖掘出巨大的商業價值,增強用戶洞察發現能力和決策能力。
海量數據存儲:VNX、VMAX、Isilon、Atmos、HDFS、LoFS
多種數據類型:結構化數據、半結構化數據、非結構化數據
高速分析/處理:HANA、Greenplum、Hadoop
高可擴展性:無需停機動態擴容
高可用性:自我修復的分布式文件存儲系統、數據自動檢測和復制
高開放性:SQL2003、HiveQL、OLAP、JDBC/ODBC

聯想 HANA 大數據解決方案
SAP HANA概述
HANA特性介紹
高性能實時數據平臺
實時,無延遲的業務
開放式軟件架構
開放式,特別優化的一體化硬件
最先進的內存計算技術
徹底的創新軟件架構
解決傳統數據庫的性能問題而生
無磁盤I/O,數據全在內存
MPP+內存計算的融合

技術參數說明
內存從單機64GB~250TB集群系統
無限擴展(目前全球最大是100個節點)
性能的線性提升
無共享+內存共享架構
集群,無單節點故障
主流硬件廠商提供的優化一體化設備
基于內存計算的異地災備方案,瞬間切換
SAP HANA 硬件和軟件的一體化設備

SAP HANA 集群架構示意圖

內存計算技術的“革新”

SAP HANA-不同應用方式介紹

聯想企業私有云存儲系統
為什么要使用云存儲?

云存儲系統市場定位

云存儲應用架構示意圖-VDI/ECM/企業網盤

聯想云存儲的發展歷程

聯想企業私有云存儲特性



成功案例(部分節選)

ATMOS云存儲解決方案

Atmos主要功能

AtmosGeoDrive: 成型的云存儲應用

Atmos 集成的基于數據的其他功能

Atmos 統一管理界面

Greenplum 大數據統一分析平臺
Greenplum 是什么?

Greenplum Database Shared-Nothing架構優勢

Greenplum Database 大規模并行處理優勢

Greenplum Database 動態在線擴容優勢

Greenplum HD MapR

Greenplum HD MapR更快的速度

Greenplum HD MapR管理簡單

Greenplum HD GPDB & GPHD 并行訪問

Greenplum Chorus自我服務的分析架構

Greenplum Chorus主要功能
企業數據云
整合數據源
整合結構化數據和非結構化數據
自我服務的架構
自己創建沙箱數據庫
加快數據分析和形成商業方案的進程
協作環境
分析師通力合作,發現和創建見解
共享分析結果,代碼和數據
開放和可擴展的平臺
Greenplum Chorus 向三類用戶提供幫助
數據庫架構師和管理員
負責管理數據庫和提供數據訪問
監控數據流動
數據分析師
負責從數據推導見解
和數據庫管理員緊密合作
公司管理層
負責解釋投資回報
關注對數據的快速有效分析
Greenplum Chorus與Hadoop
把Hadoop作為一個數據源注冊到Chorus中
瀏覽Hadoop 分布式文件系統 (HDFS)目錄
預覽HDFS文件
把HDFS文件添加到分析沙箱中
為HDFS文件添加注解
統一的數據分析平臺
結構化數據 (數據庫表)
非結構化數據 (HDFS文件)