20 Milyar satır / Ay - Hbase / Hive / Greenplum / Ne?

oy
31

Bir veri-ambarı sistemi için doğru çözümü toplayıp için bilgelik kullanmak istiyorum. İşte Sorunu daha iyi anlamak için bazı ayrıntılar şunlardır:

Veriler tek BÜYÜK gerçeği ve ~ 15 boyutları ile bir yıldız şema yapısında organize edilmiştir.
Aylık 20B aslında satır
yüz satır (biraz hiyerarşi) ile 10 boyutları
binlerce satır 5 boyutları
~ 200 K satır 2 boyutları
50M-100M satır 2 büyük boyutları

Bu DB karşı aday iki tipik sorgular

dimq En üyeler:

select    top X dimq, count(id) 
from      fact 
where     dim1 = x and dim2 = y and dim3 = z 
group by  dimq 
order by  count(id) desc

Bir demet karşı önlemler:

select    count(distinct dis1), count (distinct dis2), count(dim1), count(dim2),...
from      fact 
where     dim1 = x and dim2 = y and dim3 = z 

Sorular:

  1. Ne tür sorguları gerçekleştirmek için en iyi platformdur
  2. Ne tür donanım ihtiyacı
  3. Nerede (EC2?) Barındırılabilir


    (Şu anda sorunları ithal ve yükleme göz ardı edin)

Tnx,
Haggai.

Oluştur 09/12/2008 saat 22:05
kaynak kullanıcı
Diğer dillerde...                            


7 cevaplar

oy
55

: Bunu yeterince stres olamaz off-the-raf raporlama araçları ile güzel oynar alın şey.

Ayda 20 Milyar satır VLDB topraklarında koyar, böylece bölümleme gerekir. Düşük kardinalite boyutları da bitmap endeksleri bir performans kazanmak olacağını öneririm.

  • Bulut sistemlerini (Forget kovan , Hbase onlar olgun SQL desteği kadar). Bir veri ambarı uygulamaya yönelik geleneksel raporlama araçları ile çalışır bir şey istiyorum. Aksi takdirde, kendinizi sürekli yazma ve ad-hoc rapor programlarını sürdürmek batağa saplanmış bulacaksınız.

  • Veri hacimleri Oracle gibi daha geleneksel bir DBMS ile yönetilebilir - Bir bildiğim büyük Avrupa telekom bir içine günde 600GB yükler Oracle veritabanı. Diğer her şey eşit olduğunda, böylece veri hacimleri daha büyük iki büyüklük var paylaşılan disk mimariler hala sana boşluk payı var. Bir paylaşımlı şey gibi mimari Netezza'nın veya Teradata muhtemelen daha hızlı hala olacaktır ancak bu miktarlar geleneksel paylaşılan diskli sistemde ötesinde bir seviyede değildir. Bu sistemler hepsi oldukça pahalı olduğunu, ama, unutmayın.

  • MapReduce olduğunu da akılda tutulması etkin sorgu seçme algoritması değil . Bu temelde kaba kuvvet hesaplamaları dağıtmak için kullanılan bir mekanizmadır. Greenplum bir MapReduce arka uç var, ama bir amaca paylaşılan hiçbir şey motor çok daha verimli olacak ve daha az donanım için daha fazla iş alacak.

Bu almak benim Teradata veya Netezza'nın muhtemelen iş için ideal bir araçtır ama kesinlikle en pahalı olacağıdır. Oracle , Sybase IQ hatta SQL Server da dahil veri hacimlerini işlemek istiyorum ama daha yavaş olacaktır - onlar paylaşılan disk mimarilerdir ama hala veri hacminin bu tür yönetebilir. Bkz Bu ilanı Oracle sadece tanıttı aklında bir Oracle ve SQL Server VLDB ilgili özellikler üzerinde yıkık ve ayı için Exadata depolama platformu da.

Sırtım-of-a-ibne-paket kapasite planı Oracle veya SQL Server için endeksler dahil ayda belki 3-5 TB ya da öylesine öneriyor. Bir dizin yaprak SQL Server üzerinde 6 byte sayfa referansı vs oracle üzerinde 16 bayt ROWID olmasına rağmen, Bitmap endekslerine Oracle üzerinde Muhtemelen daha az.

Sybase IQ bitmap indeksler geniş kullanımı yapar ve veri ambarı sorguları için optimize edilmiştir. Paylaşılan disk mimarisi rağmen, bu tür sorgu (IIRC özgün sütun odaklı mimari idi) için çok etkilidir. o işin bu tip özelleşmiş olduğu gibi bu muhtemelen Oracle veya SQL Server daha iyi olurdu.

Greenplum daha ucuz bir seçenek olabilir ama aslında bu yüzden pratikte nasıl çalıştığını iyi yorum yapamam bunu hiç kullanmadım.

Eğer sadece birkaç yüz satırlarla 10 boyutları varsa tek bunları birleştirme düşünün önemsiz boyutta olan sadece birine on anahtarları birleştirerek sizin özellik tablosu aşağı olacak ince. Hala bir hurda boyut hiyerarşileri uygulayabilir ve bu gerçeği tablonun büyüklüğüne kapalı 1/2 veya daha fazla vurmak ve endeksler tarafından disk kullanımı çok ortadan kaldıracaktır.

Ben şiddetle raporlama araçları makul kesiti ile güzel oynar donatmak gibi öneririz. Bu SQL ön uç anlamına gelir. Ticari gibi sistemler Crystal Reports raporlama izin ve analitik SQL becerileri daha kolay elde edilmeyen seti ile insanlar tarafından yapılacak. Açık kaynak dünyası da üretti BIRT , Jasper Reports ve Pentaho. . Kovan veya HBase Özel bir ön uç, bina işinde sizi gerçekten sen Python özel rapor biçemleyicileri yazma önümüzdeki 5 yıl geçirmek mutlu olmadıkça istemiyoruz.

Son olarak, kolayca üretim sistemlerinden hızlı veri besleme alabilirsiniz bir yerde barındırın. Bu muhtemelen kendi veri merkezinde kendi donanımını anlamına gelir. Bu sistem, I / O bağlı olacaktır; o büyük veri hacimleri basit işlem yapıyor. Bu hızlı disk alt sahip makineleri gerektiği anlamına gelir. Bulut sağlayıcıları geleneksel olarak bu kıyafetler kullandığı tek kullanımlık 1U kutusunun tip daha pahalı büyüklükte bir emirdir olarak donanım bu tür desteklemek için değil eğilimindedir. Hızlı Disk I / O bulut mimarileri bir güç değildir.

Cevap 09/12/2008 saat 22:49
kaynak kullanıcı

oy
9

Ben büyük başarı elde ettiler Vertica . Yaklaşık 9 Milyarlarca bir ay kürek ortalama - - Şu anda bir günde her yerde milyar ile 1 milyon 200 arasına satır yükleme ediyorum bir ay içinde 17 milyar gibi yüksek gitmiş bile. Ben 21 boyutlarına yakın olması ve sorgular blazingly hızlı çalıştırın. Biz sadece dataload yapmak için zaman pencerelerini yoktu biz eski sistemden geçti.

biz çok kapsamlı deneme ve farklı çözümlerin araştırma yaptı - ve pratik piyasada her şeye baktı. Teradata ve Netezza hem bize uygun olurdu, onlar sadece bizim için çok pahalı. Vertica fiyat / performans oranına ikisini de yendi. Bu arada bir sütunlu veritabanı gereğidir.

Biz şimdi yaklaşık 80 kullanıcı var - ve biz tamamen yayıyoruz başladığınızda gelecek yılın sonuna kadar yaklaşık 900 büyümesi bekleniyor.

Biz yoğun raporlar için ASP.NET/dundas/reporting hizmetlerini kullanıyor. Aynı zamanda üçüncü parti raporlama çözümleri ile güzel oynuyor - biz bunu denemedim bile.

Eğer dataload için kullanacağız ne arada? Biz kullandığınız informatica ve onunla çok memnun olmuştur. SSIS duvara bizi sürdü.

Cevap 20/12/2008 saat 01:50
kaynak kullanıcı

oy
3

HBase ve jasperserver Hbase raporlama pluging kullanarak, iyi raporlar oluşturulabilir. Düşük gecikme OLAP Hbase oluşturulabilir. Bu SQL gibi aynı şekilde çalışacaktır. Jasperserver HBase eklentisi bir uzantısı Hbase tarama komutu Hbase sorgulama dili sağlar.

Cevap 01/10/2012 saat 10:23
kaynak kullanıcı

oy
2

Nihayet seçime meraklıyım. Sorunuz durum vb Hbase, Greenplum, domuz erişimi gibi SQL vererek farklıdır 2008. Bugün kuyruk ucuna oldu.

Cevap 25/01/2012 saat 17:22
kaynak kullanıcı

oy
2

: Monash siteyi Oku http://www.dbms2.com/ O büyük veritabanları hakkında yazıyor.

Belki kullanabilirsiniz Oracle Exadata ( http://www.oracle.com/solutions/business_intelligence/exadata.html ve http://kevinclosson.wordpress.com/exadata-posts/ ) ya da belki Hadoop kullanabilirsiniz. Hadoop serbesttir.

Cevap 20/12/2008 saat 01:17
kaynak kullanıcı

oy
0

NXC, günde o 600 milyar satır emin misin? bir satır sadece bir bayt olacağını bile, o günlük verinin 600 GB var. satır başına bir daha makul 100 bayt varsayarsak, biz günde verilerin yaklaşık 60 TB, ayda 1.8 PB söz ediyoruz. Gerçekten herkes Oracle üzerinden bu kadar veriyi pompalıyor şüpheliyim.

Diğer Kaynaklar veri hacmi 2 haneli TB rakamları ulaştığında Oracle işlemek için oldukça zorlaşır bunu kanıtlıyor gibi.

Cevap 12/12/2008 saat 14:42
kaynak kullanıcı

oy
0

kullanıcıların az sayıda için alternatif bir (beowulf) küme olacaktır. 20K 500G her biriyle sana 50 nettop satın alır. Yani 3KW zirve gücü ile ilgili. Ya bulut depolama 4 ay.

Cevap 11/12/2008 saat 14:41
kaynak kullanıcı

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more