czwartek, 11 lutego 2010

Struktura jedno i wielowymiarowej bazy danych

Jedno z najpopularniejszych podejść do projektowania hurtowni danych nazywane jest wielowymiarową bazą danych. Termin wielowymiarowa może być tutaj małym nadużyciem.

Wyobraźmy sobie, że potrzebujemy raportu dostarczającego informacje o ilości sprzedanych produktów. Każdą wartość numeryczną niosącą za sobą informację nazywamy miarą. Tak więc oczekujemy raportu odzwierciadlającego miarę „ilość” mówiącą o ilości sprzedanych towarów. Raport ten mógłby wyglądać tak:


Podgląd pojedynczej wartości może być użyteczny, ale w celach analitycznych bardziej użyteczne jest, gdy wartość tą rozbijemy na części, które będą niosły ze sobą więcej informacji. Prosimy zatem o miesięczną analizę sprzedaży. Nowy raport może wyglądać tak:


Taki układ raportu jest o wiele bardziej czytelny i pozwala nam stwierdzić, że ilość sprzedawanych produktów się zwiększa z miesiąca na miesiąc. Pozawala to na stwierdzenie, że sprawy idą w dobrym kierunku, wyliczenie dynamiki wzrostu czy przewidzenie przyszłych wartości. Do rozważenia mamy cztery wartości zamiast jednej.

Wyobraźmy sobie teraz, że posiadamy więcej niż jeden produkt na sprzedaż i chcielibyśmy mieć możliwość analizy po każdym z tych produktów w przekroju miesięcznym.



Taka informacja jest o wiele bardziej czytelniejsza i już na pierwszy rzut oka widać, że sprzedaż krzeseł nie zwiększyła się, natomiast sprzedaż stolików kuchennych wzrosła o ponad 100%. Obecnie do rozważenia mamy dwanaście wartości zamiast czterech czy jednej, ale nadal podane są one w przystępnej dla nas formie. Liczba wartości jest to liczba miesięcy pomnożona przez liczbę produktów (3 x 4 = 12) i jest to wyliczenie analogiczne do obliczania powierzchni prostokąta w matematyce. Raport zawiera potencjalnie dwanaście wartości ponieważ produkty i miesiące są od siebie niezależne, tzn. każdy produkt ma w danym miesiącu własną wartość sprzedaży – nawet jeśli wynosiłaby ona zero.

Przepuśćmy jednak, że nasza przykładowa firma prowadzi sprzedaż w dwóch różnych lokalizacjach (A oraz B) i chcielibyśmy wiedzieć jak wygląda sprzedaż w każdej z tych lokalizacji. Raport przedstawiający tego typu wyniki mógłby wyglądać tak:



Nowy raport zawiera dwie niezależne etykiety do określenia lokalizacji, trzy do określenia produktów oraz cztery do określenia miesięcy co daje nam dwadzieścia cztery potencjalne wartości (2x 3 x 4 = 24) . Te niezależne etykiety nazywamy wymiarami – zapożyczonym z matematyki terminem, ponieważ ponownie możemy zauważyć analogię do obliczenia objętości prostopadłościanu przy wyliczaniu ilości potencjalnych wartości miary „ilość” .