wtorek, 28 stycznia 2014

Czy można uzyskać odpowiedź na pytanie którego nie znamy? – cz. 2

Michał Grochowski
W pierwszej części artykułu rozważaliśmy, czy można zbudować taki system analityczny, który odpowie nam na wszystkie możliwe pytania – także te, które początkowo są nieznane i pojawiają się dopiero w trakcie użytkowania systemu? 

Takim rozwiązaniem jest „Oracle Endeca Information Discovery”, w skrócie EID. Pozwala ono na analizę dowolnych źródeł danych, bez potrzeby wyrafinowanego i czasochłonnego modelowania. Wspierane są źródła zarówno ustrukturyzowanie, pół-strukturalne czy niestrukturalne. 
Dane ładowane są do serwera Endeca Server, którego działanie jest oparte o zaawansowane mechanizmy wyszukiwania fasetowego. Oznacza to że nasza praca z modelowaniem kończy się praktycznie na etapie wskazania źródeł i ich części wspólnej (np. określenie wspólnych atrybutów dla różnych źródeł danych – takich, jak data, nazwa produktu, nazwa klienta, adres, kolor etc.).
Model danych Endeca

Dalej pracę wykonuje za nas serwer indeksujący dane w taki sposób, aby wykryć wszystkie możliwe powiązania między nimi, nawet gdy nie mają bezpośredniego połączenia. Dzięki temu będziemy w stanie w prosty sposób prześledzić wpływ jednego zdarzenia na kompletnie inny obszar naszej organizacji - np. wpływ określonego wpisu w notatce CRM na rezultaty finansowe lub wpływ konkretnej pozycji z fizycznego loga pochodzącego z naszej strony internetowej na wybór koloru produktu czy satysfakcji klienta. Niektóre ścieżki powiązań mogą z pozoru wydawać się absurdalne, ale na tym właśnie będzie polegała rola środowiska Endeca Information Discovery, żeby wskazać nam te korelacje, których nie przewidzieliśmy w naszym modelu analitycznym, a które mogą przynieść nam korzyści. 

Środowisko typu „Information Discovery” daje zawsze olbrzymią swobodę w formułowaniu nowych zapytań i raportów. Ciekawostką jest to, że narzędzie takie nie wymaga definiowania z góry określonego modelu danych, ani konstruowania zawiłych procesów zasilania (ETL/E-LT), nie wymaga też sztywnego definiowania miar, analiz i raportów, a przy tym działa bardzo szybko, ponieważ większość czasochłonnych operacji wykonuje w pamięci RAM (model in-memory). Środowisko takie w każdej chwili może być zasilone dodatkowymi danymi pochodzącymi z pozostałych źródeł – tak, abyśmy mogli nieustannie poszerzać perspektywę dostępu do informacji, jeżeli jest to konieczne. 

Jednym z kluczowych elementów EID jest zastosowanie mechanizmu fasetowego. Jego działanie zostało zaprezentowane na rysunku poniżej. Mamy tutaj dwa różnorodne obszary danych załadowanych do środowiska Endeca Information Discovery. Przed załadowaniem do środowiska EID dane znajdują się osobnych zbiorach. 
                          Dane przed załadowaniem do EID  Dane po załadowaniu do EID

W trakcie zasilenia danymi serwera EID wskazujemy możliwe części wspólne między tymi dwoma zbiorami. Czerwoną linią wskazano te atrybuty które mogą być częścią wspólną dla tych dwóch rozdzielnych zbiorów danych. Wskazanie części wspólnej dla dwóch elementów powoduje automatycznie to, że silnik wyszukuje wszystkie możliwe połączenia danego zbioru z pozostałymi elementami, lub inaczej z pozostałymi źródłami danych załadowanymi do EID. Zatem ładując dane z systemu sprzedaży, możemy odkryć interesujące nas ścieżki powiązań z danymi pochodzącymi z maila, z danych dotyczących atrybutów naszego produktu czy z historii odwiedzonych przez klienta stron na naszym firmowym portalu. Strukturę danych odzwierciedloną w Endeca Information Discovery można zatem zaprezentować tak jak poniżej. Każdy nowy element który trafia do serwera Endeca, jest automatycznie indeksowany z pozostałymi elementami aż do wyczerpania wszystkich możliwości. 
Finalnie wszystkie dane trafiają do bardzo szybkiego silnika in-memory Endeca Server i dostępne są z poziomu użytkownika poprzez intuicyjny i elastyczny kokpit BI. Wszystkie te operacje nie wymagają wcześniejszego definiowania modelu danych, czy określania które pytania, analizy, raporty będą interesujące dla użytkownika. 
Podejście takie odzwierciedla intuicyjny sposób myślenia człowieka. Polega on na tym, że do tych samych wniosków możemy dotrzeć na kilka sposobów, bez sztywnego narzucania metody, co czasem może stanowić blokadę w dogłębnym zrozumieniu danych i tym samym w dotarciu do interesujących rezultatów. 
Wszyscy myślimy w pewnym stopniu podobnie, ale nigdy nie myślimy tak samo...
W kolejnym i ostatnim odcinku opowieści o Oracle Endeca Information Discovery opowiemy o porównaniu tego rozwiązania z Oracle BI i o możliwych sposobach wspólnego działania obu tych systemów.

O autorze
Michał Grochowski pracuje w Oracle jako Principal Consultant w zakresie Business Intelligence 

Dowiedz się więcej
Oracle Endeca - baza wiedzy

Brak komentarzy:

Prześlij komentarz