Category Archives: BigData

Have you been in the situation where you’re looking for the best language for conceptual and logical modeling? I’ve been modeling for a while now, and I keep questioning if the languages I use fits the purpose. Quite often I feel it’s the customer’s tools decide the language, unfortunately this also limit the use of the models.

My customers has varied from large enterprises to small solutions, from local models to models suppose to span the enterprise and 10s of systems, and even a small country. There is not likely that we have one language that fits all, but it is interesting to think about the consequences of the choices we make as enterprise information architects.

It is also interesting to reflect over the cause of the so-called 2000-bug. It was clearly a modeling issue, limiting the representation of year to only two characters . We are told that it was due to the cost of storage. Maybe the choice was made because we could buy an extra PC due to the savings there and then? What was the total cost of ownership of the system due to that decision? And, are we repeating the mistakes of the 80s? Are we selecting modeling languages from our current prefferences creating a future cost?

Let me start off by looking at the objective of logical Information.

Where logical information models originally was meant to hide implementation details from the user, the term conceptual models went somewhat further abracting models into human terms and relations. 

Historically objective of information modelling originally tried to model databases (with e.g. Express, EER-models), later object oriented programs (with e.g. UML) and services (with e.g. XSD and WSDL). Later, though the 2000s, we have seen a major shift towards modeling information throughout the enterprise domain.The term Domain Model is sometimes used as a synonym to Logical Information Model when it covers more than a system.

We see that more data is originating from outside the enterprise and Big Data and Linked Data needs to be part of the picture. We also see an increased need of agile information modeling with need for new languages and methods.

Problems arrise when we are using the 80s and 90s languages and tools to model information in the enterprise.

In the next blog post I’m going to try to deep dive into the strength and weaknesses of the older and newer languages, and when they becomes a constraint rather than an opportunity. Later, I will look at the tools and their maturity and capabilities.

Advertisements

Big Data Live fra Open World

Computas er til stede på Oracle Open World i San Francisco og som ifjor er det Cloud og Big Data som er de store ordene. Industrisynserne snakker fortsatt om de store V’ene: Volum, Velocity, Variation og nå også Value. De redefinerer mange kjente trender som deler av Big Data. “Event processing”, “Sensor data”, “Social Software”. Og det oppfattes omtrent like tåkete som det av og til kan være i Fog City.

I teknologi enden av skalaen dreier det meste seg om NoSQL (i realiteten en teknologi basert på Berkely DB fra 80-tallet) og Hadoop MapReduce (med arv tilbake til fra Google og Yahoo). Det dreier seg om Java APIer og installasjon av Oracles NoSQL database, men budskapet her sier lite om hvorfor Big Data er anderledes enn ting vi har gjort før.

En plass imellom her finner du derimot essensen. Big Data omhandler evnen til å samle og lagre all informasjon vi skaper, og benytte den enhetlig. Mens vi før har kun tatt vare på resultatet av en transaksjon tar vi nå vare på alle stegene frem til et kjøp eller avgjørelse. Og vi har for første gang teknologi som tillater oss å ta vare på alle dataene vi kreerer. Det store spørsmålet da er om vi klarer vi å utnytte disse dataene? Klarer vi å generere ny kunnskap basert på disse dataene? Klarer vi å finne mønster? Klarer vi å forstå dataene? Klarer vi å forstå kvaliteten på dataene? Til dette trenger vi gode analyseverktøy.

I Big Data verdenen er det en Data Scientist som skal legge dataene til rette, og svare på disse spørsmålene og det er stor enighet om at behovet her raskt kommer til å raskt overgå tilgjengelig kompetanse. Teknologisk betyr dette ikke bare et stort skifte fra prosesser til data, men også et skifte hvor man bruker et sett av teknikker for å oppnå de ønskede resultatene.

Som en demonstrasjon viste Larry Ellison, CEO i Oracle, Big Data over Twitterspace der 4,9 milliarder tweets samlet over 10 dager ble analysert sammen med strukturert informasjon i sanntid for å besvare et tenkt spørsmål om hvem som er den beste olympier for å promotere Lexus?  Det forholdsvis enkle spørsmålet krever enorm dataprosessering og et sett av teknikker. Dataene ble brutt ned til tilsammen 27 milliarder statements, og en rekke relasjoner og teknikker fra strukturerte elementer av tweets, hashtags, re-tweeting og sentiment analyser ble kjørt på Exalytics og Exadata. Svaret? Jo det var Gabby Douglas, US Gymnast.

20121002-145853.jpg