Seminar on Big data ppt

Seminar on big data management and seminar report on big data analytics
Dr.GordenMorse Profile Pic
Dr.GordenMorse,France,Professional
Published Date:22-07-2017
Your Website URL(Optional)
Comment
Seminar on big data management Lecturer: Jiaheng Lu Spring 2016 www.helsinki.fi 6.1.2016 1We are in the era of big data • Lots of data is being collected • Web data, e-commerce • Bank/Credit Card transactions • Social Network • Scientific data www.helsinki.fi 6.1.2016 2 Matemaattis-luonnontieteellinen tiedekunta /How much data? • Google processes 20 PB a day (2008) • Facebook has 2.5 PB of user data + 15 TB/day (4/2009) • eBay has 6.5 PB of user data + 50 TB/day (5/2009) • CERN atomic facility generates 40TB per second. • In 2009, total data is about 1ZB, in 2020, it is estimated to be 35ZB. www.helsinki.fiType of Data • Relational Data (Tables/Transaction/Legacy Data) • Text Data (Web) • Semi-structured Data (XML) • Graph Data • Social Network, Semantic Web (RDF), … • Streaming Data • You can only scan the data once www.helsinki.fiFour V’s www.helsinki.fi 6.1.2016 5www.helsinki.fi 6.1.2016 6 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimi• Watch two videos about big data www.helsinki.fi 6.1.2016 7 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiOutline • About the seminar • Practical information and requirement • Seminar topics • Our schedule www.helsinki.fi 6.1.2016 8 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiThe seminar is about • Big data management • Data querying, exploration, sampling, sharing, cleansing, cloud data management, big data benchmark and applications. www.helsinki.fi 6.1.2016 9 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiAt the end of the seminar • You should be able to tell what these terms stand for And more… Hadoop Mapreduce Cassadra Spark RDD www.helsinki.fi 6.1.2016 10 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiAfter this seminar • Students are expected to • Have a decent understanding of big data challenge • Conduct research on one of topics related to big data management • Know how to read/write/review a technical paper • Know how to present a paper www.helsinki.fi 6.1.2016 11 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiMore formally • Pick a topic from the offered topics • Read papers on that topic • Present the paper • Write a report on the topic • Review two other reported written by your classmates • Ask questions as an opponent for the presentation by your classmates • Attend the lectures (at least 80%) www.helsinki.fi 6.1.2016 12 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiDeadlines for each task Submit the Submit the Submit the first version peer review final report of the report comments 7 Mar 21 Mar 2 May Topic Selection Ask questions 29 Jan Present the as an paper opponent www.helsinki.fi 6.1.2016 13 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiTopic assignment • Submit your list- the preferred 3 topics • If you have something in mind which is not listed in, please send an email to the teacher • Unfortunately, due to multiple students wishing to take the same topic, you may not be able to get your first choice. • Same topics will be assigned to more than one person. www.helsinki.fi 6.1.2016 14 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiStart researching your topics immediately after topic assignment www.helsinki.fi 6.1.2016 15 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiTopics of this seminar • Big data survey • Hadoop and Spark platforms • Cloud data management • Graph data management • Data sampling • Data exploration • www.helsinki.fi 6.1.2016 16 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiTopics of this seminar • Approximate data processing • Data cleansing • Knowledge base • Big data benchmark • Big data applications www.helsinki.fi 6.1.2016 17 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiHadoop and Spark platforms • Two open-sources platforms for big data processing www.helsinki.fi 6.1.2016 18 Matemaattis-luonnontieteellinen tiedekunta / Henkilön nimi / Esityksen nimiCloud data management • Cloud data management is to deploy database systems in the cloud. • New challenges: • Data is stored at an untrusted host • Data is replicated across large geographic distances • Compute power is elastic Matemaattis-luonnontieteellinen tiedekunta / Iso tiedonhallinta/ www.helsinki.fi 6.1.2016 19 Jiaheng LuData sampling • It is not always possible to store the big data in full • Many applications (telecoms, ISPs, search engines) can’t keep everything • It is inconvenient to work with data in full • It is faster to work with a compact summary • Better to explore data on a laptop than a cluster Matemaattis-luonnontieteellinen tiedekunta / Iso tiedonhallinta/ www.helsinki.fi 6.1.2016 20 Jiaheng Lu