Acessibilidade

Mineração de Dados em Larga Escala - MEIC

Curso Mestrado em Engenharia Informática e de Computadores
Unidade Curricular

Mineração de Dados em Larga Escala

Obrigatória  
Opcional  x
Área Científica Engenharia Informática e de Computadores (IC)
Ano: 1º Semestre: 2º ECTS: 6 Total de Horas: 162
Horas de Contacto T:43,5 TP: 67,5 PL:15 S: OT:
Docente

Nuno Miguel Soares Datia

T - Teórica; TP - Teórico-prática; PL - Prática Laboratorial; S - Seminário; OT - Orientação Tutorial.

  • Objetivos de aprendizagem (conhecimentos, aptidões e competências a desenvolver pelos estudantes)

    Os estudantes que terminam com sucesso esta unidade curricular serão capazes de:

    1. Caracterizar os desafios de processar e analisar grandes volumes de dados

    2. Aplicar modelos de programação e frameworks para processamento de dados

    3. Conhecer e aplicar técnicas de redução de dimensionalidade em conjuntos de dados

    4. Conhecer e aplicar técnicas de amostragem

    5. Conhecer e aplicar técnicas de manipulação de dados em streaming

    6. Conhecer e aplicar algoritmos de mineração de dados em larga escala

    7. Interpretar soluções existentes para a mineração de dados em diferentes domínios

    8. Escrever relatórios técnicos e elaborar apresentações técnicas com análise comparativa e crítica de diferentes abordagens para um dado problema

     

  • Conteúdos programáticos

    I. Conceito de big data e o fenómeno de data deluge. 3 V’s e desafios na gestão de dados com estas caraterísticas.

    II. Metodologias de programação e frameworks para processamento de grandes volumes de dados de forma paralela e distribuída.

    III. Representação de dados. Redução de dimensionalidade: seleção e discretização de caraterísticas para aprendizagem supervisionada e não supervisionada.

    IV. Manipulação de instâncias usando técnicas de amostragem probabilísticas e não probabilísticas. Subamostragem, sobre-amostragem e instâncias sintéticas.

    V. Algoritmos de mineração de dados para grandes volumes de dados, em tarefas de classificação, agrupamento, associação, regressão e de recomendação.

    VI. Análise de dados em streaming. Uso de janelas de processamento. Amostragem, sumarização, filtragem, estimativa de frequências e contagem.

  • Demonstração da coerência das metodologias de ensino com os objetivos de aprendizagem da unidade curricular

    A realização de 1 trabalho prático e da componente teórica individual permitem aferir o cumprimento dos objetivos de aprendizagem (1) a (6). Com o acompanhamento, por parte do docente, realização de cada trabalho prático, elaboração do respetivo relatório técnico, e apresentação do trabalho para a turma, são aferidos os objetivos de aprendizagem (7) e (8).

  • Metodologias de ensino (avaliação incluída)

    Metodologia de ensino é teórico-prática, baseada na abordagem Problem-Based Learning (PBL). Pretende-se privilegiar a autonomia do estudante no desenvolvimento de soluções para problemas complexos, adequados ao seu nível cognitivo. Incentiva-se o trabalho em grupo e a discussão/reflexão em sessões de grupo. 

    Os objetivos de aprendizagem de (1) a (5) são avaliados através da componente teórica, constituída por avaliação presencial (e.g. teste escrito, apresentação, e/ou teste oral) e por um resumo estendido.

    Os objetivos de aprendizagem (1) a (7) são avaliados através da componente prática, que consiste na realização de um trabalho prático ao longo do semestre, escrita do respetivo relatório, e discussão oral sobre ambos.

    A classificação final é obtida através de 50% da classificação da componente teórica + 50% da classificação da componente prática.

    Para ambas as componentes teórica e prática, o estudante deverá obter classificação mínima de 10 valores, para obter aprovação à UC.

  • Demonstração da coerência das metodologias de ensino com os objetivos de aprendizagem da unidade curricular

    As aulas destinam-se à apresentação das bases teóricas dos conteúdos programáticos (aulas teóricas). Nas aulas, são desenvolvidos pequenos projetos e analisados casos de estudo (aulas teórico-práticas). Privilegia-se uma forma de apresentação interativa. A componente laboratorial serve para aplicar num ambiente controlado as técnicas apresentadas.

    O trabalho autónomo (extra-aula) é guiado pelo trabalho prático (projeto), concebido para consolidar as competências de conceção e desenvolvimento dos conteúdos programáticos. O projeto é apresentado aos estudantes no início do semestre guiando os exemplos e tópicos lecionados. Os objetivos de aprendizagem são identificados nos guiões apresentados aos estudantes, permitindo clarificar as competências que são necessárias adquirir no desenvolvimento do projeto e nas aulas práticas

  • Bibliografia principal

    Handbook of Big Data Technologies, Albert Y. Zomaya, Sherif Sakr, Springer 2017, ISBN: 978-3319493398

    Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman and Jeffrey D. Ullman, Cambridge Univ. Press 2014, 2nd edition, ISBN: 978-1107015357

    Data Mining: Practical Machine Learning Tools and Techniques, Ian H. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann Publishers 2011, 3rd edition, ISBN: 978-0123748560