Información general de la asignatura
PROCESAMIENTO DISTRIBUIDO DE DATOS MASIVOS
- 010683
- ÁREA ACADÉMICA INDUSTRIAS Y TECNOLOGÍAS DIGITALES
PRESENTACION
Las Bases de Datos Relacionales (BD) se consideran una tecnología genérica, y
su éxito se evidencia en la utilización de las mismas. Prácticamente todas las
actividades económicas requieren el procesamiento de información. Sin embargo,
el auge en el uso de Internet desde el principio de
este siglo, y otros factores como el uso de dispositivos que generan datos todo el tiempo, ha creado desafíos en tres dimensiones: volumen, velocidad y variedad (denominados lastres Vs), aunque a menudo se hablan de más.
El volumen es un factor clave ya que en el mundo se generan 2.5 quintillones de bytes de datos
diariamente. Debido al incremento en el volumen de datos que se están generando (sobre todo de
forma automatizada), el 90% de los datos que existen en el mundo han sido creados en los últimos
2 años. La velocidad se debe a que es necesario procesar flujos de datos (streams) sin demora y de forma confiable (por ejemplo, para detectar fraude en las transacciones de las tarjetas de crédito).
La variedad se refiere al hecho que los datos generados hoy-en-día son cada vez más heterogéneos
y complejos: comprenden texto libre, datos semi-estructurados, BD relacionales e incluso flujos de video.
Las herramientas convencionales, aunque siguen siendo vigentes para la mayoría de los casos de
uso, se ven limitadas ante semejantes desafíos.
este siglo, y otros factores como el uso de dispositivos que generan datos todo el tiempo, ha creado desafíos en tres dimensiones: volumen, velocidad y variedad (denominados lastres Vs), aunque a menudo se hablan de más.
El volumen es un factor clave ya que en el mundo se generan 2.5 quintillones de bytes de datos
diariamente. Debido al incremento en el volumen de datos que se están generando (sobre todo de
forma automatizada), el 90% de los datos que existen en el mundo han sido creados en los últimos
2 años. La velocidad se debe a que es necesario procesar flujos de datos (streams) sin demora y de forma confiable (por ejemplo, para detectar fraude en las transacciones de las tarjetas de crédito).
La variedad se refiere al hecho que los datos generados hoy-en-día son cada vez más heterogéneos
y complejos: comprenden texto libre, datos semi-estructurados, BD relacionales e incluso flujos de video.
Las herramientas convencionales, aunque siguen siendo vigentes para la mayoría de los casos de
uso, se ven limitadas ante semejantes desafíos.
OBJETIVO DE APRENDIZAJE
Aprender de temas avanzados de BDs relacionales, en especial las distribuidas,
y finalizarse con tecnologías NoSQL, que representan un nuevo paradigma en el
almacenamiento y la recuperación de la información.
CONTENIDOS TEMATICOS
Sesión 1 y 2: Introducción
● Presentación
● Introducción al curso
● Bases de Datos: Pasado, presente y futuro
○ Primeras Bases de Datos
○ Evolución atrás de las décadas hasta el día de hoy
○ Talla única
○ Minería de Datos
○ Big Data
○ Internet de las Cosas
○ Contenedores
● Introducción al álgebra relacional
Sesión 3 y 4: Arquitecturas de Bases de Datos Distribuidas y Fragmentación de Datos
● Principios de lossistemas Distribuidos
● Arquitecturas de Bases de Datos Distribuidas
○ Shared memory, shared disc, shared nothing
● Fragmentación y localización de datos
○ Horizontal primaria
○ Horizontal derivada
○ Vertical
○ Distribución de datos
● Escalabilidad
● Bases de Datos Paralelas
● Alta Disponibilidad
● Arquitecturas de Hardware y Software
● Arquitectura de una Base de Datos Oracle – Física y Lógica
Sesión 5: Optimización de Consultas: El Caso Centralizado
● El caso centralizado
○ Análisis de sintaxis
○ Traducción a árbol de operadores lógicos
○ Optimización lógica
○ Optimización física
Sesión 6: Optimización de Consultas: El Caso
● El caso distribuido y paralelo
○ Fragmentación y Alocación
○ Localización de datos
○ Optimización de una consulta
○ Explain Plan Oracle (Caso Scott)
○ Ejercicio individual en una base de datos Oracle
Sesión 7: Laboratorio Optimización de Consultas
● Explicación detallada del laboratorio.
● Desarrollo práctico caso real Optimización de una consulta en grupos.
Sesión 8: Laboratorio de BD distribuidas
● El caso distribuido
○ Conexión a bases de datos Relacionales Distribuidas
○ Vistas Materializadas
○ Triggers
Sesión 9, 10 y 11: Charlas: Big Data en el mundo
Sesión 12: Big Data
● Las Tres Vs
● Las Cinco Vs
● Las Siete Vs
● Las redes de sensores inalámbricas
● El Internet de las Cosas
Sesión 13: Hadoop – HDInsight
• Introducción
• Definición, Funcionamiento y Arquitectura HDInsight
• Haddop: Definición, Cluster con HDInsight, Almacenamiento y Procesamiento
• Caso de uso HDInsight AdventureWorks Cycles
• Creación y Configuración de un cluster HDInsight en Azure en B.D. NoSQL
Sesión 14: Modelando de Datos con Grafos
● Introducción
● Almacenamiento y acceso a los datos de grafo en Azure Cosmos DB con Graph API
● Uso de datos NoSQL en Azure Cosmos DB
● ¿Qué es una base de datos de Grafos?
● Ventajas y Desventajas de BD. de Grafos.
● Neo4j
● Implementación y configuración Neo4j
● Azure DataBricks en Base de datos NoSQL
● Creación y configuración en Azure
● Creación de una cuenta en Cosmos DB y adición de un Grafo.
● Creación aplicación .NET y visualización
● Presentación
● Introducción al curso
● Bases de Datos: Pasado, presente y futuro
○ Primeras Bases de Datos
○ Evolución atrás de las décadas hasta el día de hoy
○ Talla única
○ Minería de Datos
○ Big Data
○ Internet de las Cosas
○ Contenedores
● Introducción al álgebra relacional
Sesión 3 y 4: Arquitecturas de Bases de Datos Distribuidas y Fragmentación de Datos
● Principios de lossistemas Distribuidos
● Arquitecturas de Bases de Datos Distribuidas
○ Shared memory, shared disc, shared nothing
● Fragmentación y localización de datos
○ Horizontal primaria
○ Horizontal derivada
○ Vertical
○ Distribución de datos
● Escalabilidad
● Bases de Datos Paralelas
● Alta Disponibilidad
● Arquitecturas de Hardware y Software
● Arquitectura de una Base de Datos Oracle – Física y Lógica
Sesión 5: Optimización de Consultas: El Caso Centralizado
● El caso centralizado
○ Análisis de sintaxis
○ Traducción a árbol de operadores lógicos
○ Optimización lógica
○ Optimización física
Sesión 6: Optimización de Consultas: El Caso
● El caso distribuido y paralelo
○ Fragmentación y Alocación
○ Localización de datos
○ Optimización de una consulta
○ Explain Plan Oracle (Caso Scott)
○ Ejercicio individual en una base de datos Oracle
Sesión 7: Laboratorio Optimización de Consultas
● Explicación detallada del laboratorio.
● Desarrollo práctico caso real Optimización de una consulta en grupos.
Sesión 8: Laboratorio de BD distribuidas
● El caso distribuido
○ Conexión a bases de datos Relacionales Distribuidas
○ Vistas Materializadas
○ Triggers
Sesión 9, 10 y 11: Charlas: Big Data en el mundo
Sesión 12: Big Data
● Las Tres Vs
● Las Cinco Vs
● Las Siete Vs
● Las redes de sensores inalámbricas
● El Internet de las Cosas
Sesión 13: Hadoop – HDInsight
• Introducción
• Definición, Funcionamiento y Arquitectura HDInsight
• Haddop: Definición, Cluster con HDInsight, Almacenamiento y Procesamiento
• Caso de uso HDInsight AdventureWorks Cycles
• Creación y Configuración de un cluster HDInsight en Azure en B.D. NoSQL
Sesión 14: Modelando de Datos con Grafos
● Introducción
● Almacenamiento y acceso a los datos de grafo en Azure Cosmos DB con Graph API
● Uso de datos NoSQL en Azure Cosmos DB
● ¿Qué es una base de datos de Grafos?
● Ventajas y Desventajas de BD. de Grafos.
● Neo4j
● Implementación y configuración Neo4j
● Azure DataBricks en Base de datos NoSQL
● Creación y configuración en Azure
● Creación de una cuenta en Cosmos DB y adición de un Grafo.
● Creación aplicación .NET y visualización
BIBLIOGRAFIA BASICA OBLIGATORIA
1. Celko Joe.(2000). SQL for smarties. Morgan Kaufmann.
2. Dubois Paul.(2001). MySQl. 2Nd Edition. Sams Publishing.
3. Garcia-Molina Hector, Ullman Jeffrey D. (2002). Database Systems: The Complete Book. Prentice Hall.
4. Scott Urman. (2002). Oracle 9i PL/SQL Programming. Mcgraw Hill.
5. Kevin Loney – George Koch. (2002). Oracle 9i The Complete reference. Mcgraw Hill.
6. Craig Mullins.(2004). DB2 Developer's Guide, 5th Edition. Sams.
7. Oracle. (2010). Oracle Database 11g: SQL Introduction. Electronic Presentation
Bibliografía complementaria y digital (Normas APA)
www.oracle.com/technology/documentation
www.microsoft.com/sql/techinfo
www.mysql.com/documentation
www-306.ibm.com/software/data/technical/book
2. Dubois Paul.(2001). MySQl. 2Nd Edition. Sams Publishing.
3. Garcia-Molina Hector, Ullman Jeffrey D. (2002). Database Systems: The Complete Book. Prentice Hall.
4. Scott Urman. (2002). Oracle 9i PL/SQL Programming. Mcgraw Hill.
5. Kevin Loney – George Koch. (2002). Oracle 9i The Complete reference. Mcgraw Hill.
6. Craig Mullins.(2004). DB2 Developer's Guide, 5th Edition. Sams.
7. Oracle. (2010). Oracle Database 11g: SQL Introduction. Electronic Presentation
Bibliografía complementaria y digital (Normas APA)
www.oracle.com/technology/documentation
www.microsoft.com/sql/techinfo
www.mysql.com/documentation
www-306.ibm.com/software/data/technical/book