Archives de catégorie : Non classé

Optimisation de requêtes

29 juin 2017 Spark Laisser un commentaire

Optimisation de requêtes

Catalyst

Catalyst est le nom de l’optimiseur de workflow de Spark.
Originellement créé pour [[SparkSQL]], Catalyst est également utilisé dans les Datasets et Dataframes.
Son rôle est de réécrire le plan d’exécution d’une requête (ou d’un workflow d’exécution) de façon à obtenir le maximum de performances.

Ressources complémentaires

Cost-Based Optimizer in Apache Spark 2.2 ([partie 1], [partie 2]), Spark Summit, juin 2017
[A deep dive into Spark SQLs Catalyst optimizer], Spark Summit, juin 2017
[Deep Dive Into Catalyst: Apache Spark 2.0’s Optimizer], juin 2016
[Deep Dive into Spark SQL’s Catalyst Optimizer], avr. 2015

Projet Tungsten

Le projet Tungsten vise a améliorer les performances de Spark en particulier en diminuant l’impact de la machine virtuelle Java et l’optimisation des structures de données utilisées.

Ressources complémentaires

[Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop], mai 2016
From DataFrames to Tungsten A Peek into Spark’s Future ([slides], [video]), juin 2015
[Project Tungsten: Bringing Apache Spark Closer to Bare Metal], avr. 2015

Ressources complémentaires sur l’optimisation de requêtes sous Spark

[SparkSQL: A Compiler from Queries to RDDs], fév. 2017
[Optimizing Apache Spark SQL Joins], fév. 2017
[Processing a Trillion Rows Per Second on a Single Machine: How Can Nested Loop Joins be this Fast?] Debugging a failing test case caused by query running “too fast”, fév. 2017
[Spark SQL versus Apache Drill: Different Tools with Different Rules], juil. 2016
[Beyond shuffling], Strata London 2016
[Optimize Spark with DISTRIBUTE BY & CLUSTER BY], mai 2016
[How Apache Spark, Scala, and Functional Programming Made Hard Problems Easy at Barclays], juil. 2015

Non classé

Stockage des données

29 juin 2017 Spark Un commentaire

Stockage des données

Dans le contexte SparK/Hadoop, de nombreuses solutions techniques existent pour le stockage des données.
Selon les besoins, les données peuvent être conservées dans des fichiers sur un système de fichiers distribués (DFS)
ou gérées par un outil spécialisé ([Hive], [HBase], …).

Le choix entre toutes ces solutions va dépendre du profil d’accès aux données (accès aléatoire, lecture séquentielle, mises à jour, …),
des performances souhaitées pour les opérations importantes et de la richesse des fonctionnalités proposées.
Par exemple, un fichier Parquet dans HDFS fournira de bonnes performances pour les lectures séquentielles mais ne permettra pas les mises à jour.

La suite de cette page donne quelques éléments et des références vers ces technologies.

Comparaisons entre les systèmes/formats

[Performance comparison of different file formats and storage engines in the Hadoop ecosystem]

Systèmes de fichiers distribués

Ces systèmes fournissent un accès de type fichier ainsi que de la tolérance aux pannes.
Dans le contexte Spark/Hadoop, le plus commun est HDFS.
D’autres alternatives comme [GlusterFS] ou [Ceph] existent et sont utilisées dans un contexte ”Cloud”.

HDFS

HDFS est le DFS proposé avec le framework Hadoop.
C’est une implémentation open source du ”Google File System”.
Il est bien adapté au stockage de gros fichiers.

Références

[HDFS Architecture]
[HDFS operations made easy]
[The Hadoop Distributed File System]. Shvachko et al. MSST’10.
[The Hadoop Distributed Filesystem: Balancing Portability and Performance]. Shafer et al. ISPASS’10.
[The Google File System]. Ghemawat et al. SOSP 2003.

Comparaison

[Comparaison de différents FS Distribués : HDFS – GlusterFS – Ceph]

Systèmes de gestion de bases de données

De nombreux moteurs de stockage/interrogation existent dans l’écosystème Spark/Hadoop.
Les plus connus sont sans doute l’entrepôt de données [Hive] et le SGBD orienté colonne [HBase].

Une alternative intéressante en terme de performances est le projet [Apache Kudu].

Références

[Up and running with Apache Spark on Apache Kudu]

Sérialization et formats de fichiers

Les formats de sérialisation d’objets et fichiers sont très nombreux.
En dehors des très pratiques ”csv” et ”json”, il est nécessaire de se tourner vers des formats plus sophistiqués lorsqu’on recherche de la performance dans le contexte Spark/Hadoop.
Actuellement, les formats Avro, Parquet et ORC sont de bons candidats pour le stockage des données dans HDFS.

Le second choix qu’il est possible de faire à propos du stockage en fichiers concerne la technique de compression utilisée.
Selon le codec, l’efficacité en taux de compression et les performances en lecture ou écriture peuvent varier de façon importante.

Enfin, des formats spécialisés existent pour certaines applications ([Gbin] (Gaïa DPAC), [HDF5]).

Comparaisons

[Why you should care about data layout in the filesystem], Spark Summit 2017
[File Format Benchmarks – Avro, JSON, ORC, & Parquet]
[Benchmarking Apache Parquet: The Allstate Experience] (blog, comparison between avro and parquet)
[Thrift vs Protocol Buffers vs Avro – Biased Comparison] (slides)
[Compression Options in Hadoop – A Tale of Tradeoffs]

[Parquet]

[The future of column-oriented data processing with Arrow and Parquet], nov. 2016
[How to use Parquet as a basis for ETL and analytics] (slides)
[Modern query processing with columnar formats]
[Using Parquet and Scrooge with Spark]
[Announcing Parquet 1.0: Columnar Storage for Hadoop]
[Parquet – Data I/O – Philadelphia 2013] (slides)
[Dremel made simple with Parquet]
[Understanding how Parquet integrates with Avro, Thrift and Protocol Buffers]
[Dremel: Interactive Analysis of Web-Scale Datasets]. Sergey Melnik and al. VLDB 2010.

[Avro]

[ORC]

[Apache ORC Launches as a Top-Level Project] (blog)
[ORCFile in HDP 2: Better Compression, Better Performance] (blog)
[Bringing ORC Support into Apache Spark]

Non classé

Objectif de ce blog

29 juin 2017 Spark Laisser un commentaire

Si vous avez déjà utilisé la technologie Spark, si vous développez des applications exploitant Spark, vous pourriez proposer un article décrivant l’utilisation que vous faîtes de Spark, de façon à susciter des échanges, des savoir-faire, des questionnements, des propositions.

Non classé

Présentation de Spark

29 juin 2017 Spark Laisser un commentaire

Présentation de Spark

Spark est un outil permettant de distribuer des calculs sur une ou plusieurs machines. Il se présente sous la forme d’une interface de programmation (API) disponible dans de nombreux langages (Scala, Java, Python, R). Il est lui-même écrit en langage Scala et son approche est basée sur la programmation fonctionnelle.

Spark peut être vue comme le successeur de Hadoop MapReduce car il en reprend les fondements (le paradigme Map/Reduce) et est capable d’utiliser les outils de distribution de calculs YARN ou MESOS et de stockage HDFS. Cependant, ses cas d’application sont beaucoup plus larges que MapReduce de par la flexibilité de son modèle de données (le RDD – Resilient Distributed Dataset). Ainsi, de nombreux cas d’application ont rapidement émergé en apprentissage statistique (machine learning) ou en traitement des graphes là où Hadoop MapReduce n’était pas du tout adapté.

Comparé à Hadoop MapReduce, Spark est généralement beaucoup plus rapide car il tente de garder les données manipulées en mémoire là où MapReduce effectue énormément de lectures et d’écritures disque.

A la manière de Hadoop, Spark manipule des *ensembles* de données pouvant être traitées séparément. L’exemple le plus typique est le comptage d’occurrences de chaque mot dans un texte : pour cette application, on peut découper le texte à l’infini (par page, par ligne, par phrase, …), chaque sous-ensemble étant composé de mots. Chacun de ces sous-ensembles peut être traité séparément, quel que soit sa taille, et les comptages partiels peuvent ensuite être agrégés pour obtenir le comptage final.

Historique de Spark

Spark a été développé à partir de 2009 à l’AMPLab [AMPLab de l’UC Berkeley] de l’UC Berkeley par un doctorant nommé Matei Zaharia.
En 2013, le code source a été cédé à la fondation Apache et en 2014 la version 1.0 est parue.
Dès cette année, Spark a battu MapReduce au benchmark de référence TeraSort[Benchmark Terasort] en étant jusqu’à 30x plus performant.

Les sections suivantes listent les ajouts notables survenus dans les différentes versions de Spark. Les améliorations de performances ne sont pas listées car elles sont une constante des différentes versions.

Spark 2.1 (déc. 2016)[Spark Release 2.1.0]
- Amélioration des traitements en flux (”Structured Streaming”)
Spark 2.0 (juil. 2016)[Spark Release 2.0.0]
- Unification des contextes Spark et SparkSQL en “SparkSession”
- Apparition des Datasets unifiant les Dataframes et les RDD
Spark 1.6 (jan. 2016)[Nouveautés de Spark 1.6]
- Ajout du type de données Dataset en preview
Spark 1.5 (sept. 2015)[Nouveautés de Spark 1.5]
Spark 1.4 (juin 2015)[Nouveautés de Spark 1.4]
- Introduction des [[SparkR]]/li>
- Support de Python 3 dans [[pySpark]]
Spark 1.3 (mars 2015)[Nouveautés de Spark 1.3]
- Introduction du type de données Dataframe

Modèles de données

Spark propose deux grandes familles de représentation des données :

les RDD, qui permettent de stocker des objets au sens classique (instances de classe Java, “case classes” Scala, objets Python, etc). Ces objets sont ensuite manipulés via des opérateurs ensemblistes type “map” ou “reduce”
les Datasets (ex-Dataframes) qui permettent de représenter des données tabulaires pour ensuite être manipulées soit via des commandes en SQL pur (ou leur équivalent en fonctions SparkSQL), soit via des opérations ensemblistes comme sur les RDD (depuis Spark 2.0)

En termes de fonctionnalités comme de performances, les Datasets sont beaucoup plus aboutis que les RDD à partir de Spark 2.0. Cependant, l’avantage des RDD est que l’on peut paralléliser et distribuer des structures de données d’un programme existant sans avoir à réécrire son modèle de données.

Ressources complémentaires

[Using Apache Spark for large-scale language model training], fév. 2017
[Apache Spark @Scale: A 60 TB+ production use case], août 2016
[A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets], juil. 2016
[Introducing Apache Spark Datasets], jan. 2016
[RDDs are the new bytecode of Apache Spark], mai 2015
[Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing]. Zaharia et al. NSDI’12.

Moteur d’exécution et optimisation de requêtes

[Optimisation de requêtes]

Stockage des données

[Stockage des données].

API

Spark propose une interface pour les langages [Scala, Java, Python (pyspark)] et [R (SparkR)].

En plus des fonctionnalités de base, plusieurs extensions existent :

[Spark SQL, DataFrames and Datasets] propose une interface de plus haut niveau (en particulier SQL) intégrant de l’optimisation de requêtes
[Spark Streaming] ou [Structured Streaming] pour le traitement de données en flux
[GraphX] pour le traitement de grands graphes
[MLlib] pour l’apprentissage automatique

Ressources complémentaires

[SparkR: Scaling R Programs with Spark]. Venkataraman et al. SIGMOD’16.
[MLlib: Machine Learning in Apache Spark]. Meng. JMLR 2016
[Spark SQL: Relational Data Processing in Spark]. Armbrust et al. SIGMOD’15.
[GraphX: A Resilient Distributed Graph System on Spark]. Xin et al. GRADES’13 (SIGMOD workshop).
[Working with UDFs in Apache Spark] détaille la création de fonction (et de fonction d’agrégat) définie par l’utilisateur (UDF)

Tuning, configuration et déploiement

[Tuning, configuration et déploiement]

Ressources complémentaires

Vue d’ensemble

Apache [Spark] Homepage
[SparkHub]
[Databricks blog]
[Apache Spark: A Unified Engine for Big Data Processing]. Zaharia et al. CACM 2016.
[Some talks and videos about Spark] ([Spark 2.0], [Why Spark Is the Next Top (Compute) Model])
[Présentation de Spark 2.0]
[Big Data Processing in Spark]
[Introduction à Spark]
Apache [Bahir] (extensions to distributed analytic platforms such as Apache Spark)
[Spark Packages] (community index of third-party packages for Apache Spark)
[Mastering Apache Spark 2]

Apprendre Spark

Databricks [Spark Developer Resources]
[Getting started with Spark in practice]
Big Data Processing with Apache Spark ([part 1], [part 2])
How-to: Translate from MapReduce to Apache Spark ([part 1], [part 2])
[Apache Spark : la distribution de calculs selon Hadoop (9ième Journée LoOPS)]

Archives de catégorie : Non classé

Optimisation de requêtes

Optimisation de requêtes

Catalyst

Ressources complémentaires

Projet Tungsten

Ressources complémentaires

Ressources complémentaires sur l’optimisation de requêtes sous Spark

Stockage des données

Stockage des données

Comparaisons entre les systèmes/formats

Systèmes de fichiers distribués

HDFS

Références

Comparaison

Systèmes de gestion de bases de données

Références

Sérialization et formats de fichiers

Comparaisons

[Parquet]

[Avro]

[ORC]

Objectif de ce blog

Présentation de Spark

Présentation de Spark

Historique de Spark

Modèles de données

Ressources complémentaires

Moteur d’exécution et optimisation de requêtes

Stockage des données

API

Ressources complémentaires

Tuning, configuration et déploiement

Ressources complémentaires

Vue d’ensemble

Apprendre Spark

Outils liés

Références

Utilisations de Spark dans la communauté académique Française