Topics: Distributed Computing, Spark Cluster Architecture, Shuffle boundaries, Driver-Executor Model, Databricks Setup
উদ্দেশ্য- এই ক্লাসে Apache Spark এর distributed computing architecture শিখবেন – driver-executor model, cluster managers, এবং কিভাবে Jobs থেকে Stages ও Tasks এ ভেঙে parallel execution হয়। Databricks notebooks দিয়ে development environment setup করে PySpark এ বিভিন্ন file format ও data source থেকে ডেটা পড়ার পদ্ধতি আয়ত্ত করবেন।