Spark 概述概述概念 一种基于内存的快速、通用、可扩展的大数据分析计算引擎 使用Scala开发,适合迭代计算和数据挖掘计算 基于MR框架,优化了计算过程,使用内存替换计算结果的传输 计算模型非常丰富 Spark和Hadoop的根本差异是多个作业之间的数据通信问题:Spark多个作业之间数据通信是基于内存,Hadoop基于磁盘 Spark运行环境环境 = Java环境(JVM) + 集群环境(YA 2025-05-26 大数据
HBase Hbase概述概述 一种分布式、可扩展、支持海量数据存储的NoSQL数据库 基本结构 Master Table:create,delete,alter RegionServer:分配Regions到每个RegionServer,监控RegionServer状态 RegionServer Data:get,put,delete Region:splitRegion,compactRegio 2025-05-26 大数据
Hadoop Hadoop3入门大数据概论 海量数据的采集存储和分析 特点(4v) 大量 高速 多样 低价值密度:快速对有价值数据提纯 应用场景:通过海量数据分析为各个行业领域提供更强的决策力和指导性 大数据的业务流程和部门分布 数仓组 实时组 Hadoop概论 分布式系统基础架构,主要解决海量数据的存储和分析计算 面试题 端口号 常用配置文件 HDFS文件块大小 HDFS读写流程 MapTask 2025-05-26 大数据
Hive 基础概念 基于Hadoop的数据仓库工具,将结构化的数据文件映射为一张表,提供类SQL查询功能 本质:将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS Hive分析数据底层的实现是MapReduce/Sprak… 执行程序运行在Yarn上 优点 简单、容易上手 支持用户自定义函数 缺点 HQL表达能力有限:迭代式算法无法表达 效率比较低 官网地址:htt 2025-05-26 大数据
JDBC JDBC 第1章:JDBC概述1.1 数据的持久化 持久化(persistence):把数据保存到可掉电式存储设备中以供之后使用。大多数情况下,特别是企业级应用,数据持久化意味着将内存中的数据保存到硬盘上加以”固化”,而持久化的实现过程大多通过各种关系数据库来完成。 持久化的主要应用是将内存中的数据存储在关系型数据库中,当然也可以存储在磁盘文件、XML数据文件中。 1.2 Java中的数据 2025-05-26 后端
JPA多数据源配置 配置文件方法1123456789101112spring: datasource: primary-method-1: driver-class-name: com.mysql.cj.jdbc.Driver url: jdbc:mysql://localhost:3306/database1 username: root password: root 2025-05-26 后端
Java JavaSE环境JDK/JRE/JVMJDK:Java Development Kit,Java语言软件开发工具包 JRE:Java Runtime Environment,Java运行环境 JVM:Java Virtual Machine,Java虚拟机 JDK = JRE + Java开发工具集 JRE = JVM + JavaEE标准类库 包含关系: 2025-05-26 后端
JavaWeb JavaWeb所有通过Java语言编写可以通过浏览器访问的程序的总称 基于请求和响应来开发: 请求:指客户端给服务器发送数据,Request 响应:服务器给客户端回传数据,Response 请求和响应是成对出现的,有请求就有响应 资源分类: 静态资源:html/css/js/txt/mp4视频/jpg图片 动态资源:jsp页面 2025-05-26 后端
Kafka Kafka概述 一个分布式的基于发布/订阅模式的消息队列 基础架构 Kafka集群 由多个Broker组成,每个Broker拥有唯一的id 有多个Topic,每个Topic可有多个分区(partition),每个分区可有多个副本(replication) 一个Topic的多个分区可以存在到一个Broker中, 一个分区的多个副本只能在不同的Broker存在 一个分区的多个副本由一个le 2025-05-26 大数据
Linux Debian全局环境变量配置配置位置 login shell /etc/profile /etc/profile/* non-login shell ~/.bashrc /etc/profile/* 123456789101112131415# 编辑/etc/profile.d/env.shvim 2025-05-26 其他