瀚高数据仓库是我公司研发的一款基于大规模并行技术的数据仓库软件,具备无共享、高性能、高可用、扩展容易、海量数据处理等特性。可以为超大规模数据管理提供高性价比的通用计算平台,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统。
完全并行的MPP(Massive Parallel Processing,大规模并行处理)分布式架构,具有多机、多计算实例、多进程并行能力,所有节点之间无共享,具有对等计算能力。
支持海量数据存储、查询,可处理PB级别以上的结构化数据;数据库表的行数无大小限制,数据行可以存储GB级别数据;采用hash、random存储策略,数据分布均匀。
瀚高数据仓库在原有本地存储基础上,研发外部存储连接组件,提供对HDFS、S3、Hive、NFS、CephFS等外部文件系统的支持。
采用先进的lz4、zstd高性能压缩算法,在读写IO与磁盘存储之间达到最好的平衡。
提供行列混合存储方案,从而提高了列存数据库特殊查询场景的查询响应耗时。
完全兼容支持x86架构的PC服务器,不需要昂贵的Unix服务器和磁盘阵列。
瀚高数据仓库采用高性能CSV解析器,一次可以解析8个字节,在CSV外部表数据装载时,性能优越。
瀚高数据仓库采用目前最先进的LLVM框架提高查询性能,发挥Just-In-Time编译器的优势,将整个查询计划转换成一个汇编语言程序,有效去除x86执行器与内存的摩擦,使查询性能更优。
支持集群节点的扩容和缩容,能够通过增加服务器节点对系统的计算和存储能力扩容;扩容过程动态扩展,不停机,不影响业务正常运行。
通过镜像冗余机制来保证集群的高可用,数据通过镜像提供冗余保护,自动故障探测和管理,自动同步元数据和业务数据;具有数据备份恢复能力,支持全量、增量的备份/恢复。
提供完善用户账号控制和权限管理策略,保证数据库系统的安全性;同时提供详尽的审计日志输出功能,记录数据库中与数据库操作相关的所有日志。
可以通过资源队列统一控制控制用户、会话和查询语句对集群资源的使用,可灵活配置资源队列优先级,使维护更加自动化;支持多种三方图形化工具,简化管理员对数据库的管理工作,以让管理员以最小的代价进行数据库维护。