品高智能算力调度平台是依托品高在云计算与人工智能领域的深厚技术积累打造的智能算力调度云底座,满足企业在AI场景下的国产化、场景化、低碳化、协同化等多元化需求。
品高智能算力调度平台通过驱动级GPU切割、异构资源统一调度与精细化管理能力,实现AI算力资源的统一调度、按需切割和灵活分配,帮助企业高效利用AI算力。同时支持多租户管理和资源安全隔离,降低运营成本。
品高智能算力调度平台让企业在云环境中实现智能、高效、弹性的AI算力运维,助力AI业务创新和技术发展。
通算智算一体化:支持多厂商多类异构GPU的一池多芯架构,构建统一的适应性资源支撑体系。
多模式调度:支持整机、整卡、NVIDIA GPU-MIG、vGPU等多种GPU资源分配模式,满足不同业务场景的灵活需求。
简化资源管理:提供统一的管理界面和自动化调度功能,使得企业在管理集群通算智算一体化的AI计算资源时更加便捷高效,减少了管理复杂度。
多元vGPU共享能力:同时支持时间切分模式与空间切分模式,为不同AI任务场景提供灵活多样的vGPU资源共享方案,全面提升算力利用率。
空间切分模式:实现将GPU的空间资源(显存与TPC)按空间维度灵活划分为多个独立子分区,每个分区可并行支持不同任务,实现多任务高效协同运行。
资源独立分配:每个租户拥有独立的GPU、存储、网络等资源,实现全方位隔离,保障多租户环境下的安全和稳定。
权限与运维管理:灵活的租户配置、权限管理和资源监控,支持多租户运营、成本精细化管理和安全审计。
多网卡与固定IP支持:单个Pod可灵活绑定多张网卡,容器重建时自动保留原有固定IP,显著提升网络配置灵活性和业务稳定性。
内外部混合组网:支持多种内外部网络接入模式,满足不同业务和场景的灵活组网需求。
RDMA网络管理:提供RDMA网络二层隔离,支持租户安全隔离和多网段精细化管理,保障高性能计算任务的数据安全与网络高效利用。
基于驱动级别的底层能力,实现对GPU物理资源的精细化切割,实现对时间切片、TPC等关键GPU资源的深度管控,从而满足复杂AI工作负载在资源隔离、弹性调度和多场景适配上的需求,显著提升GPU利用率与调度灵活性。
网络管理结合eBPF技术,实现低延迟、高带宽的网络数据传输。为AI任务提供高效、稳定的数据通路,全面保障数据通信效率和业务连续性。
通过源码级ApiServer深度改造,内置租户逻辑转换器,实现API调用过程中的租户标识自动识别与安全隔离,从源头杜绝访问逃逸风险。基于多租户安全架构设计集群权限体系,支持精细化资源分配与访问控制。