基石智算打造智能AI算力管理新范式 发布AI智算平台20

 小程序开发    |       2024-06-10

  AI 智算平台致力于让 AI 算力管理像本地资源管理一样简单。2.0 新版全面拥抱云原生,实现从 AI 基础设施到 AI 开发训练推理的全流程高效管理。

  平台通过统一的集群管理,实现对 NVIDIA、国产 GPU 等多种异构算力的高效调度。无论是高速 IB、RoCE 网络建设,还是并行文件存储集群管理,平台均能提供从物理机到容器的全方位管理。新版平台支持共享 GPU、单卡、多卡、多节点的算力调度,用户可结合实际业务需求按需申请使用,极大地提高了算力资源的使用效率。

  基石智算AI 智算平台2.0 新增节点监控、任务监控、容器组监控、高速网络监控和 GPU 监控等功能,提供从硬件故障处理到资源使用情况的全方位监控,及时有效地发现并解决潜在问题。同时,可视化的自定义告警配置支持邮件、企微、webhook等多种通知渠道,确保用户随时掌握 AI 基础设施的运行状态。

  在算力调度的基础上,平台支持自定义镜像仓库,同时内置 TensorFlow、PyTorch、MPI、DeepSpeed 等常用计算框架,支持一键创建开发机、分布式任务,自动挂载并行文件存储等常用 AI 业务流程。用户只需上传代码,就可以快速启动多机多节点的分布式训练,系统将自动调度到可用 GPU 进行计算,任务完成后自动释放资源。这种自动化的算力调度分发与回收机制,让算法工程师能够更专注于 AI 模型本身,加速科研成果的创新。

  模型服务功能的优化,让用户都能够一键部署在线推理服务,极大地提升了模型开发和部署的效率。无论是公开模型还是用户上传的自有模型,均可在线推理,满足各类业务需求。

  借助基石智算专区运营经验,平台提供规格定价、在线充值、买产品的全流程自服务管理,减少运营的技术人员、管理人员投入,同时减少客户试用沟通和准备环境的时间,加快算力中心资源售卖,提升资源运营效率。

  如同管理本地资源一样,AI 智算平台让用户即使面对复杂的 AI 基础设施,也能轻松上手。无论是硬件配置、异构计算资源、网络架构还是存储资源,一切尽在掌握,大幅度的降低了 AI 算力建设的技术门槛。

  通过精细化监控与智能调度,平台可以依据实际负载自动调整算力资源,避免资源浪费,同时提供财务管理工具,不仅支持价格设定,还支持详尽的用户消费查询与账单统计,能有效控制成本,提升整体运营效率。

  从模型开发、训练到部署推理,平台提供了一站式解决方案。AI 智算平台的大模型服务支持模型的快速训练、版本管理、在线推理服务,以及灵活的资源组配置,让模型管理变得简单高效,加速 AI 应用的商业化进程。

  自动化运维体系减少人工干预,自动执行和处理日常运维任务,如资源分配、故障处理等,确保系统的高可用性和稳定能力,让团队更加聚焦于业务创新与优化。

  借助 AI 智算平台2.0.公司能够轻松应对 AI 算力建设与运营的挑战,实现高效、灵活的 AI 算力管理,减少相关成本,提高竞争力。