• mile米乐集团

    当前位置 > mile米乐集团 > 服务 > 服务器 > KunTai A924 服务器NPU掉卡问题分析

    KunTai A924 服务器NPU掉卡问题分析

    发布时间:2025-12-29

    一、现网描述

    1.1 环境描述

    设备型号:KunTai A924

    BMC版本:3.10.02.49

    BIOS版本:7.09

    CPLD版本:0.13

     

    二、故障描述

    2.1故障现象

    1台 KunTai A924 服务器系统下lspci只能显示7张卡,查看id为41:00.0的NPU卡掉卡

     

    三、问题分析

    3.1排查思路

    Current_event日志显示2025-10-20 Monday 23:17:16  NPU Board7 NPU 断连;

    0x81a3880c与0x819b8605均为链路质量告警,建议检查NPU网口连接情况

    b5a35aa278505600bc5aa03a05919f3b.png

    RAID卡以及硬盘状态正常

    c8b4aa81c39d28a7f3239e31fc7c4585.png

    e9d6eda7aa24340bb0b4e0ceba096575.png

    Npu_info显示NPU7功率过高

    2f3e7ee4ab21cc9d8273c77fe031a04d.png

    Sensor日志中无法获取npu7的温度

    7d7daa3eb32143b81a0e7f221db007e3.png

    Lspci查看系统侧41:00.0不识别

    dee85416b3a154819ce6a54b8f457f06.png

    npu-smi info信息中,NPU7识别不到

    b1cfac6d18f9d02fb1972a4aae62cafb.jpg

     

    3.2原因分析

    服务器OS执行 lspci | grep acc 命令, 查询到的pcie建链条数低于NPU 芯片个数,表明服务器启动NPU和CPU的建链失败

     

    四、问题解决

    4.1解决办法

    建议将NPU7交叉验证,检查NPU PCIE物理链路

    尝试交叉NPU卡/模组 观察故障是跟随NPU;

    是 => NPU模组故障,更换NPU卡/模组;

    否 => 更换NPU链路观察是否恢复。

     

    400-810-9119
    7天*24小时全天候接听客户的任何需求。是接入最快捷、响应最及时的全真人服务窗口,节假日无休;并为VIP客户设置专属坐席,让最分析您的服务代表时刻为您服务。
    除了常规技术问题的服务请求,客户对于服务有任何建议和意见,可顺利获得服务邮箱发送邮件,邮件将直达服务经理,为您给出满意的答复。
    官方微信
    • mile米乐集团

    微信搜索【mile米乐集团】公众号,点击对话窗口发送信息,和mile米乐集团进行沟通,解决您随时想到的任何咨询。