# TCP2UART 调试指导 ## 1. 适用范围 本指导面向当前 `TCP2UART` 工程,覆盖以下四类调试场景: 1. `STM32F103RCT6 + CH390D` 的基础 bring-up 2. `SEGGER RTT`、异常陷阱与 FreeRTOS 任务运行状态确认 3. `USART1` 配置口、`USART2/USART3` 数据口与 `MUX / NET / LINK[idx]` 协议联调 4. `TCP Server / TCP Client / UART` 三层数据通路联调与问题隔离 本指导默认基线如下: 1. 当前工程采用 `FreeRTOS` 任务调度架构 2. `CH390` 运行时访问由 `xSpiMutex` 保护,`NetworkTask` 持有主要访问权 3. 调试输出统一使用 `SEGGER RTT` 4. 当前应用层协议模型已经收敛到 `MUX / NET / LINK[idx]` 5. 当前代码应以 `MDK-ARM` 工程构建结果为准 --- ## 2. 当前工程边界与真实状态 在进入现场调试前,先统一以下工程边界: 1. 当前项目的主要软件路径已经切换为: - `NET`:网络基础参数 - `LINK[idx]`:链路配置记录 - `MUX`:数据口承载模式 2. 对外 AT 配置面应只围绕以下命令展开: - `AT` / `AT+?` / `AT+QUERY` - `AT+MUX` / `AT+NET` / `AT+LINK` - `AT+SAVE` / `AT+RESET` / `AT+DEFAULT` 3. 已有结论表明: - MCU 启动、RTT、FreeRTOS 调度、TIM4 心跳路径可工作 - `CH390D` 基础寄存器读写与 `lwIP netif` 基本链路已经打通过一次 - 真实硬件侧曾定位到 `CH390D` 供电滤波电容虚焊问题 4. 当前调试重点是: - FreeRTOS 任务是否正常创建与调度 - `MUX / NET / LINK[idx]` 协议是否与代码一致 - UART / TCP / CH390 三层通路是否协同稳定 - 参数保存、复位和恢复流程是否可靠 --- ## 3. 代码入口与调试责任边界 ### 3.1 启动与 FreeRTOS 入口 以下代码路径是 bring-up 的第一现场: 1. `Core/Src/main.c` - `main()`:总启动入口 - `SystemClock_Config()`:时钟初始化 - `MX_FREERTOS_Init()`:FreeRTOS 任务创建(在 `freertos.c` 中实现) 2. `Core/Src/freertos.c` - `StartDefaultTask()`:默认任务(LED 心跳 + 看门狗) - `MX_FREERTOS_Init()`:用户任务创建入口 3. `Core/Src/stm32f1xx_it.c` - 故障与中断入口 - `TIM4_IRQHandler`:HAL 时间基准 - `USART1/2/3`、`EXTI0`、DMA 回调等联调关键入口 ### 3.2 CH390 责任边界 当前 CH390 调试必须遵守以下责任边界: 1. `Drivers/CH390/CH390_Interface.c`:GPIO / SPI / 寄存器与内存事务 2. `Drivers/CH390/CH390.c`:芯片级 helper 3. `Drivers/CH390/ch390_runtime.c`:唯一的运行时拥有者 4. `Drivers/LwIP/src/netif/ethernetif.c`:netif glue 与轮询桥接 5. SPI 访问由 `xSpiMutex` 保护,避免多任务竞争 ### 3.3 配置口与业务口边界 1. `USART1`:AT 配置口,接收 `AT` 命令 2. `USART2 / USART3`:数据口,普通透传或 MUX 承载 --- ## 4. 当前硬件与调试工具基线 ### 4.1 核心硬件对象 1. MCU:`STM32F103RCT6`(256KB Flash / 48KB SRAM) 2. 以太网芯片:`CH390D` 3. 配置串口:`USART1` 4. 数据串口:`USART2 / USART3` 5. 调试输出:`SEGGER RTT` ### 4.2 构建与下载基线 1. `MDK-ARM/TCP2UART.uvprojx` 2. 启动文件:`startup_stm32f103xe.s` 3. 目标器件:`STM32F103RC` 4. 预处理器宏:`USE_HAL_DRIVER, STM32F103xE` ### 4.3 常用调试工具 1. `Keil MDK-ARM` 2. `ST-Link / J-Link` 3. `SEGGER RTT Viewer` 4. `PowerShell` 5. `tools/start_tcp_debug_server.ps1` 6. `tools/tcp_debug_server.py` --- ## 5. FreeRTOS 专项调试 ### 5.1 任务状态检查 使用 `vTaskList` 获取所有任务运行状态: ```c char buf[512]; vTaskList(buf); SEGGER_RTT_WriteString(0, buf); ``` 输出格式: ```text 任务名 状态 优先级 剩余栈 编号 NetworkTask R 4 120 1 UartTask B 4 200 2 ConfigTask B 3 150 3 RouteTask R 3 180 4 DefaultTask B 1 80 5 IDLE R 0 100 6 Tmr Svc B 2 90 7 ``` 状态码:`R`=Ready, `B`=Blocked, `S`=Suspended, `D`=Deleted, `I`=Invalid ### 5.2 栈溢出检测 已启用 `configCHECK_FOR_STACK_OVERFLOW = 2`,溢出时自动调用: ```c void vApplicationStackOverflowHook(TaskHandle_t xTask, char *pcTaskName) { SEGGER_RTT_printf(0, "STACK OVERFLOW: %s\n", pcTaskName); __BKPT(0); } ``` ### 5.3 堆内存失败检测 已启用 `configUSE_MALLOC_FAILED_HOOK`,分配失败时自动调用: ```c void vApplicationMallocFailedHook(void) { SEGGER_RTT_printf(0, "MALLOC FAILED: Free heap = %u\n", xPortGetFreeHeapSize()); __BKPT(0); } ``` ### 5.4 常见 FreeRTOS 调试陷阱 1. **优先级反转**:使用 Mutex(含优先级继承)而非 Binary Semaphore 保护共享资源 2. **死锁**:多 Mutex 场景确保所有任务按相同顺序获取 3. **中断优先级**:FreeRTOS 可管理的 ISR 优先级必须 >= `configMAX_SYSCALL_INTERRUPT_PRIORITY`(本工程 5) 4. **栈不足**:每个任务定期调用 `uxTaskGetStackHighWaterMark(NULL)` 检查剩余栈 5. **禁止在中断中调用阻塞 API**:必须使用 `FromISR` 后缀版本 --- ## 6. 启动阶段调试顺序 建议按 P0 ~ P5 顺序推进,不要跳层。 ### 6.1 P0:确认最小基础条件 1. `MDK-ARM` 可构建并产出新的 `axf/hex/map` 2. 板卡可正常下载与复位 3. RTT 可连接并看到启动输出 4. FreeRTOS 任务创建成功,`DefaultTask` LED 心跳可工作 5. `TIM4` 1ms tick 正常运行 ### 6.2 P1:确认 FreeRTOS 调度正常 上电或复位后,优先确认: 1. `StartDefaultTask` 是否进入运行 2. `vTaskList` 输出是否显示所有预期任务 3. `xPortGetFreeHeapSize()` 返回值是否合理 4. 无 `STACK OVERFLOW` 或 `MALLOC FAILED` 输出 ### 6.3 P2:确认 CH390 初始化链路 启动阶段应重点关注 `NetworkTask` 中初始化日志: 1. `ETH init: gpio` 2. `ETH init: spi` 3. `ETH init: reset` 4. `ETH init: probe` 5. `ETH init: default` 6. `ETH init: mac` 7. `ETH init: done` ### 6.4 P3:确认 TCP 链路 1. lwIP `tcpip_thread` 是否正常运行 2. TCP Server 是否在指定端口监听 3. TCP Client 是否成功连接远端 ### 6.5 P3.5:确认 ARP / ICMP 基础网络可达 在继续 TCP 联调前,建议先把 `ARP + ping(ICMP)` 跑通。对于当前 `CH390 + lwIP + FreeRTOS` 架构,这一步不是可选项,而是 TCP 可达之前必须成立的网络基线。 #### 6.5.1 推荐最小验证顺序 1. 先确认板卡 IP、掩码、MAC 与 PC 所在网段一致 2. 上电后先观察 RTT,确认 `ETH init: done` 已出现 3. 在 PC 侧执行一次 `ping <板卡IP>`,同时开启 Wireshark 抓包 4. 先看是否出现发往板卡 IP 的 ARP request,再看设备是否回 ARP reply 5. ARP 正常后,再看是否出现 ICMP echo request / echo reply 成对出现 #### 6.5.2 当前工程推荐观察点 如果网络基础链路有疑问,建议按以下分层观察,不要只看某一层: 1. **raw RX 层**:CH390 是否确实收到了以太网帧 2. **Ethernet demux 层**:`ethernet_input()` 是否识别到 `ETHTYPE_ARP` / `ETHTYPE_IP` 3. **协议处理层**:`etharp_input()` / `ip_input()` 是否真正进入 4. **协议发包层**:lwIP 是否已经生成待发送的 ARP reply / ICMP reply 5. **驱动发送层**:`low_level_output()` / CH390 TX 是否真正把帧送出 这次 bring-up 证明,`raw RX 正常` 并不等于 `lwIP 已真正处理该帧`。如果只看到底层收到了包,就直接假设协议栈一定会回复,通常会把排查方向带偏。 #### 6.5.3 这次 ARP / ICMP bring-up 的关键结论 本轮调试中,最终根因位于: - `Drivers/LwIP/src/netif/ethernet.c` 问题本质是: 1. `ethernet_input()` 在 `ETHTYPE_ARP` 分支中,曾直接调用 `etharp_input(p, netif)` 2. 但 `etharp_input()` 要求 `p->payload` 从 **ARP 头** 开始,而不是从 Ethernet 头开始 3. 因此如果没有先执行: ```c pbuf_remove_header(p, SIZEOF_ETH_HDR) ``` 则 ARP 包虽然被收到了,但会在 `etharp_input()` 的早期校验中被静默丢弃,最终表现为: 1. Wireshark 能看到 PC 发来的 ARP request 2. 板子侧底层收包计数在增长 3. 但设备始终不回 ARP reply 4. ping 也自然不会成功 当前应保留的正确处理方式如下: ```c case ETHTYPE_ARP: if (netif->flags & NETIF_FLAG_ETHARP) { if (pbuf_remove_header(p, SIZEOF_ETH_HDR)) { pbuf_free(p); return ERR_OK; } etharp_input(p, netif); } else { pbuf_free(p); } return ERR_OK; ``` #### 6.5.4 为什么这类问题容易漏看 这类问题常见但隐蔽,原因通常有三点: 1. 根因非常小,外在表现却像“整个发送链路都坏了” 2. 多个低层信号可能同时正常,容易误导为 SPI / TX / CH390 初始化问题 3. `rx ok`、`ARP 帧计数在涨`、`链路已 up` 都不代表协议层一定接受了该帧 因此,后续遇到“收得到包但就是不回”的问题时,优先检查: 1. 传给上层协议处理函数时,`pbuf->payload` 是否已经对齐到正确协议头 2. glue-layer 是否和 lwIP 原生调用约定一致 3. 观察点是否已经覆盖到 `demux -> protocol handler -> linkoutput` 这一整条链 #### 6.5.5 建议保留的最小验收标准 在认定网络基线“已经打通”之前,至少应满足: 1. Keil 工程可稳定构建通过 2. 上电后可稳定看到网络初始化完成日志 3. Wireshark 中能看到设备对本机 ARP request 做出 reply 4. PC 对设备 `ping` 时,能看到 ICMP echo request / reply 成对出现 5. RTT 中无 `STACK OVERFLOW`、`MALLOC FAILED`、异常 trap 等故障信号 --- ## 7. MUX / NET / LINK[idx] 联调指导 ### 7.1 协议总则 与裸机版本完全一致,参见 `AT固件使用手册.md`。 ### 7.2 推荐最小 MUX 联调顺序 1. 先在 `MUX=0` 下跑通原始透传 2. 再切换 `MUX=1` 3. 先发一个控制帧,确认 `DSTMASK=0x00` 路径可通 4. 再发一个单目标数据帧 5. 最后验证多目标位图转发 --- ## 8. 异常、卡死与假死排查 ### 8.1 看到 `TRAP:` 时怎么做 1. 先记录 RTT 中的 trap 标签 2. 立刻用调试器查看当前 PC / LR / 调用栈 3. 结合 `Core/Src/stm32f1xx_it.c` 中对应 handler 定位异常类型 ### 8.2 FreeRTOS 任务卡死时怎么做 1. 使用 `vTaskList` 检查各任务状态 2. 如果某个任务始终 `B`(Blocked),检查其等待的队列/信号量 3. 检查是否有 Mutex 被持有但从未释放 4. 使用调试器暂停,查看各任务的调用栈 ### 8.3 常见 FreeRTOS 陷阱 1. 在 ISR 中误调用阻塞 API(如 `xQueueSend` 而非 `xQueueSendFromISR`) 2. 中断优先级低于 `configMAX_SYSCALL_INTERRUPT_PRIORITY` 但调用了 FreeRTOS API 3. Mutex 持有期间任务被删除导致 Mutex 永不释放 4. 栈溢出导致邻近变量被破坏 --- ## 9. 常见误区 1. 不要继续沿用"CH390 恒为全 `0xFF`"过时结论 2. 不要在多个任务中直接访问 CH390 SPI(必须通过 Mutex 保护) 3. 不要在没有芯片脚侧证据前,只凭 GPIO 判断总线正常 4. 不要在基础寄存器读写尚不可信时,直接调高层业务 5. 不要在 ISR 中执行复杂 SPI 事务或调用阻塞 API 6. 不要忽视 `configCHECK_FOR_STACK_OVERFLOW` 报告 7. 不要把“底层已经收到 ARP 包”等同于“lwIP 一定已经正确处理 ARP 包” 8. 不要忽略 glue-layer 对 `pbuf->payload` 起始位置的约定,特别是 `Ethernet header -> ARP/IP header` 的切换 9. 不要在 ARP / ICMP 还没闭环前,就直接怀疑 TCP Server / TCP Client 逻辑 10. 不要在没有抓包和分层观测点的情况下,只凭单一日志就断言故障位于 TX 或 SPI 层 --- ## 10. 推荐配套阅读 1. `AT固件使用手册.md` 2. `项目技术实现.md` 3. `项目需求说明.md` 4. `Keil工程配置说明.txt` --- ## 11. 近期调试经验固化(2026-04) 本节用于固化这一轮 `FreeRTOS + lwIP + CH390` 联调过程中已经验证过的经验,后续调试默认以本节为前提,不要反复回到已排除的旧假设。 ### 11.1 构建结果的真值来源 当前工程的构建真值必须以 `Keil` 实际构建日志为准,而不是辅助 viewer。 推荐优先级如下: 1. `MDK-ARM/build_capture.txt` 2. `MDK-ARM/TCP2UART/TCP2UART.build_log.htm` 3. `MDK-ARM/TCP2UART/TCP2UART.map` 说明: 1. `keil-build-viewer.exe` 只能辅助观察内存占用或旧构建快照 2. viewer 未刷新时,不代表当前代码没有变化,往往只是最新构建没成功或 viewer 数据滞后 3. 后续任何“编译通过 / RAM 变化 / 目标器件切换”的判断,都必须引用以上三类 Keil 真实产物 ### 11.2 近期已验证的事实 以下结论已经被本轮调试反复验证: 1. `DIAG_TASK_ISOLATION=1` 时,系统可以稳定运行 2. `DIAG_TASK_ISOLATION=0` 时,full-task 模式仍会卡死 3. 启动阶段 `lwip_netif_init()`、deferred `xTaskCreate()`、`netif-ready` 等关键日志已经真实跑通 4. 之前通过加日志、分阶段创建 TCP 任务、调整栈大小后,卡死边界会继续后移,但问题不会完全消失 5. 这说明当前问题不是单一固定点故障,而是“逻辑路径 + 极低资源余量”共同作用的结果 ### 11.3 已排除或降级优先级的方向 以下方向目前不再应作为一号假设: 1. **startup/init 失败** - 当前日志已能稳定走到 `netif-ready` - 因此主要问题不再是最初的 bring-up 链路本身 2. **单纯 CH390 TX 无限等待是当前主因** - 已为 TX 路径增加过 bounded wait / timeout 观察点 - 最新故障没有先落到 `[ETH] tx timeout` 分支 3. **只靠继续增大 TCP task 栈就能解决问题** - `256 -> 384 words` 后,故障边界虽然继续后移,但系统仍会卡死 - 栈确实曾是问题的一部分,但不是唯一剩余问题 ### 11.4 当前最重要的资源压力结论 当前 `STM32F103RCT6`(48KB SRAM)上的真实资源压力已经高到会直接干扰调试判断: 1. 真实构建中,`ZI-data` 已接近物理 RAM 上限(约 95%+) 2. 在 `DIAG_TASK_ISOLATION=0` 下,创建完四个 TCP 任务后,`xPortGetFreeHeapSize()` 只剩约 `944 bytes` 3. 这个余量不足以让后续 `netconn_*`、semaphore、mailbox、任务栈回旋空间保持清晰边界 4. 因此当前在 `RCT6` 上继续做 discriminator 时,结果会持续混入“资源边界噪声” 这也是为什么本轮调试后半段已经把重点从“继续在 RCT6 上做更多小修补”切换到“先换更大 RAM 的 pin2pin 器件再继续分析”。 ### 11.5 当前推荐的硬件调试策略 当前推荐的下一阶段策略如下: 1. 先从 `STM32F103RCT6` 切换到 pin2pin 的 `STM32F103RDT6` 2. 在切换器件后,尽量保持当前代码基线不做大改 3. 先复测当前版本的 RTT 与运行边界,看故障是否: - 消失 - 明显后移 - 仍然停在相同 enabled path 4. 再根据新器件上的表现,区分: - 资源压力主导 - 逻辑 / 时序 / API 使用问题仍然存在 ### 11.6 换片后第一轮调试目标 切换到 `RDT6` 后,第一轮调试不追求立刻修复,而是优先回答下面几个问题: 1. 当前 full-task 模式是否仍然卡死 2. `free/min heap` 是否明显高于 `RCT6` 版本 3. enabled 的 `S1 / C1` 是否能够继续进入更深的 `netconn_new / bind / connect / listen / accept` 路径 4. 之前为了定位问题而加入的 discriminator(例如 `C1 first-connect defer`)是否仍然影响故障边界 如果这些问题不先回答,后续继续改代码的结论可信度会很差。 ### 11.7 当前建议保留的调试原则 后续 agent 或开发者继续接手本工程时,建议遵守以下原则: 1. 不要在 `RCT6` 上继续大量加日志、加栈、加 queue 深度后再试图解释现象 2. 不要把 viewer 当作当前构建真值 3. 不要忽略 `DIAG_TASK_ISOLATION=1 正常、=0 异常` 这个前提 4. 不要一次性修改 `C1/S1/CH390/lwIP` 多个方向,避免再次失去因果关系 5. 每次只做一个能明显改变故障边界的最小改动,并用 RTT + Keil build 结果交叉验证 ### 11.8 固定 Client 端口重连策略(TIME_WAIT 取舍) 当前工程的 `Client` 链路保留固定 `LPORT` 配置语义,默认 `C1/C2` 均使用明确的本地源端口。 在 `lwIP + netconn` 路径下,如果仍沿用优雅 `netconn_close()`,则相同 `LPORT` 的快速重连会受到 TCP `TIME_WAIT` 影响,表现为一段时间内重复 `bind/connect` 失败。 结合本项目的约束,当前版本固化如下取舍: 1. 不取消 `Client` 固定 `LPORT` 语义 2. 不依赖扩大 PCB 池作为主修复手段 3. 不通过降低 `TCP_MSL` 改写全局 TCP 保守语义 4. 对 `Client` 主动断开后的释放路径采用 abortive close(RST),以立即释放 PCB 与本地端口 使用该策略时应明确接受以下副作用: 1. 对端可能看到 `RST` 或“连接被重置” 2. 连接尾部未完成发送的数据不会再走优雅关闭路径 3. 该策略仅用于固定 `Client` 端口快速重连场景,不应直接推广到所有 TCP 关闭路径