2.6 KiB
2.6 KiB
智能监控系统配置
更新时间: 2025-10-30 06:01
设计原则
只在有问题时干预 - 正常运行时不碰它
定时任务配置
1. Session 自动备份
时间: 每 6 小时(0, 6, 12, 18点)
命令: ./protect_session.sh
功能:
- 备份 session 文件
- 自动恢复(如果丢失)
- 保留 7 天历史
2. 智能健康检查
时间: 每 12 小时(0点和12点)
命令: ./smart_health_check.sh
功能:
- 检查机器人进程
- 检查 Pyrogram 连接
- 检查最近错误
- 只在有问题时重启
智能检查逻辑
检查项目
- ✅ 机器人进程是否运行
- ✅ Pyrogram 客户端状态
- ✅ 最近1小时 Connection lost 错误
- ✅ 最近1小时 AUTH_KEY 错误
触发重启条件(满足任一条件)
- ❌ 机器人进程未运行
- ❌ Connection lost 错误 > 5个(1小时内)
- ❌ AUTH_KEY 错误 > 0个(1小时内)
- ❌ Pyrogram 状态异常 + Connection 错误 > 2个
正常运行时
- ✅ 检查所有状态
- ✅ 记录日志
- ✅ 不采取任何行动
对比之前的配置
之前(过于激进)
- 每 15 分钟检测并可能重启
- 每 30 分钟监控
- 频繁干预
现在(温和智能)
- 每 12 小时检查一次
- 只在真正有问题时干预
- 让系统自然运行
运行记录
首次测试 (2025-10-30 05:59:46)
✅ Pyrogram 客户端状态: 正常
✅ 最近1小时 Connection lost 错误: 0 个
✅ 最近1小时 AUTH_KEY 错误: 0 个
✅ 一切正常,无需干预
操作: 无操作
日志文件
logs/smart_health_check.log- 检查记录logs/session_backup.log- 备份记录logs/integrated_bot_errors.log- 机器人错误
查看命令
查看定时任务
crontab -l
查看检查日志
tail -50 ~/telegram-bot/logs/smart_health_check.log
手动运行检查
cd ~/telegram-bot && ./smart_health_check.sh
查看机器人状态
ps aux | grep integrated_bot
时间表
00:00 - 智能健康检查 + Session备份
06:00 - Session备份
08:00 - 每日自检(系统原有)
12:00 - 智能健康检查 + Session备份
18:00 - Session备份
预期效果
- ✅ 系统正常运行时:完全不干预
- ✅ 出现小问题时:等待自然恢复
- ✅ 出现严重问题时:自动重启恢复
- ✅ Session 定期备份:防止数据丢失
维护建议
- 定期查看日志(每周一次)
- 如果频繁重启,检查根本原因
- 备份文件每月清理一次(自动)
总结:
- 每12小时检查一次
- 只在真正有问题时采取行动
- 让系统保持自然稳定运行