数据分析基础
Excel基础操作、链接外部数据扩展表格、数据安全、公式输入 数据清洗类、关联匹配类、逻辑运算类、计算统计类、时间序列类 表格结构数据的特征、获取方法 表格结构数据引用、查询与计算方法 利用函数分析与计算数据 数据透视分析 常用图表及组成:趋势图、对比图、分布图、组成图、关系图 创建、导入透视表 设置字段,更改透视表 添加、移动、排序、删除、设置字段 编辑:选择、重命名、更改数据源、移动、展开/折叠、布局、样式 分析:排序、筛选、切片器 SmartArt图形 单元格创建图形:条件格式、迷你图
SQL
数据库概念、MySQL数据库介绍及安装、启动、连接MySQL Server 查看、选择数据库、创建数据库、指定编码格式、删除数据库 查看数据表、查询表中数据、创建数据表、查看表结构、插入、修改数据表、删除数据表、更新记录 字符型、数值型、日期时间型 基础查询、别名、去重、筛选、排序、限制结果、常用函数:字符串函数、数值函数、日期函数 排序、分组、空值、连接、case表达式、聚合分析、子查询和CTE、窗口函数、数据清洗 索引概念、主键索引、创建索引、删除索引 创建自定义函数、调用自定义函数、删除自定义函数
数据可视化
BI常见函数 BI时间智能函数 基础图表制作 高级可视化设计 仪表板搭建
实战项目
零售门店日销利润与库存健康度仪表盘:基于每日销售与库存数据,利用Excel函数、透视表与条件格式构建动态监控模板,自动识别低毛利商品、高库存滞销品及断货风险,每日10分钟完成经营复盘,减少人工核算80%时间,提升库存周转效率。
电商实时GMV与转化漏斗看板:整合订单、流量、客服数据源,构建支持下钻的Power BI大屏,实时监控大促期间各渠道GMV、加购率、支付转化率及异常订单,助力运营团队秒级响应策略调整,提升大促ROI。
阶段考核
基于多源业务数据表完成内连接、左连接、全连接实操,使用 GROUP BY/HAVING 实现核心指标聚合分析 运用窗口函数(ROW_NUMBER()/RANK()/LAG())完成数据排名、同比环比计算 识别并改写典型低效SQL(子查询嵌套、无索引扫描、笛卡尔积滥用),针对核心业务表给出主键、联合索引优化建议 设计业务核心指标(如活跃度、转化率、留存率)的日/周/月数据提取与监控方案
Python编程
变量、注释、标识符和关键字、输入输出、数据类型转换 if判断语句语法格式、比较/关系运算符 while语句语法格式、while循环嵌套、break和continue、for循环、字符串定义语法格式、字符串遍历、下标和切片、字符串常见操作 列表语法格式、列表的遍历、列表常见操作、列表嵌套、列表推导式、元组语法格式、元组操作、字典语法格式、字典常见操作、字典的遍历 函数概念和作用、函数定义、调用、函数的参数、函数的返回值、函数的注释、函数的嵌套调用、可变和不可变类型、局部变量、全局变量、组包和拆包、引用 文件的打开与关闭、文件的读写、文件、目录操作及案例、os模块文件与目录相关操作 异常概念、异常捕获、异常的传递、模块介绍、模块的导入、包的概念、包的导入 类和对象的定义、类的属性和方法、构造方法__init__、实例方法/类方法/静态方法、继承和重写、多态、封装、私有属性和私有方法、魔法方法 线程的概念与作用、线程的创建、线程的启动与管理、线程同步、线程池的使用、多线程实战案例
Numpy
NumPy库导入、理解ndarray数组、np.array()数组创建、连续数组创建、等间隔数组创建、单位矩阵创建 数组属性查看:ndim(维度)、shape(形状)、dtype(数据类型)、size(元素个数)、数组数据类型转换 数组索引与切片、布尔索引、条件组合索引、按条件取元素、用索引修改数组元素 数组与标量运算、同形状数组元素级运算、数组矩阵乘法、数组求和、数组按轴求和、数组求均值、数组求中位数、数组求标准差、数组求方差、数组求最大值、数组排序、数组去重、数组累计求和、数组广播机制
Pandas
库操作:导入、核心数据结构:Series/DataFrame创建、数据概览:head/tail、数据类型:转换 按维度选择:列选择、行选择、条件筛选:单条件/多条件、范围筛选(between)、模糊筛选(str.contains)、非空值筛选(notnull) 去重与唯一值:获取唯一值(unique)、行去重(drop_duplicates)、按索引筛选(filter) 缺失值处理、重复值处理、异常值处理、文本清洗、日期处理、列名处理 数据合并、结构重塑、分组操作、聚合计算、衍生统计列
matplotlib
matplotlib基础:环境配置、基本绘图流程、图表组成元素 基础图表绘制:折线图、柱状图、直方图、散点图、饼图 图表定制与美化:颜色配置、样式设置、标签与图例、网格线 高级图表类型:子图布局、热力图、箱线图
Python办公自动化
SQL数据接入 Python连接SQL 多表数据自动提取 表格数据自动汇总 多表数据自动统计 Python发送测试邮件 Python计算数据指标 实现自动风控报表
Python统计分析
点估计与区间估计 假设检验 列联表与卡方检验 方差分析
线性回归
统计建模的流程 简单线性回归 多元线性回归 经典线性假设 回归模型的检验 回归模型的评估 变量筛选(逐步回归法) 线性回归做模型归因分析
实战项目
用户分群与产品推荐潜力分析:使用Python清洗用户行为日志,通过K-Means聚类划分用户群体,并结合协同过滤思想计算品类偏好得分,输出高潜力交叉销售机会清单,为产品推荐引擎提供输入,提升客单价。
阶段考核
基于Pandas实现复杂数据分组聚合(groupby + 自定义聚合函数)、缺失值/异常值(极值、重复值)清洗处理 运用NumPy完成数值型数据的矩阵运算与统计建模 使用Matplotlib/Seaborn绘制多维度可视化图表(分布直方图、相关性热力图、趋势折线图) 编写自动化脚本,实现业务报表的定时生成、格式转换与推送 设计用户全链路行为数据的漏斗分析与转化归因方案
大语言模型介绍
介绍大语言模型的定义、核心能力及主流模型 通俗解读Transformer架构与自注意力机制的核心逻辑 涵盖智能问答、内容创作等典型应用场景 讲解模型微调、提示词技巧及应用边界 展望大语言模型的发展方向与行业影响
机器学习
人工智能概述、机器学习开发流程和用到的数据介绍、特征工程介绍、机器学习算法分类 机器学习模型评估、机器学习开发环境 K近邻算法基本原理、K近邻算法进行分类预测、sklearn实现knn、训练集测试集划分 分类算法的评估、归一化和标准化、超参数搜索 线性回归、欠拟合和过拟合、模型的保存和加载 线性回归应用-回归分析
Pytorch深度学习框架
深度学习是什么、深度学习发展历史、Pytorch与其他深度学习框架的对比 Pytorch介绍、张量概念、张量运算、反向传播、参数更新 数据加载器、迭代数据集
神经网络基础
神经网络基础:神经网络的构成、激活函数、损失函数、优化方法及正则化 反向传播原理:梯度下降算法、链式法则、反向传播算法、改善反向传播算法性能的迭代法 深度学习正则化与算法优化:L1、L2、DroupOut、BN、SGD、RMSProp、Adagrad、Adam 实现多层神经网络案例
实战项目
基于PyTorch的金融舆情文本分类模型:本项目以PyTorch为框架,基于轻量开源大语言模型,聚焦金融行业舆情分析场景,实现新闻、评论的情感分类与风险识别。核心实操包括金融文本数据集预处理、模型加载配置、PyTorch训练调优及分类效果验证,通过极简流程完成全链路实战,助力入门学习者掌握PyTorch在金融NLP项目中的落地应用。
阶段考核
拆解Transformer架构核心模块,阐述自注意力机制、编码器-解码器的工作原理 对比3款主流LLM(闭源/开源)在文本生成、逻辑推理、多轮对话任务中的效果与推理速度 分析通用场景下LLM幻觉案例,从提示词、模型选型、数据增强角度给出规避策略 针对中小规模企业(算力有限、业务场景明确),设计LLM选型与成本优化方案
自然语言处理基础
自然语言处理的概念 自然语言处理的发展简史 自然语言处理的应用场景
文本处理的基本方法
虚拟环境的配置和安装 文本处理基本方法类型 jieba分词 命名实体识别的原理
文本数据分析+特征处理
+数据增强
获取标签数量分布 获取句子长度分布 获取正负样本长度散点分布 获取不同词汇总数统计 文本长度规范及其作用 回译数据增强方法实现文本扩增
注意力机制
注意力机制原理介绍 Attention计算逻辑 有无attention模型对比 注意力计算规则 什么是深度神经网络注意力机制 注意力机制的作用 注意力机制实现步骤
Transformer输入+编码器架构
输入部分介绍、文本嵌入层的作用、位置编码器的作用、位置编码器的代码分析 掩码张量介绍、掩码张量的作用、生成掩码张量的代码分析、注意力计算规则的代码分析 带有mask的输入参数、多头注意力机制概念、多头注意力机制的代码实现、前馈全连接层 前馈全连接层的代码分析、规范化层的作用、规范化层的代码实现、子层连接结构 子层连接结构的代码分析、编码器层的作用、编码器层的代码分析、编码器的作用 编码器的代码分析
Transformer输出+解码器架构
解码器层的作用、解码器层的代码实现、解码器的作用、解码器的代码分析 输出部分介绍、线性层的作用、softmax层的作用、线性层和softmax层的代码分析 编码器-解码器结构的代码实现、Transformer模型构建过程的代码分析
迁移学习介绍
讲解迁移学习有关概念 理解什么是预训练模型(Pretrained model) 掌握预训练模型的应用方式微调(Fine-tuning) 了解NLP中常见评估数据集 了解NLP中的常见预训练模型 掌握transformers库的三种使用方式
实战项目
NLP中文文本实体识别实战项目:本项目聚焦NLP核心实体识别任务,以中文新闻数据集为基础,实现人名、地名、机构名三大核心实体的精准提取。核心实操包括中文文本预处理、标注数据处理、实体识别模型搭建与训练、提取效果校验,流程简洁易上手,帮助学习者掌握NLP实体识别任务的核心落地逻辑。
阶段考核
基于NLTK/Spacy完成文本分词、词性标注、命名实体识别(提取人名、机构名、时间、金额) 运用TF-IDF/Word2Vec/BERT实现文本相似度计算,完成重复文本去重任务 搭建文本分类模型,实现用户咨询意图、评论情感的自动分类 设计用户生成内容(UGC)的情感分析+主题挖掘方案,输出可落地的业务优化建议
提示词核心认知与要素解析
明确提示词作为连接用户需求与大模型能力桥梁的核心定义与核心价值 系统拆解指令、上下文、输入数据、输出格式四大核心要素的具体内涵与作用 结合GPT、Claude、文心一言等主流大模型的特性,分析不同模型的提示词敏感差异 通过实例说明适配不同模型的提示词调整要点
提示词设计原则与进阶技巧
深入讲解清晰指令、上下文注入、角色设定、输出格式约束四大基础设计原则 通过正反示例对比说明模糊表述与明确表述对模型输出效果的影响 重点传授角色设定的实操技巧,包括如何根据业务场景为模型赋予精准身份 如何通过格式约束指定JSON、Markdown等结构化输出形式,提升输出内容的可用性
提示词优化与风险规避
系统解析少样本提示与思维链提示的核心原理 说明两种进阶方法的适用场景与优势 结合文本总结、复杂问题推理等实际案例,详细演示少样本提示的示例设计技巧和思维链提示的任务拆解流程 指导学习者掌握通过示例引导和分步推理提升模型输出精准度的实操方法
提示词工程化落地与管理
梳理从通用提示到精准提示的完整迭代优化流程 分享基于业务反馈的迭代经验与关键节点 全面讲解对抗性提示的常见类型、识别特征与潜在风险 提供针对性的规避策略与防御性提示词设计方法,保障模型生成内容的安全性、合规性与主题一致性
提示词评估调优与多场景实战
详解提示词模板化设计思路,针对文本生成、代码开发、数据分析等固定业务场景提供可复用模板案例 传授动态提示词生成技术,说明如何结合用户输入、数据库查询结果等业务参数实现提示词的灵活拼接 系统介绍基于配置文件与数据库的提示词管理方案,涵盖版本控制、权限管理、A/B测试等实操方法
实战项目
企业级客服对话提示词系统开发:为企业客服部门搭建一套智能对话提示词管理系统,覆盖客户咨询解答、问题分类归档、售后工单生成三大核心场景。需求包括设计各场景标准化提示词模板,实现根据客户咨询内容、历史对话记录等参数动态生成个性化提示词,通过数据库存储提示词版本并支持A/B测试对比不同提示词效果,最终提升客服对话响应效率与问题解决准确率。
阶段考核
编写多场景提示词:长文本摘要、跨语言翻译、复杂问题拆解、创意文案生成 针对低效果提示词(回答偏离主题、信息不全、逻辑混乱),运用角色设定、指令约束、少样本示例进行优化 使用思维链(CoT)、思维树(ToT)提示词技巧解决数学推理、逻辑分析类问题 设计智能对话机器人的提示词体系,包含角色定义、核心指令、边界约束、话术规范
RAG核心原理与架构体系解析
阐释检索增强生成(RAG)的核心定义与价值,解析其解决大模型知识滞后、事实错误等痛点的逻辑 拆解RAG全链路架构与'用户查询→检索器→知识库→大模型生成'核心流程 对比基础/进阶/混合RAG及Light RAG的差异与适用场景 明确LlamaIndex在RAG中的定位,结合行业案例具象化其应用价值
RAG关键组件设计与实现
拆解RAG核心组件功能与设计要点 解析检索器选型与实现,说明LlamaIndex封装调用 讲解知识库分层设计,结合Light RAG优化 规范接口设计,传授LlamaIndex适配技巧
LlamaIndex文档处理实战
梳理RAG文档处理全流程 讲解文档语义拆分与Light RAG优化方案 对比向量数据库与LlamaIndex适配性 实战演示文档加载、向量化及向量库读写,掌握索引构建
RAG检索策略优化与调优
剖析RAG检索影响因素,聚焦LlamaIndex参数调优 传授检索优化技巧,适配Light RAG轻量需求 讲解端到端调优思路,案例验证优化效果
LlamaIndex+Light RAG
工程化落地
详解RAG工程化落地流程 传授高可用设计与LlamaIndex部署技巧 解析Light RAG核心与落地路径 结合多场景设计方案,通过项目案例演示全流程落地
实战项目
券商智能研报生成系统:为券商研究部门搭建一套智能研报辅助生成系统,适配中小券商轻量化部署与高效产出需求。核心需求包括:基于LlamaIndex采集并处理多源金融数据(政策文件、行业财报、市场交易数据、上市公司公告),完成文档清洗、分块、向量化后存储至Chroma向量数据库;提供传统RAG与Light RAG双部署模式,传统模式用于深度研报生成,Light RAG模式用于快速市场快讯产出;实现用户输入研报主题后,系统自动检索相关数据并生成结构化研报框架。
阶段考核
完成通用知识库文档的加载、格式解析(PDF/Word/TXT)、分段优化(按语义/固定长度对比)、向量化(主流embedding模型选型) 搭建检索流程,对比相似性检索、混合检索(关键词+语义)、知识图谱检索的召回率与精准率 构建简易RAG问答系统,对比有无RAG模式下回答专业问题的准确率、幻觉率、信息新鲜度 设计企业级知识库RAG系统全流程方案,包含文档增量更新机制、检索策略优化、效果评估指标体系
FastAPI
FastAPI的安装配置 异步编程模型 深入剖析API路由设计,包括路径参数、查询参数、请求体与响应模型的定义,结合Pydantic实现数据校验与类型提示 详解依赖注入系统的原理与实战用法 实现权限验证、数据库连接复用等功能
手搓Agent
自定义Agent开发核心原则 HelloAgent基础架构解析 核心模块拆解 感知模块自定义设计 决策模块逻辑定制 执行模块功能扩展 记忆模块自定义实现 自定义输入预处理规则 关键词匹配决策逻辑设计
LangChain大模型应用框架
LangChain框架核心概念,精通模型接口、提示模板、链等六大核心组件使用 学会LangChain与主流大模型(OpenAI、LLaMA等)、向量数据库(Pinecone等)的集成技巧 具备RAG系统、智能代理等典型应用的技术实现能力
LangGraph框架
LangGraph框架概览 LangGraph状态图结构 LangGraph核心API LangGraph平台介绍 LangGraph应用开发模版 基于LangGraph打造智能编程助手
MCP模型上下文协议/A2A
多智能体通信
MCP协议核心规范解析 工具调用标准化接口设计 多智能体通信架构(A2A) 基于MCP的Agent协作流程 安全上下文传递与权限控制
实战项目
多智能体协作的智能旅游规划助手:本项目基于FastAPI构建后端服务接口,依托LangChain大模型应用框架封装景点信息检索、行程规划、酒店/机票查询等核心能力,通过LangGraph实现多智能体的协作流程编排与状态管理,遵循MCP模型上下文协议和A2A多智能体通信标准,构建集目的地推荐智能体、行程规划智能体、票务预订智能体、攻略生成智能体于一体的智能旅游规划系统。
阶段考核
基于LangChain/LLaMA Index实现Agent工具调用能力,集成计算器、联网搜索、数据库查询、文件读写等常用工具 为Agent添加短期记忆/长期记忆功能,实现多轮对话上下文关联与历史信息复用 设计多步骤复杂任务拆解逻辑,完成'目标拆解→工具选择→执行→结果校验'全流程 设计智能办公助手Agent方案,覆盖日常办公中的信息查询、任务规划、文档生成、流程审批等能力
低代码智能体开发实战
(Coze+Dify)
聚焦主流低代码平台,讲解Coze智能体开发基础操作 掌握Dify Agent搭建全流程 通过实操演练完成智能体核心模块初步配置 理解低代码环境下智能体的快速落地逻辑
低代码智能体核心模块
拆解与实现
拆解智能体感知、决策、执行、记忆四大核心模块 详解各模块设计原理 教授记忆模块实现方法、多轮交互流程设计技巧 边界异常处理的具体实现方案
n8n工作流与低代码智能体
集成实践
n8n工作流基础与进阶操作 低代码智能体与工作流集成方案 自动化业务联动实现
实战项目
基于扣子的自动化客户服务智能体:搭建一款面向企业客户服务场景的低代码智能体,通过Dify构建核心问答与交互能力,集成n8n工作流实现自动化业务联动。核心功能包括:客户咨询意图识别、工单自动创建与分配、客户信息同步至CRM系统、异常咨询(如投诉、复杂需求)自动流转至人工坐席。
阶段考核
使用低代码平台(如LangChain Studio、Dify.AI)快速搭建单任务智能体(如问答机器人、文本分类助手、报告生成工具) 配置Agent工具调用流程,调试工具选择逻辑与异常处理机制 设置触发规则(如定时触发、关键词触发、API调用触发),实现智能体自动化运行 设计面向非技术人员的智能体模板化配置方案,包含模板分类、参数配置指引、效果调试手册
大模型微调概述
阐述大模型微调的核心价值(解决预训练模型适配特定任务、提升小样本学习能力、降低推理成本) 对比微调与提示工程(Prompt Engineering)的适用场景 梳理微调技术的发展脉络与主流方向 明确微调的核心目标与评估维度
大模型微调核心逻辑
大模型微调的核心原理与流程 数据准备与预处理方法 训练策略与超参数调优
PEFT技术概述与核心原理
PEFT(参数高效微调)定义与优势(降低显存消耗、减少计算量、适配小数据集) 对比传统全量微调与PEFT的性能差异 详解PEFT技术体系分类(适配器微调、前缀微调、提示微调等) 重点拆解各技术的适配场景与核心设计逻辑
实战项目
DeepSeek模型行业化部署与迭代:结合金融、医疗、企业服务等场景,完成DeepSeek模型'微调-部署-评估-迭代'全流程落地实操
阶段考核
完成开源大模型(如DeepSeek、Llama 3、Qwen)的本地Docker部署,提供API调用服务并测试接口响应速度 基于业务场景小样本数据完成模型微调(全参数微调/LoRA微调对比),对比微调前后任务效果 实现模型轻量化部署(量化压缩INT4/INT8、模型裁剪),测试压缩后精度损失与性能提升 设计企业私有大模型微调+部署方案,包含数据脱敏、算力资源规划、模型迭代更新机制
多模态大模型基础认知
梳理多模态技术演进脉络,解析文本、图像、语音等单一模态与跨模态融合的核心原理 对比主流多模态模型(如GPT-4V、Gemini Pro、CLIP、BLIP-2)的特性、适用场景及调用限制 明确不同模型的选型逻辑
多模态数据处理核心技术
讲解跨模态数据的采集、清洗、标注方法 包括文本分词、图像预处理(裁剪、归一化)、语音转文字(ASR)、视频帧提取等 实操演示多模态数据格式转换与融合技巧,解决数据异构性问题
实战项目
基层医疗多模态影像辅助诊断工具:聚焦基层医疗需求,开发多模态辅助诊断工具,支持上传X光、B超影像及患者文本病历,辅助医生排查常见疾病。核心功能包括医学影像病灶识别标注、病历文本提取、跨模态融合生成基础诊断建议、自动生成简易诊断报告。技术上基于BLIP-2模型用LoRA方法微调医疗影像数据集,采用基础融合算法联动影像与文本特征,容器化部署至云端。
阶段考核
调用多模态模型API完成图文任务:图片内容识别、图文交叉检索、根据文本生成创意配图 实现音频转文字、语音情感分析功能,完成音频内容的结构化提取 搭建多模态生成应用,实现'文本→图片→语音'的跨模态内容创作 设计多模态智能助手方案,支持图文、语音、视频等多格式输入输出,覆盖内容创作、智能客服、教育培训等场景