第7课：集成AI能力 — MG Vibe Coding

🤖 1. 什么是AI能力

在第6课中，你已经学会了如何让你的应用"有记忆"——使用本地存储保存用户数据。现在，我们要让应用变得更智能，让它能够理解文字、识别图像、听懂语音！

AI能力的三大类型

📝 文本生成（Text Generation）

AI 可以帮你写故事、总结文章、翻译语言、回答问题。这是最常见的AI能力，比如 ChatGPT 就是最典型的例子。

应用场景：故事生成器、作业总结工具、智能客服、翻译助手等。

🖼️ 图像生成（Image Generation）

AI 可以根据文字描述生成图片，或者对图片进行识别、分析、编辑。你只需描述"一只戴眼镜的猫"，AI就能画出对应的图片。

应用场景：头像制作器、封面设计、Logo生成、图片描述、艺术创作等。

🎤 语音识别（Speech Recognition）

AI 可以听懂人说话，把语音转成文字，或者把文字转成语音。这让应用可以"开口说话"和"听懂指令"。

应用场景：语音助手、语音笔记、语音控制游戏、朗读应用等。

💡 AI能力的本质是什么？

AI能力的本质是让计算机理解和生成人类能理解的内容。以前，计算机只能处理结构化数据（数字、表格）；现在，AI让计算机能够理解 自然语言、图像、声音。这意味着你可以用对话的方式让AI帮你创作！

📝 2. 文本生成：AI帮你写故事/作业总结

2.1 文本生成的基础应用

文本生成是最容易上手的AI能力。你可以用它来：

写故事：输入关键词，AI帮你创作完整的故事
总结文章：把长文章压缩成简短的摘要
翻译语言：在不同语言之间快速翻译
回答问题：基于知识库回答用户提问
改写文本：改变文章风格、润色语言

💡 示例提示词：

请帮我制作一个故事生成器应用： 1. 用户输入3-5个关键词（如"勇敢、魔法、森林"） 2. AI根据这些关键词创作一个完整的故事（500字左右） 3. 故事要有开头、发展、高潮、结尾 4. 提供重新生成按钮，每次生成不同的故事 5. 界面要美观，故事要分段显示

2.2 实战：AI故事生成器

我们来实现一个完整的故事生成器。核心思路是：

收集输入：让用户输入故事关键词和主题
构建提示词：把用户输入转换成给AI的指令
调用AI接口：发送请求，等待AI响应
展示结果：把AI生成的故事显示在页面上
提供互动：允许用户保存、分享、重新生成

💡 使用免费AI API的技巧

推荐方案：使用免费的AI API服务，比如：

OpenRouter：提供多个免费模型接口
Together AI：部分模型免费试用
Groq：提供快速推理服务
本地模拟：先用预设文本，后续接入真实AI

图1: AI API平台注册界面示例

💡 示例提示词：

我想制作一个"作业总结助手"： 1. 用户粘贴一段长文章（500-2000字） 2. 点击"总结"按钮后，AI生成这段文章的摘要（100字以内） 3. 摘要要抓住文章的核心观点 4. 提供"复制摘要"和"重新总结"按钮 5. 如果暂时没有AI接口，可以先用预设的逻辑模拟

💡 如何处理API密钥安全？

重要提示：如果你的应用要分享给别人使用，不要把API密钥写在代码里！因为任何人都可以查看网页源代码，看到你的密钥。解决方案是： 1) 使用免费无需密钥的服务； 2) 让用户输入自己的API密钥； 3) 使用后端代理转发请求。

🖼️ 3. 图片生成：AI帮你画封面/头像

3.1 图像生成的原理

图像生成AI通过学习海量图片，理解了文字描述与图像内容之间的对应关系。当你输入"一只戴着眼镜的橘猫坐在书桌前"，AI会根据训练结果生成对应的图像。

常用的免费图像生成工具：

Leonardo.ai：每天150免费积分，质量高
Bing Image Creator：基于DALL·E，免费使用
Stable Diffusion在线版：开源免费，速度快
Pollinations.ai：完全免费，支持API调用

3.2 实战：AI头像制作器

我们来做一个有趣的应用——AI头像制作器。用户输入描述，AI生成个性化头像。

💡 示例提示词：

请帮我制作一个AI头像生成器： 1. 用户选择头像风格：动漫、写实、卡通、像素风等 2. 用户输入描述：如"一个戴眼镜的程序员，蓝色背景，微笑" 3. 点击"生成头像"按钮 4. 使用Pollinations.ai的免费API生成图片 - API格式：https://image.pollinations.ai/prompt/{描述文字} 5. 显示生成的头像，提供"下载"和"重新生成"按钮 6. 界面要美观，支持手机访问

🎨 Pollinations.ai 免费API使用方法

Pollinations.ai 是一个完全免费的图像生成API，无需注册和API密钥。使用方法超级简单：

格式：https://image.pollinations.ai/prompt/你的描述文字

示例：

https://image.pollinations.ai/prompt/a%20cute%20cat （生成可爱猫咪）
https://image.pollinations.ai/prompt/anime%20girl%20with%20glasses （生成戴眼镜动漫女孩）

注意：URL中的空格要用 %20 替换，或使用 encodeURIComponent() 函数编码。

3.3 进阶：批量生成和风格选择

你可以让用户一次生成多个版本，然后选择最喜欢的一个：

💡 示例提示词：

升级头像生成器，添加批量生成功能： 1. 用户输入描述后，一次生成4个不同风格的头像 2. 4个头像并排显示，用户点击选择最喜欢的 3. 选中的头像放大显示，提供"下载高清版"按钮 4. 添加"保存到相册"功能，使用localStorage保存用户生成的头像历史 5. 提供"查看历史记录"按钮，展示所有生成过的头像

💡 图像生成需要等待时间

图像生成通常需要5-30秒不等。在等待期间，要给用户良好的反馈： 1) 显示加载动画； 2) 显示进度提示； 3) 允许取消操作。这样用户体验会更好！

🎤 4. 语音识别：让应用听懂你说的话

4.1 浏览器内置语音识别

现代浏览器内置了语音识别API，无需任何第三方服务，就能实现语音转文字功能！这个API叫做Web Speech API。

🎤 Web Speech API 基础

核心功能：

语音识别：把说的话转成文字
语音合成：把文字转成语音（让应用说话）

浏览器支持：Chrome、Edge、Safari等主流浏览器都支持

💡 示例提示词：

请帮我制作一个语音笔记应用： 1. 点击"开始录音"按钮后，浏览器请求麦克风权限 2. 用户对着麦克风说话，实时显示识别到的文字 3. 点击"停止录音"后，保存这段文字到笔记列表 4. 笔记列表使用localStorage保存，刷新页面不丢失 5. 每条笔记显示时间戳和内容 6. 提供"删除"、"复制"、"朗读"功能 7. 使用浏览器内置的Web Speech API

4.2 语音合成：让应用开口说话

除了听懂你说话，应用还能开口说话！这就是语音合成（Text-to-Speech）功能。

🔊 实用场景

语音合成可以用在很多场景：

朗读文章：让用户边听边做事
语音助手：应用"回答"用户问题
有声故事：给孩子讲睡前故事
发音练习：语言学习应用

💡 示例提示词：

请制作一个"AI讲故事"应用： 1. 用户输入故事主题或关键词 2. AI生成一个短故事（200字以内） 3. 点击"朗读"按钮，应用用语音读出这个故事 4. 提供"暂停"、"继续"、"停止"控制 5. 用户可以选择不同的声音（男声、女声、童声） 6. 提供"语速调节"滑块（慢速、正常、快速） 7. 使用浏览器内置的speechSynthesis API

💡 语音识别需要HTTPS

重要提示：Web Speech API 需要HTTPS环境才能正常工作。在本地测试时，可以使用 http://localhost，但部署到线上必须使用HTTPS。这是浏览器的安全限制，为了保护用户隐私。

🎯 5. 综合案例：AI能力组合应用

5.1 语音故事生成器

结合语音识别+文本生成+语音合成，做一个完全语音交互的故事生成器！

💡 示例提示词：

请制作一个"语音故事生成器"： 1. 用户点击"说出你的故事想法"按钮，开始录音 2. 用户说出故事主题，如"一个勇敢的小兔子冒险的故事" 3. 识别语音后，AI根据描述生成一个完整故事（300字） 4. 自动朗读生成的故事（或点击"朗读"按钮） 5. 提供"重新生成"、"保存故事"、"分享故事"功能 6. 界面要有大按钮，适合触屏操作 7. 全程可以语音交互，无需打字

5.2 AI绘本创作工具

结合文本生成+图像生成，做一个自动创作绘本的工具！

📖

故事生成

AI根据主题生成故事，分成5-8个场景

文本生成

🎨

场景配图

为每个场景生成对应的插图

图像生成

📚

绘本展示

以翻页形式展示完整绘本

交互设计

💾

保存分享

下载为图片或分享给朋友

本地存储

💡 示例提示词：

请制作一个AI绘本创作工具： 1. 用户输入故事主题（如"一只小熊的太空旅行"） 2. AI生成一个5页的绘本故事，每页有： - 一段文字（50字以内） - 一张配图（使用Pollinations.ai生成） 3. 图片生成时显示加载动画 4. 以翻页形式展示绘本，支持左右滑动 5. 提供"重新创作"、"保存绘本"功能 6. 界面温馨可爱，适合儿童使用

5.3 多模态学习助手

结合文字+图片+语音，做一个帮助学习的AI助手！

📚 应用场景

生词学习：输入生词，AI生成例句、配图、朗读
历史人物：输入人物名字，AI生成简介、画像、故事
科学概念：输入概念，AI生成解释、图示、实例
地理知识：输入国家，AI生成介绍、地图、风景图

🛠️ 6. 免费AI工具推荐

以下是一些完全免费或提供免费额度的AI工具，适合初学者使用：

文本生成

ChatGPT：OpenAI官方，免费版功能强大
Claude：Anthropic出品，擅长长文本
Gemini：谷歌出品，多模态能力强
通义千问：阿里出品，中文能力强
文心一言：百度出品，中文理解好

图像生成

Pollinations.ai：完全免费，支持API，无需注册
Leonardo.ai：每天150积分，质量高
Bing Image Creator：基于DALL·E，免费使用
Stable Diffusion：开源免费，可本地部署
Playground AI：每天1000张免费

语音识别与合成

Web Speech API：浏览器内置，完全免费
Whisper：OpenAI开源，准确率高
百度语音：中文识别准确，有免费额度
Azure Speech：微软出品，多语言支持

🎯 MG Space 教育理念

在MG Space，我们强调"用工具，而不是被工具用"。 AI是强大的工具，但核心是你的创意和想法。不要被技术的复杂性吓倒，从免费工具开始，用对话的方式实现你的想法。记住：每个伟大的应用都始于一个简单的想法！

🎯 本章任务

🎯 制作你的AI能力应用

⭐ 250 XP

你已经学会了如何让应用具备AI能力。现在动手实践吧！

基础任务（必做，选其一）：
- 制作一个AI故事生成器：用户输入关键词，AI生成完整故事
- 制作一个AI头像制作器：用户输入描述，AI生成个性化头像
- 制作一个语音笔记应用：用户说话，应用转成文字并保存
进阶任务（可选）：
- 为应用添加多语言支持：支持中英文切换
- 添加历史记录功能：使用localStorage保存生成历史
- 实现批量生成：一次生成多个版本供用户选择
挑战任务：
- 制作AI绘本创作工具：结合文本和图像生成
- 制作语音故事生成器：结合语音识别和语音合成
- 上传你的作品到 MG App Store，分享给朋友使用

💡 提示：你可能需要约3小时完成本课内容。建议先完成基础任务，理解AI能力的工作原理，再尝试进阶功能。记住：先完成，再完美！