关于 Azure AI 视频索引器
Azure AI 视频索引器建立在媒体 AI 技术的基础上,使从视频中提取见解变得更加容易。推动新形式的内容发现,例如搜索口头语、人脸和情感。使用嵌入的视频见解来丰富你的应用,推动用户参与。
已准备好开始?
音频和视频 AI 功能
视频
人脸检测(受限访问)
检测人脸并分组
名人标识(受限访问权限)。
识别名人并查看其传记
自定义人脸识别(受限访问)。
自定义用于识别特定人脸的模型
检测到的人物服装
检测视频中显示的人物服饰。
被观察人员
检测视频中发现的用户并使用边框跟随其路径
物体识别
在猫、桌子、汽车、球等物体出现时,自动识别并标记
视觉内容审核
检测和防止显式视觉内容
关键帧提取
自动检测稳定的关键帧
屏幕文本识别(OCR)
提取视频中显示为覆盖、幻灯片或显示在背景中的文本,并对其进行分组
场景分割
按语义场景分割视频
镜头检测
基于视觉分析在镜头开始和结束时进行检测
镜头类型检测
检测镜头类型,如宽镜头、特写镜头、内景镜头、人脸位置镜头和多人脸镜头
滚动字幕检测
标识视频末尾的滚动字幕
黑帧检测
识别视频中的黑帧
音频
口语内容审核
检测色情语言和对话
音频效果
识别掌声、笑声和语音等音频效果
字幕
创建以下任意一种格式的字幕: WebVTT、TTML 或 SRT
翻译
将任何文本(包括口述文本、书面文本和关键字)翻译成 40 多种语言
语言识别
从音频中检测口述语言
多语言检测
自动检测口述文本中的多种语言
自动听录
将语音转换为 10 种语言的文本,并且语言种类可以扩展
脚本自定义
根据行业、市场或领域特定术语调整脚本
双声道处理
自动检测扬声器、均衡音频、分隔与合并脚本
降噪
清除电话录音或噪音录制
说话人识别
了解谁在以下情况说话
说话人统计信息
查看有关谁对其他说话人说“多少钱”的指标
音频 + 视频
关键字提取
查找每段中提及的关键字
主题推理
标识主要主题
情绪分析
比较整个音频和/或视频中积极和消极的情绪水平
命名实体
跟踪和自定义口述文本或屏幕文本中提及的人员、位置和品牌
文本情绪检测
通过脚本分析检测情绪
其他功能
内联编辑
手动编辑任何索引结果或输出
亮点片段编辑
一次存储源视频并创建视频段的多个编辑
上下文搜索
在视频内搜索并从音频、视频和 AI 识别的见解中查找智能匹配
小组件
在网站或应用程序中嵌入可爱的见解和视频播放器小组件
建议
通过讨论相似主题的相似人员查找相关视频
REST API
使用可靠的 REST API 轻松地与应用程序集成