Распознавание речи с использованием Google Speech API и Python: 4 шага

Шаг 1: ReSpeaker USB 4-микрофонный массив
Шаг 2. Установите необходимые библиотеки
Шаг 3. Преобразование текста в речь в Python с библиотекой Pyttsx3
Шаг 4. Собираем все вместе: построение распознавания речи с помощью Python с использованием API распознавания речи Google и библиотеки Pyttsx3

2025 Автор: John Day | [email protected]. Последнее изменение: 2025-01-23 15:04

Распознавание речи

Распознавание речи - это часть обработки естественного языка, которая является подполе искусственного интеллекта. Проще говоря, распознавание речи - это способность компьютерного программного обеспечения идентифицировать слова и фразы на разговорном языке и преобразовывать их в читаемый человеком текст. Он используется в нескольких приложениях, таких как системы голосового помощника, домашняя автоматизация, голосовые чат-боты, робот с голосовым взаимодействием, искусственный интеллект и т. Д.

Существуют разные API (интерфейс прикладного программирования) для распознавания речи. Они предлагают услуги либо бесплатные, либо платные. Эти:

КМУ Сфинкс
Распознавание речи Google
Google Cloud Speech API
Wit.ai
Распознавание голоса Microsoft Bing
Houndify API
Речь в текст IBM
Обнаружение горячих слов Snowboy

Здесь мы будем использовать распознавание речи Google, поскольку для этого не требуется ключ API. Цель этого руководства - дать представление о том, как использовать библиотеку распознавания речи Google на Python с помощью внешнего микрофона, такого как ReSpeaker USB 4-Mic Array от Seeed Studio. Хотя использование внешнего микрофона не является обязательным, можно использовать даже встроенный микрофон ноутбука.

Шаг 1: ReSpeaker USB 4-микрофонный массив

USB-микрофон ReSpeaker - это устройство с четырьмя микрофонами, предназначенное для приложений искусственного интеллекта и голоса, которое было разработано Seeed Studio. Он имеет 4 высокопроизводительных встроенных всенаправленных микрофона, предназначенных для улавливания вашего голоса из любой точки комнаты, и 12 программируемых светодиодных индикаторов RGB. USB-микрофон ReSpeaker поддерживает операционные системы Linux, macOS и Windows. Подробности можно найти здесь.

USB-микрофон ReSpeaker поставляется в красивой упаковке, содержащей следующие элементы:

Руководство пользователя
USB-микрофонный массив ReSpeaker
Кабель Micro USB - USB

Итак, мы готовы приступить к работе.

Шаг 2. Установите необходимые библиотеки

В этом руководстве я предполагаю, что вы используете Python 3.x.

Установим библиотеки:

pip3 установить SpeechRecognition

Для macOS сначала необходимо установить PortAudio с Homebrew, а затем установить PyAudio с помощью pip3:

варить установить portaudio

Мы запускаем команду ниже, чтобы установить pyaudio

pip3 установить pyaudio

Для Linux вы можете установить PyAudio с помощью apt:

sudo apt-get install python-pyaudio python3-pyaudio

Для Windows вы можете установить PyAudio с помощью pip:

pip install pyaudio

Создайте новый файл Python

нано get_index.py

Вставьте get_index.py под фрагментом кода:

импорт pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') для i в диапазоне (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get (' '))> 0: print ("Идентификатор устройства ввода", i, "-", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Выполните следующую команду:

python3 get_index.py

В моем случае команда выводит на экран следующий вывод:

Устройство ввода с идентификатором 1 - микрофонный массив ReSpeaker 4 (UAC1.0)

Идентификатор устройства ввода 2 - микрофон MacBook Air

Измените device_index на номер индекса в соответствии с вашим выбором во фрагменте кода ниже.

импортировать распознавание речи как SR

r = sr. Recognizer () speech = sr. Microphone (device_index = 1) с речью в качестве источника: print («скажи что-нибудь!…») audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("Вы сказали:" + recog) except sr. UnknownValueError: print ("Программа распознавания речи Google не может понять звук") кроме sr. RequestError как e: print («Не удалось запросить результаты из службы распознавания речи Google; {0}». Формат (e))

Индекс устройства был выбран 1 из-за того, что ReSpeaker 4 Mic Array будет основным источником.

Шаг 3. Преобразование текста в речь в Python с библиотекой Pyttsx3

Для преобразования текста в речь в Python доступно несколько API. Одним из таких API является pyttsx3, который, на мой взгляд, является лучшим доступным пакетом преобразования текста в речь. Этот пакет работает в Windows, Mac и Linux. Посмотрите официальную документацию, чтобы узнать, как это делается.

Установите пакет Используйте pip для установки пакета.

pip install pyttsx3

Если вы работаете в Windows, вам понадобится дополнительный пакет pypiwin32, который потребуется для доступа к собственному API речи Windows.

pip установить pypiwin32

Сценарий Python для преобразования текста в речь Ниже приведен фрагмент кода для преобразования текста в речь с использованием pyttsx3:

импорт pyttsx3

двигатель = pyttsx3.init ()

engine.setProperty ('rate', 150) # Скорость в процентах

engine.setProperty ('volume', 0.9) # Объем 0-1

engine.say ("Привет, мир!")

engine.runAndWait ()

Шаг 4. Собираем все вместе: построение распознавания речи с помощью Python с использованием API распознавания речи Google и библиотеки Pyttsx3

Приведенный ниже код отвечает за распознавание человеческой речи с помощью распознавания речи Google и преобразование текста в речь с помощью библиотеки pyttsx3.

импортировать распознавание речи как SR

import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) с речью в качестве источника: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("Вы сказали:" + recog) engine.say (" Вы сказали: "+ recog) engine.runAndWait () except sr. UnknownValueError: engine.say (" Программа распознавания речи Google не может понять звук ") engine.runAndWait () за исключением sr. RequestError как e: engine.say (" Не удалось запросить результаты из службы распознавания речи Google; {0} ". format (e)) engine.runAndWait ()

Он печатает вывод на терминал. Кроме того, он также будет преобразован в речь.

Вы сказали: Лондон - столица Великобритании

Я надеюсь, что теперь вы лучше понимаете, как работает распознавание речи в целом, и, что наиболее важно, как реализовать это с помощью Google Speech Recognition API с Python.

Если у вас есть вопросы или отзывы? Оставьте комментарий ниже. Будьте на связи!

Распознавание лиц на Raspberry Pi 4B за 3 шага: 3 шага

Обнаружение лиц на Raspberry Pi 4B за 3 шага: в этом руководстве мы собираемся выполнить обнаружение лиц на Raspberry Pi 4 с помощью Shunya O / S, используя библиотеку Shunyaface. Shunyaface - это библиотека распознавания / обнаружения лиц. Проект направлен на достижение максимальной скорости обнаружения и распознавания с помощью

Распознавание речи с помощью Arduino (Bluetooth + LCD + Android): 6 шагов

Распознавание речи с помощью Arduino (Bluetooth + LCD + Android): в этом проекте мы собираемся выполнять распознавание речи с помощью Arduino, модуля Bluetooth (HC-05) и ЖК-дисплея. давайте создадим ваше собственное устройство распознавания речи

Распознавание и идентификация лиц - Идентификатор лица Arduino с использованием OpenCV Python и Arduino: 6 шагов

Распознавание и идентификация лиц | Идентификатор лица Arduino с использованием OpenCV Python и Arduino. Распознавание лиц AKA Face ID - одна из самых важных функций мобильных телефонов в настоящее время. Итак, у меня возник вопрос: «Могу ли я иметь идентификатор лица для моего проекта Arduino?» и ответ - да … Мой путь начался следующим образом: Шаг 1: Доступ к нам

Распознавание речи: 12 шагов

Распознавание речи: Привет всем ………. Это моя вторая инструкция, которую я публикую. Так что приветствую всех … В этой инструкции я собираюсь научить вас, как создать распознаватель голоса используя плату Arduino. Думаю, у вас есть опыт работы с Arduino Boar

Распознавание лиц + распознавание: 8 шагов (с изображениями)

Обнаружение лиц + распознавание: это простой пример запуска обнаружения и распознавания лиц с помощью OpenCV с камеры. ПРИМЕЧАНИЕ: Я СОЗДАЛ ДАННЫЙ ПРОЕКТ ДЛЯ КОНКУРСА СЕНСОРОВ И ИСПОЛЬЗОВАЛ КАМЕРУ В КАЧЕСТВЕ СЕНСОРА ДЛЯ ОТСЛЕЖИВАНИЯ И РАСПОЗНАВАНИЯ ЛИЦ. Итак, наша цель В этом сеансе: 1. Установить Anaconda

Распознавание речи с использованием Google Speech API и Python: 4 шага

Оглавление:

Распознавание речи

Шаг 1: ReSpeaker USB 4-микрофонный массив

Шаг 2. Установите необходимые библиотеки

Шаг 3. Преобразование текста в речь в Python с библиотекой Pyttsx3

Шаг 4. Собираем все вместе: построение распознавания речи с помощью Python с использованием API распознавания речи Google и библиотеки Pyttsx3

Рекомендуемые:

Распознавание лиц на Raspberry Pi 4B за 3 шага: 3 шага

Распознавание речи с помощью Arduino (Bluetooth + LCD + Android): 6 шагов

Распознавание и идентификация лиц - Идентификатор лица Arduino с использованием OpenCV Python и Arduino: 6 шагов

Распознавание речи: 12 шагов

Распознавание лиц + распознавание: 8 шагов (с изображениями)

FAST FOAM LATHE: 9 шагов (с изображениями)

Как получить бесплатную музыку с Realplayer: 8 шагов

Самодельная студийная стробоскопическая установка с зажимом для зонта и моделирующим светом: 6 шагов (с изображениями)

Рука гуманоида Бартолобота: 4 шага

Взаимодействие RFID-RC522 с Arduino MEGA - простой набросок: 4 шага

Многоцелевая роботизированная база и моторный щит своими руками: 21 шаг (с изображениями)

DIY солнечная зарядка USB с аккумулятором: 6 шагов (с изображениями)

Еще одна метеостанция (Y.A.W.S.): 18 шагов (с изображениями)

Цвет-пи: 9 шагов

СОЛНЕЧНЫЙ ВОДОНАГРЕВАТЕЛЬ Обход дождливого дня: 11 шагов

Камера ZYBO OV7670 с управлением панорамированием / наклоном: 39 шагов (с изображениями)

Сортировщик кеглей Arduino: 11 шагов (с изображениями)

Идущая машина: 8 шагов (с изображениями)

Трансляция погоды TTS: 5 шагов

Индикатор лампочки: 4 шага

Как настроить Wine на Raspberry Pi: 8 шагов