Распознавание речи: 12 шагов

Шаг 1. Как настроить среду?
Шаг 2: Почему растет спрос на Arduino?
Шаг 3: Начнем !!!!
Шаг 4: Необходимые компоненты
Шаг 5: Как это работает?
Шаг 6: Подключение компонентов
Шаг 7: Предоставление кода плате Arduino
Шаг 8: программа / эскиз
Шаг 9: Что насчет написанных кодов?
Шаг 10: функция цикла
Шаг 11: Как импортировать объекты решения BitVoicer Server?
Шаг 12: Заключение

2025 Автор: John Day | [email protected]. Последнее изменение: 2025-01-23 15:05

Всем привет………

Это моя вторая инструкция, которую я публикую

Так что приветствую всех…

В этом руководстве я расскажу вам, как создать распознаватель голоса с помощью платы Arduino.

Так что я думаю, что у вас уже был опыт работы с платами Arduino и раньше. Если нет, то это совсем не большая проблема, но я рекомендую вам привыкнуть к нему, так как с ним очень интересно играть и создавать несколько крутых проектов. исходя из вашего творческого потенциала и знаний о нем.

Итак, для людей, у которых нет опыта использования Arduino:

Arduino - это компьютерное оборудование с открытым исходным кодом, которое производится компанией, имеющей большое сообщество дизайнеров и производителей. Его можно рассматривать как небольшой компьютер, который можно использовать для управления другими электронными схемами

Arduino запрограммирован в среде, разработанной ими самими, которую можно легко загрузить с их веб-сайта

Шаг 1. Как настроить среду?

Просто поищите в гугле "скачать ардуино"

Нажмите «Arduino - Программное обеспечение»

Вы увидите «Загрузить IDE Arduino»

Выбирайте в зависимости от вашей операционной системы

Скачайте и установите

Итак, вы успешно установили программное обеспечение, и вы можете написать свой код для Arduino, а с помощью кабеля вы можете подключить плату Arduino к компьютеру и вставить код.

Шаг 2: Почему растет спрос на Arduino?

Недорого

Платы Arduino недорогие по сравнению с другими платформами микроконтроллеров. Это будет стоить всего около 50 долларов.

Кроссплатформенность

Программное обеспечение для Arduino работает в операционных системах Windows, Macintosh OS и Linux. Если мы подумаем о других системах микроконтроллеров, они будут работать только в Windows или, другими словами, ограничены только окнами.

Программное обеспечение с открытым исходным кодом и расширяемое программное обеспечение

Программное обеспечение с открытым исходным кодом, поэтому люди начали его глубоко изучать и включать библиотеки (которые включают в себя набор функций для его работы) других языков программирования.

Простая и удобная среда программирования

Arduino IDE (программное обеспечение, о котором мы уже обсуждали….) Легко использовать для людей, включая новичков, поскольку большое количество ресурсов предоставляется самими Arduino, которые доступны в Интернете бесплатно. Так что не стесняйтесь узнавать больше. об этом.

Открытый исходный код и расширяемое оборудование

Планы плат Arduino публикуются под лицензией Creative Commons, поэтому люди, имеющие опыт проектирования схем, могут создать свою собственную версию модуля, они также имеют право расширять технологию и могут улучшать, добавляя в нее функции.

Шаг 3: Начнем !!!!

Итак, я уже сказал, что этот проект в основном ориентирован на распознавание голоса с использованием Arduino и позволяет ему выполнять некоторые задачи.

Говоря более четко ……

Он улавливает звуковые сигналы, предоставляемые пользователем, которые можно обнаружить по миганию светодиода после преобразования в синтезированную речь.

Шаг 4: Необходимые компоненты

Основные компоненты, необходимые для этого проекта:

Arduino Due x 1

Электретный микрофонный прорыв Spark Fun x 1

Spark Fun Mono Audio Amp Breakout x 1

Динамик: 0,25 Вт, 8 Ом x 1

Макетная плата x 1

Светодиод 5 мм: красный x 3

Резистор 330 Ом x 3

Провода перемычки x 1

Паяльник x 1

BitVoicer Сервер

Это сервер распознавания и синтеза речи для автоматизации речи.

Шаг 5: Как это работает?

1. Обнаруживаются звуковые волны, затем они улавливаются и усиливаются платой Sparkfun Electret Breakout.

2. Усиленный сигнал, полученный в результате описанного выше процесса, будет оцифрован и буферизован / сохранен на плате Arduino с использованием имеющегося в ней аналого-цифрового преобразователя (АЦП).

3. Аудио образцы будут предоставлены на сервер BitVoicer через имеющийся последовательный порт Arduino.

4. BitVoicer Server обработает аудиопоток, а затем распознает содержащуюся в нем речь.

5. Распознанная речь будет сопоставлена с командами, которые уже были определены ею ранее, затем она будет отправлена обратно в Arduino. Если одна из команд состоит в синтезировании речи, BitVoicer Server подготовит аудиопоток и отправит его на Arduino.

6. Arduino определит предоставленные команды и выполнит определенные соответствующие действия. Если аудиопоток получен, он будет помещен в очередь в класс BVS Speaker и воспроизведен с использованием DUE DAC и DMA.

7. Монофонический аудиоусилитель SparkFun усиливает сигнал ЦАП, чтобы он мог управлять динамиком 8 Ом и быть слышным через него.

Шаг 6: Подключение компонентов

Самый первый шаг - подключить различные компоненты к макетной плате, а также к плате Arduino, как показано на рисунке

Помните, что используемая здесь плата Arduino является DUE, существуют другие модели, которые были произведены Arduino, каждая из которых работает на разных уровнях напряжения

Большинство плат Arduino работают от 5 В, но DUE работает от 3,3 В

DUE уже использует аналоговое опорное напряжение 3,3 В, поэтому перемычка на вывод AREF не требуется

Извините, я забыл сказать, что контакт AREF - это «АНАЛОГОВЫЙ РЕФЕРЕНСНЫЙ ПИН», который присутствует на плате Arduino, как показано на следующем рисунке (это Arduino UNO, но он похож на аналогичный сайт в случае DUE)

Вывод AREF на DUE подключен к микроконтроллеру через резистивный мост

Чтобы использовать вывод AREF, резистор R1 необходимо отсоединить от печатной платы [Printed Circuit Board]

Шаг 7: Предоставление кода плате Arduino

Поэтому нам нужно загрузить код на плату Arduino, чтобы он мог работать в зависимости от инструкций, содержащихся в коде.

Сделать это очень просто, я подробно объясню каждому из них, что они делают и как работают.

Как установить библиотеку?

Итак, перед этим мы должны знать, как установить библиотеки BitVoicer Server в Arduino IDE, то есть в программное обеспечение Arduino.

Итак, для этого откройте Arduino IDE

На верхней панели нажмите «Эскиз»

Затем нажмите «Включить библиотеку»

После этого нажмите «Управление библиотекой»

Затем откроется менеджер библиотек, и мы увидим список библиотек, готовых к установке или уже установленных

Найдите библиотеку для установки и выберите номер версии

Здесь мы устанавливаем библиотеки BitVoicer Server, необходимые для этого проекта

Как импортировать библиотеку.zip?

Библиотеки также могут распространяться в виде ZIP-файла или папки

Имя папки - это имя библиотеки

Внутри папки будет файл.cpp, файл.h и часто файл keywords.txt, папка примеров и другие файлы, необходимые для библиотеки

Начиная с версии 1.0.5 Arduino IDE, вы можете устанавливать в нее сторонние библиотеки

Не разархивируйте загруженную библиотеку, оставьте как есть

Для этого перейдите в эскиз> Включить библиотеку> Добавить библиотеку.zip.

Выберите расположение файла.zip и откройте его.

Вернитесь в меню Sketch> Import Library.

Если он правильно импортирован, эта библиотека должна отображаться в нижней части раскрывающегося меню при навигации.

Шаг 8: программа / эскиз

Это программа, которую нужно загрузить в Arduino.

Это можно сделать, просто подключив плату Arduino к компьютеру и загрузив ее на плату.

Шаг 9: Что насчет написанных кодов?

Теперь давайте посмотрим, что на самом деле делает каждая из функций, написанных в коде ………..

Ссылки на библиотеки и объявление переменных

Прежде чем говорить об этом, мы должны знать и понимать некоторые основные термины, в том числе:

БВСП

Это библиотека, которая дает нам почти все ресурсы, необходимые для обмена информацией с сервером BitVoicer

Существует протокол, известный как протокол сервера BitVoicer, который реализуется через класс BVSP. Это необходимо для взаимодействия с сервером
BVSMic

Это библиотека, которая реализует все необходимое для записи звука с помощью аналого-цифрового преобразователя (АЦП) Arduino

Этот звук хранится во внутреннем буфере класса, и его можно извлечь, а затем отправить в механизмы распознавания речи, доступные на сервере BitVoicer
BVSSpeaker

Это библиотека, содержащая все основные ресурсы, необходимые для воспроизведения аудиопотоков, отправляемых с сервера BitVoicer

Для этого на плате Arduino должен быть встроенный цифро-аналоговый преобразователь (ЦАП)

Arduino DUE - единственная плата Arduino со встроенным ЦАП

Библиотеки BVSP, BVSMic, BVSSpeaker и DAC, ссылки на них написаны в первых четырех строках, составляющих начало программы

Когда вы устанавливаете BitVoicer Server, вы можете найти BitSophia, который предоставляет все эти четыре библиотеки

Когда пользователь добавляет ссылку на библиотеку BVSSpeaker, автоматически вызывается библиотека DAC, о которой говорилось ранее

Класс BVSP используется для связи с BitVoicer Server

Класс BVSMic используется для захвата и хранения аудио

Класс BVSSpeaker используется для воспроизведения звука с помощью ЦАП Arduino DUE

2. функция настройки

Функция настройки используется для выполнения определенных действий, например:

Чтобы установить режимы вывода и их начальные состояния

Для инициализации последовательной связи

Для инициализации класса BVSP

Для инициализации класса BVSMic

Для инициализации класса BVSSpeaker

Он также устанавливает «обработчики событий» (указатели на функции) для событий frameReceived, modeChanged и streamReceived класса BVSP

Шаг 10: функция цикла

Выполняет пять основных операций:

1. Функция keepAlive ()

Эта функция предназначена для запроса у сервера информации о статусе.

2. Функция receive ()

Эта функция проверяет, отправил ли сервер какие-либо данные или нет. Если сервер отправил какие-либо данные, он их обработает.

3. Функции isSREAvailable (), startRecording (), stopRecording () и sendStream ()

Эти функции используются для управления различными настройками записи звука, и после того, как он достигнет звука, он отправит этот звук на сервер BitVoicer.

4. функция play ()

Эта функция используется для воспроизведения звука, поставленного в очередь в классе BVSSpeaker.

5. playNextLEDNote ()

Эта функция используется для управления миганием светодиода.

6. Функция BVSP_frameReceived

Эта функция вызывается каждый раз, когда функция receive () начинает определять, что был получен один полный кадр. Здесь мы выполняем команды, полученные от BitVoicer Server. Команды, которые управляют миганием светодиодов, имеют длину 2 байта. В этом первом байте указывается контакт, а второй байт указывает значение контакта. Здесь мы используем функцию analogWrite (), чтобы установить соответствующее значение для контакта. В это время мы также должны проверить, была ли получена команда playLEDNotes, имеющая тип Byte. Если он был получен, я устанавливаю для playLEDNotes значение true, и он будет отслеживать и отмечать текущее время. Это время будет использовано функцией playNextLEDNote для синхронизации светодиодов с песней.

7. Функция BVSP_modeChanged

Эта функция вызывается каждый раз, когда функция receive () определяет изменение режима в исходящем направлении (сервер Arduino). BitVoicer Server может отправлять данные или звук в кадрах на Arduino. Прежде чем связь переходит из одного режима в другой, BitVoicer Server отправляет сигнал. Класс BVSP идентифицирует этот сигнал и вызывает или отмечает событие modeChanged. В функции BVSP_modeChanged, если пользователь обнаруживает, что связь переходит из потокового режима в режим кадрирования, он / она будет знать, что звук закончился, поэтому пользователь может сказать классу BVSSpeaker прекратить воспроизведение звука.

8. Функция BVSP_streamReceived

Эта функция вызывается каждый раз, когда функция receive () определяет, что аудио образцы были получены. Он просто извлекает аудио и помещает их в очередь в класс BVSSpeaker, чтобы функция play () могла их воспроизвести.

9. Функция playNextLEDNote

Эта функция запускается только в том случае, если функция BVSP_frameReceived идентифицирует команду playLEDNotes. Он контролирует и синхронизирует светодиоды со звуком, отправленным с BitVoicer Server. Чтобы синхронизировать светодиоды со звуком и узнать правильное время, можно использовать бесплатное программное обеспечение Sonic Visualizer. Это позволяет нам наблюдать за звуковыми волнами, чтобы человек мог определить, когда была нажата клавиша пианино.

Шаг 11: Как импортировать объекты решения BitVoicer Server?

Теперь мы настроили улучшенный сервер BitVoicer для работы с Arduino.

Для сервера BitVoicer существует четыре основных объекта решения: местоположения, устройства, двоичные данные и голосовые схемы.

Давайте посмотрим на них подробнее:

Локации

Он представляет собой физическое местоположение, в котором устанавливается устройство.

Мы можем создать место под названием «Дом».

Устройства

Они считаются клиентами BitVoicer Server.

Подобно созданию местоположения, мы можем создать смешанное устройство, для простоты назовем его ArduinoDUE.

Иногда может происходить переполнение буфера, поэтому для его устранения мне пришлось ограничить скорость передачи данных в настройках связи до 8000 выборок в секунду.

BinaryData - это тип команды, которую BitVoicer Server может отправлять на клиентские устройства. На самом деле это массивы байтов, которые можно связывать с командами.

Когда BitVoicer Server распознает речь, связанную с этой командой, он отправляет массив байтов на целевое устройство.

По этой причине я создал по одному объекту BinaryData для каждого значения вывода и назвал их ArduinoDUEGreenLedOn, ArduinoDUEGreenLedOff и так далее.

Поэтому мне пришлось создать 18 объектов BinaryData, поэтому я предлагаю вам загрузить и импортировать объекты из файла VoiceSchema.sof, который представлен ниже.

Так что же такое голосовая схема?

В голосовых схемах все сочетается. их основная роль - определять, как следует распознавать предложения и какие команды нужно запускать.

Для каждого предложения вы можете определить столько команд, сколько вам нужно, и порядок их выполнения.

Вы также можете определить задержки между каждой из предоставленных команд.

BitVoicer Server поддерживает только 8-битный моно PCM-звук (8000 отсчетов в секунду), поэтому потребуется преобразовать аудиофайл в этот формат, так как сегодня существует так много сборов за онлайн-конвертацию, и я рекомендую https://audio.online -convert.com/convert-to-wav.

Вы можете импортировать (Импорт объектов решения) все объекты решения, которые я использовал в этом проекте, из файлов ниже.

Один из них содержит устройство DUE, а другой - голосовую схему и ее команды.

Шаг 12: Заключение

Вот так !!!

Вы сделали потрясающий проект и можете с ним поговорить

Так что начни говорить ………………

Вы можете мигать светодиодами, и в то же время вы можете сказать, что он поет песню, если это необходимо, его код уже предоставлен

Итак, я завершил свой второй инструктаж !!!!!!!!

Ага……

Думаю, все это поняли…

Если у кого-то есть какие-либо вопросы, пожалуйста, не стесняйтесь спрашивать меня

В следующий раз я предложу отличное руководство …

До свидания…

До скорого……………

Искусственный интеллект и распознавание изображений с помощью HuskyLens: 6 шагов (с изображениями)

Искусственный интеллект и распознавание изображений с помощью HuskyLens: Привет, ребята, как дела! Акарш от CETech. В этом проекте мы собираемся взглянуть на HuskyLens от DFRobot. Это модуль камеры на базе искусственного интеллекта, способный выполнять несколько операций искусственного интеллекта, таких как распознавание лиц

Распознавание речи с помощью Arduino (Bluetooth + LCD + Android): 6 шагов

Распознавание речи с помощью Arduino (Bluetooth + LCD + Android): в этом проекте мы собираемся выполнять распознавание речи с помощью Arduino, модуля Bluetooth (HC-05) и ЖК-дисплея. давайте создадим ваше собственное устройство распознавания речи

Распознавание речи с использованием Google Speech API и Python: 4 шага

Распознавание речи с использованием Google Speech API и Python: распознавание речи Распознавание речи является частью обработки естественного языка, которая является подполем искусственного интеллекта. Проще говоря, распознавание речи - это способность компьютерного программного обеспечения определять слова и фразы на устном языке

Синтез ретро речи. Часть: 12 Интернет вещей, Домашняя автоматизация: 12 шагов (с изображениями)

Синтез ретро речи. Часть: 12 Интернет вещей, домашняя автоматизация: эта статья является 12-й в серии по домашней автоматизации Instructables, в которой описывается, как создать и интегрировать устройство синтеза речи в стиле ретро Интернета вещей в существующую систему домашней автоматизации, включая все необходимые программные функции, позволяющие

Распознавание лиц + распознавание: 8 шагов (с изображениями)

Обнаружение лиц + распознавание: это простой пример запуска обнаружения и распознавания лиц с помощью OpenCV с камеры. ПРИМЕЧАНИЕ: Я СОЗДАЛ ДАННЫЙ ПРОЕКТ ДЛЯ КОНКУРСА СЕНСОРОВ И ИСПОЛЬЗОВАЛ КАМЕРУ В КАЧЕСТВЕ СЕНСОРА ДЛЯ ОТСЛЕЖИВАНИЯ И РАСПОЗНАВАНИЯ ЛИЦ. Итак, наша цель В этом сеансе: 1. Установить Anaconda

Оглавление: