일하는/Audio

pyaudio 기본 사용 방법

김논리 2021. 3. 16. 10:07
Mac OS 기준으로 작성되었습니다.

pyaudioportaudio library를 python을 이용하여 사용할 수 있도록 하는 일종의 wrapper? 모듈로 생각하면 된다.

pyaudio와 관련된 자세한 내용은 아래 도큐먼트를 참고한다.

people.csail.mit.edu/hubert/pyaudio/docs/

 

PyAudio Documentation — PyAudio 0.2.11 documentation

IOError – if the stream is not an output stream or if the write operation was unsuccessful.

people.csail.mit.edu

 

우선, portaudiopyaudio를 설치해 보자.

$ brew install portaudio
$ pip install pyaudio

 

입출력 장치 확인

device index를 이용하여 각 장치를 가져오고 상세 정보를 확인할 수 있다.

import pyaudio

audio = pyaudio.PyAudio()

for index in range(audio.get_device_count()):
    desc = audio.get_device_info_by_index(index)
    print("DEVICE: {device}, INDEX: {index}, RATE: {rate} ".format(
        device=desc["name"], index=index, rate=int(desc["defaultSampleRate"])))

(기본적으로 portaudio 사용방법과 동일한 것 같음)

 

Recorder

5초 동안 마이크로 부터 음성을 입력받고, 이를 wav 파일로 저장해 보자.

import pyaudio
import wave

CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 44100
RECORD_SECONDS = 5
WAVE_OUTPUT_FILENAME = "output.wav"

p = pyaudio.PyAudio()

stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)

print("Start to record the audio.")

frames = []

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data)

print("Recording is finished.")

stream.stop_stream()
stream.close()
p.terminate()

wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()
Mac의 경우, 자체적인 보안 기능 때문에 default로 마이크 사용아 막혀있다. 터미널에서 실행 후, 마이크 사용 허용을 해 주어야 한다.

 

Player

인자로 받은 음성 파일을 재생시켜 보자.

import pyaudio
import wave
import sys

CHUNK = 1024

if len(sys.argv) < 2:
    print("Plays a wave file.\n\nUsage: %s filename.wav" % sys.argv[0])
    sys.exit(-1)

wf = wave.open(sys.argv[1], 'rb')

p = pyaudio.PyAudio()

stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
                channels=wf.getnchannels(),
                rate=wf.getframerate(),
                output=True)

data = wf.readframes(CHUNK)

while data != '':
    stream.write(data)
    data = wf.readframes(CHUNK)

stream.stop_stream()
stream.close()

p.terminate()

'일하는 > Audio' 카테고리의 다른 글

Web Audio API  (0) 2021.06.03
Web-based audio recording  (0) 2021.05.25
Speech detection using pyaudio  (0) 2021.03.16