Last updated on

Nov 30, 2014

Main page

Upper page

ICASSP-2006

КОНФЕРЕНЦИЯ ICASSP-2006

Алексей Лукин

Статья напечатана в журнале «Звукорежиссер», №6, 2006.

В мае в Тулузе — «розовом городе» Франции — прошла 31-я ежегодная научная конференция ICASSP-2006 — «Международная конференция по акустике, речи и обработке сигналов». Организованная институтом электротехники и электроники (IEEE), конференция является крупнейшей в мире в области цифровой обработки сигналов и ее приложений. В этом году на нее было подано более трех тысяч заявочных статей, но из них принята приблизительно половина. Эти статьи и составили техническую программу конференции, которая делилась на лекционные (устные) и стендовые доклады, организованные в 50 отдельных сессий. Интересно отметить, что ввиду большого объема труды ICASSP уже несколько лет не публикуются в печатном виде, а доступны лишь на DVD-диске.

Конгресс-центр Пьера Бауди

Конференция проходила в конгресс-центре Пьера Бауди рядом с историческим центром Тулузы. Вечером 15 мая участников и гостей приветствовали небольшим фуршетом и выступлением джазового коллектива. Следующие четыре дня были полностью посвящены технической программе. Вот основные направления статей и докладов:

  • Теория и методы обработки сигналов
  • Аудио и электроакустика
  • Обработка речи
  • Работа с разговорной речью
  • Обработка мультимедийной информации
  • Обработка сигналов для коммуникаций
  • Сенсорные массивы и многоканальная обработка сигналов
  • Конструирование и реализация систем обработки сигналов
  • Машинное обучение и обработка сигналов
  • Обработка биомедицинских изображений

Значительная часть конференции была посвящена задаче автоматического распознавания речи. Было представлено несколько докладов по статистическим моделям в распознавании: моделям Маркова, байесовским оценкам. Смежная задача — шумоподавление для речи с целью повышения разборчивости и точности распознавания. На эту тему было сделано несколько докладов с предложениями по улучшению стандартной техники «спектрального вычитания» шума из зашумленного фрагмента. В частности, Филипп Луазау из университета Техаса представил доклад о субъективном сравнении алгоритмов шумоподавления. Большой интерес вызвала дискуссия о необходимости учитывать не только качество, но и разборчивость речи. Оказывается, что зачастую, повышая качество звука, мы теряем разборчивость, отсекая слишком много звуковой информации, которую наш мозг мог бы проанализировать эффективнее, чем система шумоподавления. Для повышения разборчивости речи также существуют специальные алгоритмы, похожие на методы спектрального вычитания, но действующие с целью увеличения т.н. «спектральной контрастности» речевого сигнала.

Доклад на конференции

Множество докладов было посвящено повышению устойчивости и надежности систем распознавания речи: адаптации к смене говорящего, предсказанию пропущенных (или ненадежно распознанных) фонем, обнаружению речевых участков в звукозаписи.

В настоящее время задача распознавания речи начинает применяться все шире благодаря успехам соответствующих алгоритмов.

Интересная статья была посвящена «голосовому джойстику», позволяющему людям с ограниченными двигательными возможностями непрерывно управлять мышью на экране компьютера с помощью голоса, изменяя громкость и высоту произносимых гласных звуков. Было проведено сравнение голосового джойстика с аналогичной системой, управляемой движением зрачков человека.

Наука практически всегда идет впереди промышленности, и значительная часть конференции была посвящена задачам, которые среди звукорежиссеров традиционно считаются «нерешаемыми»: удаление эха и реверберации из звукозаписи, разделение смеси (микса) звуковых источников на отдельные источники, выделение отдельных говорящих при «эффекте вечеринки». Пока что успехи в этих областях достаточно скромны, но они активно исследуются, и новые результаты появляются каждый год. Это становится возможным как благодаря развитию математического аппарата и вычислительной техники, так и в результате более глубокого постижения нашего слухового восприятия.

А. Лукин

Другой большой раздел конференции — обработка изображений и видео. Были сделаны хорошие доклады по сегментации изображений, в том числе и обучающие. Стандартный набор тем в этом разделе: компрессия изображений и видео, реставрация и улучшение визуального качества, автоматическое индексирование и поиск, внедрение водяных знаков, оценка движения в видео, интерполяция и super-resolution, шумоподавление, сегментация изображений и видео, работа с изображениями в медицине.

Кроме докладов по статьям на конференции также были организованы обучающие лекции по различным темам, встречи рабочих комитетов и обучающие семинары компаний-производителей DSP-процессоров.

Организаторы конференции предложили участникам и развлекательную программу — туристические экскурсии по Тулузе и окрестным городкам, визиты в Национальный центр исследования космоса и на сборочную линию новых европейских аэробусов-гигантов A380.

Следующая конференция ICASSP-2007 состоится в Гонолулу на Гавайях в апреле 2007 года.