• EN RU

ЛАРС



Разработка комплексного подхода к анализу русскоязычных аудио-, видео- и текстовых материалов с целью выявления агрессивного поведения пользователей информационного пространства на основе нейросетевых технологий

Номер:
18-29-22061 мк
Руководитель:
Савельев Антон Игоревич
Сроки:
2018 - 2022/1
Источник финансирования:
РФФИ
  • Аннотация:

    В рамках проекта разработан комплексный подход к анализу русскоязычных аудио-, видео- и текстовых материалов с целью выявления агрессивного поведения пользователей информационного пространства на основе нейросетевых технологий.

    Разработаны классификации агрессивного поведения, проявляемого на видео, пользователей информационного пространства в различных ситуациях. Данные классификации были использованы в качестве основы для разработки онтологических моделей агрессивного поведения пользователей информационного пространства, отражающих существенные признаки и отношения предметной области, а также для выработки методики оценки агрессивного поведения. Разработанные онтологии реализуют модель Resourse Description Framework (RDF) и представляют собой семантические сети, которые отражают классы объектов предметной области и отношения между ними. Онтологические модели основаны на разработанных классификациях агрессии и отражают две ситуации: случай отдельных агрессивных действий и случай взаимодействия агрессора и жертвы. 

    В ходе реализации проекта была разработана методика оценки агрессивного поведения, представленного на видео, пользователей информационного пространства в различных ситуациях. Методика основывается на общем методе не включенного наблюдения за поведением, который подразумевает оценку поведения по определенным критериям на определенных временных интервалах. На основании данной методики был собран и размечен набор видеоданных, содержащий агрессивное поведение пользователей в информационном пространстве, а именно - поведение пользователей в ходе прямых трансляций посредством сети Интернет, что обеспечивает натуральность проявляемого поведения. 

    В рамках настоящей работы было выполнено обучение и тестирование нейросетевой модели многомодального распознавания агрессивных действий. В данной нейросетевой модели обрабатываются следующие модальности: двигательная активность тела на видео, мимические проявления на видео, невербальное речевое поведение на аудио, вербальное речевое поведение в транскрибированном тексте. Главное отличие данной нейросетевой модели заключается в новом способе связывания векторов признаков отдельных модальностей для формирования единого признакового пространства, которое инвариантно виду обрабатываемой модальности и зависит только от распознаваемого класса. Обучение и тестирование модели выполнялось на выборке многомодальных данных, собранных и размеченных в рамках данного проекта. Показанные в ходе тестирования оценки результатов распознавания (75.2% точности для вербальной агрессии и 73.1% точности для физической) свидетельствуют о высокой эффективности применения многомодального подхода обработки данных нейросетевой моделью по сравнению с обработкой одной модальности (67.6% точности для вербальной агрессии и 61.5% точности для физической агрессии).

    Результаты исследований представлены на 5 международных конференциях, труды которых индексируются в Scopus. Опубликовано 10 научных статей в изданиях, индексируемых в РИНЦ.


    Итоговый отчет за весь срок выполнения проекта:

    В ходе первого этапа проекта был проведен обзор современного состояния исследований в области психологии: рассмотрены существующие определения агрессии, множественность понятия агрессии, проведено разграничение понятий агрессии, гнева, враждебности и насилия, деструктивного поведения. Детальное рассмотрение существующих классификаций видов агрессии показало, что с точки зрения анализа поведения пользователя в информационном пространстве необходимо рассматривать, в первую очередь, вербальные, пассивные и косвенные проявления агрессии. По результатам обзора выделен набор признаков, характерных для агрессивного поведения пользователя в информационном пространстве с учетом различных модальностей. 
    На втором этапе выполнения проекта было проанализировано текущее состояние исследований в области определения психофизиологического состояния пользователя информационного пространства на основе текстовых, аудио- и видеоматериалов,  а также разработана методика выявления агрессивного поведения пользователей в информационном пространстве, отличающаяся применением нейросетевых технологий для комплексного анализа данных одной или нескольких модальностей (кадров видеопотока, изображений лица, аудио, текста субтитров), выделяемых из видео, размещенных в открытом доступе в сети Интернет. Предложенная методика обладает потенциалом к получению более высоких показателей качества распознавания агрессии за счет применения метода переноса знаний, а также за счет формирования общего семантического признакового пространства. 
    В ходе выполнения проекта была разработана архитектура нейронной сети (НС) для анализа видеоряда с целью выявления признаков, характерных для агрессивного поведения пользователей, по лицам пользователей, представленным на кадрах видео. Предложенная архитектура основывается на комбинировании нейронных сетей, выполняющих анализ пространственных признаков визуальных объектов на кадрах видеопоследовательности, а также нейронных сетей, выполняющих временной анализ динамики этих признаков, и применении подхода переноса обучения. Архитектура НС отличается использованием каскада, состоящего из двух элементов – глубокой сверточной нейронной сети, предварительно обученной задаче распознавания мимических проявлений по изображениям лиц на большом репрезентативном наборе данных и выполняющей выделение наиболее значимых признаковых представлений пространственных составляющих мимических проявлений на отдельных кадрах видео, а также трехмерной сверточной нейронной сети, которая выполняет пространственно-временной анализ выделенных признаков. В результате апробации данной модели на наборе русскоязычных данных RAMAS был получен результат 76.9% вернораспознанных экземпляров, который превзошел результат (74.4%), показанный трехмерной сверточной нейронной сетью архитектуры R3D, не обучавшейся предварительно задаче распознавания выражений лиц.
    Разработана архитектура нейронной сети для анализа видеоряда с целью выявления признаков, характерных для агрессивного поведения пользователей, по двигательной активности тела пользователей, представленной на кадрах видео. Предложенная архитектура основывается на применении подхода переноса обучения, применении глубоких трехмерных сверточных нейронных сетей для анализа пространственно-временных признаков двигательной активности тела человека в видеопотоке, а также добавлении дополнительных промежуточных нейросетевых модулей, выполняющих выделение наиболее значимой информации. Архитектура отличается использованием промежуточных модулей, расположенных между сверточными блоками глубоких трехмерных сверточных нейростей и основанных на механизме нейросетевого внимания, который, в свою очередь, выполняет анализ признаковых представлений, генерируемых промежуточными слоями глубоких нейронных сетей, и выделяет наиболее значимые составляющие этих промежуточных представлений. В результате апробации данной нейросетевой архитектуры на наборе русскоязычных данных RAMAS был достигнут результат, равный 80.4%, вернораспознанных экземпляров. Данный результат превзошел аналогичный показатель у аналогичной трехмерной сверточной нейросетевой модели, но без механизма нейросетевого внимания, который составил 78.8% верно распознанных экземпляров.
    В ходе проекта была разработана архитектура нейронной сети для анализа аудиосигнала речи пользователей информационного пространства, основанная на применении глубоких сверточных нейронных сетей для обработки аудиосигнала, представленного в виде логарифмированной мел-спектрограммы. Предлагаемая архитектура отличается применением подхода многозадачного обучения, заключающегося в анализе и извлечении высокоуровневых признаков аудиосигнала и одновременным выполнением задач распознавания эмоций, личности спикера и пола спикера. Предлагаемый подход отличается от известных применением автоматического взвешивания значений функции потерь отдельных задач на каждом пакете обрабатываемых данных в процессе обучения методом взвешенного среднего, что позволяет урегулировать скорость обучения каждой задачи и улучшить тем самым процесс индуктивного переноса знаний, что в свою очередь приводит к лучшей обобщающей способности модели. В результате апробации данной нейросетевой модели на русскоязычном наборе данных RAMAS был достигнут 91.5% верновыполненных распознаваний у нейронной сети архитектуры VGG. Данный результат существенно превзошел результат аналогичной модели VGG, у которой подход многозадачного обучения не применялся (74.1% верных распознаваний).
    Кроме того была разработана архитектура нейронной сети для анализа текста, генерируемого пользователем, с целью распознавания агрессивного поведения в информационном пространстве, которая отличается от аналогов применением специальной аугментации данных при обучении.  Предложенный метод позволяет повысить точность выявления агрессивного русскоязычного текстового контента до 85%, 87%, 71% для наборов русскоязычных текстовых данных RTLC, RuTwwetCorp и RAMAS соответственно. Данные результаты превзошли аналогичные результаты той же самой архитектуры, в которой не используется аугментация (80%, 83%, 68% для наборов русскоязычных текстовых данных RTLC, RuTwwetCorp и RAMAS соответственно).
    Разработана архитектура нейронной сети для выделения и анализа комбинированных признаков агрессивного поведения, полученных с помощью разработанных ранее архитектур нейронных сетей, которые выполняют обработку отдельных модальностей. Предложенная архитектура отличается новым способом связывания векторов признаков отдельных модальностей для формирования единого признакового пространства, которое инвариантно виду обрабатываемой модальности и зависит только от распознаваемого класса. Другой отличительной особенностью предлагаемой архитектуры является новый алгоритм обучения нейронной сети, который основывается на пакетном градиентном спуске, формировании обучающих пакетов данных из векторов признаков всех обрабатываемых модальностей, одновременной обработкой нейронной сетью всего пакета векторов признаков, усреднении выходных ошибок для всего обработанного пакета данных. Именно это усреднение позволяет нейронной сети эффективно настраивать свои параметры таким образом, что наиболее значимой информацией становится информация об искомых признаках агрессивного поведения, содержащихся в векторах признаков отдельных модальностей, и обеспечивается инвариантность относительно вида обрабатываемой модальности. Применение таких подходов обеспечивает повышение эффективности распознавания агрессивного поведения в социокиберфизических системах. Кроме того, предлагаемая архитектура позволяет работать в условиях недостатка или отсутствия информации отдельных модальностей, что может повысить устойчивость функционирования систем распознавания агрессии, в основе которых лежит эта нейросетевая архитектура. В результате апробации данной нейросетевой модели на русскоязычном многомодальном наборе данных RAMAS был достигнут результат доли верно выполненных распознаваний, равный 94.3%, что превзошло аналогичный показатель у модели, выполняющей классификацию экземпляров отдельных модальностей и использующей простое усреднение результатов этой классификации (92.7%), и у модели, выполняющей раннее связывание отдельных модальностей (92.4%).
    Результаты заключительного этапа проекта более подробно представлены в файле.