Understanding speech and scene with ears and eyes

Understanding speech and scene with ears and eyes

Acronym

USSEE

Project description

Yksi tekoälyn suurimmista haasteista on kehittää menetelmä jolla puhetta ja videokuvaa voisi tunnistaa yhtä tehokkaasti kuin ihmiset. Projektin tavoitteena on kehittää multimodaalisia tekniikoita jotka ymmärtävät puhetta ja kuvaa. Nämä uudet koneoppimismentelmät oppivat ensin tehokkaita eritasoisia esitystapoja sekä kuville että puheelle ja sitten modaliteettien välisiä korrelaatioita niiden välille. Tämä voidaan saavuttaa kehittämällä uusia neuroverkkoallgoritmeja ja käyttämällä opetuksessa sekä erillisiä video- ja puheaineistoja että multimodaalisia aineistoja. Uskomme että lopputuloksena sekä automaattisen puheentunnistuksen että videoiden kuvailun tarkkuus paranee.
Show more

Starting year

2022

End year

2024

Granted funding

Mikko Kurimo
329 586 €

Funder

Academy of Finland

Funding instrument

Targeted Academy projects

Call

ICT 2023: Frontier AI Technologies 2021

Other information

Funding decision number

345790

Fields of science

Computer and information sciences

Research fields

Laskennallinen data-analyysi