Corpus

 

Os materiais coletados pelo Projeto SP2010 são disponibilizados gratuitamente à comunidade de professores e pesquisadores, mediante o cadastro de uma conta no site.

O link Consulta abaixo permite a visualização dos perfis sociolinguísticos disponíveis no corpus, sem a necessidade de cadastro no site.

Os links Busca e Busca Avançada requerem estar logado em sua conta, e permitem tanto a visualização dos perfis disponíveis quanto o acesso aos materiais. O link Busca permite a filtragem dos materiais de acordo com o sexo/gênero, a idade e o nível de escolaridade dos falantes, que são as variáveis sociais que estratificam o corpus. O link Busca Avançada permite a filtragem dos materiais de acordo com o sexo/gênero, a idade, o nível de escolaridade, a região e a zona de residência, a geração da família na cidade de São Paulo, a renda individual e familiar, e o pseudônimo do informante. 

Se você já possui um cadastro, entre em sua conta aqui. Para criar uma nova conta, clique aqui.

 

Consulta     •     Busca     •     Busca avançada

Materiais disponíveis

Para cada entrevista sociolinguística, estão disponíveis oito arquivos: dois de áudio (nos formatos .wav e .mp3); quatro arquivos de transcrição (nos formatos .eaf, .doc, .txt e .TextGrid); a ficha do informante e da gravação (em formato .xls); e um arquivo em formato .zip que contém todos os materiais referentes à entrevista, exceto o arquivo .wav. 

O nome de todos os arquivos segue a seguinte convenção:

SP-ano de gravação-número do perfil-sexo/idade/escolaridade/região de residência/zona de residência-pseudônimo do informante

ex.: SP2013-005-F32CPO-AnaS

Saiba mais sobre os perfis abaixo.

 

Tipos de arquivos

  • .wav: formato de áudio não comprimido; recomendado para análises fonéticas.
  • .mp3: formato de áudio comprimido de maior portabilidade, devido ao tamanho de arquivo reduzido; adequado para a maioria dos tipos de análise (textual, sintática, morfológica etc.).
  • .eaf: formato de arquivos do programa ELAN, que permite a manipulação do arquivo de transcrição sincronizado ao arquivo de áudio.
  • .doc: formato de arquivo para editores de texto como o Word.
  • .txt: formato de arquivo de texto sem formatação, que permite fácil manipulação em editores de texto (p.ex. Word, Bloco de Notas), planilhas (p.ex. Excel, Calc) e em linguagens de programação (p.ex. R).
  • .TextGrid: formato de anotação do programa de análises acústicas Praat.
  • .xls: formato de planilhas do programa Excel.
  • .zip: formato de compressão de dados. Esses arquivos podem ser abertos com os programas WinZip/MacZip.

 

​Os links para download dos instaladores e dos manuais dos programas de acesso livre (ELAN, Praat, R, Audacity, Winzip, MacZip) estão disponíveis aqui.

 

Perfis sociais

A amostra do Projeto SP2010 é estratificada de acordo com três variáveis sociais: sexo/gênero, três faixas etárias (de 20 a 34 anos, de 35 a 59 anos, e 60 anos ou mais), e dois níveis de escolaridade (até o Ensino Médio, Ensino Superior). Para cada um dos 12 perfis sociolinguísticos (p.ex. F2S: sexo feminino, segunda faixa etária, Ensino Superior), a amostra conta com 5 falantes, equilibradamente distribuídos pelas diferentes regiões e zonas da cidade de São Paulo.

Códigos das variáveis sociais
Ano de gravação Sexo/Gênero Faixa etária Escolaridade Região Zona
2012 F: feminino 1: de 19 a 34 C: até Ensino Médio V: Centro Velho C: Central
2013 M: masculino 2: de 35 a 59 S: Ensino Superior E: Centro Expandido N: Norte
    3: 60 ou mais   P: Periferia S: Sul
          L: Leste
          O: Oeste

 

Números dos perfis
  Zona Central Zona Norte Zona Sul Zona Leste Zona Oeste
F1C 001 002 003 004 005
F1S 006 007 008 009 010
F2C 011 012 013 014 015
F2S 016 017 018 019 020
F3C 021 022 023 024 025
F3S 026 027 028 029 030
M1C 031 032 033 034 035
M1S 036 037 038 039 040
M2C 041 042 043 044 045
M2S 046 047 048 049 050
M3C 051 052 053 054 055
M3S 056 057 058 059 060

     

    Outros dados sociodemográficos

    Além das informações descritas acima sobre o perfil social dos falantes, dispõe-se de dados sobre a geração da família na cidade, a renda individual e a renda familiar, de acordo com as seguintes categorias:

    Geração da família

    • 0 - pais não paulistanos
    • 1 - mãe ou pai paulistano
    • 2 - mãe e pai paulistano
    • 3 - um(a) avô(ó) paulistano(a)
    • 4 - dois ou mais avós paulistanos

    Renda individual e renda familiar (SM = salário mínimo)

    • 0 - até 1 SM 
    • 1 - de 1 a 2 SMs
    • 2 - de 2 a 4 SMs
    • 3 - de 4 a 10 SMs
    • 4 - de 10 a 20 SMs
    • 5 - mais de 20 SMs